1. CÁLCULO DAS PROBABILIDADES
0
E ESTATÍSTICA I
NNNNOOOOTTTTAAAASSSS DDDDEEEE AAAAUUUULLLLAAAA
PERÍODO: 98.1
Para aprender,
primeiramente você precisa
desejar ser ensinado. - Reeves
PROFESSORES:
CLAUDIA REGINA O. P. LIMA
MANOEL R. DE SENA JR.
JOZEMAR P. DOS SANTOS
2. 1
UNIDADE I. ANÁLISE DE DADOS ESTATÍSTICOS
1. CONCEITOS FUNDAMENTAIS DE ESTATÍSTICA
-ESTATÍSTICA
“Podemos considerar a Estatística como um conjunto de métodos e processos
quantitativos que serve para estudar e medir os fenômenos coletivos”.
A estatística teve acelerado desenvolvimento a partir do século XVII, através dos
estudos de BERNOULLI, FERMAT, PASCAL, LAPLACE, GAUSS, GALTON, PEARSON, FISHER,
POISSON, KOLMOGOROV e outros que estabeleceram suas características essenciais.
Ela não alcançou ainda um estado definitivo. Continua a progredir na ação direta do
desejo de investigação dos fenômenos coletivos.
A Estatística é considerada como Ciência no sentido do estudo de uma população.
Mantém com a Matemática uma relação de dependência, solicitando-lhe auxílio, sem
o qual não poderia desenvolver-se. Com as outras Ciências mantém a relação de
complemento, quando utilizada como instrumento de pesquisa.
Em especial a relação de complemento é a forma que a Estatística, através de seus
MÉTODOS ESTATÍSTICOS, mantém com as Áreas Tecnológicas, as Ciências Exatas e
outras, servindo como instrumento auxiliar na tomada de decisões.
A Estatística tem como OBJETIVO o estudo dos fenômenos coletivos.
Objetivando o estudo quantitativo e qualitativo dos dados (ou informações), obtidos
nos vários campos da atividade científica, a Estatística manipula dois conjuntos de dados
fundamentais: a "população" e a "amostra".
POPULAÇÃO ( ou Universo)
É o conjunto dos seres, objetos ou informações que interessam ao estudo de um
fenômeno coletivo segundo alguma(s) característica(s). É, portanto, um conjunto definido
de informações relativas a qualquer área de interesse, podendo, quanto ao número de
elementos, ser: finita (tamanho N) ou infinita.
Na maioria das vezes, não é conveniente, ou mesmo possível realizar o levantamento
dos dados referentes a todos os elementos de uma população. Portanto, analisamos parte da
população, isto é amostramos.
AMOSTRA
É um subconjunto não vazio ou parte da população. Duas considerações devem ser
feitas sobre o estudo amostral dos fenômenos. Uma diz respeito aos cuidados que se deve
tomar para assegurar que a amostra seja representativa da população. Para atender a essa
exigência, deve-se selecionar os elementos de forma aleatória, de modo que todo e qualquer
elemento da população tenha a mesma chance de participar da amostra. A outra exigência
diz respeito à precisão dos dados coletados, buscando minimizar os erros que poderiam
induzir a conclusões equivocadas. O número de elementos de uma amostra é chamado o
tamanho da amostra, e denotado por n.
3. OBS: Parâmetro, Estimador e Estimativa
a) Uma característica numérica estabelecida para toda uma população é denominada
2
parâmetro.
b) Uma característica numérica estabelecida para uma amostra é denominada estimador.
c) O valor numérico assumido pelo estimador numa determinada amostra é denominada
estimativa.
Por exemplo: no fenômeno coletivo eleição para prefeito do município de João
Pessoa, a população é o conjunto de todos os eleitores habilitados na respectiva cidade. Um
parâmetro é a proporção de votos do candidato A. Uma amostra pode ser um grupo de
1.000 eleitores selecionados em todo o município. Um estimador é a proporção de votos
do candidato A obtida na amostra. O valor resultante do estimador, a proporção amostral, é
a estimativa.
Em aplicações efetivas, onde aplica-se o processo de amostragem, o número de
elementos componentes de uma amostra é, geralmente, bastante reduzido em relação ao
número de elementos componentes da população.
- PROCESSOS ESTATÍSTICOS DE ABORDAGEM
Quando solicitados a estudar um fenômeno coletivo podemos optar entre os seguintes
processos estatísticos:
a) CENSO - avaliação direta de um parâmetro, utilizando-se todos os componentes da
população.
Propriedades Principais do Censo: Admite erro processual zero e tem confiabilidade
100% - É caro.
É lento - É quase sempre desatualizado - Nem sempre é viável.
b) AMOSTRAGEM (Inferência) - avaliação indireta de um parâmetro, com base em
um estimador através do cálculo das
probabilidades.
Propriedades Principais da Estimação: Admite erro processual positivo e tem
confiabilidade menor que 100% - É barata -
É rápida - É atualizada - É sempre viável.
No sentido de disciplina, a Estatística ensina métodos racionais para a obtenção de
informações a respeito de um fenômeno coletivo, além de obter conclusões válidas para o
fenômeno e também permitir tomada de decisões, através de alguma(s) característica(s) de
valores numéricos observados.
Desta forma, a Estatística pode ser dividida em duas grandes áreas: Descritiva e
Inferencial.
I) ESTATÍSTICA DESCRITIVA - é a parte da Estatística que tem por objetivo
descrever os dados observados. São atribuições da Estatística Descritiva:
a) A organização dos dados.
b) A redução dos dados.
4. 3
c) A representação dos dados.
d) A obtenção de algumas informações que auxiliam a descrição do fenômeno observado.
• A organização dos dados consiste na ordenação e crítica quanto à correção dos
valores observados, falhas humanas, omissões, abandono de dados duvidosos, etc.
• Redução dos dados - O entendimento e compreensão de grande quantidade de
dados através de simples leitura de seus valores individuais é uma tarefa extremamente
árdua e difícil mesmo para o mais experimentado pesquisador, portanto deveremos tabular
os dados.
• A representação dos dados - Os dados estatísticos podem ser mais facilmente
compreendidos quando apresentados através de uma representação gráfica, a qual permite
uma visualização instantânea de todos os dados. Os gráficos quando bem representativos,
tornam-se importantes instrumentos de trabalho.
• A obtenção de algumas informações que sumarizam os dados, facilitando a
descrição dos fenômenos observados.
Isto encerra as atribuições da Estatística Descritiva.
II) ESTATÍSTICA INFERENCIAL (ou Indutiva) - é a parte da Estatística que tem por
objetivo obter e generalizar conclusões para a população a partir de uma amostra.
Complementando o processamento estatístico, no caso de uma estimação, a
Estatística Indutiva estuda os parâmetros a partir do uso de estimadores usando o cálculo
das probabilidades, elemento este que viabiliza a inferência estatística.
Em resumo, um estudo estatístico completo que recorra às técnicas de Estatística
Inferencial irá envolver também, direta ou indiretamente, tópicos de Estatística Descritiva,
Cálculo das Probabilidades e Amostragem. Logo, para se desenvolver um curso completo e
razoável de Estatística, todos esses assuntos devem ser abordados. No diagrama abaixo está
indicado como essas áreas estão relacionadas.
Amostragem
Estatística
Descritiva
Estatística
Inferencial
Figura 1: Esquema Geral de um Curso de Estatística
DADOS e VARIÁVEIS ESTATÍSTICAS
Cálculo das
Probabilidades
Normalmente, no trabalho estatístico o pesquisador se vê obrigado a lidar com grande
quantidade de valores numéricos resultantes de um censo ou de uma amostragem. Estes
valores numéricos são chamados dados estatísticos.
5. 4
As informações ou dados característicos dos fenômenos ou populações são
denominados variáveis estatísticas ou simplesmente variáveis. Conforme suas
características particulares, podem ser classificadas como: Quantitativas e Qualitativas.
QUANTITATIVAS - São aquelas que podem ser expressas em termos numéricos.
Em geral são as resultantes de medições, enumerações ou contagens. São subdivididas em
contínuas e discretas. conforme abaixo.
Contínuas - são aquelas que podem assumir qualquer valor num certo intervalo de
medida, podendo ser associados ao conjunto dos números reais, ou seja, seus valores
possíveis formam um conjunto não enumerável. Entre outras, enquadram-se nesta categoria
as medidas de tempo, comprimento, espessura, área, volume, peso e velocidade.
Discretas (ou descontínuas) - quando só podem assumir determinados valores num
certo intervalo, podendo ser associadas ao conjunto dos números inteiros, ou seja, seus
possíveis valores formam um conjunto finito ou enumerável. Em geral, representam
números inteiros resultantes do processo de contagem, como o número de alunos por sala,
de créditos por disciplinas, de pacientes atendidos diariamente num hospital, etc.
De modo geral, as medições dão origem as variáveis contínuas e as contagens ou
enumerações, as variáveis discretas. Designamos estas variáveis por letras latinas, em geral
, as últimas: X, Y, Z.
QUALITATIVAS - Nem sempre os elementos de uma população são exclusivamente
contáveis. Muitas vezes, eles podem ser qualificados também segundo algumas de suas
características típicas. Nesses casos, as variáveis podem ser agrupadas em nominais ou
ordinais( por postos ).
Nominais - quando puderem ser reunidas em categorias ou espécies com idênticos
atributos. Aqui se incluem os agrupamentos por sexo, área de estudo, desempenho, cor,
raça, nacionalidade e religião.
Ordinais - quando os elementos forem reunidos segundo a ordem em que aparecem
dispostos numa lista ou rol. São típicos desta forma de agrupamento, as listas
classificatórias de concursos e as tabelas de campeonatos.
Em geral, uma mesma população pode ser caracterizada por mais de um tipo de
variável. Assim os inscritos num vestibular, por exemplo, podem ser contados, medidos ou
pesados, podem ser agrupados segundo o sexo ou área de estudo e podem ainda ser
classificados segundo as notas obtidas nas provas prestadas.
- NÍVEIS DE MENSURAÇÃO -
O objetivo de estudarmos os níveis de mensuração das variáveis estatísticas consiste
em determinar a complexidade da análise das variáveis (características de interesse)
envolvidas no estudo de uma população ou de uma amostra.
As pessoas de uma comunidade podem ser estudadas sob diversos ângulos. Por
exemplo, podem ser classificadas quanto ao SEXO (masculino/feminino), quanto à
ESTATURA (baixa/média/alta), quanto à RENDA (pobres/ricas) etc. SEXO,
6. ESTATURA, RENDA são variáveis, isto é, são características às quais podemos associar
conceitos ou números e assim expressar, de certa maneira, informações sob a forma de
medidas.
1o. nível: - É o nível de mensuração mais baixo, mais rudimentar possível. A escala de
medida desse nível chama-se NOMINAL. O fundamento para a atribuição dos números é
de natureza qualitativa.
5
Exemplos:
VARIÁVEL QUALITATIVA NOMINAL - 1° Nível - Escala Nominal (classificação por tipos
ou atributos).
a) População: moradores de um cidade
Variável: cor dos olhos (pretos, castanhos, azuis, etc.)
b) População: funcionários da empresa X
Variável: sexo (masculino, feminino)
2o. nível: - Este nível já é um pouco mais elaborado que o anterior e corresponde ao que
popularmente se designa por ordenação; a escala de medida chama-se ORDINAL. As
grandezas de 2o. nível podem ser avaliadas em termos de mais que ou menos que, embora a
quantificação precisa seja impossível.
Exemplos:
VARIÁVEL QUALITATIVA ORDINAL - 2° Nível - Escala Ordinal ( ordenação ou postos).
c) População: estudantes de uma escola de 2o. grau
Variável: grau de escolaridade (1a. série, 2a. série, 3a. série)
d) População: pessoas adultas economicamente ativas
Variável: renda (baixa, média, alta)
3o. nível: - É no 3o. nível que surge, pela primeira vez, uma escala de medida propriamente
dita. É a escala INTERVALAR, onde a contagem resulta números inteiros e com eles são
possíveis algumas das operações aritméticas ( adição, subtração e multiplicação). Neste
nível o ZERO da escala é relativo.
Exemplos : As Escalas Termométricas, fuso horário.
4o. nível: O 4o. nível define a chamada escala das razões ou RACIONAL. Essa escala é
muito parecida com a de 3o. nível, exceto quanto à origem. O zero é absoluto, isto é, é zero
mesmo. No 4o. nível todas as operações aritméticas são possíveis, isto é, adição, subtração,
multiplicação e divisão.
Exemplos:
7. VARIÁVEL QUANTITATIVA DISCRETA - 4° Nível - Escala das Razões (processo de
contagem e ordenação).
6
e) População: casais residentes em uma cidade
Variável: número de filhos (0, 1, 2, 3, 4 ou mais filhos)
f) População: peças produzidas por uma máquina
Variável: número de defeituosas da produção diária (0, 1, 2, 3, 4, 5, ... )
VARIÁVEL QUANTITATIVA CONTÍNUA - 4° Nível - Escala das Razões (processo de
medição).
g) População: peças produzidas por uma máquina
Variável: diâmetro externo (p. ex., 0,96 cm)
h) População: estudantes de uma escola
Variável: tempo de estudo diário em certa disciplina (p. ex., 2,30 h)
A Complexidade da análise das variáveis aumenta quanto maior for o nível desta
variável, como é indicado no diagrama abaixo.
1o. NÍVEL
2o. NÍVEL
Figura 2: Grau de complexidade da análise dos dados
3o. NÍVEL
4o. NÍVEL
Escala
Nominal
Escala Ordinal
Escala
Intervalar
Escala das
Razões
8. 2. FASES DO MÉTODO OU TRABALHO ESTATÍSTICO
Em linhas gerais, podemos distinguir na análise estatística as seguintes etapas:
Planejamento, Coleta, Crítica, Apuração e Exposição dos dados, além da análise dos dados.
7
PLANEJAMENTO
É o trabalho inicial de coordenação no qual define-se a população a ser estudada
estatisticamente, formulando-se o trabalho de pesquisa através da elaboração de
questionário, entrevistas, etc.
A organização do plano geral, implica em obter respostas para uma série tradicional
de perguntas, antes mesmo do exame das informações disponíveis sobre o assunto,
perguntas que procuram justificar a necessidade efetiva da pesquisa, a saber:
- "quem", "o que", "sempre", "por que", "para que", "para quando".
Imaginemos, por exemplo, que a Biblioteca Central da UFPb tenha necessidade de
obter informações acerca dos usuários em potencial que utilizam-na.
O primeiro trabalho da equipe encarregada da pesquisa, será evidentemente, o de
obter resposta para aquelas perguntas. Seriam então:
- Quem deseja as informações?
- O que devemos perguntar no questionário?
- Será executada sempre? A pesquisa será periódica ou ocasional?
- Por que desejam as informações?
- Para que desejam as informações?
- Quando deverá estar concluída a pesquisa?
- Qual a época oportuna para a aplicação dos questionários?
Ainda na fase do planejamento, temos:
O EXAME DAS INFORMAÇÕES DISPONÍVEIS, ou seja, análise da reunião de
tudo que foi publicado sobre o assunto, obtendo-se relatórios sobre atividades semelhantes
ou correlatas.
A DEFINIÇÃO DO UNIVERSO, isto é, saber qual o conjunto a ser pesquisado,
distribuindo, classificando ou agrupando os elementos desse conjunto em populações, para
permitir um trabalho mais fácil, mais lógico, mais racional.
O tipo de levantamento, CENSO ou AMOSTRAGEM, deverá ser decidido com a
devida antecedência e a necessária análise das vantagens e desvantagens de um e de outro,
em virtude do custo financeiro e do prazo determinado para a conclusão do trabalho.
COLETA DE DADOS
Após cuidadoso planejamento e a devida determinação das características
mensuráveis do fenômeno coletivamente típico que se quer pesquisar, damos início à
coleta dos dados numéricos necessários à sua descrição.
A coleta dos dados poderá ser feita de diversas formas. A ideal é aquela que
maximiza os recursos disponíveis, dados os objetivos e a precisão previamente estipulados.
9. No seu planejamento, deve-se considerar o tipo de dado a ser coletado, o local onde este se
manifestará, a frequência de sua ocorrência, e outras particularidades julgadas importantes.
8
Quando os dados se referirem ou estiverem em poder de pessoas, sua coleta poderá
ser realizada mediante respostas a questionários previamente elaborados. Esses
questionários podem ser enviados aos entrevistados para devolução posterior ou podem ser
aplicados pelos próprios pesquisadores ou por entrevistadores externos ou contratados,
devidamente treinados.
Os dados ou informações representativas dos fenômenos ou problema em estudo
podem ser obtidos de duas formas: por via direta ou por via indireta.
Por via direta - quando feita sobre elementos informativos de registro obrigatório
(p. ex.: nascimentos, casamentos, óbitos, matrículas de alunos etc.) ou, ainda, quando os
dados são coletados pelo próprio pesquisador através de entrevistas ou questionários.
A coleta direta de dados, com relação ao fator tempo, pode ser classificada em:
a) contínua, também denominada registro, é feita continuamente, tal como a de
nascimentos, óbitos, etc.;
b) periódica, quando feita em intervalos constantes de tempo, como os censos(de
10 em 10 anos), os balanços de uma empresa comercial, etc.;
c) ocasional, quando feita extemporaneamente, a fim de atender a uma conjuntura
ou a uma emergência, como no caso de epidemias que assolam ou dizimam seres humanos
Por via indireta - quando é inferida de elementos conhecidos (coleta direta) e/ou
conhecimento de outros fenômenos relacionados com o fenômeno estudado. Como
exemplo, podemos citar a pesquisa sobre a mortalidade infantil, que é feita através de
dados colhidos via coleta direta.
CRÍTICA DOS DADOS
Os dados colhidos por qualquer via ou forma e não previamente organizados são
chamados de dados brutos. Esses dados brutos, antes de serem submetidos ao
processamento estatístico propriamente dito, devem ser "criticados", visando eliminar
valores impróprios e erros grosseiros que possam interferir nos resultados finais do estudo.
A crítica é externa quando visa às causas dos erros por parte do informante, por
distração ou má interpretação das perguntas que lhe foram feitas; é interna quando se
observa o material constituído pelos dados coletados. É o caso, por exemplo, da verificação
de somas de valores anotados.
APURAÇÃO OU PROCESSAMENTO DOS DADOS
Uma vez assegurado que os dados brutos são consistentes, devemos submetê-los ao
processamento adequado aos fins pretendidos. A apuração ou processamento dos dados
pode ser manual ou eletrônica. Os processos e métodos estatísticos a que um conjunto de
dados pode ser submetido serão nosso objeto de estudo nas seções seguintes.
EXPOSIÇÃO OU APRESENTAÇÃO DOS DADOS
10. Por mais diversa que seja a finalidade que se tenha em vista, os dados devem ser
apresentados sob forma adequada (tabelas ou gráficos), tornando mais fácil o exame
daquilo que está sendo objeto de tratamento estatístico e ulterior obtenção de medidas
típicas.
No caso particular da estatística descritiva, o objetivo do estudo se limita, na
maioria dos casos, à simples apresentação dos dados, assim entendida a exposição
organizada e resumida das informações coletadas através de tabelas ou quadros, bem como
dos gráficos resultantes.
9
ANÁLISE DOS RESULTADOS
Como já dissemos, o objetivo último da Estatística é tirar conclusões sobre o todo
(população) a partir de informações fornecidas por parte representativa do todo (amostra).
Assim, realizadas as fases anteriores (Estatística descritiva), fazemos uma análise dos
resultados obtidos, através dos métodos da Estatística Inferencial, que tem por base a
indução ou inferência, e tiramos desses resultados conclusões e previsões.
11. 3. DISTRIBUIÇÕES DE FREQUÊNCIAS
10
Os dados numéricos, após coletados são colocados em série e apresentados em
tabelas ou quadros.
Quando se estuda uma variável (qualitativa ou quantitativa), o maior interesse do
pesquisador é conhecer a distribuição dessa variável através das possíveis realizações
(valores) da mesma. Iremos, pois, ver uma maneira de se dispor um conjunto de valores, de
modo a se ter uma boa idéia global sobre esses valores, ou seja, de sua distribuição.
Consideremos, para efeito de estudo, o quadro (banco de dados) apresentado
abaixo:
TABELA 1.1 - Informações sobre sexo, curso, idade (anos), procedência, renda familiar, número
de disciplinas matriculado(a), peso (kg) e altura (cm) de 31 alunos matriculados na
disciplina CÁLC. das PROB. e ESTATÍSTICA I, período 97.1 - turma: 04 - turno da
manhã.
ID SEXO CURSO IDADE
(anos)
PROCEDÊNCIA RENDA
FAMILIAR
NO. DISCIP
MATRIC
PESO
(kg)
ALTURA
(cm)
01 Masc Ciências 27 Capital Baixa 3 68 170
02 Masc Eng Civil 18 Interior Média 7 60 175
03 Fem Ciências 21 Capital Média 6 57 168
04 Masc Eng Mec 23 Interior Baixa 5 54 N.Inf
05 Masc Eng Mec 23 Interior Baixa 5 54 N.Inf
06 Fem Ciências 21 O.Região Média 7 47 153
07 Fem Ciências 21 Capital Média 8 46 162
08 Masc Eng Mec 27 Interior Média 4 90 174
09 Masc Eng Civil 21 Capital Alta 5 51 172
10 Fem Eng Civil 19 Capital Média 6 43 158
11 Masc Eng Civil 18 O.Região Média 5 73 177
12 Masc Eng Civil 18 O.Região Alta 6 69 175
13 Fem Eng Mec 22 Capital Média 6 70 172
14 Fem Eng Civil 19 Capital Média 5 57 165
15 Masc Eng Civil 19 Capital Média 5 73 183
16 Masc Eng Civil 18 Capital Alta 6 55 167
17 Masc Eng Civil 19 Capital Média 5 82 181
18 Masc Eng Civil 23 Capital Média 4 65 175
19 Masc Eng Civil 19 O.Região Média 5 71 170
20 Fem Eng Civil 18 Capital Média 5 68 170
21 Masc Eng Civil 18 Capital Média 5 70 170
22 Masc Eng Civil 20 Capital Média 5 67 177
23 N.Inf. Eng Civil 19 Capital Média 7 68 170
24 Masc Eng Civil 24 Capital Média 7 70 170
25 Fem Eng Civil 20 Capital Média 6 58 161
26 Fem Eng Civil 21 Capital Média 5 51 158
27 Masc Eng Civil 20 Capital Média 5 84 180
28 Masc Eng Civil 21 Interior Média 6 65 167
29 Masc Eng Civil 20 Interior Baixa 6 62 164
30 Masc Eng Civil N.Inf Capital Média 3 84 170
31 Fem Eng Civil 21 Capital Média 6 62 173
FONTE: Questionário aplicado - aula 18/03/97
12. 11
Uma distribuição de frequências pode ser apresentada nas seguintes maneiras:
- DISTRIBUIÇÃO DE FREQUÊNCIAS POR VALORES (variável qualitativa ou
quantitativa discreta)
É construída considerando-se todos os diferentes valores ou categorias, levando em
consideração suas respectivas repetições
EXEMPLO 1 - A tabela 1.2 apresenta a distribuição de frequência da variável
PROCEDÊNCIA, usando-se os dados da tabela 1.1 .
Tabela 1.2 - Frequências e Percentuais dos 31 estudantes de Calc. Prob. Est I -
Turno: Manhã, Turma: 04, Período: 97.1 - segundo a Região de Procedência
PROCEDÊNCIA NO de Estudantes
fi
Percentual
fi %
Capital 21 67,7
Interior 6 19,4
O. Região 4 12,9
Total 31 100
FONTE: Tabela 1.1
EXEMPLO 2 - A tabela 1.3 apresenta a distribuição de frequência da variável NO DE
DISCIPLINAS MATRICULADO(A), usando-se os dados da tabela 1.1 - ( DADOS
NÃO - AGRUPADOS )
Tabela 1.3 - Distribuição de frequências e percentuais do NO de Disciplinas Matriculado(a)
dos 31 estudantes de Calc. Prob. Est I - Turno: Manhã, Turma: 04, Período: 97.1.
NO DISC MATRIC
( Xi )
Nº de Estudantes
fi
Percentual
fi %
3 2 6,5
4 2 6,5
5 13 41,9
6 9 29,0
7 4 12,9
8 1 3,2
Total ou 31 100
FONTE: Tabela 1.1
OBS.: == letra grega SIGMA, indica total ou somatório.
DISTRIBUIÇÃO DE FREQUÊNCIAS POR INTERVALOS OU CLASSES (variável
quantitativa).
Constrói-se classes de valores, quando a variabilidade dos dados é grande, levando
em consideração o número de valores que pertencem a cada classe. A construção de tabelas
de frequências para variáveis contínuas necessita de certos cuidados.
13. EXEMPLO 3 - A tabela 1.4 apresenta a distribuição de frequências da variável ALTURA
12
(medida em cm), usando-se os dados da tabela 1.1 - ( DADOS AGRUPADOS )
Tabela 1.4 - Frequências e percentuais das ALTURAS dos 31 estudantes de CALC. PROB. EST I
Turno: Manhã, Turma: 04, Período: 97.1.
ALTURAS
(cm)
Nº de Estudantes
fi
Percentual
fi %
150 |------ 157 1 3,4
157 |------ 164 4 13,8
164 |------ 171 12 41,5
171 |------ 178 9 31,0
178 |------ 185 3 10,3
Total ou 29 100,0
FONTE: Tabela 1.1
NOTA: Dos 31 respondentes, 2 não informaram a altura.
OBSERVAÇÃO:
1) De um modo geral tem-se a destacar em uma tabela (disposição escrita que se obtém
referindo-se a uma coleção de dados numéricos a uma determinada ordem de
classificação):
i) Elementos essenciais:
Título: Indicação que precede a tabela e que contém a designação do fato observado,
o local e a época em foi registrado.
Cabeçalho: Parte superior da tabela que especifica o conteúdo das colunas.
Coluna Indicadora: Parte da tabela que especifica o conteúdo das linhas.
Corpo da tabela: Conjunto de colunas e linhas que contém as informações sobre a
variável em estudo.
ii) Elementos complementares:
Fonte: Indicação da entidade responsável pelo fornecimento dos dados ou pela sua
elaboração.
Notas: Informações de natureza geral destinadas a conceituar ou esclarecer o
conteúdo das tabelas ou a indicar a metodologia adotada no levantamento ou
na elaboração dos dados.
Chamadas: Informações de natureza específica sobre determinada parte da tabela,
destinada a conceituar ou a esclarecer dados
2) As tabelas apresentadas oficialmente devem atender às normas do IBGE.
- REGRAS BÁSICAS PARA ELABORAÇÃO DE UMA DISTRIBUIÇÃO DE
FREQUÊNCIAS POR INTERVALOS - (DADOS AGRUPADOS)
1. Efetua-se um ROL ESTATÍSTICO (ordenação crescente ou decrescente de grandeza)
nos Dados Brutos (aqueles ainda não organizados numericamente).
2. Determina-se a AMPLITUDE TOTAL dos dados
14. AT = Xmáx - Xmín ,onde Xmáx : maior valor observado e Xmín : menor valor
13
observado
3. Escolhe-se convenientemente o número de classes K (no. inteiro) , 5 £ K £ 15 onde
podemos tomar K @ n ou a fórmula de Sturges K @ 1+ 3,3× logn, n ³ 25 (total de
observações). Se possível determina-se, ou seja, constrói-se classes de mesma amplitude,
tomando h
AT
K
@ .
4. Efetua-se o AGRUPAMENTO EM CLASSES e, a seguir, toma-se as FREQUÊNCIAS
SIMPLES DE CLASSES, elaborando-se, portanto, a tabela de distribuição de frequências.
EXEMPLO 4 - Elabore uma tabela de distribuição de frequências (dados agrupados) da
variável IDADE (em anos) dos 30 estudantes de Calc. Prob. Est I, Turno: Manhã, Turma
04, Período: 97.1, conforme Dados Brutos abaixo:
DADOS BRUTOS ROL ESTATÍSTICO (crescente)
27 18 21 23 23 21 21 27 18 18 18 18 18 18 19 19
21 19 18 18 22 19 19 18 19 19 19 19 20 20 20 20
19 23 19 18 18 20 19 24 21 21 21 21 21 21 21 22
20 21 20 21 20 21 23 23 23 24 27 27
Passo 1: Efetuar o Rol Estatístico
Passo 2: Amplitude Total ----- AT = 27 - 18 = 9
Passo 3: Número de classes --- k = 30 » 5 ( aproximação por falta )
e Amplitude de classe h
AT
k
9
5
1,8 2 anos
» = = @
Passo 4: AGRUPAMENTO EM CLASSES + FREQUÊNCIAS SIMPLES DE CLASSES
Tabela 1.5 - DISTRIBUIÇÃO DE FREQUÊNCIAS DAS IDADES (em anos) DE 30
ESTUDANTES DE CALC. PROB. ESTATÍSTICA I - TURNO: MANHÃ, TURMA: 04,
PERÍODO: 97.1
IDADES
(anos)
NO Estudantes
fi
18 |------ 20 12
20 |------ 22 11
22 |------ 24 4
24 |------ 26 1
26 |------ 28 2
Total ou 30
FONTE: Tabela 1.1
NOTA: Dos 31 respondentes, 1 não informou a idade.
15. 14
A seguir, analisaremos alguns CONCEITOS ESSENCIAIS numa Distribuição de
Frequência por Intervalos ou Classes.
i. LIMITES DE CLASSES: Li : Limite inferior de classe ; Ls : Limite superior de classe
Classe ou Intervalo de classe ------- Li (incluir) |------ Ls (excluir)
Por exemplo, distribuição das Idades, tabela 1.5:
1a classe ----- Li = 18|----- Ls = 20 ; 2a classe ----- Li = 20 |----- Ls = 22 , etc.
ii. AMPLITUDE DE CLASSE: hi = Ls - Li, amplitude da i-ésima classe.
Por exemplo, distribuição das Idades, tabela 1.5:
1a classe -- h1 = 20 - 18 = 2 ; 2a classe -- h2 = 22 - 20 = 2 ; . . . ;
5a classe -- h5 = 28 - 26 = 2
Como as classes têm mesma amplitude denominamos, simplesmente, por h = Li - Ls =
2
iii. PONTO MÉDIO DE CLASSE: X
L L
i
+
2
i s =
, ponto médio da i-ésima classe.
Por exemplo, distribuição das Idades, tabela 1.5:
1a classe --- X1
18 20
+
= 19
2
= ; 2a classe --- X2
20 22
+
= 21
2
=
No caso de classes com mesma amplitude h, tomamos: X X h i+ i 1 = + , ou seja por ex.:
2a classe ----- X1 + h = 19 + 2 = 21
3a classe ----- X2 + h = 21 + 2 = 23 etc.
- TIPOS DE FREQUÊNCIAS -
iv. FREQUÊNCIA SIMPLES OU ABSOLUTA DE CLASSE
fi : frequência simples da i-ésima classe (número de observações)
= =
f f n i
i
k
i
1
=
(número total de observações)
Por ex.; f1 = 12 ; f2 = 11 ; f3 = 4 ; f4 = 1 ; f5 = 2 e f n i = = 30
16. 15
5. FREQUÊNCIA RELATIVA E PERCENTUAL DE CLASSE
FREQUÊNCIA RELATIVA (i-ésima classe ou valor) :
fr
f
n i
i = (Razão entre a frequência simples e o total de observações)
fri = 1 (soma das frequências relativas)
FREQUÊNCIA PERCENTUAL (i-ésima classe ou valor) :
f fr i i % = ×100 ou f
f
n i
% = i ×100
fi % = 100 (soma das frequências percentuais)
6. FREQUÊNCIA SIMPLES ACUMULADA (do tipo abaixo de)
F f f f f i = 1 + 2 + 3 + ×××+ i , frequência simples acumulada da i-ésima classe ou valor
7. FREQUÊNCIA RELATIVA E PERCENTUAL ACUMULADA
Fr fr fr fr fr i = 1 + 2 + 3 + ×××+ i , frequência relativa acumulada da i-ésima classe ou
valor
F f f f f i i % = 1% + 2% + 3% + ×××+ % , frequência percentual acumulada da i-ésima
classe ou valor
Tabela 1.4 (estendida) - DISTRIBUIÇÃO DE FREQUÊNCIAS DAS ALTURAS
ALTURAS
(cm)
P. Médio
Xi
Freq. Simples
fi
Freq. Relativa
fri
Freq. Percentual
fi %
Freq.Simples
Acum.
Fi
Freq.Perc.
Acum.
Fi %
150 |----- 157 153,5 1 0,034 3,4 1 3,4
157 |----- 164 160,5 4 0,138 13,8 5 17,2
164 |----- 171 167,5 12 0,415 41,5 17 58,7
171 |----- 178 174,5 9 0,310 31,0 26 89,7
178 |----- 185 181,5 3 0,103 10,3 29 100,0
Total ou 29 1,000 100,0
4 - REPRESENTAÇÕES GRÁFICAS DAS DISTRIBUIÇÕES DE FREQUÊNCIAS
O gráfico estatístico é uma forma de apresentação dos dados estatísticos, cujo
objetivo é o de produzir, no investigador ou no público em geral, uma impressão rápida e
viva do fenômeno em estudo, já que os gráficos falam mais rápidos que as séries ( tabelas ).
Para tornarmos possível uma representação gráfica, estabelecemos uma
correspondência entre os termos da série e determinada figura geométrica, de tal modo que
cada elemento da série seja representado por uma figura proporcional.
17. - REQUISITOS
16
A representação gráfica de um fenômeno deve obedecer aos seguintes requisitos
primordiais:
a) Simplicidade - indispensável devido à necessidade de levar a uma rápida
apreensão do sentido geral do fenômeno apresentado a fim de não nos perdermos
na observação de minúcias de importância secundária.
b) Clareza - o gráfico deve possibilitar uma correta interpretação dos valores
representativos do fenômeno em estudo.
c) Veracidade - indispensável qualquer comentário, posto que, se não representa
uma realidade, o gráfico perde sua finalidade.
Os principais tipos de gráficos estatísticos para as distribuições de frequências são
os DIAGRAMAS, os quais são gráficos geométricos de, no máximo duas dimensões. Para
sua construção, em geral, fazemos uso do sistema cartesiano.
Dentre os principais tipos de diagramas destacamos, segundo a variável em estudo:
Variável Qualitativa GRÁFICOS EM BARRAS OU COLUNAS, GRÁFICOS EM SETORES
Distribuição por Valores GRÁFICO EM COLUNAS (ou Bastão)
Variável Quantitativa
Distribuição por Intervalos HISTOGRAMA, POLÍGONO DE
FREQUÊNCIAS
GRÁFICO EM COLUNAS OU BARRAS - É a representação de uma série por meio de
retângulos, dispostos horizontalmente (em barras) ou verticalmente (em colunas).
Exemplo: Gráfico 1.
GRÁFICO POR SETORES - É o gráfico que representa as partes de um todo, por setores
de um círculo, visando justamente comparar estas partes entre si e em relação ao todo.
Exemplo: Gráfico 2.
Procedência dos Estudantes de Calc. Prob. Estatística I
Turno: Manhã, Turma: 04, Período: 97.1
Gráfico 1 Gráfico 2
Capital Interior O.Região
Procedência
Frequência
30
20
10
0
O,Região
Interior
Capital
18. • HISTOGRAMA - É a representação gráfica de uma distribuição de frequências de uma
variável quantitativa (dados agrupados) por meio de retângulos justapostos centrados nos
pontos médios das classes e cujas áreas são proporcionais às frequências das classes.
Exemplo: Gráfico 3
17
Gráfico 3:
Alturas dos estudantes de Calc. Prob. Estatística I
Turno: Manhã, Turma: 04, Período: 97.1
• POLÍGONO DE FREQUÊNCIAS - É a representação gráfica de uma distribuição de
frequências por meio de uma linha poligonal fechada ou polígono, cuja área total é igual
a do histograma. Exemplo: Gráfico 4.
Gráfico 4:
Alturas dos estudantes de Calc. Prob. Est I
Turno: Manhã, Turma: 04, Período: 97.1
19. 18
Vimos anteriormente a sintetização dos dados sob a forma de tabelas, gráficos e
distribuições de frequências. Aqui, vamos aprender o cálculo de medidas que possibilitem
representar um conjunto de dados (valores de uma variável quantitativa, isto é, informações
numéricas), relativos à observação de determinado fenômeno de forma reduzida.
Estes índices estatísticos são as MEDIDAS DE POSIÇÃO e, dentre as mais
importantes, citamos as Medidas de Tendência Central, que recebem tal denominação
pelo fato dos dados observados tenderem, em geral, a se concentrar em torno de valores
centrais. Dentre as medidas de tendência central, destacamos:
• a Média aritmética ou Média;
• a Moda;
• a Mediana.
As outras medidas de posição são as SEPARATRIZES, que englobam:
• a própria mediana;
• os quartis;
• os percentis.
1. MÉDIA ARITMÉTICA (ou simplesmente MÉDIA)
Definição 5.1:
(a) Dada uma população constituída de N elementos, X1, X2, ..., XN sua média,
denotada por μ , mede o valor médio do conjunto de dados, sendo expressa na mesma
unidade, e definida por:
μ =
1 2 N ...
X + X + + X
N
ou μ =
X
N
i ( Média populacional ) Eq. (1)
(b) Dada uma amostra constituída de n elementos, X1, X2, ..., Xn , sua média,
denotada X , será definida por:
X =
X X X
1 + 2 + ×××+ n ou X =
n
i
X
n
( Média amostral ) Eq. (2)
Exemplo: Determinar a média do seguinte conjunto (amostra) de valores Xi : 3, 7, 8,
10, 11
Logo, X =
i
X
n
=
3 7 8 10 11
+ + + + X = 7,8
5
5 - MEDIDAS DE POSIÇÃO
20. 19
(c) MÉDIA ARITMÉTICA PARA DISTRIBUIÇÕES DE FREQUÊNCIA
Seja um conjunto de dados ( uma amostra ) constituída de n valores da variável X,
isto é, X1, X2, ..., Xk ocorrendo com respectivas frequências f1, f2, ..., fk de modo que fi =
n .
A média aritmética (ou simplesmente média) de X, denotada X , é definida por:
X =
X f
i ×
i
ou simplesmente X =
f
i
i × i
X f
n
Eq. (3)
onde n = fi é o número de elementos do conjunto.
OBS.: A expressão acima é usada tanto no caso de distribuição de frequências por valores,
como para dados agrupados em classes. No segundo caso, os X’is representam os pontos
médios de classes.
Exemplo: Determinar a média do seguinte conjunto de valores, Xi : 2, 3, 8, 8, 5, 2, 2,
2, 8, 5, 3, 8, 2, 2, 5, 8, 2, 5, 8 e 2
Xi fi Xi*fi
2 8 16
3 2 6
5 4 20
8 6 48
20 90
Portanto, aplicando a Eq. (3), vem:
X =
X ×
f
f
i i
i
=
90
20
X = 4,5
n = fi = 20
OBS.: A Equação (3) é uma adequação da equação (2) no caso de um conjunto de valores
X’is com elementos repetidos.
VANTAGENS E DESVANTAGENS DA MÉDIA
1. É uma medida de tendência central que por uniformizar os valores de um conjunto de
dados, não representa bem os conjuntos que revelam tendências extremas. Ou seja, é
grandemente influenciada pelos valores extremos (grandes) do conjunto.
2. Não pode ser calculada para distribuições de frequências com limites indeterminados
(indefinidos).
21. 20
Exemplo: É impossível calcular a média da distribuição abaixo, representativa das
idades de um grupo de 300 pessoas.
IDADES
(Anos)
No de Pessoas
fi
Menos de 33 1
33 |------- 35 21
35 |------- 37 52
37 |------- 39 186
39 |------- 41 38
41 ou mais 2
Total ou 300
3. É o promédio mais conhecido e de maior emprego.
4. É facilmente calculável.
5. Pode ser tratada algebricamente (ver propriedades).
6. Serve para compararmos conjuntos semelhantes.
7. É particularmente indicada para séries (conjuntos) que possuem os valores simétricos
em relação a um valor médio e de frequência máxima.
8. Depende de todos os valores do conjunto de dados.
Propriedades:
1 - A soma dos desvios tomados em relação à média é nula, isto é, (X X) i
i
n
− =
=
1
0.
2 - Somando-se ou subtraindo-se uma constante (c) a todos os valores de uma variável, a
média do conjunto fica aumentada ou diminuída dessa constante, isto é,
Y X c Y X c i = i ± = ± .
3 - Multiplicando-se ou dividindo-se todos os valores de uma variável por uma constante
(c), a média do conjunto fica multiplicada ou dividida por essa constante, isto é,
Y X c Y X c i = i* = * ou Y X c Y X c i = i ÷ = ÷ , para c¹0.
2. MODA
Desprezando as classes abertas, isto é, com
limites indeterminados, aí sim, poderíamos
calcular a referida média.
22. Definição 5.2: Dado um conjunto de valores, a moda, denotada Mo, é o valor que ocorre
com maior frequência, ou seja, é o valor mais frequente do conjunto de
dados.
21
OBS.:
i) A moda de um conjunto de dados pode não existir (figura (a) )
ii) A moda de um conjunto de dados pode não ser única (figura (c) )
Exemplo: Determine a moda dos seguintes conjuntos de dados abaixo
a) 2, 2, 3, 3, 5, 5, 8, 8 Não existe moda.
b) 2, 2, 3, 5, 5, 5, 8, 8 Mo = 5
c) 2, 2, 2, 3, 3, 5, 5, 5, 8 Mo = 2 e Mo = 5
- CÁLCULO DA MODA PARA DADOS AGRUPADOS
Em uma distribuição de frequências com dados agrupados em classes,
denominamos classe modal à que possui a maior frequência, e, conseqüentemente, será esta
classe que conterá a moda.
FÓRMULA de CZUBER (interpretação
geométrica através de Histograma)
1
Mo L h = mo + mo
+
×
D
D D
1 2
onde:
Lmo : limite inferior da classe modal
hmo : amplitude da classe modal
D1 = fmodal - fanterior
D2 = fmodal - fposterior
23. Exemplo: Utilizando os dados apresentados na tabela 1.4, determine a ALTURA MODAL
dos 29 estudantes de Cálculo das . Probabilidades. e Estatística I - Turno: Manhã, Turma:
04, Período: 97.1
Classe modal (2a.) 164 |----- 171 , Lmo = 164 , fmo = 12 , hmo = 7
D1 = f − f = 12− 4 = 8 max ant ; D2 = f − f =12− 9 = 3 max post
8
8 3
Logo, Mo = + cm
22
+
164 * =
7 169 1 , ou Mo = 169 cm
VANTAGENS E DESVANTAGENS DA MODA
1. Não depende de todos os valores do conjunto de dados, podendo mesmo não se alterar
com a modificação de alguns deles.
2. Não é influenciada por valores extremos (grandes) do conjunto de dados.
3. Pode ser calculada para distribuições com limites indeterminados (indefinidos) na
maioria dos casos.
3. MEDIANA
Definição 5.3: Considere uma série (conjunto de dados) ordenada, constituído de n
valores. A mediana, denotada Me , é o valor que divide o conjunto em duas
partes iguais ( isto é, em duas partes de 50% cada).
Exemplos:
a) Calcular a mediana do seguinte conjunto de dados: 2, 3, 5, 8, 9, 11, 13 (n = 7
ímpar)
Me = 8 (termo de ordem central )
b) Calcular a mediana do seguinte conjunto de dados: 2, 3, 5, 8, 9, 11, 13, 15 (n = 8
par)
Me =
+
=
8 9
2
8 5 , (Média aritmética dos termos de ordens centrais)
Verificamos que, estando ordenados os valores de uma série (conjunto de dados) e
sendo n o número de elementos da série, o valor mediano será:
- o termo de ordem central
n +1
2
, Me Xn = +1
2
se n for ímpar;
24. Lme é o limite inferior da classe mediana;
fme é a frequência simples da classe mediana;
Fant é a frequência acumulada da classe anterior à
classe mediana;
hme é a amplitude da classe mediana; n é o total de
observações.
23
- a média aritmética dos termos de ordem
n n
2 2
e + 1 , Me
X X n n
=
+
+
2 2
1
2
se n for par.
CÁLCULO DA MEDIANA NUMA DISTRIBUIÇÃO DE FREQUÊNCIAS
a) Dados Não-agrupados
Neste caso, para a série de valores ordenados em ordem crescente de grandeza (i. e.,
em um rol), a mediana é o valor médio ou a média aritmética dos valores centrais, caso
tenhamos um número ímpar ou par de valores na série.
b) Dados Agrupados em Classes
No caso de dados agrupados, relembramos que uma distribuição de frequências
pode ser representada por meio de um Histograma. Dizemos então que a mediana será o
valor de X (abscissa) cuja ordenada divide a área total do Histograma em duas partes
iguais.
Assim, para dados agrupados, a mediana é obtida através de interpolação de acordo
com a seguinte fórmula:
Me L
n
F
f
ant
2 onde:
h me
= + me
me
−
×
Exemplo: Determinar a ALTURA MEDIANA dos 29 estudantes da turma de Cal. Prob. Est
I, Turno: Manhã, Turma: 04, Período: 97.1 - Turno da tarde, conforme os dados
agrupados na tabela 1.4 (estendida).
25. n/2 = 29/2 = 14,5 (50%) ==== Classe mediana (2a.) : 164 |----- 171 (Classe mediana:
14 ,
5 5
12
−
164 * = + =
7 164 5 5 169 5
6. MEDIDAS DE DISPERSÃO
Conjunto A ==== 7, 7, 7, 7, 7
Conjunto B ==== 5, 6, 7, 8, 9
Conjunto C ==== 4, 5, 7, 9, 10
Conjunto D ==== 0, 5, 10, 10, 10
24
primeira classe que ultrapassar 50% (n/2) ou mais das
observações)
Lme = 164 ; fme = 12 ; hme =7 ; Fant = 5
, , ou Md = 170cm
Md = + cm
PROPRIEDADES DA MEDIANA
i) A mediana não é influenciada por valores extremos (grandes) de uma série ou conjunto
de dados.
ii) A mediana de uma série de dados agrupados de classes extremas indefinidas pode ser
calculada.
Na seção anterior, aprendemos a calcular e entender convenientemente as medidas de
posição representativas de um determinado conjunto de dados, onde destacamos a média, a
moda e a mediana.
Sejam quatro conjuntos A, B, C e D com os seguintes valores:
Observando-os mais detalhadamente, notamos que em cada grupo os valores se distribuem
diferentemente em relação à média 7. Necessitamos assim de uma medida estatística
complementar para melhor caracterizar cada conjunto apresentado.
As medidas estatísticas responsáveis pela variação ou dispersão dos valores de um
conjunto são as medidas de dispersão ou de variabilidade, onde se destacam a amplitude
total, a variância, o desvio padrão e o coeficiente de variação. Em princípio, diremos que
entre dois ou mais conjuntos de dados, o mais disperso ( ou menos homogêneo ) é aquele
que tem a maior medida de dispersão.
1 - A AMPLITUDE TOTAL
Medida já apresentada na elaboração de uma distribuição de frequências com dados
agrupados em classes, denotamos AT.
Para representarmos cada conjunto, podemos
calcular a sua respectiva média
(Eq.(1)),encontrando
XA = XB = XC = XD = 7.
Vemos assim que apesar de constituídos
de valores diferentes, os grupos revelam uma
mesma média aritmética.
26. AT = Xmáx − Xmín , onde Xmáx = maior valor do conjunto e Xmín = menor valor do
25
conjunto.
2- A VARIÂNCIA
A variância de um conjunto de dados ( amostra ou população ) mede a variabilidade
do conjunto em termos de desvios quadrados em relação à média aritmética do conjunto. É
uma quantidade sempre não negativa e expressa em unidades quadradas do conjunto de
dados, sendo de difícil interpretação.
Definição 6.1:
a) Seja um conjunto ( população ) constituído de N elementos X1, X2, . . ., XN. Sua
variância denotada s2 , é definida por:
( )
μ 2
s
2
=
X −
i Eq (5) , onde μ =
N
X
N
i é a média populacional
b) Seja um conjunto ( amostra ) constituído de n elementos X1, X2, . . . , Xn. Sua
variância, denotada S2 , é definida por:
( )
S
X X
n
2 i
2
1
=
−
−
Eq (6) , onde X
X
n
i
=
é a média amostral
OBS.: A equação (6) é utilizada quando nosso interesse não se restringe à descrição dos
dados mas, partindo da amostra, visamos tirar inferências válidas para sua respectiva
população. No caso de estarmos interessados apenas na descrição dos dados,
podemos usar no divisor n em lugar de n - 1
Exemplo 2: Determine a variância do seguinte conjunto (amostra) Xi : 2, 3, 5, 7, 8
De acordo com a equação (6) temos:
( ) ( ) ( ) ( ) ( )
S2
2 2 2 2 2 2 5 3 5 5 5 7 5 8 5
5 1
=
− + − + − + − + −
−
, onde X
25
X
n
i
= = =
5
5
2 2 2 2 2 3 2 0 2 3
( ) ( ) ( ) ( ) ( )
=
− + − + + +
=
+ + + +
S2 =
4
9 4 0 4 9
4
26
4
===== S2 = 6,5
CÁLCULO DA VARIÂNCIA EM UMA DISTRIBUIÇÃO DE FREQUÊNCIAS
( Caso de amostra )
Analogamente, a definição apresentada na Equação (6), temos
27. 26
( )
S
2
X X f
n
2 i i
1
=
− ×
−
Eq. ( 7 ) , onde fi : frequências de classes e n f= i
OBS.: No caso de dados agrupados os X 'is são os pontos médios de classes.
FÓRMULA ALTERNATIVA derivada da Equação ( 7 ) :
( )
S
X f
X f
n
n
i i
i i
2
2
2
1
=
× −
×
−
ou
2 2
( )
( )
S
n X f X f
2 i i i i
n n
1
=
× − ×
× −
Eq. ( 8 )
3 - O DESVIO PADRÃO
É uma outra medida de dispersão mais comumente empregada do que a variância, por
ser expresso na mesma unidade do conjunto de dados. Mede a DISPERSÃO
ABSOLUTA de um conjunto de valores e é obtida a partir da variância.
Desvio Padrão = + Variância ( Raiz quadrada positiva da Variância )
Conforme, o conjunto de dados, trate-se de uma população ou uma amostra, teremos o
desvio padrão dado por:
População =====
( )
s
μ
=
X −
i
N
2
Amostra ======
( )
S
X X
i
n
=
−
−
1
2
Do exemplo 2 , dado acima, temos o desvio padrão dado por S = 6,5 ==== S = 2,55
Exemplo 3: Calcular a variância e o desvio padrão para a distribuição de frequências das
ALTURAS dos 29 estudantes de Cálculo das Probabilidades e Estatística I -
Turno: Manhã, Turma: 04, Período: 97.1.
ALTURAS
(cm)
No. Est
fi
P. Médio
Xi
Xi
2 X f i × i X 2
×
f i i
150 |---- 157 1 153,5 23562,25 153,5 23562,5
157 |---- 164 4 160,5 25760,25 642 103041,0
164 |---- 171 12 167,5 28056,25 2010 336675,0
171 |---- 178 9 174,5 30450,25 1570,5 274052,25
178 |---- 185 3 181,5 32942,25 544,5 98826,75
Total ou 29 4920,5 836157,5
Variância
== S
× * − *
n X
i
2 2
f
i
( X
i
f
i
)
n (n )
, ( , ) ,
2 ,
1
29 836157 25 4920 5 2
29 28
37239 95
812
= 45 86
* −
=
* −
*
= =
28. 27
Portanto, a variância das alturas será: S2 45,86cm2 =
Desvio Padrão ==== S = Variância = 45,86cm2 = 6,77cm
4 - O COEFICIENTE DE VARIAÇÃO
É uma quantidade adimensional e serve para comparar dois ou mais conjuntos de
dados de unidades diferentes. Mede a DISPERSÃO RELATIVA de um conjunto de
dados. É expresso, usualmente, em percentagem ( % ).
s
μ
População ==== CV = ×
100 , sendo que μ ¹ 0
Amostra ==== CV
S
X
= × 100, sendo que X ¹ 0.
Exemplo 4: Calcule o coeficiente de variação (dispersão relativa) das ALTURAS dos 29
estudantes da Turma 04 - Turno da Manhã de Calc. Prob. Est I - Período: 97.1 -
Tabela 1.4
Da distribuição das alturas, (tabela 1.4), temos:
Altura média === X = 169,67cm e o Desvio Padrão === S = 6,77cm
Portanto, ==== CV
S
X
6 77
169 67
cm
cm
,
,
= × 100 = × =
100 3 99
, , ou seja CV = 3,99%
7. REFERÊNCIAS BIBLIOGRÁFICAS
1. Costa Neto, P.L.O. Estatística. Editora Edgar Blucher.
2. Mendenhall, W. Probabilidade e Estatística. Editora Campus, Vol. I e II.