1. NOÇÕES DE ESTATÍSTICA 1- Introdução: Na vida diária de qualquer sociedade constituída por milhões de indivíduos, há a necessidade de aplicação da estatística na elaboração de censos demográficos, no registro de natalidade e morte, na distribuição da população por idade ou sexo, nos problemas que envolvem saneamento básico, emprego, educação e muitos outros. Considere uma pequena cidade onde vivem apenas 1000 famílias. Em uma pesquisa sobre salários, não seria difícil obter o salário de cada família. Os dados numéricos obtidos (os salários) formam um conjunto chamado população. Mas, freqüentemente, por exemplo em uma cidade de 1.000.000 de pessoas, é possível conseguir os dados numéricos apenas de uma parte ou amostra da população, digamos 10.000 habitantes. Amostra é, então, um subconjunto do conjunto população. Em geral, é feita uma pesquisa sobre alguma característica da população. Há algumas características que podem ser medidas, como idade, massa, altura. Os números que as medem chamam-se valores das variáveis. Algumas variáveis, como sexo, nível de escolaridade, estado civil e tipo de transporte utilizado para o deslocamento, apresentam como resultado uma qualidade, atributo ou preferência da pessoa entrevistada . Variáveis dessa natureza recebem o nome de varáveis qualitativas. Outras variáveis, como idade e renda mensal, apresentam como resposta um número , variáveis assim definidas são chamadas variáveis quantitativas. Exemplo 1: Entrevista efetuada com 7 pessoas na entrada de um cinema. Sexo Idade Nível de escolaridade Estado civil Transporte Renda mensal (sal.min.) masculino 28 Ensino médio casado carro 11,8 masculino 38 Ensino médio casado carro 10,9 feminino 24 Ensino superior solteira carro 12,4 masculino 43 Ensino superior separado carro 19,5 feminino 26 Ensino médio separada ônibus 5,0 feminino 45 Ensino superior casada carro 15,4 masculino 35 Ensino médio solteiro ônibus 6,5
2. 2- TABELAS DE FREQUÊNCIA : É o modo de organizar as informações de uma determinada pesquisa . Vejamos um exemplo. Exemplo 2 : Numa turma de 25 alunos, foram registradas todas as idades destes. Observe que há apenas quatro valores diferentes das variáveis quantitativas: 14, 15, 16 e 17. Formando uma tabela com esses dados: 2-1) Freqüência absoluta (fa) é o número de vezes que um valor é observado no conjunto população, que, no exemplo, é o conjunto cujos elementos são os 25 alunos. A freqüência absoluta do número de alunos com 14 anos é 5. A porcentagem de alunos com 14 anos é 20%. 2-2) A freqüência relativa (fr) do número de alunos com 14 anos é 0,20, isto é, , onde n é o número total de observações. 15 16 16 15 14 15 17 16 14 14 14 17 15 16 15 16 14 15 15 15 16 15 15 16 17 Idade Freqüência absoluta (fa) Freqüência relativa (Fr) Porcentagem 14 5 5/25 = 0,20 20% 15 10 10/25=0,40 40% 16 7 7/25=0,28 28% 17 3 3/25=0,12 12% soma 25 100/100=1 100%
3. OBSERVAÇÕES: 1ª- A notação a b refere-se ao intervalo real , que inclui a, mas não inclui b. 2ª- A amplitude da classe a b é dada pela diferença b-a. 3ª- Não há regras fixas para a construção de classes nas tabelas.Procuraremos, na medida do possível, construir classes de mesma amplitude para que não haja comprometimento da análise. Exemplo 3: Com os dados do exemplo 1 construiremos uma tabela com 3 classes de intervalo, todos de mesma amplitude, referentes a idade. 20 30 30 40 40 50 Muitas vezes porém, pode ocorrer que os valores assumidos por uma variável quantitativa variem em determinado intervalo real, não havendo, praticamente, repetição de valores, como no exemplo seguinte. Sexo Idade Nível de escolaridade Estado civil Transporte Renda mensal (sal.min.) masculino 28 Ensino médio casado carro 11,8 masculino 38 Ensino médio casado carro 10,9 feminino 24 Ensino superior solteira carro 12,4 masculino 43 Ensino superior separado carro 19,5 feminino 26 Ensino médio separada ônibus 5,0 feminino 45 Ensino superior casada carro 15,4 masculino 35 Ensino médio solteiro ônibus 6,5 Classes de valores fa fr Porcentagem 3 0,43 43,0% 2 0,285 28,5% 2 0,285 28,5% total 7 1 100%
4. 3- REPRESENTAÇÃO GRÁFICA : 3-1) HISTOGRAMA: No histograma são utilizados retângulos contíguos, um para cada intervalo. A base de cada um deles representa a amplitude do intervalo considerado, e a altura de cada um deles corresponde a freqüência ou porcentagem . Exemplo 4: -A altura de 80 homens de uma comunidade está distribuída de acordo com a tabela abaixo: Freqüência (fa) 30 25 26 20 18 15 12 10 8 5 2 1,60 1,65 1,70 1,75 1,80 1,85 1,90 1,95 altura (m) A análise do histograma nos permite afirmar que: -- 75% dos homens desta comunidade têm altura até 1,80 m (observe que somamos : 5% + 15% + 22,5% + 32,5%) -- A distribuição das alturas nessa comunidade segue uma representação aproximadamente simétrica em torno da classe de altura que concentra a maior parte das observações (de 1,75 m a 1,80 m). - Histograma: 1,80 1,85 1,85 1,90 1,90 1,95 1,80 1,85 1,85 1,90 1,90 1,95 1,75 1,80 Altura(metros) 1,60 1,65 fa fr Porcentagem 4 0,05 5% 1,65 1,70 1,70 1,75 12 0,15 15% 18 0,225 22,5% 26 0,325 32,5% 10 0,125 12,5% 8 0,10 10% 2 0,025 2,5% Total 80 1,000 100% 4 10
5. Exemplo 5: A partir do histograma do exemplo 4 construiremos o polígono de freqüência. (fa) 26 30 25 18 20 15 12 10 10 8 5 4 2 1,60 1,65 1,70 1,75 1,80 1,85 1,90 1,95 altura (m) 3-2) POLÍGONO DE FREQUÊNCIAS OU GRÁFICO DE LINHA: No histograma, se ligarmos os pontos médios da parte superior de cada retângulo, e “fecharmos” a figura como se existissem mais dois intervalos com freqüência nula, um antes do primeiro retângulo e outro depois do último, obteremos um polígono chamado polígono de freqüência . - Histograma: (fa) 26 30 25 18 20 15 12 10 10 8 5 4 2 1,60 1,65 1,70 1,75 1,80 1,85 1,90 1,95 altura (m)
6. Exemplo 7: Fonte: Almanaque Abril, 2001 3-3) GRÁFICO DE BARRAS: O gráfico de barras pode ser horizontal ou vertical. Exemplo 6: Tv por assinatura ( em 2000) (cidades atendidas) 346 186 176 40 38 Sudeste Nordeste Sul Centro-Oeste Norte Dos países mais visitados no ano de 1999, o Brasil ocupa a 29º colocação—em milhões de turistas. França 71,4 Espanha 51,9 Estados Unidos 46,9 Itália 35,8 China 27 Inglaterra 25,7 México 20,2 Canadá 19,5 Polônia 17,9 Áustria 17,6 Brasil 5
7. Com base na tabela acima construiremos o gráfico de setores abaixo: As equivalências de valores são: - 90 pessoas utilizam o metrô para circularem pela cidade, que corresponde a 37,5% e a 135º. - 80 pessoas utilizam o ônibus para trafegar na cidade, que corresponde a 33,33% e a 120º. - 40 pessoas utilizam veículos particulares para seu translado, que corresponde a 16,66% e a 60º. - 30 pessoas usam trem para seu transporte, que corresponde a 12,5% e a 45º. 3-4) GRÁFICO DE SETORES: No gráfico de setores , também chamado pizza ou disco , um círculo é dividido em setores circulares, cada um deles correspondendo a uma freqüência. Exemplo 8: A tabela abaixo relaciona o tipo de transporte utilizado por 240 pessoas de uma metrópole nacional. Transporte fa Metrô 90 Ônibus 80 Trem 30 Particular 40 Total 240
8. 4- MEDIDAS DE CENTRALIDADE: 4-1) MÉDIA ARITMÉTICA SIMPLES (M): Vários tipos de médias podem ser definidos a partir de um conjunto de dados. Veremos inicialmente a média aritmética simples, a mais comum, que costuma ser chamada simplesmente média . Exemplo 9: Observe as notas obtidas em Matemática por um aluno durante o ano, e o cálculo da média (nota média ): Dizer que a média do aluno foi 6,5 significa que, apesar de ele ter obtido notas mais altas ou mais baixas em outros bimestres, a soma ao final do ano (26) é a mesma que ele alcançaria se tivesse obtido a nota 6,5 em todos os bimestres. 1º bimestre 4,5 2º bimestre 6,5 3º bimestre 9,0 4º bimestre 6,0 SOMA 26
9. 4-2) MÉDIA ARITMÉTICA PONDERADA (M): Exemplo 10: Observe agora a variação de idade de 20 alunos de uma classe: Dizemos então que a média aritmética ponderada (de idade) deste grupo de alunos é: Idade Freqüência absoluta (fa) Freqüência x Idade 13 4 14 8 15 6 16 2 Soma 20 286
10. 4-3) MEDIANA (Me): Mediana é o valor tal que o número de observações menores (ou iguais) a ela é igual ao número de observações maiores (ou iguais) a ela. Exemplo 11: O controle de qualidade de uma industria forneceu o seguinte número de peças defeituosas (por lote de 100 unidades): 5 – 4 – 9 – 6 – 3 – 8 – 1 – 4 – 5 – 6 – 11 Vamos determinar a mediana (Me) do número de peças defeituosas. Para isso devemos ordenar os valores acima fornecidos em ordem crescente: 1 – 3 – 4 – 4 – 5 – 5 – 6 – 6 – 8 – 9 – 11 Como o número de termos é impar n = 11, temos Me=5. Podemos observar, por fim, que há cinco valores menores (ou iguais) a 5 e cinco valores maiores (ou iguais) a 5: 1 – 3 – 4 – 4 – 5 – 5 – 6 – 6 – 8 – 9 – 11 cinco observações Me cinco observações Exemplo 12: Vejamos agora os salários de 6 pessoas que trabalham em um banco: R$ 600,00 R$ 800,00 R$ 900,00 R$ 1000,00 R$ 5700,00 R$ 6000,00 Neste caso a mediana (Me), será a média dos dois dados centrais: Interpretaremos a mediana assim: metade dos seis funcionários ganham mais de R$ 950,00 e a outra metade, menos de R$ 950,00.
11. 4-4) MODA (Mo): Moda de um conjunto de valores ( Mo ), é a realização (ocorrência) mais freqüente entre os valores observados. Exemplo 13: Vamos encontrar a moda dos seguintes conjuntos de valores: a) 5 – 8 – 11 – 8 – 3 – 4 – 8 A moda Mo= 8, pois há três observações iguais a 8. b) 2 – 3 – 9 – 3 – 4 – 2 – 6 Há duas modas: 2 e 3. Dizemos que se trata de uma distribuição bimodal. c) 1 – 3 – 4 – 6 – 9 – 11 – 2 Neste caso, todos os valores aparecem com a mesma freqüência unitária. Assim não há moda nessa distribuição.
12. 5- MEDIDAS DE DISPERSÃO: 5-1) DESVIO: Exemplo 14: Vejamos, por exemplo, um conjunto de dados: 2, 5, 6, 8, 14, onde a média aritmética é 7. A diferença entre cada valor e a média é chamada de desvio. Assim, os desvios para o nosso conjunto de dados são: Observação: a soma dos desvios é sempre nula. 5-2) VARIÂNCIA (V): Chamamos de Variância de um conjunto de dados a média aritmética dos quadrados dos desvios. Exemplo 15: A Variância é : Desvio 2 – 7 = -5 5 – 7 = -2 6 – 7 = -1 8 – 7 = 1 14 – 7 = 7 Soma = 0 Valores Média Desvio Quadrado dos desvios 2 7 -5 25 5 7 -2 4 6 7 -1 1 8 7 1 1 14 7 7 49 Soma 0 80
13. Exemplo 16: Vejamos o desempenho dos 5 alunos de 4 turmas diferentes. - turma A: 5 – 5 – 5 – 5 – 5 - turma B: 5 – 6 – 5 – 4 – 5 - turma C: 3 – 7 – 6 – 5 – 4 - turma D: 1 – 8 – 5 – 2 – 9 Se calcularmos as médias aritméticas das notas de cada uma das turmas, notaremos, nos quatro casos, que a média da turma é igual a 5. Restringindo nossa análise apenas a esse valor, concluiríamos que as turmas apresentam desempenho médio igual. Isso, porém, não é suficiente, pois esse valor esconde informações em relação à homogeneidade ou heterogeneidade do desempenho dos alunos de uma mesma turma. Para isso temos: -- Turma A: O valor nulo da variância indica que todos os alunos apresentaram desempenho idêntico. -- Turma B: O valor “muito pequeno” encontrado para a variância indica que nessa turma os alunos apresentaram desempenhos muito próximos. -- Turma C: O valor revela um grau de heterogeneidade moderado, não havendo, porém, alunos com desempenhos muito discrepantes. -- Turma D: O valor “grande” encontrado para a variância nos evidencia a presença de alunos com desempenhos extremos – ou muito bons ou muito ruins.
14. 5-3) DESVIO PADRÃO (D): Chamamos de desvio padrão a raiz quadrada da variância. No exemplo acima temos: -- Turma A: -- Turma C: -- Turma B: -- Turma D: -- Turma A: -- Turma C: -- Turma B: -- Turma D: