Apostila de estatística descritiva

3.072 visualizações

Publicada em

Apostila de Estatística Descritiva

Publicada em: Educação
0 comentários
0 gostaram
Estatísticas
Notas
  • Seja o primeiro a comentar

  • Seja a primeira pessoa a gostar disto

Sem downloads
Visualizações
Visualizações totais
3.072
No SlideShare
0
A partir de incorporações
0
Número de incorporações
6
Ações
Compartilhamentos
0
Downloads
66
Comentários
0
Gostaram
0
Incorporações 0
Nenhuma incorporação

Nenhuma nota no slide

Apostila de estatística descritiva

  1. 1. Universidade do Estado do Rio de Janeiro - UERJ Faculdade de Forma o de Professores - FFPçã Departamento de Matem ticaá Material de apoio ao aprendizado das disciplinas de Estat stica e Bioestat sticaí í Professora: Viviane C tia K hlerá ö S o Gon alo-RJã ç 1
  2. 2. Introdução A Estatística encontra-se presente em todas as áreas do conhecimento humano: ciências sociais, ciências humanas, ciências exatas, etc. Isso ocorre porque cresce cada vez mais a utilização de suas ferramentas com a finalidade de encontrar respostas a perguntas do tipo: ✔ Qual o consumo médio mensal de combustível de uma determinada região do Estado? ✔ Qual o índice de preços ao consumidor do mês de dezembro? ✔ Qual a proporção de peças defeituosas da linha de produção de uma empresa X? ✔ Será que o índice de reprovação foi reduzido com a introdução de novas técnicas de ensino? ✔ Que porcentagem de determinado elemento químico está presente numa amostra de dejetos da empresa X? ✔ Qual deverá ser o possível valor médio de retorno financeiro de um determinado evento? ✔ Qual a preferência do eleitorado em relação aos candidatos à Presidência da República? O que é Estatística? De acordo com o dicionário Aurélio, Estatística pode ser definida como: “parte da matemática em que se investigam os processos de obtenção, organização e análise de dados sobre uma população ou sobre uma coleção de seres quaisquer, e os métodos de tirar conclusões ou predições com base nesses dados”. O termo estatísticas, no plural, tem o significado de dados numéricos representativos de uma variável analisada, enquanto estatística, no singular, é o método utilizado na manipulação de dados, isto é, o método de coleta, de elaboração, de análise e de interpretação dos dados numéricos. Apesar de sua simplicidade, essas definições nos permitem enxergar os vastos campos de ação da Estatística. Podemos dizer que não há praticamente nenhum ramo do conhecimento humano em que ela não tenha utilização. Estatística é uma ferramenta que nos ensina procedimentos lógicos de observação e de análise, necessários para aproveitar ao máximo os conhecimentos de outras ciências. Com base nos conceitos de Estatística apresentados anteriormente, daremos, a seguir, a definição que será adotada como base para o seu aprendizado. A Estatística consiste em um conjunto de métodos e processos quantitativos que nos auxiliam a coletar, analisar e interpretar dados de acontecimentos coletivos e tirar conclusões em situações em que a variação e a incerteza estão presentes. 2
  3. 3. Dados Um trabalho estatístico envolve um levantamento e uma análise de dados. O que são dados? Dados são informações obtidas através de observações, contagens ou respostas fornecidas por pessoas. Exemplos: • 25% dos eleitores da cidade do Rio de Janeiro votarão no candidato do partido XY. Isso significa que, através de uma pergunta feita a eleitores da cidade do Rio de Janeiro, obteve-se a resposta de que 25% do total votaria no candidato do partido XY. • Apenas 11% dos consumidores preferem consumir um produto de marca ou empresa que possui propaganda mais chamativa e envolvente. (Fonte: Instituto EM Data, julho de 2004) Pode-se dizer que, a partir de um levantamento da opinião dos consumidores que foram entrevistados pelo Instituto EM Data, apenas 11% preferem adquirir um produto de marca ou empresa que possui propaganda mais chamativa. Depois que os dados são coletados, devem passar por algum tratamento. Esse tratamento permite ordená-los, por exemplo, em ordem crescente, tornando-os mais fáceis de serem trabalhados. Os dados que não sofrem qualquer tratamento são denominados dados brutos. Dados brutos são informações obtidas através de observações, contagens ou respostas fornecidas por pessoas, mas que não sofreram nenhum tratamento estatístico. Exemplos: • Será realizada uma pesquisa eleitoral com 2.400 eleitores da cidade de São Gonçalo. Os dados brutos são as respostas da preferência dos eleitores sem nenhum tratamento estatístico, ou seja, os dados de respostas não estão em ordem crescente nem organizados de acordo com as respostas dadas pelos entrevistados. Isto é, o que se tem são apenas as respostas dos eleitores entrevistados, mas não há nenhuma informação tratada sobre eles. Não se sabe quantos votarão no candidato X ou no candidatoY. • Foi realizado um levantamento das idades de 1.000 estudantes do ensino médio em Niterói. Não foi determinado o número de alunos em cada idade. Tem-se apenas um número de alunos e valores referentes às idades, porém sem nenhum tratamento estatístico mais detalhado, ou seja, somente o resultado de uma contagem. Etapas da Estatística O estudo da Estatística pode ser conduzido dividindo-se todo o conteúdo em 4 etapas: determinação do objetivo, coleta de dados, análise dos dados e conclusões e inferências. Determinação do objetivo A determinação do objetivo é a etapa inicial de um trabalho estatístico. Pode-se dizer que é 3
  4. 4. uma das etapas mais importantes da Estatística, pois nela está concentrado todo o formato que a pesquisa deverá tomar. Se o objetivo da pesquisa estatística não estiver bem definido, de forma bem clara e detalhada, os dados coletados poderão não indicar as verdadeiras características daquilo que será analisado. Nesse caso, a coleta de dados estará comprometida, assim como o processo de análise de dados e, conseqüentemente, as conclusões que serão utilizadas para se fazer inferências. A coleta de dados, etapa seguinte no processo estatístico, pode demandar muito tempo e, conseqüentemente, alto custo, caso o objetivo não tenha sido pré-definido. Essa coleta pode não ser útil ou ser insuficiente, por exemplo quando a determinação dos objetivos leva à definição de outros dados que devem ser coletados. O ideal é que se faça um levantamento de todos os fatores que poderão influenciar o trabalho de pesquisa para que este possa ser executado rapidamente e com o menor custo possível. Os principais objetivos são, em geral, voltados para o desenvolvimento de novos produtos, investigação de problemas que porventura estejam atrapalhando o processo de produção de uma empresa, inspeção para a garantia da qualidade de um produto, avaliação do relacionamento existente entre alguns itens e melhoria dos resultados de um processo. Exemplos: ✔ Objetivos de uma pesquisa eleitoral - determinar a região em que o candidato tem maior aceitação, a faixa de renda dos eleitores, bem como idade, nível de escolaridade, etc. Após a determinação dos objetivos, poderemos fazer o levantamento de dados referentes a nível de escolaridade, taxa de renda, idade, etc. ✔ Objetivos de uma pesquisa de aceitação de um produto no mercado - determinar a faixa de renda do consumidor, região onde mora, ponto de venda do produto, o que o consumidor mais gosta e o que menos gosta no produto etc. Após a definição dos objetivos, ficam mais fáceis a elaboração do questionário e a definição de quem serão os entrevistados. Ganha-se tempo para a coleta de informações. Depois de definirmos os objetivos, passamos à etapa seguinte, que é a de coleta de dados. Coleta de dados Após a determinação do objetivo da pesquisa estatística, devem-se coletar os dados ou informações que serão necessárias para a análise. Para que os dados possam realmente representar o objetivo especificado, deve-se escolher o método de apresentação mais adequado, de forma que as conclusões obtidas possam apresentar um alto grau de confiabilidade. O levantamento de dados pode ser realizado com todo o material coletado ou apenas com uma parte representativa dele. O conjunto de todos os dados é chamado de população e a parte que o representa é chamada de amostra. População é o conjunto de todos os dados sobre os quais desejamos obter informações. É o conjunto de todos os itens produzidos, todas as pessoas de uma localidade, todas as peças analisadas, enfim, de tudo o que é objeto de uma pesquisa estatística. Pode também ser definida como o conjunto de elementos com determinadas características em comum. Observe que população não é necessariamente formada por moradores de uma cidade e que a população em um problema depende da informação que queremos obter. 4
  5. 5. Se o objetivo de uma pesquisa é conhecer o nível social de cada um dos moradores de uma cidade do interior de Minas Gerais, então a coleta de dados será o levantamento dos rendimentos de todos os moradores da cidade. Essa coleta pode ser realizada através de questionários entregues à população, por telefone (o que tornaria o custo da pesquisa muito alto) ou através de pesquisadores que entrevistariam todos os moradores de casa em casa. A população de dados dessa pesquisa seria a renda de todos os moradores, isto é, o conjunto de todos os dados da pesquisa. Se o objetivo de uma pesquisa é determinar quantas peças produzidas por uma pequena empresa, em um dia, apresentaram defeito, a população será toda a produção de peças daquele dia. Por exemplo, se a empresa produz 5.000 peças, por dia, então a população é de 5.000 peças. Se o objetivo de uma pesquisa é determinar quantos automóveis a cidade X possui circulando em suas vias, a população é constituída de todos os automóveis da cidade X que estão em circulação. Censo é a contagem de todos os elementos de uma população. O censo não se refere somente ao Censo realizado pelo IBGE, mas também a qualquer levantamento de todas as informações de uma população de dados. Por isso, o censo proporciona informações mais detalhadas sobre a população, mas, na maioria das vezes, é caro e difícil de ser realizado. A população pode ser considerada finita e infinita. Vamos ver a diferença. População finita: quando todos os itens de uma população são conhecidos e fixos, isto é, permanecem inalterados. O Censo da população brasileira é realizado periodicamente pelo IBGE – Instituto Brasileiro de Geografia e Estatística. Os censos produzem informações imprescindíveis para a definição de políticas públicas estaduais e municipais e para a tomada de decisões de investimento, sejam eles provenientes da iniciativa privada ou de qualquer órgão do governo. Exemplos: •O número de peças de plástico de um automóvel da marca X. •Uma sala de aula com 50 alunos. • Um hotel da rede XYZ, que apresenta 100 unidades habitacionais. Exemplos: • As bolas de uma urna utilizada para sorteios. Se elas são retiradas e repostas repetitivamente após cada sorteio, então as bolas podem ser retiradas infinitas vezes. • Todas as peças possíveis de serem manufaturadas. Nesse caso, tem-se uma população de peças que serão manufaturadas, mas é impossível obter 5
  6. 6. a lista de todas elas, pois a produção não tem fim. • Todas as visitas possíveis de clientes a uma loja. É impossível contabilizar a população de clientes, pois não se sabe quantos irão visitar tal loja. EXERCÍCIO: Elaborar um exemplo de pesquisa em que se descreve seu objetivo e se indique quais seriam os dados coletados. Amostra Na maior parte das situações, a população, mesmo finita, é grande demais para que seja prático levantar todos os dados. Por isso, utilizamos uma parte que represente a população. Essa parte é chamada de amostra. Amostra: é uma parte representativa da população. Pode também ser definida como um subconjunto de uma população por meio do qual se estabelecem ou se estimam as propriedades e características dessa população. A amostra é utilizada quando necessitamos de uma resposta mais rápida sobre a população ou quando a realização do levantamento de dados de uma população é muito dispendiosa. Por exemplo, é preferível pesquisar as respostas de uma parte representativa dos eleitores de uma cidade a ter que fazer o levantamento das respostas de todos os seus eleitores. Com isso, ganha-se tempo nos resultados obtidos e consegue-se um custo de pesquisa muito inferior ao que seria gasto com toda a população. Exemplos: • Uma fábrica possui 1.000.000 de peças em estoque. Se estamos interessados em analisar a espessura das peças, podemos, por exemplo, tomar uma amostra de apenas 500 peças. A opção pela escolha da análise de uma amostra é melhor neste caso, pois ganha-se em tempo e em custo da pesquisa. • Uma amostra da opinião de 2.000 moradores de uma cidade sobre a economia do país. Observe a expressão “parte representativa da população” na definição de amostra. O que quer dizer? Quer dizer que, se tomarmos uma parte muito pequena da população, o levantamento de dados pode ser muito diferente da população como um todo. Por exemplo, fazer uma pesquisa eleitoral com apenas 10 eleitores em uma cidade com 1.000.000 de eleitores não é representativo. Mas qual número ou percentual da população total é representativo? Essa é uma questão um pouco mais complexa. Uma análise detalhada não consta dos objetivos desta disciplina. Os métodos e técnicas utilizados para se realizar uma amostragem serão analisados com maiores detalhes em Técnicas de Amostragem. A opção por trabalhar com toda a população ocorre em virtude de se desejar obter informações sobre todo o universo objeto de pesquisa, que é o caso do censo demográfico, ou 6
  7. 7. quando a população é pequena (a população pode ser considerada pequena quando os custos e o tempo de análise das informações não são empecilho para tal realização). EXERCÍCIO 1) Definir amostra. 2) Dar exemplos de amostra. 3) Em que situações é preferível trabalhar com uma amostra ao invés de com a população? 4) Determinar uma amostra para cada uma das populações mencionadas a seguir: a) 25.000 é o total de peças produzidas pela empresa X; b) duas toneladas da substância XYZ estão infectando o solo de um lixão; c) todos os consumidores de cereais do país; d) os salários de todos os 1.000 funcionários de uma empresa. 5) Dadas as sentenças abaixo, indicar falso (F) ou verdadeiro (V). ( ) A amostra é um subconjunto da população. ( ) A população é uma parte representativa da amostra. ( ) A amostra é a melhor opção quando a análise de todos os dados da população toma muito tempo e é considerada de alto custo. ( ) A análise de todas as peças produzidas por uma pessoa, durante um dia, pode ser considerada uma amostra. Análise dos Dados Após determinar o método de levantamento de dados mais adequado, é necessário fazer uma análise dos dados, colhendo informações relativas ao objetivo especificado. Para uma melhor análise dos dados, é usual organizá-los sob a forma de tabelas e gráficos e, então, sintetizá-los através de medidas. Essa organização e resumo das informações em medidas é chamada Estatística Descritiva. Estatística Descritiva: é a parte da Estatística que utiliza métodos gráficos e numéricos para organizar, resumir e simplificar as informações para que possam ser interpretadas e utilizadas com maior facilidade. Estudaremos, nas próximas aulas, algumas ferramentas utilizadas pela Estatística Descritiva, tais como: • Representações gráficas e tabulares da Distribuição de Freqüência; • Medidas de Posição; • Medidas de Dispersão; • Medidas de Assimetria. Exemplos: • A média de idade dos alunos que estão matriculados na disciplina de Estatística é de 34 anos. • A média é uma das medidas de posição mais utilizadas para representação dos dados. 7
  8. 8. • 30% dos estados brasileiros estão sem verbas para educação e saúde. A representação percentual é uma forma bastante utilizada para descrever os dados estatísticos. • O desvio padrão das aplicações financeiras analisadas é muito alto. O desvio padrão é uma medida de dispersão muito utilizada para descrever a variação dos dados estatísticos. • O coeficiente de assimetria para a distribuição de freqüência dos pesos de uma peça é muito pequeno. O coeficiente de assimetria é uma medida que nos informa sobre o formato, simétrico ou não, das curvas representativas de uma distribuição de freqüências. Conclusões e Inferências Essa é a parte final do processamento estatístico, em que os resultados obtidos nas análises são dispostos e avaliados com relação ao objetivo proposto no início da pesquisa. Essa parte da Estatística é chamada Estatística Indutiva ou Inferencial. Estatística Indutiva ou Inferencial: é a parte da Estatística que interpreta os dados amostrais e faz generalizações sobre um experimento em estudo. Ela vai determinar, também, a precisão e a confiabilidade dos resultados obtidos. Os resultados de uma estatística inferencial são induções ou estimativas sobre as variáveis obtidas da amostra. Elas podem ser conclusivas e podem levar o pesquisador a uma tomada de decisão sobre toda a população. Por exemplo, com base em uma amostra de 2.000 eleitores, o instituto de pesquisa pode generalizar o resultado obtido para todos os eleitores, isto é, se um candidato obteve 32% de escolha entre os 2.000 eleitores, pode-se dizer que 32% de todos os eleitores da cidade pesquisada votariam nesse candidato. Mas, como o resultado é baseado em uma amostra, a estimativa do resultado vem acompanhada de uma margem de erro. A margem de erro ocorre porque a pesquisa não foi realizada com todos os eleitores. O cálculo exato da margem de erro é um assunto matematicamente complexo e foge dos objetivos deste curso. A ferramenta básica no estudo da Estatística Inferencial é a probabilidade, pois lida com a incerteza. Variáveis Quantitativas Os principais tipos de variáveis e as séries estatísticas utilizadas na representação de dados estatísticos. As variáveis são classificadas em quantitativas e qualitativas, e as séries estatísticas são representações gráficas de acordo com o tipo de variável utilizada. Variáveis Quantitativas: como a própria palavra diz, são variáveis que indicam uma quantidade. São o resultado de uma contagem de itens, dados ou informações sobre o objeto em questão. 8
  9. 9. As variáveis quantitativas se dividem em dois subgrupos: discretas e contínuas. Variáveis Quantitativas Discretas: quando seus valores são, em geral, uma contagem do número de itens de uma determinada característica, isto é, assumem valores inteiros. Exemplos: • 25 funcionários trabalham no setor de compras de uma empresa. • A inspeção da produção acusou que apenas 10 peças apresentaram algum defeito. • 40 alunos fizeram matrícula em Geografia no semestre passado. • 1.200 pessoas fizeram inscrição para o concurso público. Em todos os exemplos apresentados tem-se apenas o resultado de uma contagem, ou seja, valores inteiros. Variáveis Quantitativas Contínuas: quando seus valores podem assumir qualquer valor real dentro de um intervalo contínuo. Isto é, assumem todos os valores intermediários entre dois valores reais ou entre dois limites. As variáveis contínuas estão associadas a: altura, peso, comprimento, espessura, temperatura, pressão sanguínea, velocidade, tempo, etc. As variáveis contínuas também podem ser consideradas como aquelas cujo valor somente poderá pertencer a um intervalo. Exemplos: • A temperatura prevista para a cidade de Belo Horizonte, durante um certo dia, variou de 25º C a 28º C. • O paciente pesava entre 120 e 140 quilos. • As peças inspecionadas na revisão têm espessuras que variam de 2 a 5 milímetros. • A velocidade do automóvel utilizado na viagem de Belo Horizonte ao Rio de Janeiro variou de 10 a 110 quilômetros por hora. • As pessoas presentes em um seminário têm alturas que variam de 1,60 metros a 1,92 metros • A idade das pessoas presentes em um evento variou entre 40 e 45 anos. A diferença entre variáveis quantitativas discretas e as contínuas é que numa variável discreta, todo valor é exato, enquanto a variável contínua assume um valor dentro de um intervalo contínuo, isto é, todo valor é aproximado. Exemplos da diferença entre variável contínua e discreta: 9
  10. 10. 1) Discreta: 10 pessoas com 25 anos. Contínua: o peso das 10 pessoas. 2) Discreta: 100 peças na cor preta. Contínua: as espessuras de 100 peças variam de 1,5 a 3,0 milímetros. 3) Discreta: 25 moradores de uma localidade. Contínua: cor de pele dos moradores. 4) Discreta: 200 tubulações de PVC. Contínua: os diâmetros das tubulações compradas pela empresa X variam de 1,5 a 10 polegadas. Variáveis Qualitativas Vimos que variáveis quantitativas expressam quantidades. No entanto, muitas vezes precisamos expressar atributos ou qualidades. Variáveis Qualitativas: variáveis que indicam uma classificação, consistindo em atributos ou registros não-numéricos. As variáveis qualitativas se dividem em dois subgrupos: ordinais e nominais. Variáveis Qualitativas Ordinais: variáveis que estão classificadas por uma ordem. Exemplos: • Os filmes listados a seguir estão classificados por ordem de preferência do público. 1º – Van Helsing 2º – Tróia 3º – Diário de uma motocicleta A variável é a ordem de preferência. • A equipe X terminou o campeonato em 4º lugar. • O 1º colocado do concurso. A variável é a ordem de chegada. • Os cinco primeiros colocados no campeonato de futebol estarão classificados para a próxima fase. A colocação é a variável. Os exemplos ilustram bem a ordem em que as variáveis analisadas estão dispostas. Fica bem claro que a variável ordinal tem a principal característica de indicar uma ordem ou seqüência. Variáveis Qualitativas Nominais: variáveis que indicam uma classificação. Os dados podem ser classificados em categorias, grupos ou marcas. 10
  11. 11. Exemplos: • Cores dos automóveis de certo modelo. • Marcas de refrigerante: Coca-Cola, Sprite, Fanta, Mate-Couro, etc. • Partidos políticos: PMDB, PSDB, PT, PV, PSTU, etc. • Classificação dos itens de um estoque: A, B, C, D, etc. Estes exemplos mostram que os dados podem ser classificados sem a necessidade de um número, ou seja, podem simplesmente ser mencionados de acordo com uma classe ou categoria a que pertencem. Atividades 1) Dados os exemplos a seguir, determinar a classificação de cada um deles de acordo com o tipo de variável quantitativa (discreta ou contínua) ou qualitativa (nominal ou ordinal). a) Consumo dos refrigerantes da marca Coca-Cola e Pepsi; b) 1500 eleitores; c) Camisas tamanho P; d) Descrição das classificações dos tenistas pelo ranking da ATP: 1º - Rogerio Federer 2º - Guilhermo Gaudio 3º - Andre Agassi e) Temperatura em São Gonçalo para hoje: mínima de 28º C e máxima de 35º C; f) 2.000 pessoas inscritas para as provas do concurso. 2) Elaborar alguns exemplos de variáveis quantitativas discretas e contínuas. 3) Elaborar alguns exemplos de variáveis qualitativas nominais e ordinais. Planejamento de um estudo Estatístico Para o planejamento de um estudo estatístico, é de extrema importância considerar os seguintes itens: 1 - OBJETIVO É de grande importância a definição clara do objetivo para um levantamento estatístico, pois facilitará a análise dos resultados obtidos. 2 - POPULAÇÃO É o todo para efeito de análise; é o universo de dados que será analisado. A população deverá ser especificada claramente pelo pesquisador. Quanto maior a quantidade de informações conhecidas sobre a população, mais fácil será o processo de amostragem. 11
  12. 12. 3 - A COLETA DOS DADOS Deve-se evitar a inclusão de dados desnecessários no processo de amostragem. Essa inclusão poderá atrapalhar a análise dos dados, o tempo gasto será maior e o resultado obtido não terá finalidade. Os dados ou informações coletadas fazem parte do que é chamado banco de dados, que é composto por características numéricas − as variáveis. Um banco de dados de um levantamento estatístico terá, em geral, várias tabelas com múltiplas variáveis. Banco de dados é uma coleção organizada e inter-relacionada de dados persistentes. É o registro de conceitos e informações organizado.Programas de computador são utilizados para gerenciar um banco de dados. 4 - GRAU DE PRECISÃO Ao iniciar o processo de amostragem, deve-se especificar o grau de precisão desejado nos resultados. Deve-se considerar que elevar a precisão da pesquisa implica aumentar o tamanho da amostra, o que aumenta também o tempo e o custo. Quanto maior a amostra, maior a precisão do resultado, isto é, menor a margem de erro. Por exemplo, uma pesquisa realizada com 10.000 eleitores para determinar a preferência eleitoral em uma cidade apresenta resultado mais preciso do que outra realizada com apenas 1.000 eleitores. 5 - ANÁLISE DOS DADOS A análise dos dados é realizada através de medidas estatísticas que descrevem o comportamento dos dados. É usual organizá-los, primeiramente, em gráficos e tabelas. 6 - CONCLUSÃO A conclusão é a fase final do processo estatístico, em que os resultados são dispostos e avaliados com relação ao objetivo proposto. Os resultados são interpretados de acordo com o objetivo da pesquisa, e decisões são tomadas acerca das populações, utilizando-se a inferência estatística. Técnicas de amostragem O grande problema encontrado para a escolha dos elementos da amostra dentro da população está em determinar qual técnica de amostragem deverá ser utilizada. Isto é, qual técnica ou método será utilizado para se escolher quais elementos dentro da população serão selecionados para a amostra. Existem dois métodos para a seleção da amostra: métodos probabilísticos ou aleatórios e métodos não-probabilísticos. Os métodos probabilísticos são aqueles nos quais todos os itens da população têm a mesma probabilidade de ser incluídos na amostra, independentemente da pessoa que realiza a pesquisa. 12
  13. 13. Já os métodos não-probabilísticos são aqueles em que todos os itens da população têm uma oportunidade conhecida de ser incluídos na amostragem. Esses métodos são muito utilizados quer pela sua simplicidade, quer pela impossibilidade de se usar os métodos probabilísticos. São também conhecidos como amostragem subjetiva ou amostragem por julgamento. Se o tamanho da amostra é bem pequeno, com menos de 10 itens, por exemplo, a amostragem probabilística pode não dar resultados representativos da população, ao passo que uma pessoa com conhecimento mais profundo da população pode especificar os elementos que melhor representariam a população. Exemplo: O proprietário de uma rede de 10 postos de gasolina deseja implementar um novo serviço de pagamento, com cartão fidelidade para a sua rede de postos. Problemas de custo podem fazer com que essa implementação seja experimentada em apenas 3 postos, talvez por apresentarem maior número de consumidores, melhor localização e maior faturamento. Em vez de utilizarmos uma técnica estatística para a escolha dos postos usados como teste para a implementação do serviço de pagamento, é melhor confiar no julgamento e conhecimento do proprietário para fazer a escolha. Diante de situações como essa, a ênfase será dada aos tipos de amostragens probabilísticas, pois tem-se o conhecimento da probabilidade de todas as combinações possíveis e é possível fazer uma estimativa do erro da amostra. Os métodos probabilísticos podem ser com reposição ou sem reposição. Amostragem com reposição: cada elemento da população pode ser escolhido mais de uma vez na amostra. Exemplos: - Amostragem dos eleitores de uma cidade. - Amostragem dos consumidores de um determinado produto. - Amostragem dos moradores de um bairro. Em todos esses exemplos de amostragem, as pessoas poderão ser entrevistadas novamente, ou seja, todos têm a mesma probabilidade de ser escolhidos novamente. Amostragem sem reposição: cada elemento da população pode ser escolhido apenas uma vez na amostra. Exemplos: - Testes de balística. É um teste muito utilizado pela polícia. É um teste destrutivo. - Testes de resistência de um equipamento eletrônico. - Verificação da resistência de um copo de vidro. - Verificação da qualidade de um pára-brisa blindado. Os itens destrutíveis podem ser escolhidos apenas uma vez, pois torna-se impossível a sua reposição. É importante destacar que, em estudos estatísticos, em que o processo de amostragem apresenta um custo elevado, é aconselhável evitar o exame repetido dos elementos. 13
  14. 14. Quatro técnicas de amostragem probabilística serão abordadas: a) amostragem aleatória simples; b) amostragem estratificada; c) amostragem por conglomerado; d) amostragem sistemática. Essas técnicas se diferenciam pela maneira como a amostra é escolhida dentro da população. Amostragem Aleatória Simples Esta é a técnica mais comumente utilizada para a seleção de amostras. Os processos de amostragem aleatória podem ser realizados pela utilização de Tabelas de Números Aleatórios ou por sorteio. Tabela de Números Aleatórios é uma tabela que contém todos os algarismos de 0 a 9 dispostos isoladamente ou em grupos; podem ser lidos de cima para baixo, na mesma coluna, ou da esquerda para a direita. A principal característica da tabela é que os algarismos estão dispostos aleatoriamente, isto é, não têm uma ordem ou seqüência de aparição. Para a obtenção de amostras aleatórias utilizando as Tabelas de Números Aleatórios (TNA)2 adota-se a seguinte seqüência: a) Enumeram-se os itens da população de 1 a N. b) Seleciona-se aleatoriamente um ponto onde iniciar a linha e a coluna da tabela de números aleatórios com o mesmo número de algarismos quantos forem os de N. c) Escolhe-se uma direção, por exemplo, na mesma coluna, de cima para baixo, ou na mesma linha, da esquerda para a direita, e anotam-se os números obtidos, descontando os números maiores do que N. Prossegue-se na direção escolhida até que se complete a amostra. d) Se a amostragem for com reposição, registram-se as repetições; se for sem reposição, abandonam-se as repetições. O exemplo a seguir ilustra a seleção de uma amostra utilizando uma tabela de números aleatórios. Exemplo: Há 500 pessoas participando de um seminário sobre Administração de Negócios. Uma amostra de 20 participantes deverá ser selecionada para responder a algumas questões. Solução: - De acordo com a seqüência acima, devem-se enumerar todos os participantes do seminário de 1 a 500, o que pode ser feito através da distribuição de senhas para cada um. - Deve-se, agora, escolher aleatoriamente um ponto na Tabela de Números Aleatórios onde iniciar a contagem dos 20 números que farão parte da amostra. - O próximo passo é anotar os números de três algarismos (porque o maior número de 14
  15. 15. participantes é 500, isto é, apresenta três algarismos) que forem menores do que 500. A leitura dos números deve ser realizada de cima para baixo, da esquerda para a direita. - A amostragem não será com reposição, pois a mesma pessoa não poderá responder ao mesmo questionário mais de uma vez. Portanto, os números que forem repetidos deverão ser descartados, assim como os números maiores do que 500. Suponha que o lugar escolhido aleatoriamente na tabela tenha sido a linha 3, coluna 1. O número obtido foi o 582. Como não existe uma pessoa com a senha 582, esse número é, então, descartado e passa-se ao próximo, na linha imediatamente abaixo. O número 642 também não existe, nem 573 .... O primeiro número escolhido é o 347, o segundo é o 196. O processo deverá continuar até que todos os 20 participantes sejam selecionados. Acompanhe a escolha dos 20 números na tabela de Números Aleatórios abaixo: 893 964 947 369 482 587 856 599 617 940 983 628 998 504 083 295 538 421 582 029 022 132 059 193 876 829 600 642 788 787 347 197 306 466 051 514 573 839 569 413 053 345 018 757 998 962 321 451 807 903 573 305 269 102 347 094 672 434 526 648 484 880 950 196 543 307 103 980 243 496 958 835 914 858 766 581 106 386 300 587 490 429 358 059 011 836 405 516 152 484 244 491 061 181 615 372 524 884 762 048 558 743 360 179 586 270 682 234 034 050 200 713 238 039 562 510 134 904 115 097 965 315 753 150 385 593 780 267 433 206 038 568 380 210 111 871 887 982 521 239 209 122 247 780 046 890 074 929 895 174 405 899 497 588 025 444 041 776 785 704 693 233 347 359 725 317 149 796 838 208 545 966 278 274 615 596 414 727 128 406 680 033 223 664 596 469 770 976 981 316 822 520 177 873 567 801 336 665 818 143 839 906 067 276 648 676 961 073 926 758 366 355 831 059 087 227 768 504 733 678 531 024 653 489 120 15
  16. 16. 455 231 232 136 542 723 954 290 929 137 955 235 659 752 864 986 774 530 488 342 017 718 957 968 651 743 791 095 481 572 088 631 562 909 456 436 656 094 681 647 161 050 113 977 797 252 554 383 520 287 621 948 327 992 317 347 250 597 127 523 458 717 425 125 609 094 627 370 228 578 600 762 597 039 980 114 989 907 456 550 767 181 938 680 761 416 722 336 348 694 010 541 515 694 281 873 936 621 911 002 605 333 155 824 486 541 393 356 273 587 952 261 273 470 276 026 489 786 587 952 261 273 470 276 026 489 786 879 421 623 217 108 073 414 707 Tem-se uma amostra de 20 participantes com os seguintes números: 347; 196; 429; 244; 048; 034; 046; 316; 073; 455; 137; 488; 095; 252; 317; 125; 181; 010; 002 e 273. Repare que o número 347 aparece duas vezes e, na segunda vez, é descartado, pois já havia sido escolhido, e o processo de escolha não permite que o entrevistado responda ao mesmo questionário mais de uma vez. EXERCÍCIO 1) Uma empresa possui 250 funcionários. Escolher uma amostra aleatória simples composta de 30 pessoas para fazer um levantamento e descrever os passos que serão adotados. 2) Descrever os passos para a escolha aleatória simples de 20 estudantes dentro de uma faculdade com 1.000 alunos. Amostragem Aleatória por sorteio Outra maneira de realizar uma amostragem simples é por sorteio. Exemplo: Deseja-se fazer uma pesquisa de opinião com os eleitores de Salvador. Eles serão submetidos a um questionário sobre as propostas dos novos candidatos ao governo. Torna-se impraticável entrevistar todos os eleitores de um bairro de Salvador sobre as propostas dos novos candidatos ao governo, pois a análise tomaria muito tempo e o custo dessa pesquisa seria altíssimo. Então, utiliza-se uma amostragem aleatória. Serão escolhidos, aleatoriamente, 500 eleitores para a pesquisa. Se o número de moradores do bairro é conhecido e todos podem ser listados, então, a escolha desses eleitores pode ser realizada por sorteio. 16
  17. 17. A amostragem aleatória por sorteio é mais simples. Todos os elementos da população deverão estar enumerados ou listados. Pode-se utilizar uma urna que contenha todos os números dos elementos e, então, iniciar o sorteio. Esse sorteio é realizado de forma semelhante à forma como são sorteados os números de jogos da Loteria Federal. Da mesma forma que o exemplo anterior, os moradores que já foram entrevistados não deverão participar novamente da pesquisa. Assim, diz-se que o processo foi realizado sem reposição, ou seja, todos os itens já escolhidos numa primeira amostragem serão descartados quando aparecerem pela segunda vez. Essa é bastante simples, não é mesmo? Amostragem Estratificada Esta técnica de amostragem é utilizada quando é necessário que haja um representante de cada segmento da população incluído na amostra. Por exemplo, para coletar uma amostra dos moradores de uma cidade, podem-se dividir as residências por níveis socioeconômicos e depois escolher, aleatoriamente, uma amostra dos moradores. É importante que uma característica comum seja escolhida para a coleta das informações amostrais. No caso do exemplo, a característica é o nível socioeconômico. Dependendo do objetivo da pesquisa, os elementos da população podem ser divididos em subgrupos maiores com características similares, como idade, peso, nível social, localização geográfica, raça, etc. Portanto, uma amostragem estratificada é obtida separando-se a população em subgrupos com características homogêneas ou similares e selecionando-se, independentemente, uma amostra aleatória simples em cada um desses subgrupos. Existem dois tipos de amostragem estratificada: a) as que têm o mesmo tamanho; b) as proporcionais. Na amostragem estratificada de mesmo tamanho sorteia-se um número igual de elementos em cada subgrupo. Esse processo é utilizado quando o número de elementos por subgrupo for igual ou aproximadamente o mesmo. Quando cada subgrupo apresenta números diferentes de elementos utiliza-se, então, a amostragem estratificada proporcional, em que o número de elementos que devem ser escolhidos em cada grupo é proporcional ao número de elementos do grupo. O processo de amostragem é realizado da seguinte maneira: S - é o número de subgrupos; Ni - é o número de elementos de amostragem no subgrupo i; N - é o número de elementos da população; n - é o número de elementos da amostra. 17
  18. 18. Cada subgrupo possui características similares. Com isso, têm: N = N1 + N2 + N3 + ... + NS Determina-se a fração de amostragem f dada por: f = n N Fração de amostragem é a razão entre o número de elementos da amostra e o número total de elementos da população. O número de elementos sorteados em cada subgrupo é definido pelo produto deste fator f e do número de elementos de amostragem em cada subgrupo: N1.f, N2.f, ... NS.f Exemplo: Deseja-se obter uma amostra de 20 participantes de um seminário, para aplicação de um questionário sobre o tema abordado nas palestras da série “Violência nas Grandes Cidades”. Sabe- se que a informação que as pessoas prestam está relacionada à região onde moram. O seminário possui participantes de 4 Estados brasileiros, sendo assim compostos: 50 do Rio de Janeiro; 100 de São Paulo; 30 de Minas Gerais e 20 da Bahia. Como deverá ser realizada a amostragem para se escolher os participantes do seminário? Solução: Deve-se utilizar a técnica de amostragem estratificada, pois é importante que se tenham representantes de todos os 4 Estados em número proporcional ao número de representantes de cada Estado. O primeiro passo é separar os participantes em subgrupos de Estados. Depois, deve-se fazer a amostragem dentro de cada subgrupo. A população do seminário em questão é de 200 participantes. 18
  19. 19. Os subgrupos serão: Rio de Janeiro: N1 50 participantes São Paulo: N2 100 participantes Minas Gerais: N3 30 participantes Bahia: N4 20 participantes. O tamanho da população é: N = N1 + N2 + N3 + N4 N = 50 + 100 + 30 + 20 = 200 participantes A fração de amostragem será: f = n N = 20 200 =0,10 O número de elementos sorteados em cada subgrupo será definido pelo produto desse fator de amostragem f pelo número de elementos de amostragem em cada subgrupo. N1 . f = 50 . 0,10 = 5 participantes escolhidos aleatoriamente no subgrupo 1. N2 . f = 100 . 0,10 = 10 participantes escolhidos aleatoriamente no subgrupo 2. N3 . f = 30 . 0,10 = 3 participantes escolhidos aleatoriamente no subgrupo 3. N4 . f = 20 . 0,10 = 2 participantes escolhidos aleatoriamente no subgrupo 4. O total de participantes escolhidos por amostragem estratificada foi de 20, sendo 5 do Rio de Janeiro, 10 de São Paulo, 3 de Minas Gerais e 2 da Bahia. Exemplos: Deseja-se realizar uma amostra de 1.000 moradores de uma certa cidade para a aplicação de um questionário sobre consumo. É necessário que sejam entrevistadas pessoas com rendas baixa, média e alta. A cidade possui 2 milhões de habitantes divididos da seguinte maneira: Renda baixa: 1.400.00 habitantes Renda média: 500.000 habitantes Renda alta: 100.000 habitantes Como deverá ser o plano de amostragem para esta pesquisa? Solução: Deve-se utilizar a técnica de amostragem estratificada, pois é importante que se obtenham respostas dos três níveis de renda. Como o número de pessoas em cada nível de renda é diferente, utiliza-se a amostragem estratificada proporcional. O primeiro passo é separar as pessoas em subgrupos de nível de renda e, então, fazer a amostragem dentro de cada subgrupo. A população do cidade é de 2.000.000 de pessoas. O subgrupos são divididos da seguinte forma: Renda baixa: N1 = 1.400.000 pessoas Renda média: N2 = 500.000 pessoas Renda alta: N3 = 100.000 pessoas 19
  20. 20. O tamanho da população: N = N1 + N2 + N3 N = 1.400.000 + 500.000 + 100.000 = 2.000.000 pessoas A fração de amostragem será: f = n N = 1.000 2.000.000 =0,0005 O número de elementos sorteados em cada subgrupo será definido pelo produto do fator de amostragem f pelo número de elementos de amostragem em cada subgrupo. Tem-se: N1 . f = 1.400.000 . 0,0005 = 700 pessoas devem ser escolhidas, aleatoriamente, no subgrupo de baixa renda. N2 . f = 500.000 . 0,0005 = 250 pessoas devem ser escolhidas, aleatoriamente, no subgrupo de renda média. N3 . f = 100.000 . 0,0005 = 50 pessoas devem ser escolhidas, aleatoriamente, no subgrupo de renda alta. O total de pessoas escolhidas nesta amostragem estratificada é de 1.000, sendo 700 de baixa renda, 250 de renda média e apenas 50 de renda alta. Viu que não é difícil entender essa história de amostragem estratificada proporcional? Agora é só usar sempre que você precisar. Amostragem por conglomerado A amostragem por conglomerado é uma amostra aleatória simples em que cada unidade de amostragem é um subgrupo com características heterogêneas, ou um conglomerado de elementos representativos da população. São minipopulações. Geralmente são grupos que se acham ligados por um pequeno contato físico. Ex.: casas, quarteirões, bairros, etc. Primeiramente, devem-se especificar adequadamente os conglomerados. O número de elementos num conglomerado deverá ser pequeno em relação ao tamanho da população, e o número de conglomerados deverá ser razoavelmente grande. Neste tipo de amostragem, a população é dividida em subgrupos com características heterogêneas, e são selecionadas amostras aleatórias simples de subgrupos. Com isso, todos os elementos dos subgrupos (conglomerados) selecionados farão parte da amostra. A amostragem por conglomerado pode ser utilizada quando não se tem uma lista com todos os elementos da população ou quando a obtenção dessa listagem é uma tarefa muito longa e cara. Exemplo 1: Deseja-se fazer uma pesquisa com os moradores de um bairro da cidade. O objetivo é saber a opinião deles sobre a construção de um grande centro de compras. Como o bairro é grande e não se tem a listagem completa de todos os moradores e sua obtenção tornaria a pesquisa muito cara e demorada, utiliza-se uma amostragem por conglomerados. Para a realização da amostragem por conglomerados, deve-se separar o bairro em subgrupos de características heterogêneas, como, por exemplo, quarteirões. Nos quarteirões tem-se uma representação da população de moradores do bairro. O quarteirão pode ser considerado uma mini população, pois os moradores de cada quarteirão têm as mesmas características dos moradores do bairro. 20
  21. 21. Área do bairro 01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 Essa imagem mostra a área do bairro, composta por 15 quarteirões. Para a escolha dos quarteirões, utiliza-se uma amostragem aleatória, e todos os moradores selecionados são entrevistados. Uma amostragem de 4 quarteirões pode ser realizada por sorteio. Colocam-se todos os números correspondentes a cada quarteirão dentro de uma urna, de onde serão tirados apenas 4. Suponha que tenham sido escolhidos os quarteirões 3, 7, 9 e 15. A todos os moradores desses quarteirões serão aplicados os questionários sobre a construção do centro de compras. Exemplo 2: O prefeito de uma cidade deseja realizar uma pesquisa sobre as despesas familiares de seus habitantes. Uma forma de extrair uma amostra nesta situação consiste em dividir a área total da cidade em diversas áreas menores, como quarteirões ou bairros. Selecionam-se, então, aleatoriamente, alguns desses quarteirões, com a amostra final constituída de todas as famílias residentes em alguns deles. Nesse tipo de amostragem, torna-se muito menos dispendioso, em termos de custo e tempo, trabalhar com uma amostra em que as famílias estão mais próximas, em conglomerados, do que com famílias selecionadas aleatoriamente sobre toda a área de uma cidade. Se a amostra aleatória fosse realizada em toda a cidade, o custo e o tempo de análise das respostas seriam muito maiores, pois os pesquisadores teriam que rodar distâncias mais longas para realizar as entrevistas com as famílias. Diante dos conceitos e características apresentados sobre amostragem por conglomerados, é a sua vez de colocar em prática o que aprendeu. EXERCÍCIO 1) Suponha que uma pesquisa seja realizada na cidade de Petrópolis-RJ. O objetivo é determinar as principais marcas de preferência de consumo de determinado produto pelos moradores de cada bairro. Elaborar um plano de amostragem dos moradores dos bairros por conglomerados. 21
  22. 22. Amostragem sistemática A amostragem sistemática consiste em escolher os elementos da população de forma periódica, isto é, os elementos da população serão escolhidos em intervalos regulares. Esses intervalos serão determinados pela fórmula que definiremos a seguir. É utilizado um sistema de seleção semelhante ao da amostragem aleatória simples. A diferença entre a amostragem aleatória simples e a amostragem sistemática é que esta última utiliza um fator periódico para a escolha dos elementos, enquanto a aleatória simples não utiliza critério algum. Não é aconselhável a utilização deste método nos casos em que os itens estão agrupados ou listados em caráter periódico, pois a amostra poderá apresentar características tendenciosas, contendo apenas elementos com características semelhantes. Para obter uma amostragem sistemática é necessário: 1) obter uma lista da população e numerá-la de 1 a N; 2) calcular k= N n , onde N é o tamanho da população e n é o tamanho da amostra. O k é chamado de passo da escolha; 3) dividir a população em grupos de k elementos; 4) escolher aleatoriamente um número na TNA para determinar onde começar. Os elementos seguintes serão escolhidos somando-se ou subtraindo-se k ao número anterior. Exemplo 1: A tabela a seguir apresenta os lucros líquidos, em reais, obtidos por uma empresa de eventos na realização de 30 apresentações de uma mesma banda. Queremos obter uma amostra sistemática de 5 valores de lucros líquidos, em reais. 01 02 03 04 05 06 07 08 09 10 20.000 17.500 12.000 10.000 8.000 12.500 11.000 14.000 18.000 15.200 11 12 13 14 15 16 17 18 19 20 16.200 15.000 11.000 19.000 28.000 16.800 17.000 11.200 19.600 14.800 21 22 23 24 25 26 27 28 29 30 10.000 15.000 14.000 10.000 9.000 11.500 14.000 13.000 15.000 19.200 Solução: • A lista de todos os lucros obtidos na realização dos 30 eventos já está na tabela exibida. • Deve-se escolher o passo que será utilizado para a escolha dos valores de lucro. O fator passo será: k= N n = 30 5 =6 • Então, devem ser escolhidos os lucros com passos de 6 em 6. • Escolher, na TNA, um número aleatório de apenas um algarismo. • Suponha que o número escolhido tenha sido o 3; então, o primeiro elemento da amostra de lucro 22
  23. 23. líquido é o 3. Somando-se k = 6 a esse número obtido na tabela, tem-se uma amostra de 5 itens. 3º + 6 = 9º + 6 = 15º + 6 = 21º + 6 = 27º 01 02 03 04 05 06 07 08 09 10 20.000 17.500 12.000 10.000 8.000 12.500 11.000 14.000 18.000 15.200 11 12 13 14 15 16 17 18 19 20 16.200 15.000 11.000 19.000 28.000 16.800 17.000 11.200 19.600 14.800 21 22 23 24 25 26 27 28 29 30 10.000 15.000 14.000 10.000 9.000 11.500 14.000 13.000 15.000 19.200 Então, os valores de lucro escolhidos pela amostragem sistemática são: 12.000; 18.000; 28.000; 10.000 e 14.000 EXERCÍCIO: Deseja-se selecionar uma amostra sistemática de 10 aparelhos, de um total de 200, que estão guardados no estoque. Qual seria o plano de amostragem adotado? Casos em que uma Amostragem não se justifica Existem três ocasiões em que é preferível analisar todos os itens de uma população. 1 - Quando a população é muito pequena. Uma população pode ser considerada pequena quando o custo e o tempo de análise dos dados são pouco maiores do que seriam para a realização de uma amostra. Exemplo: A análise dos dados dos 10 funcionários de uma empresa. Neste caso, como a população é pequena, torna-se desnecessária a aplicação de uma técnica de amostragem. A análise dos dados obtidos de 10 funcionários toma muito pouco tempo e tem baixo custo. 2 - Quando há uma grande variação entre as respostas obtidas. A amostra deverá ser muito grande para ser representativa da população; uma amostragem pequena pode levar a erros de interpretação dos resultados. Exemplo: Se as respostas dadas a um questionário aplicado a 2.000 moradores de um bairro forem muito diferentes umas das outras, é essencial que se trabalhe com uma amostragem muito alta. Essa amostragem pode estar próxima do tamanho da população. Nesse caso, opta-se por trabalhar com toda a população, pois obtém-se um resultado mais confiável. 3 - Quando é necessária uma precisão muito alta. Nesse caso, a análise da população é a opção mais adequada. Exemplo: Censo demográfico 23
  24. 24. EXERCÍCIO 1) Dar exemplos de amostragem aleatória simples e de amostragem sistemática. 2) Quais são as diferenças que você pode notar entre as amostragens aleatória simples e a sistemática? 3) Em que situações é preferível adotar o levantamento e a análise de toda a população, ao invés de utilizar uma técnica de amostragem? 4) Uma empresa possui 400 funcionários. Determinar um plano de amostragem aleatória para a escolha de 40 funcionários. 5) Você é responsável por determinar a opinião dos profissionais graduados em Administração de Empresas e que atuam no mercado de trabalho de uma determinada cidade, sobre a produção industrial. Identificar a técnica de amostragem que deverá ser utilizada para cada uma das amostras representadas nos itens a, b e c, a seguir. a) Selecionar aleatoriamente uma empresa e aplicar o questionário aos administradores que nela trabalham. b) Dividir a população de administradores em relação ao ramo de atividade da empresa, realizar uma amostra aleatória dos profissionais e fazer perguntas a alguns administradores de cada ramo. c) Listar o nome de todos os profissionais e escolher, aleatoriamente, um certo número deles. Os administradores escolhidos serão entrevistados no que diz respeito à produção industrial. Séries Estatísticas Não é conveniente apresentar os dados para uma análise exatamente da forma como são coletados. Um dos objetivos da Estatística é resumir os dados de forma clara para se ter uma visão global das características das variáveis. O principal objetivo desta nossa aula é mostrar as formas de apresentação de dados mais utilizadas, de acordo com a variável de interesse. Após a coleta dos dados, torna-se necessária a disposição deles em tabelas ou gráficos, para que haja um melhor entendimento. Na maioria das vezes, eles se encontram na forma bruta, isto é, sem qualquer ordenação ou classificação. Portanto, é necessário colocá-los em ordem crescente ou decrescente, ou até mesmo classificá-los de acordo com as variáveis que os representam. Exemplo: Uma amostra da altura de 122 pessoas presentes em um evento. Os valores referentes às alturas podem ser colocados em ordem crescente e estar associados a um grupo de pessoas que apresentam a mesma altura. Isto é, os valores de alturas estarão posicionados em ordem crescente, como apresentado na tabela abaixo. Alturas, em centímetros Nº de pessoas 150 ├── 160 5 160 ├── 170 25 170 ├── 180 48 180 ├── 190 32 190 ├── 200 10 200 ├── 210 2 Total 122 24
  25. 25. A forma como essa tabela é construída será estudada com maiores detalhes em Distribuição de Freqüência. A disposição dos dados em tabelas evita uma análise errônea, principalmente se os dados e informações coletados forem muito extensos. Com a utilização de tabelas e gráficos, é possível fornecer informações rápidas sobre as variáveis em estudo. A tabela é uma apresentação numérica de dados coletados e ordenados de forma bem clara; o gráfico é uma apresentação geométrica mais rápida e mais clara de ser visualizada. Veja o exemplo de representação gráfica da tabela das alturas, mostrada anteriormente. Observe que toda representação tabular usa um dos 3 fatores seguintes: • Fator cronológico ou temporal - determina a época ou o período do tempo em que ocorre. • Fator espacial ou geográfico - determina o local onde ocorre. • Fator Especificativo ou a espécie do fato - tem somente a espécie do fato ou a categoria. De maneira geral, as representações tabulares são chamadas Séries Estatísticas. A Série Estatística é um agrupamento dos dados referentes a uma mesma ordem de classificação. Assim, as séries estatísticas podem ser classificadas em: - Série Temporal - Série Geográfica - Série Específica Vamos aos exemplos de cada um desses 3 tipos de série. 1. Série Temporal Apresenta somente o fator cronológico ou temporal como variável de análise. 25
  26. 26. Exemplo: Produção Brasileira de Motos 1996-1998 Ano Produção (unidades) 1996 288.073 1997 426.547 1998 476.655 Fonte: Revista ISTO É – no 1546 Apresentação do tempo: • Toda série temporal consecutiva deve ser apresentada, em uma tabela, por seus períodos inicial e final ligados por um hífen (-). Exemplos: 1991 – 1995 apresenta dados numéricos para os anos de 1991, 1992, 1993, 1994, 1995; Out 1991 – Mar 1992 apresenta dados numéricos para os meses de outubro, novembro e dezembro de 1991 e janeiro, fevereiro e março de 1992. • Toda série temporal não consecutiva deve ser apresentada, em uma tabela, por seus períodos inicial e final ligados por barra (/). Ex: 1991/1995 apresenta dados para os anos entre 1991 e 1995, deixando de apresentar dados numéricos para algum (ns) dos anos desta série. Série Geográfica: usada para apresentar dados de diferentes regiões geográficas, em determinado tempo. Exemplo: Vacinação contra a Poliomielite 1993 Regiões Quantidade Norte 211.209 Nordeste 631.040 Sudeste 1.119.708 Sul 418.785 Centro-Oeste 185.823 Fonte: Ministério da Saúde 26
  27. 27. Série Categórica: usada para apresentar dados que se distribuem em diferentes categorias, em determinado tempo e local. Exemplo: Avicultura Brasileira 1992 Espécies Número (1.000 cabeças) Galinhas 204.160 Galos, frangos, frangas e pintos 435.465 Codornas 2.488 Fonte: IBGE Séries Mistas ou Conjugadas (tabela de dupla entrada): quando são feitas combinações de duas ou mais séries. Exemplo: Exportação Brasileira 1985/1995 Importadores 1985 1990 1995 América Latina 13,0 13,4 25,6 EUA e Canadá 28,2 26,3 22,2 Europa 33,9 35,2 20,7 Ásia e Oceania 10,9 17,7 15,4 África e Oriente Médio 14,0 8,8 5,5 Fontes: MIC e SECEX Nota: Valores em percentagem REPRESENTAÇÃO GRÁFICA DAS SÉRIES ESTATÍSTICAS Os gráficos produzem uma visão mais rápida e viva do fenômeno em estudo, ajudando a visualizar as tendências e a interpretar os valores representativos deste fenômeno. Requisitos Fundamentais na Representação Gráfica: • O gráfico deve ser simples, claro e deve expressar a verdade sobre o fenômeno em estudo; • Todo gráfico deve ter título e escala, para que possa ser interpretado sem que haja necessidade de esclarecimentos adicionais no texto; • O título do gráfico pode ser escrito acima ou abaixo do gráfico. O IBGE escreve o título acima do gráfico; 27
  28. 28. • As variáveis devem ser claramente identificadas; • A escala deve iniciar-se na origem do sistema de eixos cartesianos. Quando os valores iniciais dos dados são muito altos, deve ser feita uma interrupção no eixo, com indicação clara da posição do zero; • O sistema de eixos cartesianos e as linhas auxiliares devem ter traçado mais leve do que a parte do gráfico que se pretende evidenciar; • Para facilitar a leitura, podem ser feitas linhas auxiliares. Nesses casos, o gráfico é feito dentro de um retângulo. Principais Tipos de Gráficos: •••• Diagramas •••• Cartogramas •••• Pictogramas Cartogramas: São representações através de mapas (cartas geográficas). Este gráfico é empregado quando o objetivo é o de relacionar os dados estatísticos diretamente com áreas geográficas ou políticas. Pictogramas: É a representação gráfica através de figuras. Por se tratar de uma apresentação atraente, é um gráfico que desperta muito a atenção do leitor. Diagramas: São gráficos geométricos construídos, em geral, no sistema cartesiano. Principais Diagramas: Gráfico em Linha, Gráfico em Colunas, Gráfico em Barras, Gráfico em Colunas ou em Barras Múltiplas e Gráfico em Setores. Gráfico em Linha: Usado para apresentar as séries temporais. Representado num sistema de coordenadas cartesianas, cada par de valores da série corresponde a um ponto. Estes pontos são unidos por segmentos de reta. Exemplo: Tabela 1 PRODUÇÃO BRASILEIRA DE CAFÉ 1991-1995 ANOS PRODUÇÃO (1.000 t) 1991 2.535 1992 2.666 1993 2.122 1994 3.750 1995 2.007 FONTE: IBGE 28
  29. 29. PRODUÇÃO BRASILEIRA DE CAFÉ 1991-1995 0 500 1.000 1.500 2.000 2.500 3.000 3.500 4.000 1991 1992 1993 1994 1995 ANOS PRODUÇÃO(1.000t) Regras para a elaboração de um gráfico em linhas: • Fixe a largura (l) do gráfico; • Determine a altura máxima e a altura mínima de acordo com as normas a seguir: hmín = 60% da largura e hmáx = 80% da largura • Determine os limites da escala, dividindo o maior valor a representar pela altura máxima e pela altura mínima; • Determine a escala, escolhendo um valor, de preferência inteiro, entre os valores encontrados para limites; • Trace um sistema de coordenadas cartesianas; • Determine, graficamente, todos os pontos da série; • Ligue esses pontos, dois a dois, por segmentos de reta; • Identifique, claramente, as variáveis nos dois eixos; • Acrescente o Título, a Fonte e a Legenda (quando necessária). Gráfico em Colunas: Usado para representar as séries cronológicas, geográficas e categóricas. Representado por meio de retângulos de mesma base, dispostos verticalmente (em colunas). Exemplo: 29
  30. 30. Tabela 1 PRODUÇÃO BRASILEIRA DE CAFÉ 1991-1995 ANOS PRODUÇÃO (1.000 t) 1991 2.535 1992 2.666 1993 2.122 1994 3.750 1995 2.007 FONTE: IBGE PRODUÇÃO BRASILEIRADE CAFÉ 1991-1995 0 500 1.000 1.500 2.000 2.500 3.000 3.500 4.000 1991 1992 1993 1994 1995 ANOS PRODUÇÃO(1.000t) Gráfico em Barras: Usado para representar as séries geográficas e categóricas. Representado por meio de retângulos dispostos horizontalmente (em barras). Exemplo: 30
  31. 31. Tabela 2 EXPORTAÇÕES BRASILEIRAS MARÇO – 1995 ESTADOS VALOR (US$ milhões) São Paulo 1.344 Minas Gerais 542 Rio Grande do Sul 332 Espírito Santo 285 Paraná 250 Santa Catarina 202 FONTE: SECEX E X P O R T A Ç Õ E S B R A S IL E IR A S M A R Ç O - 1 9 9 5 0 5 0 0 1 . 0 0 0 1 . 5 0 0 S ã o P a u lo M in a s G e r a is R io G r a n d e d o S u l E s p í r it o S a n t o P a r a n á S a n t a C a t a r in a V a l o r ( U S $ m i l h õ e s ) OBSERVAÇÕES: 1) O procedimento para a construção de um gráfico em colunas (ou barras) é análogo ao do gráfico em linhas, observando que no gráfico em barras deve-se fazer a inversão nos eixos cartesianos (o eixo x corresponde a altura e o eixo y corresponde a largura). 2) Sempre que os dizeres a serem inscritos forem extensos, deve-se dar preferência ao gráfico em barras (séries geográficas e específicas). Gráfico em Colunas ou em Barras Múltiplas: Usado para representar as séries conjugadas. Exemplo: 31
  32. 32. Tabela 3 BALANÇA COMERCIAL DO BRASIL 1989 – 1993 ESPECIFICAÇÕES VALOR (US$ 1.000.000) 1989 1990 1991 1992 1993 Exportação (FOB) 34.383 31.414 31.620 35.793 38.783 Importação 18.263 20.661 21.041 20.554 25.711 FONTE: Ministério da Fazenda BALANÇA COMERCIAL DO BRASIL 1989-1993 0 5.000 10.000 15.000 20.000 25.000 30.000 35.000 40.000 45.000 1989 1990 1991 1992 1993 Valor(us$1.000.000) Exportação (FOB) Importação Gráfico em Setores: Construído com base em um círculo, este gráfico é usado para comparar proporções. Exemplo: 32
  33. 33. Tabela 4 REBANHO SUINO DO SUDESTE DO BRASIL 1992 ESTADOS QUANTIDADE (mil cabeças) Minas Gerais 3.363,7 Espírito Santo 430,4 Rio de Janeiro 308,5 São Paulo 2.035,9 Total 6.138,5 FONTE: IBGE REBANHO SUÍNO DO SUDESTE DO BRASIL 1992 55% 33% 5% 7% Minas Gerais Espírito Santo Rio de Janeiro São Paulo Regras para a elaboração de um gráfico em setores: • Trace uma circunferência. A área do círculo representa o total, isto é, 100%, devendo ser dividida em tantos setores quantas sejam as partes. • Lembre-se de que uma circunferência tem 360°. Então, se ao total correspondem 360°, a cada parte corresponderá um setor cujo ângulo x é dado por: TOTAL PARTE x 360× = • Marque os valores dos ângulos calculados na circunferência e trace os raios, separando os setores. • Para facilitar a distinção, faça um tracejado diferente em cada setor. • Coloque título e legenda no gráfico. OBS.: Para clareza dos dados, deve-se usar no máximo sete setores. 33
  34. 34. DISTRIBUIÇÃO DE FREQUÊNCIAS Freqüentemente, ao coletar dados, o pesquisador se depara com uma grande massa de valores numéricos, que se repetem algumas vezes, dificultando sua análise e interpretação. Surge então a necessidade de organizar esses dados em uma tabela onde os valores observados se apresentam associados individualmente ou em classes com os números de suas repetições, isto é, com suas respectivas freqüências. Esta tabela recebe o nome de Distribuição de Freqüências. De acordo com a disposição dos dados têm-se dois tipos de distribuição: Distribuição de Freqüências Simples (dados não agrupados ou não tabulados em classes de valores) É uma tabela onde os valores da variável analisada aparecem individualmente correlacionados com os números de suas repetições (freqüências). Esse tipo de distribuição é normalmente usado para representar variáveis discretas. Exemplo: Tabela 1 Número de Acidentes Registrados na ponte Rio-Niteroi em Janeiro de 2009 Nº de Acidentes Nº de Dias 0 18 1 5 2 2 3 2 4 3 5 1 Total 31 FONTE: Dados Hipotéticos Distribuição de Freqüências por Classes (dados agrupados ou tabulados em classes de valores) Quando a variável analisada apresenta um grande número de valores torna-se mais vantajoso o agrupamento destes em classes de freqüência, evitando assim grande extensão da tabela e facilitando a visualização do fenômeno como um todo. 34
  35. 35. A distribuição de freqüências por classes é uma tabela onde os valores observados são agrupados em classes, isto é, em intervalos de variações da variável em questão. Esse tipo de distribuição é normalmente usado para representar variáveis contínuas. É utilizada também para representar variáveis discretas em um grande número de valores observados. Exemplo: Tabela 2 Salários dos funcionários da UERJ Salários (R$) Nº de funcionários 1000 1200 2 1200 1400 6 1400 1600 10 1600 1800 5 1800 2000 2 Total 25 FONTE: Dados Hipotéticos A seguir são apresentados alguns conceitos fundamentais para a compreensão dessas séries. Dados Brutos É a apresentação dos dados observados na seqüência em que foram coletados, isto é, sem nenhuma ordenação numérica. Exemplo: O número de peças defeituosas obtidas da produção de uma máquina durante vinte dias foi: 2 – 4 – 2 – 1 – 2 – 3 – 1 – 0 – 5 – 1 – 0 – 1 – 1 – 2 – 0 – 1 – 3 – 0 – 1 – 2 Rol É a organização dos dados brutos em ordem crescente ou decrescente. Exemplo: O rol do exemplo anterior é: 0 – 0 – 0 – 0 – 1 – 1 – 1 – 1 – 1 – 1 – 1 – 2 – 2 – 2 – 2 – 2 – 3 – 3 – 4 – 5 35
  36. 36. Amplitude Total (AT) É a diferença entre o maior valor e o menor valor da seqüência dos dados observados. AT = valor máximo – valor mínimo Exemplo: A amplitude total do rol apresentado é: AT = 5 – 0 = 5 Freqüência Absoluta Simples (ou simplesmente freqüência) Denotada por Fi, a freqüência indica o número de ocorrências de cada valor ou o número de valores pertencentes a uma classe. Na Tabela 1: F6 = F(5) = 1 Na Tabela 2: F2 = 6 a) Escreve-se, ordenadamente, os dados observados na coluna indicadora. b) Obtém-se as freqüências absolutas simples dos dados (Fi). Essas freqüências constituem o corpo da tabela. Exemplo: Sejam os dados abaixo representativos de uma pesquisa sobre o número de irmãos de 20 alunos da Turma Biologia/Geografia. Dados Brutos: 1 – 3 – 0 – 5 – 2 – 1 – 1 – 0 – 0 – 1 – 4 – 3 – 1 – 0 – 1 – 2 – 2 – 1 – 3 – 1 Rol: 0 – 0 – 0 – 0 – 1 – 1 – 1 – 1 – 1 – 1 – 1 – 1 – 2 – 2 – 2 – 3 – 3 – 3 – 4 – 5 A distribuição de freqüências do rol apresentado é: Regras para a elaboração de uma Distribuição de Freqüências Simples 36
  37. 37. Tabela 3 Número de Irmãos de 20 alunos da Turma Geo/Bio i Número de Irmãos (xi) Repetições (Fi) 1 0 4 2 1 8 3 2 3 4 3 3 5 4 1 6 5 1 Total Fi = 20 1ª Coluna (i) – número de ordem dos valores distintos da variável número de irmãos. 2ª Coluna (xi) – valores distintos da variável número de irmãos. 3ª Coluna (Fi) – número de repetições dos valores distintos da variável número de irmãos. Nota: k i i 1 F n = = , onde n é igual ao número de dados observados (n = 20) Observa-se que neste tipo de tabela não há perda de informação, podendo os dados originais serem reconstituídos a partir da distribuição elaborada. 1.6.4 Tipos de Freqüências Para a interpretação dos resultados de uma pesquisa, conforme os tipos de informações requeridas utilizam-se diversos tipos de freqüências de dados. A seguir serão apresentados os tipos de freqüências, derivados da distribuição de freqüências absolutas, bastante úteis na interpretação de dados. Freqüência Total É a soma de todas as freqüências absolutas simples em uma tabela. k i i 1 F n = = 37
  38. 38. A freqüência total de uma distribuição de freqüências é igual ao número total de observações (n). Exemplo: Na Tabela 3, temos: 6 i 1 2 3 4 5 6 i 1 F F F F F F F 4 8 3 3 1 1 20 = = + + + + + = + + + + + = Freqüência Relativa Simples, ou simplesmente, Freqüência Relativa Simbolizada por fi, a freqüência relativa simples fornece a proporção de cada valor ou de casos ocorridos em cada classe, em relação ao número total de observações. Portanto, é um número relativo. Para calcular a freqüência relativa, basta dividir a freqüência absoluta da ordem em questão pelo número de observações. n F f i i = As comparações expressas através de porcentagem são mais usuais. Para obter a porcentagem de cada valor ou de casos ocorridos em cada classe, multiplica-se o quociente obtido por 100, ou seja: i i F f 100 n = × Nota: k i i 1 f 1 = = ou 100% Exemplo: Na Tabela 3, temos: 1 1 F 4 f 0,20 100 20 20 20 = = = × = % 2 2 F 8 f 0,40 100 20 20 = = = × = 40% 3 3 F 3 f 0,15 100 15 20 20 = = = × = % 38
  39. 39. 4 4 F 3 f 0,15 100 15 20 20 = = = × = % 5 5 F 1 f 0,05 100 5 20 20 = = = × = % 6 6 F 1 f 0,05 100 5 20 20 = = = × = % Freqüência Absoluta Acumulada Denotada por Faci, a freqüência absoluta acumulada fornece a informação de quantos elementos se situam até determinado valor. A freqüência acumulada do i- ésimo valor ou i-ésima classe (freqüência acumulada de ordem i) é obtida somando-se a freqüência desse valor ou classe com as freqüências anteriores, ou seja, é a soma de todas as freqüências de ordens menores ou igual a da ordem em questão. Exemplo: Fac3 = 3 i 1= Fi = F1 + F2 + F3 Fac4 = 4 i 1= Fi = F1 + F2 + F3 + F4 Exemplo: Na tabela 3, temos: Fac1 = F1 = 4 Fac4 = F1 + F2 + F3 + F4 = 15 + 3 = 18 Fac2 = F1 + F2 = 4 + 8 = 12 Fac5 = F1 + F2 + F3 + F4 + F5 = 18 + 1 = 19 Fac3 = F1 + F2 + F3 = 12 + 3 = 15 Fac6 = F1 + F2 + F3 + F4 + F5 + F6 = 19 + 1 = 20 Freqüência Acumulada Relativa Denotada por faci, fornece a proporção de elementos situados até determinado valor. Consiste na soma da freqüência relativa de cada valor ou classe com as freqüências relativas dos valores ou classes anteriores, ou seja, é a soma das freqüências simples relativas de ordens menores ou iguais a da ordem em questão. . 39
  40. 40. Exemplo: fac3 = 3 i 1= fi = f1 + f2 + f3 Exemplo: Na tabela 3, temos: fac1 = f1 = 0,20 = 20% fac2 = f1 + f2 = 0,20 + 0,40 = 0,60 = 60% fac3 = f1 + f2 + f3 = 0,60 + 0,15 = 0,75 = 75% fac4 = f1 + f2 + f3 + f4 = 0,75 + 0,15 = 0,90 = 90% fac5 = f1 + f2 + f3 + f4 + f5 = 0,90 + 0,05 = 0,95 = 95% fac6 = f1 + f2 + f3 + f4 + f5 + f6 = 0,95 + 0,05 = 1 = 100% A freqüência relativa acumulada de ordem i pode ser também calculada através do quociente: = Exemplo: 3 15 fac 0,75 75 20 = = = % Com relação à Tabela 3, utilizando todos os tipos de freqüências definidas anteriormente, podemos construir a seguinte distribuição de freqüências: Tabela 4 Número de Irmãos de 20 alunos da Turma Geo/Bio i xi Fi fi fi (%) Faci faci faci(%) 1 0 4 0,20 20 4 0,20 20 2 1 8 0,40 40 12 0,40 40 3 2 3 0,15 15 15 0,75 75 4 3 3 0,15 15 15 0,90 90 5 4 1 0,05 5 5 0,95 95 6 5 1 0,05 5 5 1,00 100 Total 20 1,00 100 − − − FONTE: Dados Fictícios 40
  41. 41. Interpretação: • f3 = 0,15; 15% dos alunos responderam que têm 2 irmãos. • F2 = 8; 8 alunos responderam que têm 1 irmão; • fac3 = 0,75; 75% dos alunos responderam que têm entre 0 e 2 irmãos. Representação Gráfica de uma Distribuição de Freqüências Simples A distribuição de Freqüências Simples é representada graficamente por um Gráfico em Hastes, um diagrama onde as freqüências são representadas por segmentos de retas perpendiculares ao eixo das abcissas. Cada segmento é determinado pelos pontos (xi,Fi) e (xi,0). Exemplo: Representação gráfica da Tabela 3. EXERCÍCIOS COMPLEMENTARES 1. Considere a seguinte distribuição de freqüências correspondente aos diferentes preços de um determinado produto pesquisados em 20 lojas. Preços do Produto A i Preço (R$) Número de Lojas 1 50 2 2 51 5 3 52 6 4 53 6 5 54 1 Total 20 FONTE: Dados Fictícios 0 1 2 3 4 5 xi (numero de irmãos) Fi 1 3 4 8 41
  42. 42. a) Quantas lojas apresentam preços de R$ 52,00? b) Determine as freqüências relativas simples e as freqüências absolutas acumuladas. c) Quantas lojas apresentaram um preço de até R$ 52,00 (inclusive)? d) Qual é a percentagem de lojas com preços de até R$ 53,00 (inclusive)? 2. A distribuição de freqüências a seguir apresenta o número de acidentes por dia, durante 40 dias, em determinado cruzamento. Número de Acidentes no Cruzamento X i Nº de Acidentes por dia (xi) Número de Dias (Fi) 1 0 30 2 1 5 3 2 3 4 3 1 5 4 1 Total 40 FONTE: Dados Fictícios a) Determine as freqüências absolutas acumuladas, as freqüências simples relativas e as freqüências acumuladas relativas. b) Após ter determinado as freqüências acima, interprete todos os resultados da 3ª linha da distribuição de freqüências. 3. Em uma amostra de 30 milheiros de telhas recebidas pela Construtora ABC Ltda, constatou-se os seguintes números de unidades defeituosas por milheiro: 5 – 20 – 10 – 5 – 40 – 30 – 20 – 5 – 10 – 15 – 10 – 30 – 40 – 10 – 50 – 10 – 30 – 15 − 20 – 40 – 10 – 20 – 20 – 50 – 10 – 40 – 30 – 20 – 0 – 30 a) Agrupar estes dados em uma distribuição de freqüências simples. b) Representá-la através de um gráfico conveniente. c) Calcular todos os tipos de freqüências conhecidos. d) Qual a percentagem de milheiros com mais de 30 telhas defeituosas? e) Quantos milheiros tiveram menos de 10 telhas defeituosas? f) Qual a proporção de milheiros com menos de 20 telhas defeituosas? 42
  43. 43. 4. Dada a distribuição de freqüências: Indústria de Equipamentos Eletrônicos – IEE Número de Falhas em Componentes durante o período de garantia Janeiro de 2009 i Nº de Falhas (xi) Número de Equipamentos (Fi) 1 0 148 2 1 52 3 2 34 4 3 26 5 4 13 6 5 7 Total 280 FONTE: Dados Fictícios a) Determinar as freqüências relativas percentuais, as freqüências acumuladas e as freqüências relativas acumuladas percentuais. b) Através das freqüências calculadas, responder qual a porcentagem de: b.1) equipamentos que não apresentaram falha em seus componentes; b.2) equipamentos que apresentaram pelo menos uma falha em seus componentes; b.3) equipamentos trocados, sabendo-se que a indústria se compromete a trocar o equipamento que apresente 4 ou mais falhas em seus componentes. 5. Considere os seguintes números. 1 3 5 7 9 2 4 6 8 10 15 20 25 0 1 2 3 4 5 6 7 8 9 9 8 7 8 6 5 4 3 2 1 0 10 15 20 25 12 8 11 6 4 2 1 3 5 7 9 11 a) Construa a distribuição de freqüências simples. b) Representá-la através de um gráfico conveniente. c) Calcular todos os tipos de freqüências conhecidos. 43
  44. 44. Intervalo de Classe ou Classe Classes são intervalos de variações da variável, ou seja, é cada um dos grupos de valores em que se subdivide a amplitude total do conjunto de valores observados da variável. Uma determinada classe pode ser identificada por seus extremos ou pela ordem em que ela se encontra na tabela (valor do índice i) O número de classes de uma distribuição de freqüências será denotado por k. A notação indica intervalo fechado à esquerda. Assim, na Tabela 2, um funcionário que apresentou salário de R$ 1400,00 pertence à classe 1400 1600, ou terceira classe (i = 3). Existem diversas maneiras de expressar as classes: a) a b compreende todos os valores entre a e b, incluindo a e b b) a b compreende todos os valores entre a e b, excluindo a c) a b compreende todos os valores entre a e b, excluindo b d) a b compreende todos os valores entre a e b, excluindo a e b Em nosso curso usaremos a forma expressa em “c)”. Limites de Classe São os valores extremos de cada classe. O menor valor denomina-se limite inferior da classe i (li) e o maior, limite superior da classe i (Li). Assim, na quarta classe da Tabela 2 tem-se l4 = 1600 e L4 = 1800. Amplitude do Intervalo de Classe (h) A amplitude do intervalo de classe é o comprimento da classe, sendo definida como a diferença entre o limite superior e o limite inferior da classe. hi = Li − li Exemplo: Na Tabela 2, temos: h1 = 1200 – 1000 = 200 h2 = 1400 – 1200 = 200 44
  45. 45. Em geral h1 = h2 = h3 = ... = h k = h, e determina-se a amplitude do intervalo fazendo: T A h k = Exemplo: Dados: AT = 64 e k = 7. Temos: h = 64 7 = 9,14 ≈ 10 Nota: Sugere-se sempre aproximar o valor encontrado para o inteiro superior. Número de Classes (k) Não existe uma regra fixa que forneça o número de classes. No entanto, como o objetivo da distribuição de freqüências é facilitar a compreensão dos dados, é importante que a distribuição contenha um número adequado de classes. Se este número for escasso, os dados originais ficarão tão comprimidos que pouca informação poderá ser extraída da tabela. Se por outro lado forem utilizadas várias classes, haverá algumas com freqüências nulas ou muito pequenas e o resultado será uma distribuição irregular e prejudicial à interpretação do fenômeno como um todo. Na prática esse número não deve ser superior a 20 nem inferior a 5. Se a quantidade de dados for pequena não se justifica a construção de uma tabela, e se for grande, mais de 20 classes dificulta a análise. Em função do total de observações existem vários métodos que orientam a escolha de um número de classes conveniente. Seguem-se os dois mais utilizados: a) Regra da Raiz Quadrada k = 5 para n ≤ 25 k = n para n > 25, onde n é o número de observações. Exemplo: Para n = 30, o número de classes será 48,530 = ≈ 5. b) Regra de Sturges k = 1 + 3,3 log n, onde: n = número de observações. Exemplo: Para n = 30, tem-se: k = 1 + 3,3 log 30 ≈ 6. 45
  46. 46. Para n = 30 os resultados obtidos pelos dois critérios são bastante próximos. O mesmo não acontece para valores grandes de n onde a regra de Sturges tem o inconveniente de prever um número relativamente pequeno de classes e o procedimento da raiz quadrada, um número relativamente grande. Neste caso deve prevalecer o bom senso do analista. Ponto Médio da Classe (xi) Considerando que os valores de uma classe estão distribuídos uniformemente, o ponto médio ou valor médio de uma classe é o valor que melhor a representa para efeito de cálculo de certas medidas. O ponto médio de uma classe i é definido por: i i i l L x 2 + = Uma outra maneira de obter o ponto médio é adicionar a metade da amplitude ao limite inferior da classe. Na Tabela 2, o ponto médio da classe 1200 1400 é: 3 1200 1400 x 1300 2 + = = , ou 3 200 x 1200 1300 2 = + = . Regras para a elaboração de uma Distribuição de Freqüências por Classes a) Determinar o rol (opcional). b) Determinar a amplitude total (AT) dos dados: AT = valor máximo – valor mínimo c) Determinar o número conveniente de classes (k), de acordo com um dos critérios citados anteriormente. d) Determinar a amplitude de cada classe (h) dividindo a amplitude total pelo número de classes. AT h k = Muitas vezes ao efetuar esta divisão, pode-se chegar a um resultado não muito conveniente sob o aspecto de montagens das classes. Neste caso sugere-se que o 46
  47. 47. valor encontrado seja aproximado para o maior inteiro, caso contrário algum dado excederia o limite superior da última classe prevista. e) Determinar os limites das classes, escolhendo-se, preferencialmente, números inteiros. O limite inferior da primeira classe e o limite superior da última, não precisam, necessariamente, pertencer ao conjunto. f) Construir a tabela de freqüências, contando o número de ocorrência de cada classe. Exemplo: Os dados a seguir representam as notas de 50 alunos. 33 35 35 39 41 41 42 45 47 48 50 52 53 54 55 55 57 59 60 60 61 64 65 65 65 66 66 66 67 68 69 71 73 73 74 74 76 77 77 78 80 81 84 85 85 88 89 91 94 97 Vamos agrupar estes elementos em uma distribuição de freqüências por classes a) Amplitude Total: AT = 97 – 33 = 64 b) Número de Classes: k = 50 ≈ 7 ou k = 1 + 3,3 log 50 = 1 + 3,3 x 1,7 ≈ 7 c) Amplitude das Classes (h): T A 64 h 9,14 10 k 7 = = = ≅ (aproximar para o maior inteiro) d) Limites das Classes 30 40 40 50 50 60 60 70 70 80 80 90 90 100 e) Distribuição de Freqüências por Classes Ponto inicial = 30 (o ponto inicial deve ser sempre menor ou igual ao menor valor observado) Ponto final = 100 (o ponto final deve ser sempre maior que o maior valor observado) 47
  48. 48. Notas de 50 alunos Classes Notas Fi fi fi(%) Faci faci faci(%) xi 1 30 |--- 40 4 0,08 8 4 0,08 8 35 2 40 |--- 50 6 0,12 12 10 0,20 20 45 3 50 |--- 60 8 0,16 16 18 0,36 36 55 4 60 |--- 70 13 0,26 26 31 0,62 62 65 5 70 |--- 80 9 0,18 18 40 0,80 80 75 6 80 |--- 90 7 0,14 14 47 0,94 94 85 7 90 |--- 100 3 0,06 6 50 1,00 100 95 Total 50 1,00 100 − − − − FONTE: Dados Hipotéticos Interpretação: F3 = 8 → 8 alunos obtiveram nota igual ou superior a 50 e inferior a 60. f4 = 26% → 26% dos alunos obtiveram notas entre 60 (inclusive) e 70 (exclusive). Fac6 = 47 → 47 alunos obtiveram notas inferiores a 90. fac5 = 80% → 80% dos alunos obtiveram notas inferiores a 80. Distribuição de Freqüências com Intervalos de Classes Desiguais Existem casos em que é mais adequado agrupar os dados em classes com larguras desiguais, como, por exemplo, as idades dos atletas de acordo com a categoria a que pertencem. Exemplo: Tabela 5 Categoria de Atletas por Idade Classes Idades Fi 1 2 |--- 13 12 2 13 |--- 15 5 3 15 |--- 18 8 4 18 |--- 30 30 5 30 |--- 40 12 6 40 |--- 60 10 7 60 |--- 90 2 Total 79 48
  49. 49. Gráficos de uma Distribuição de Freqüências por Classes Histograma É um tipo de gráfico apropriado para representar dados agrupados em classes. Consiste de colunas justapostas cujas bases representam as classes e as alturas correspondem às freqüências das classes. Polígono de Freqüências Trata-se da representação de uma distribuição de freqüências por classes, através de um polígono. O eixo das abcissas constitui a base do polígono. Os vértices são os pontos (xi,Fi) onde xi é o ponto médio e Fi é a freqüência da classe. O fechamento da poligonal com a base é feito unindo o primeiro vértice ao ponto médio de uma classe anterior à primeira, e o último vértice ao ponto médio de uma classe posterior à última. Esse gráfico é adequado também para a representação de freqüências relativas e percentuais. Polígono de Freqüências Acumuladas ou Ogiva de Galton Utilizado para representar as freqüências acumuladas. Os vértices são os pontos (Li, Faci). Pode ser usado também para representar as freqüências acumuladas relativas percentuais. O fechamento é feito unindo o primeiro vértice ao limite inferior da primeira classe. Esse gráfico será útil para a determinação das medidas separatrizes que serão tratadas posteriormente. Exemplo: Dada a distribuição de freqüências: Notas dos alunos da turma PEST Notas Fi Fac Fi xi 30 |--- 40 4 4 0,08 35 40 |--- 50 6 10 0,12 45 50 |--- 60 8 18 0,16 55 60 |--- 70 13 31 0,26 65 70 |--- 80 9 40 0,18 75 80 |--- 90 7 47 0,14 85 90 |--- 100 3 50 0,06 95 Total 50 − 1,00 − 49
  50. 50. Os gráficos representativos dessa distribuição são: HISTOGRAMA E POLÍGONO DE FREQUÊNCIAS POLÍGONO DE FREQUÊNCIAS ACUMULADAS EXERCÍCIOS COMPLEMENTARES 1. Os dados a seguir referem-se às notas de 50 alunos: 60 85 33 52 65 77 84 65 74 57 71 35 81 50 35 64 74 47 54 68 80 61 41 91 55 73 59 53 77 45 71 55 78 48 69 85 67 39 60 76 94 98 66 66 73 42 65 94 88 89 3 4 6 7 8 9 13 Fi 30 40 50 60 70 80 90 100 classe Polígono de freqüência 10 4 18 47 31 40 50 Fac 30 40 50 60 70 80 90 100 classe 50
  51. 51. Pede-se: a) A amplitude total da amostra. b) O número de classes. c) A amplitude das classes. d) As classes (valor inicial = 30). e) As freqüências absolutas das classes. f) As freqüências relativas. g) Os pontos médios das classes. h) As freqüências acumuladas das classes. i) O histograma. j) O polígono de freqüências. k) O polígono de freqüências acumuladas. 2. A tabela abaixo apresenta os salários de 90 funcionários da UERJ Salários dos Funcionários da UERJ Classes Salários Mínimos Fi 1 1 |--- 3 40 2 3 |--- 5 30 3 5 |--- 7 10 4 7 |--- 9 5 5 9 |--- 11 5 Total 90 a) Determine as freqüências simples relativas, as freqüências absolutas acumuladas e as freqüências relativas acumuladas. b) Quantos funcionários ganham menos de 3 salários mínimos? c) Quantos ganham mais de salários mínimos? d) Qual a percentagem de operários com salário entre 5 e 7 salários mínimos? e) Qual a percentagem de operários com salário inferior a 7 salários mínimos? f) Construa o histograma e o polígono de freqüência. 3. Complete a tabela abaixo: i Classes xi Fi Faci fi 1 0 |--- 2 1 4 0,04 2 2 |--- 4 8 3 4 |--- 6 5 30 0,18 4 |--- 7 27 0,27 5 8 |--- 10 15 72 6 10 |--- 12 83 7 |--- 13 10 93 0,10 8 14 |--- 16 0,07 − Total − 51
  52. 52. 4. A tabela abaixo apresenta uma distribuição de freqüência das áreas de 400 lotes: i Áreas (m2 ) Nº de Lotes 1 300 |--- 400 14 2 400 |--- 500 46 3 500 |--- 600 58 4 600 |--- 700 76 5 700 |--- 800 68 6 800 |--- 900 62 7 900 |--- 1000 48 8 1000 |--- 1100 22 9 1100 |--- 1200 6 Com referência a essa tabela determine: a) A amplitude total. b) O limite superior da 5ª classe. c) A freqüência acumulada da 4ª classe. d) O número de lotes cuja área não atinge 700 m2 . e) O número de lotes cuja área é superior ou igual a 800 m2 . f) A classe do 72º lote. 5. Responda as seguintes questões: a) O que é freqüência simples absoluta de uma classe? b) O que é freqüência simples relativa de uma classe? c) O que é freqüência acumulada absoluta de uma classe? d) O que é freqüência acumulada relativa de uma classe? e) O que é limite inferior de uma classe? f) O que é ponto médio de uma classe? 6. Os pesos de 40 alunos estão relacionados a seguir: 69 57 72 54 93 68 72 58 64 62 65 76 60 49 74 59 66 83 70 45 60 81 71 67 63 64 53 73 81 50 67 68 53 53 65 58 80 60 63 53 a) Agrupar estes dados em classes de valores (Dado log 40 = 1,6). b) Determine as freqüências relativas, as freqüências acumuladas e as freqüências relativas acumuladas. c) Determine os pontos médios das classes. d) Interprete todos os resultados da 3ª linha da tabela. e) Construa o histograma, o polígono de freqüências e o polígono de freqüências acumuladas da distribuição. 52
  53. 53. 7. Os dados abaixo referem-se ao consumo mensal de energia elétrica em kwh da conta nº 001.161157-1 da Ligth Rio, no período de 1997 a 1999. 142 – 178 – 164 – 190 – 146 – 131 – 119 – 131 – 187 – 158 – 168 – 111 – 96 – 118 – 182 – 116 – 188 – 207 – 229 – 180 – 181 – 175 – 205 – 179 – 184 – 227 – 210 – 210 – 213 – 190 – 240 – 215 – 226 – 188 – 190 – 205 – a) Sintetizar esses dados através de uma distribuição de freqüências por classes. b) Calcular todos os tipos de freqüências que você conhece. c) Com base nas freqüências calculadas, apresentar os seguintes percentuais: c.1) de meses com consumo inferior a 150 kwh. c.2) de meses com consumo superior a 200 kwh. d) Representar a distribuição elaborada através de um histograma e de um polígono de freqüências. e) Representar a distribuição de freqüências acumuladas através de uma Ogiva. 8. Dada a amostra: 28 33 27 30 31 30 33 30 33 29 27 33 31 27 31 28 27 29 31 24 31 33 30 32 30 33 27 33 31 33 23 29 30 24 28 34 39 30 18 17 18 15 16 17 17 18 19 19 20 29 a) Agrupar os elementos em classes (inicie pelo 15 e use h = 5). b) Calcule as freqüências absolutas, as freqüências acumuladas e os pontos médios das classes. c) Interprete todos os resultados da 4ª linha da tabela. d) Construa o histograma, o polígono de freqüências e o polígono de freqüências acumuladas da distribuição. 9. Abaixo temos a distribuição dos aluguéis de 65 casas. Aluguel (centenas de $) 1,5 |-- 3,5 3,5 |-- 5,5 5,5 |-- 7,5 7,5 |-- 9,5 9,5 |-- 11,5 Nº de casas 12 18 20 10 5 Com referência a essa tabela determine: a) A amplitude total. b) O limite superior da 5ª classe. c) A freqüência acumulada da 4ª classe. d) O número de aluguéis cujo valor atinge, no máximo, R$ 550,00. 53
  54. 54. e) O número de aluguéis cujo valor é superior ou igual a R$ 750,00. f) A classe do 50º aluguel. 10.A distribuição de freqüência abaixo representa o consumo por nota de 54 notas fiscais emitidas durante um dia em uma loja de departamentos. Consumo por nota (R$) nº de notas 0 |------ 50 10 50 |------ 100 28 100 |------ 150 12 150 |------ 200 2 200 |------ 250 1 250 |------ 300 1 a) Interprete todos os resultados da 4ª linha da tabela. b) Construa o histograma e o polígono de freqüências. 54
  55. 55. MEDIDAS DE POSIÇÃO As medidas de posição são valores que representam o conjunto de dados observados ou então promovem uma partição sobre este conjunto. Entre as medidas de posição destacam-se as medidas de tendência central e as separatrizes. MEDIDAS DE TENDÊNCIA CENTRAL A maneira mais simples de resumirmos as informações contidas em um conjunto de dados observados é estabelecer um ponto central em torno do qual os dados se distribuem. Tais medidas orientam quanto à posição do conjunto no eixo dos números reais e possibilitam comparações de séries de dados entre si pelo confronto destes números. São chamadas Medidas de Tendência Central, pois representam os fenômenos pelos seus valores médios em torno dos quais tendem a se concentrar os dados. 2.1.1 MÉDIA ARITMÉTICA (x ) a) Média aritmética para dados não agrupados Sejam x1, x2, ..., xn, n valores da variável X. A média aritmética simples, denotada por x , é definida por: n i i 1 x x n = = , onde n é o número de valores observados da variável X. Exemplo: Determinar a média aritmética simples dos valores: 7,0; 3,0; 5,5; 6,5; 8,0. 5 i i 1 x 7,0 3,0 5,5 6,5 8,0 x 6,0 5 5 = + + + + = = = 55
  56. 56. b) Média aritmética para dados agrupados Neste caso, usamos a média aritmética dos valores x1, x2, ..., xk, ponderada pelas suas respectivas freqüências absolutas F1, F2, F3, ... , Fk. Desta forma, temos: k i i i 1 x F x n = = , onde n = F1 + F2 + ... + Fk = k i i 1 F = Observação: Quando se tratar de uma distribuição de freqüência por classe, xi corresponde ao ponto médio da classe, ou seja, i i i l L x 2 + = . Exemplos: 1. Determinar a média aritmética da distribuição a seguir. NÚMERO DE IRMÃOS DE ALUNOS DA TURMA BIO/GEO i xi Fi 1 0 4 2 1 8 3 2 3 4 3 3 5 4 1 6 5 1 TOTAL 20 Fonte: Dados Hipotéticos Solução: Para determinar a média acrescentaremos a coluna com o cálculo de xiFi NÚMERO DE IRMÃOS DE 20 ALUNOS DA TURMA BIO/GEO i xi Fi XIFI 1 0 4 0 2 1 8 8 3 2 3 6 4 3 3 9 5 4 1 4 6 5 1 5 56
  57. 57. TOTAL 20 32 Fonte: Dados Hipotéticos k 6 i i i i i 1 i 1 x F x F 32 x 1,6 n 20 20 = = = = = = 2. Dada a distribuição: Renda Familiar de 40 Famílias i Salários (R$ 1.000) Fi 1 2 |--- 4 5 2 4 |--- 6 10 3 6 |--- 8 14 4 8 |--- 10 8 5 10 |--- 12 3 TOTAL 40 Fonte: Dados Hipotéticos Determinar a renda média familiar destas 40 famílias. Solução: Acrescentamos as colunas com os cálculos de xi e xiFi , Renda Familiar de 40 Famílias i Salários (R$ 1.000) Fi xi xiFi 1 2 |--- 4 5 3 15 2 4 |--- 6 10 5 50 3 6 |--- 8 14 7 98 4 8 |--- 10 8 9 72 5 10 |--- 12 3 11 33 TOTAL 40 − 268 Fonte: Dados Hipotéticos e utilizamos a fórmula: k 5 i i i i i 1 i 1 x F x F 268 x 6,7 n 40 40 = = = = = = Assim, cada família possui, em média, uma renda de R$6.700,00.Assim, cada família possui, em média, uma renda de R$6.700,00. 57
  58. 58. MEDIANA (Md) A mediana, denotada por Md, é o valor que divide o rol em duas partes contendo, cada uma, a mesma quantidade de elementos. Assim, a mediana é o valor que ocupa a posição central de uma série de dados. 50% 50% Md a) Mediana para dados não agrupados i) Se n é ímpar – o rol admite apenas um termo central que ocupa a posição n 1 2 + . O valor do elemento que ocupa esta posição é a mediana. Exemplo: Determinar a mediana da série: 20; 12; 23; 20; 8; 12; 2. Rol: 2; 8; 12; 12; 20; 20; 23. n = 7 (n é ímpar) O rol admite somente um termo central que ocupa a posição 7 1 2 + , ou seja, a 4ª posição. Portanto Md = x4 = 12. Interpretação: 50% dos valores da série são menores ou iguais a 12 e 50% dos valores são maiores ou iguais a 12. ii) Se n é par – neste caso o rol admite dois termos centrais que ocupam as posições n 2 e n 1 2 + . Neste caso a mediana é definida como a média aritmética destes dois termos centrais. Exemplo: Determinar a mediana da série: 7; 21; 13; 15; 10; 8; 9; 13. Rol: 7; 8; 9; 10; 13; 13; 15; 21. n = 8 (n é par) A série admite dois termos centrais que ocupam as posições 8 2 e 8 1 2 + , ou seja, a 4ª posição e a 5ª posição. Portanto, 58
  59. 59. 4 5 x x 10 13 Md 11,5 2 2 + + = = = . Interpretação: 50% dos valores do rol são menores ou iguais a 11,5 e 50% dos valores são maiores ou iguais a 11,5. b) Mediana para dados agrupados sem intervalos de classes O procedimento para o cálculo da mediana para dados agrupados sem intervalos de classes é o mesmo utilizado para dados não agrupados, ou seja: • Se n for ímpar, a mediana será o termo central, isto é, o termo de ordem n 1 2 + . • Se n for par, a mediana será a média aritmética entre os elementos centrais, isto é, os elementos de ordem n 2 e n 1 2 + . Exemplo 1: Determinar a mediana da distribuição abaixo. i xi Fi Faci 1 2 1 1 2 5 4 5 3 8 10 15 4 10 6 21 5 12 2 23 TOTAL 23 − n = 23 (n é ímpar) A distribuição admite apenas um termo central que ocupa a posição 23 1 2 + , ou seja, a 12ª posição. Através das freqüências acumuladas podemos observar que: o 1º elemento é o 2; o 2º, o 3º, o 4º e o 5º elementos são iguais a 5; o 6º, o 7º, ... , o 15º elementos são iguais a 8; e assim sucessivamente. Portanto o 12º elemento é o 8. Logo, Md = x12 = 8. 59
  60. 60. Exemplo 2: Determinar a mediana da distribuição i xi Fi Faci 1 0 3 3 2 1 5 8 3 2 8 16 4 3 10 26 5 5 6 32 TOTAL 32 − n = 32 (n é par). A série admite dois termos centrais que ocupam as posições 32 2 e 32 1 2 + , ou seja, o 16º e o 17º elementos. Observando as freqüências acumuladas, temos: O 1º, o 2º e o 3º elementos são iguais a 0; O 4º, o 5º, o 6º, o 7º e o 8º são iguais a 1; O 9º, o 10º, ... , o 16º são iguais a 2; O 17º, o 18º, ... , o 26º são iguais a 3; O 27º, o 28º, ..., o 32º são iguais a 5. Portanto o 16º termo é igual a 2 e o 17º termo é igual a 3. Logo, 16 17 x x 2 3 Md 2,5 2 2 + + = = = c) Mediana para dados agrupados com intervalos de classes • Calcula-se n 2 , independente de n ser par ou ímpar; • Localiza-se, através das freqüências acumuladas, a classe mediana, ou seja, a classe que contém o termo de ordem n 2 ; • Aplica-se a fórmula: ant Md Md n Fac 2Md l h F − = + × , onde: lMd = limite inferior da classe mediana; Facant = freqüência acumulada da classe anterior à classe mediana; h = amplitude da classe mediana; FMd = freqüência absoluta da classe mediana. 60
  61. 61. Exemplo 1 Determinar a mediana da distribuição. i Altura(cm) Fi Faci 1 150 |--- 154 4 4 2 154 |--- 158 9 13 3 158 |--- 162 11 24 → classe mediana 4 162 |--- 166 8 32 5 166 |--- 170 5 37 6 170 |--- 174 3 40 TOTAL 40 − • Calcula-se n 2 → 40 20 2 = • Localiza-se a classe mediana (a classe que contém o termo de ordem n 2 ) Classe mediana = 3ª classe • Aplica-se a fórmula: ant Md Md n Fac 2Md l h F − = + × lMd = 158 Facant= 13 20 13 Md 158 4 160,55 11 − = + × = h = 4 FMd = 11 Interpretação: 50% das pessoas têm altura inferior a 160,55 cm. Exemplo 2 Consideremos a distribuição de freqüência por classes das notas dos 50 alunos da turma PEST e vamos calcular a sua mediana. Notas de 50 alunos da turma PEST Classes Notas Fi Faci 1 30 |--- 40 4 4 2 40 |--- 50 6 10 3 50 |--- 60 8 18 4 60 |--- 70 13 31 →→→→ classe mediana 5 70 |--- 80 9 40 6 80 |--- 90 7 47 7 90 |--- 100 3 50 Total 50 ---- Fonte: Dados Hipotéticos 61
  62. 62. • Calcula-se n 2 → 50 25 2 = • Localiza-se a classe mediana (a classe que contém o termo de ordem 2 n ) Classe mediana = 4ª classe • Aplica-se a fórmula: ant Md Md n Fac 2Md l h F − = + × lMd = 60 Facant= 18 25 18 Md 60 10 65,38 13 − = + × = h = 10 FMd = 13 Interpretação: 50% das notas foram inferiores a 65,38. EXERCÍCIOS COMPLEMENTARES: 1. Determinar a média e a mediana das séries: a) 2; 5; 8; 10; 12; 8; 5; 12 b) 3,4; 5,2; 4,7; 6; 8,4; 9,3; 2,1; 4,8 2. Determinar a média e a mediana das distribuições: a) xi 2 3 4 5 7 Fi 3 5 8 4 2 b) xi 73 75 77 79 81 Fi 2 10 12 5 2 c) Classes 1 |-- - 3 3 |-- - 5 5 |-- - 7 7 |-- - 9 9 |-- - 11 11 |-- - 13 Fi 3 5 8 6 4 3 d) Classes 22 |-- - 25 25 |-- - 28 28 |-- - 31 31 |-- - 34 Fi 3 5 8 6 62
  63. 63. MODA (Mo) A moda é o valor mais freqüente do conjunto de dados observados. a) Moda para dados não agrupados Para determinar a moda, basta identificar o(s) elemento(s) que mais se repete(m). Exemplo: Determinar a moda dos conjuntos de dados abaixo: a) 2; 8; 3; 5; 4; 5; 3; 5; 1 O elemento que mais se repete é o 5. Portanto: Mo = 5 (seqüência unimodal). b) 6; 10; 5; 6; 10; 2 Neste conjunto de dados o elemento 6 e o elemento 10 se repetem mais vezes que os demais. Portanto: Mo1 = 6 e Mo2 = 10 (seqüência bimodal). c) 2; 2; 8; 8; 5; 5; 6; 6 Não há nenhum elemento que se destaque por possuir maior freqüência. Portanto, a série não possui moda e é dita amodal. Observação: A moda só é considerada medida de tendência central no caso unimodal. Nos demais casos é uma medida estatística de análise. b) Moda para dados agrupados sem intervalos de classes Neste caso, basta identificar o(s) elemento(s) de maior freqüência. Exemplo: Determinar a moda das distribuições: a) i xi Fi 1 0 2 2 2 5 3 3 8 4 4 3 5 5 1 Total Mo = 3 (Distribuição Unimodal) 63
  64. 64. b) i xi Fi 1 1 2 2 2 5 3 3 4 4 4 5 5 5 1 Total Mo1 = 2 e Mo2 = 4 (Distribuição Bimodal) c) i xi Fi 1 4 5 2 5 5 3 8 5 4 10 5 Total Não há moda (Distribuição Amodal) c) Moda para dados agrupados com intervalos de classes Neste caso, há diversos processos para o cálculo da moda. i) Fórmula de Czuber • Identifica-se a classe modal (a que possui maior freqüência); • Aplica-se a fórmula: 1 Mo 1 2 Mo l h ∆ = + ⋅ ∆ + ∆ , onde: lMo = limite inferior da classe modal. ∆1 = diferença entre a freqüência absoluta da classe modal e a freqüência absoluta da classe anterior à classe modal. ∆2 = diferença entre a freqüência absoluta da classe modal e a freqüência absoluta da classe posterior à classe modal. h = amplitude da classe modal. 64
  65. 65. Exemplo 1 Determinar a moda da distribuição: i classes Fi 1 0 |--- 1 3 2 1 |--- 2 10 3 2 |--- 3 17 → Classe Modal 4 3 |--- 4 8 5 4 |--- 5 5 TOTAL 43 • Identifica-se a classe modal: 3ª classe (maior freqüência = 17) • Aplica-se a fórmula: 1 Mo 1 2 Mo l h ∆ = + ⋅ ∆ + ∆ , onde: lMo = 2; ∆1 = 17 – 10 = 7; ∆2 = 17 – 8 = 9; h = 3 – 2 = 1 Logo: 7 Mo 2 1 2,44 7 9 = + ⋅ = + Exemplo 2 Considere a distribuição abaixo. Salários dos Empregados da Empresa PEST Classes Salários (classes) Fi (nº funcionários) 1 800 |- 1800 70 2 1800 |- 2500 140 3 2500 |- 3000 140 4 3000 |- 5000 60 Total 410 Fonte: Dados Hipotéticos Como as amplitudes das classes não são iguais, vamos utilizar as densidades das classes i i F h para identificar a classe modal (aquela com a maior densidade) 65
  66. 66. Salários dos Empregados da Empresa PEST Classes Salários (classes) xi (pto médio) Fi (nº funcionários) Fi/hi (densidade) 1 800 |- 1800 1300 70 0,07 2 1800 |- 2500 2150 140 0,20 3 2500 |- 3000 2750 140 0.28 4 3000 |- 5000 4000 60 0,03 Total 410 Fonte: Dados Hipotéticos • Identifica-se a classe modal: 3ª classe (maior densidade = 0,28) • Aplica-se a fórmula: 1 Mo 1 2 Mo l h ∆ = + ⋅ ∆ + ∆ , onde: lMo = 2500; ∆1 = 0,28 – 0,20 = 0,08; ∆2 = 0,28 – 0,03 = 0,25; h = 500 Logo: 0,08 Mo 2500 500 2500 0,24 500 2621,21 0,08 0,25 = + ⋅ = + ⋅ = + Assim, R$ 2621,21 é o salário mais freqüente entre os 410 funcionários dessa empresa. ii) Fórmula de Pearson Mo 3Md 2x≅ − Na fórmula de Pearson a moda é aproximadamente igual a diferença entre o triplo da mediana e o dobro da média. Esta fórmula dá uma boa aproximação quando a distribuição apresenta razoável simetria em relação à média. Observação: Para calcular a moda de uma variável, precisamos apenas da distribuição de freqüência. Para a mediana necessitamos minimamente ordenar os valores atribuídos à variável. A média só pode ser calculada para variáveis quantitativas. Assim, para as variáveis nominais somente podemos trabalhar com a mediana, além da moda. 66

×