02 estatisticae probabilidade

1.869 visualizações

Publicada em

Publicada em: Economia e finanças
0 comentários
2 gostaram
Estatísticas
Notas
  • Seja o primeiro a comentar

Sem downloads
Visualizações
Visualizações totais
1.869
No SlideShare
0
A partir de incorporações
0
Número de incorporações
12
Ações
Compartilhamentos
0
Downloads
145
Comentários
0
Gostaram
2
Incorporações 0
Nenhuma incorporação

Nenhuma nota no slide

02 estatisticae probabilidade

  1. 1. ESTATÍSTICA E PROBABILIDADE 1a Edição - 2.007
  2. 2. SOMESB SOCIEDADE MANTENEDORA DE EDUCAÇÃO SUPERIOR DA BAHIA S/C LTDA. GERVÁSIO MENESES DE OLIVEIRA PRESIDENTE WILLIAM OLIVEIRA VICE-PRESIDENTE SAMUEL SOARES SUPERINTENDENTE ADMINISTRATIVO E FINANCEIRO GERMANO TABACOF SUPERINTENDENTE DE ENSINO, PESQUISA E EXTENSÃO PEDRO DALTRO GUSMÃO DA SILVA SUPERINTENDENTE DE DESENVOLVIMENTO E PLANEJAMENTO ACADÊMICO FTC-EAD FACULDADE DE TECNOLOGIA E CIÊNCIAS – ENSINO A DISTÂNCIA REINALDO DE OLIVEIRA BORBA DIRETOR GERAL ROBERTO FREDERICO MERHY DIRETOR ACADÊMICO JEAN CARLO NERONE DIRETOR DE TECNOLOGIA ANDRÉ PORTNOI DIRETOR ADMINISTRATIVO E FINANCEIRO RONALDO COSTA GERENTE ACADÊMICO JANE FREIRE GERENTE DE ENSINO LUÍS CARLOS NOGUEIRA ABBEHUSEN GERENTE DE SUPORTE TECNOLÓGICO ROMULO AUGUSTO MERHY COORD. DE SOFTWARES E SISTEMAS OSMANE CHAVES COORD. DE TELECOMUNICAÇÕES E HARDWARE JOÃO JACOMEL COORD. DE PRODUÇÃO DE MATERIAL DIDÁTICO MATERIAL DIDÁTICO PRODUÇÃO ACADÊMICA PRODUÇÃO TÉCNICA JANE FREIRE JOÃO JACOMEL GERENTE DE ENSINO COORDENAÇÃO ANA PAULA AMORIM CARLOS MAGNO BRITO ALMEIDA SANTOS SUPERVISÃO REVISÃO DE TEXTO GECIARA DA SILVA CARVALHO JONES GARCIA DA MATA COORDENADOR DE CURSO REVISÃO DE CONTEÚDO ADRIANO PEDREIRA CATTAI PAULO HENRIQUE RIBEIRO DO NASCIMENTO PAULO HENRIQUE RIBEIRO DO NASCIMENTO AUTOR(A) EDIÇÃO EM LATEX2ε EQUIPE ALEXANDRE RIBEIRO, ANGÉLICA JORGE, CEFAS GOMES, CLAUDER FILHO, DELMARA BRITO, DIEGO DORIA ARAGÃO, FÁBIO GONÇALVES, FRANCISCO FRANÇA JÚNIOR, HERMÍNIO FILHO, ISRAEL DANTAS, LUCAS DO VALE, MARCIO SERAFIM, MARIUCHA PONTE, RUBERVAL FONSECA E TATIANA COUTINHO. Copyright c 2.007 FTC-EAD Todos os direitos reservados e protegidos pela lei 9.610 de 19/02/98. É proibida a reprodução total ou parcial, por quaisquer meios, sem autorização prévia, por escrito, da FTC-EAD - Faculdade de Tecnologia e Ciências - Ensino a distância. www.ead.ftc.br
  3. 3. Sumário Bloco 1: Estatística Descritiva 8 Tema 1: Séries Estatísticas, Medidas de Tendência Central e Moda 8 1.1 Método Estatístico .................................................................................. 9 1.1.1 Fases do Método Estatístico ................................................................... 10 1.2 Divisões da Estatística .............................................................................. 11 1.3 População e Amostra ............................................................................... 11 1.4 Variáveis Estatísticas ............................................................................... 13 1.5 Séries Estatísticas .................................................................................. 14 Dados Brutos e Rol.................................................................................... 14 Classificação das Séries Estatísticas ................................................................. 14 1.6 Apresentação de uma Série Estatística ............................................................ 15 1.6.1 Apresentação Tabular .......................................................................... 15 Apresentação do Tempo .............................................................................. 16 Arredondamento de Dados Numéricos ............................................................... 17 1.6.2 Exercício Proposto ............................................................................. 18 1.6.3 Exemplos de Tabelas de Algumas Séries Estatísticas ........................................ 18 1.6.4 Exercícios Propostos ........................................................................... 18 1.7 Distribuição de Freqüências ........................................................................ 21 1.7.1 Tipos de Freqüências .......................................................................... 22 1.7.2 1a - Variáveis Qualitativas ...................................................................... 22 1.7.3 2a - Variáveis Quantitativas Discretas ......................................................... 23 1.7.4 3a - Variáveis Quantitativas CFontínuas ....................................................... 24 1.7.5 Determinação do Número de Classes e Amplitude do Intervalo de Classes ................. 25 1.7.6 A Regra de Sturges ............................................................................ 25 1.7.7 A Regra do Quadrado .......................................................................... 26 1.7.8 Amplitude do Intervalo de Classes............................................................. 26 1.7.9 Ponto Médio da Classe ........................................................................ 27 1.7.10 Exercícios Propostos ........................................................................... 27 1.8 Apresentação Gráfica ............................................................................... 31 1.8.1 Cuidados na Representação Gráfica .......................................................... 36 1.8.2 Exercícios Propostos ........................................................................... 36 1.9 Medidas de Posição................................................................................. 38 1.9.1 Média Aritmética ............................................................................... 38 Propriedades da Média Aritmética .................................................................... 39 Média Aritmética para Valores Agrupados em Classes............................................... 39 1.9.2 Exercícios Propostos ........................................................................... 40 1.9.3 Média Geométrica.............................................................................. 41 Média Geométrica Ponderada ........................................................................ 41 Propriedades da Média Geométrica .................................................................. 42 1.9.4 Média Harmônica .............................................................................. 42 Média Harmônica Ponderada ......................................................................... 43 Propriedades da Média Harmônica ................................................................... 43 1.9.5 Média Quadrática .............................................................................. 43 1.9.6 Relação entre as Médias....................................................................... 45 ESTATÍSTICA E PROBABILIDADE 3
  4. 4. 1.9.7 Exercícios Propostos ........................................................................... 45 1.9.8 Mediana ........................................................................................ 45 Mediana em um Conjunto com Valores Não-Tabuláveis.............................................. 46 Mediana em um Conjunto com Valores Tabuláveis . .................................................. 46 1.9.9 Moda ........................................................................................... 48 Método de King ........................................................................................ 49 Método de Czuber ..................................................................................... 49 Fórmula de Pearson ................................................................................... 49 Relação entre a Média Aritmética, a Moda e a Mediana ............................................. 50 1.9.10 Exercícios Propostos ........................................................................... 51 Tema 2: Medidas 53 2.1 Medidas de Posição II............................................................................... 53 2.1.1 Separatrizes .................................................................................... 53 2.1.2 Quartis, Decis e Centis......................................................................... 53 2.1.3 Exercícios Propostos ........................................................................... 54 2.1.4 Amplitude Total ................................................................................. 56 2.1.5 Desvio .......................................................................................... 56 Propriedades do Desvio ............................................................................... 56 2.1.6 Desvio Quartil .................................................................................. 57 2.1.7 Desvio Médio Absoluto......................................................................... 57 2.1.8 Variância ....................................................................................... 57 Propriedades da Variância ............................................................................ 58 2.1.9 Desvio Padrão.................................................................................. 58 Propriedades do Desvio Padrão ...................................................................... 59 2.1.10 Relações Importantes para o Desvio Padrão.................................................. 59 2.1.11 Exercício Proposto ............................................................................. 60 2.1.12 Variância Relativa .............................................................................. 60 2.1.13 Coeficiente de Variação de Pearson ........................................................... 60 2.2 Medidas de Assimetria . ............................................................................. 61 2.2.1 Coeficientes de Assimetria de Pearson........................................................ 61 2.2.2 Exercício Proposto ............................................................................. 62 2.3 Medidas de Curtose ................................................................................ 62 2.3.1 Exercício Proposto ............................................................................. 62 2.4 Gabarito ............................................................................................. 62 Bloco 2: Probabilidade, Regressão e Correlação. 63 Tema 3: Probabilidade 63 3.1 Apresentação ....................................................................................... 63 3.2 Considerações Iniciais .............................................................................. 63 3.2.1 Exercícios Propostos ........................................................................... 65 3.3 Operações com Eventos ............................................................................ 65 3.3.1 Exercícios Propostos ........................................................................... 66 3.4 Um Pouco de História ............................................................................... 67 3.5 Cálculos Probabilísticos............................................................................. 67 3.5.1 A Probabilidade de um Evento ................................................................. 67 Exercícios Propostos .................................................................................. 70 FTC EaD | LICENCIATURA EM MATEMÁTICA4
  5. 5. 3.5.2 Probabilidade Condicional ..................................................................... 71 3.5.3 Exercícios Propostos ........................................................................... 71 3.5.4 Probabilidade da Ocorrência Simultânea de Eventos ......................................... 72 3.5.5 Independência de Eventos ..................................................................... 72 Exercícios Propostos .................................................................................. 74 3.5.6 O Teorema da Probabilidade Total ............................................................. 76 Exercícios Propostos .................................................................................. 77 3.5.7 O Teorema de Bayes ........................................................................... 78 Exercícios Propostos .................................................................................. 79 3.6 Gabarito ............................................................................................. 80 Tema 4: Principais Modelos Probabilísticos, Regressão e Correlação Linear 81 4.1 Variável Aleatória ................................................................................... 81 4.1.1 Tipos de Variáveis Aleatórias .................................................................. 81 4.2 Funções de Probabilidades . ........................................................................ 82 4.2.1 Distribuição de Probabilidades. ................................................................ 82 4.2.2 Densidade de Probabilidade ................................................................... 82 4.3 Função de Repartição .............................................................................. 83 Exercícios Propostos .................................................................................. 84 4.4 Variáveis Aleatórias Bidimensionais ................................................................ 84 4.5 Distribuição de Probabilidade Conjunta ............................................................ 85 4.6 Função de Repartição Conjunta .................................................................... 85 4.7 Funções de Probabilidade Marginais ............................................................... 85 4.8 Distribuição de Probabilidade Marginal ............................................................. 85 4.9 Variáveis Aleatórias Discretas Independentes ..................................................... 86 4.9.1 Exercícios Propostos ........................................................................... 86 4.10 Probabilidade Condicional .......................................................................... 87 4.11 Esperança de uma Variável Aleatória .............................................................. 87 4.11.1 Esperança de uma Variável Aleatória Discreta ................................................ 87 4.11.2 Esperança de uma Variável Aleatória Contínua ............................................... 88 4.11.3 Propriedades da Esperança ................................................................... 88 4.12 Mediana ............................................................................................. 90 4.13 Moda ................................................................................................ 90 4.14 Variância ............................................................................................ 90 4.14.1 Variância de uma Variável Aleatória Discreta.................................................. 91 4.14.2 Variância de uma Variável Aleatória Contínua................................................. 91 4.14.3 Propriedades da Variância de uma Variável Aleatória. ........................................ 92 4.15 Desvio Padrão ...................................................................................... 92 4.16 Covariância entre duas Variáveis Aleatórias ....................................................... 93 4.17 Exercícios Propostos................................................................................ 95 Alguns Modelos Probabilísticos para Variáveis Aleatórias 96 4.18 Modelos Probabilísticos para Variáveis Aleatórias Discretas ...................................... 97 4.18.1 Distribuição de Bernoulli ....................................................................... 97 Probabilidade numa Distribuição de Bernoulli ........................................................ 97 A Esperança e a Variância numa Distribuição de Bernoulli .......................................... 97 4.18.2 Distribuição Binomial . .......................................................................... 98 Esperança e Variância em uma Distribuição Binomial. ............................................... 99 Exercícios Propostos .................................................................................. 100 ESTATÍSTICA E PROBABILIDADE 5
  6. 6. 4.18.3 Distribuição de Poisson ........................................................................ 101 A Probabilidade numa Distribuição de Poisson ....................................................... 102 A Esperança e a Variância numa Distribuição de Poisson ........................................... 102 4.18.4 Distribuição Binomial × Distribuição de Poisson .............................................. 105 4.18.5 Exercícios Propostos ........................................................................... 106 4.19 Modelos Probabilísticos para Variáveis Aleatórias Contínuas ..................................... 107 4.19.1 Distribuição Uniforme .......................................................................... 107 4.19.2 A Esperança e a Variância de uma Distribuição Uniforme .................................... 108 4.19.3 Exercícios Propostos ........................................................................... 108 4.19.4 Distribuição Normal ............................................................................ 109 4.19.5 Principais Características ...................................................................... 110 O Cálculo da Probabilidade pela Distribuição Normal ................................................ 110 A Curva Normal Padrão ou Reduzida................................................................. 111 Exercícios Propostos .................................................................................. 113 Regressão e Correlação 113 4.20 Ajustamento de Curvas ............................................................................. 114 4.21 Equações Normais (Método dos Mínimos Quadrados) ............................................ 115 4.21.1 Processo Alternativo ........................................................................... 116 4.21.2 Exercício Proposto ............................................................................. 118 4.22 Correlação .......................................................................................... 118 4.22.1 O Coeficiente de Correlação ................................................................... 118 4.22.2 Interpretação Gráfica........................................................................... 119 4.23 Erro Padrão ......................................................................................... 120 4.24 Limites de Confiança para Coeficientes de Regressão ............................................ 120 4.25 Gabarito ............................................................................................. 122 Referências Bibliográficas 123 Atividade Orientada 1 5.1 Etapa 1 .............................................................................................. 1 5.2 Etapa 2 .............................................................................................. 3 5.3 Etapa 3 .............................................................................................. 7
  7. 7. Caro aluno, Este material foi produzido com o objetivo de dar suporte aos graduandos do curso de Licen- ciatura em Matemática na disciplina Estatística e Probabilidades. Dois grandes blocos são apresentados: a Estatística Descritiva e a Teoria de Probabilidades. A primeira utiliza-se de métodos para organizar, resumir e descrever os aspectos importantes de um conjunto de características observadas ou comparar tais características entre dois ou mais conjun- tos. Os blocos são divididos em quatro temas. No Tema 1, apresentamos alguns conceitos introdutórios. As séries estatísticas e as represen- tações tabular e gráfica. Além disso, abordaremos o cálculo das médias, da moda e da mediana de uma distribuição de freqüências. No Tema 2, trabalharemos as separatrizes e as medidas de dispersão, assimetria e curtose. No Tema 3, veremos os principais resultados na teoria de probabilidades. No Tema 4, expande-se o conceito de probabilidade com a inserção do conceito de variável aleatória. Os eventos que possuem determinadas características são associadas a determinadas funções de probabilidade. O grau de dependência entre duas variáveis aleatórias é inserido e tam- bém é apresentado o conceito de Regressão Linear. Aqui, observar-se-á como a Estatística é essencial para a compreensão dos resultados de uma pesquisa. Prof. Paulo Henrique Ribeiro do Nascimento APRESENTAÇÃO DA DISCIPLINA
  8. 8. BLOCO 01 Estatística Descritiva TEMA 01 Séries Estatísticas, Medidas de Tendência Central e Moda Apresentação Desde remota antigüidade, os governos têm se interessado por informações sobre suas populações e riquezas, tendo em vista, principalmente, fins militares e tributários. Confúcio relatou levantamentos feitos na China, há mais de 2.000 anos antes da era cristã. No antigo Egito, os faraós fizeram uso sistemático de informações de caráter estatístico, conforme evidenciaram pesquisas arqueológicas. Desses registros também se utilizaram as civilizações pré-colombianas dos maias, astecas e incas. É conhecido de todos os cristãos o recenseamento dos judeus, ordenado pelo Imperador Augusto. Os balancetes do império romano, o inventário das posses de Carlos Magno, o Doomsday Book, registro que Guilherme, o Conquistador, invasor normando da Inglaterra, no século XI, mandou levantar das propriedades rurais dos conquistados anglo-saxões para se inteirar de suas riquezas, são alguns exemplos anteriores à emergência da estatística descritiva no século XVI, na Itália. Essa prática tem sido continuada nos tempos modernos, por meio dos recenseamentos, dos quais temos um exemplo naquele que se efetua a cada decênio, em nosso País, pela Fundação IBGE, órgão responsável por nossas estatísticas (dados estatísticos) oficiais. Com o Renascimento, foi despertado o interesse pela coleta de dados estatísticos, principalmente por suas aplicações na administração pública. A palavra estatística, derivada do termo latino status (estado), parece ter sido introduzida na Alemanha, em 1.748, por Achenwall. A Estatística é encarada, atualmente, como uma ciência capaz de obter, sintetizar, prever e tirar inferências sobre dados. Porém, no século XVII, na Inglaterra, a estatística era a Aritmética do Estado (Political Arithmetic), consistindo, basicamente, na análise dos registros de nascimentos e mortes, originando, mais tarde, as primeiras tábuas de mortalidade. Ao longo da Idade Média e até ao século XVIII, a estatística foi puramente descritiva, coexistindo duas escolas: a escola descritiva alemã, cujo representante mais con- hecido é o economista G. Achenwall (1.719-1.772), professor na Universidade de Gottingen, considerado pelos alemães como o pai da estatística, e a escola dos matemáticos sociais, que procuravam traduzir por leis a regu- laridade observada de certos fenômenos, de caráter econômico e sociológico. Embora esta escola procurasse fundamentar a formulação de previsões com base em leis sugeridas pela experiência, a estatística confundia- se, praticamente, com a demografia à qual fornecia métodos sistemáticos de enumeração e organização. Na realidade, a necessidade sentida, em todas as épocas, de conhecer, numérica e quantitativamente, a realidade política e social tornou a análise demográfica uma preocupação constante. John Graunt (1620-1674), juntamente com William Petty (1.623-1.687), autor de Political Arithmetic, e o astrônomo Edmond Halley (1.656-1.742) são os principais representantes da escola inglesa, que dá um novo impulso à estatística, fazendo-a ultrapassar um estado puramente descritivo: analisam-se os dados na procura de certas regularidades, permitindo enunciar leis e fazer previsões. No entanto, a estatística, para adquirir o estatuto de disciplina científica, e não puramente ideográfica ou descritiva, teve que esperar pelo desenvolvi- mento do cálculo das probabilidades, que lhe viria a fornecer a linguagem e o aparelho conceptual permitindo a formulação de conclusões com base em regras indutivas. Data do século XVII o início do estudo sistemático dos problemas ligados aos fenômenos aleatórios, começando FTC EaD | LICENCIATURA EM MATEMÁTICA8
  9. 9. a ser manifestada a necessidade de instrumentos matemáticos, aptos a analisar este tipo de fenômenos, em todas as ciências que põem o problema do tratamento e interpretação de um grande número de dados. Pode- se datar dos fins do século XIX, o desenvolvimento da estatística matemática e suas aplicações, com F. Galton (1.822-1.911), K. Pearson (1.857-1.936) e métodos estatísticos na investigação experimental se fica a dever, fundamentalmente, aos trabalhos de K. Pearson e R. A. Fisher (1.890-1.962). A partir de Pearson e Fisher o desenvolvimento da estatística matemática, por um lado, e dos métodos estatísticos aplicados, por outro, têm sido tal que é praticamente impossível referir nomes. Em todas as áreas da ciência, a coleta de dados se faz necessária e com isso a Estatística tem crescido muito nos últimos anos, especialmente com o advento dos computadores e surgimento de softwares cada vez mais sofisticados. Observar uma extensa listagem de dados coletados não nos permite chegar a uma conclusão concisa. Este fato se agrava se esse conjunto de dados, possui muitas características que devam ser investigadas. Os métodos descritivos são utilizados, portanto, para organizar, resumir e descrever aspectos importantes de um conjunto de características observadas ou comparar tais características entre dois ou mais conjuntos. Ao se resumir ou condensar um conjunto de dados, informações são perdidas, visto que, não estamos mais trabalhando com as observações originais. Entretanto, esta perda de informação é pequena se compararmos ao ganho que se tem com a clareza da interpretação proporcionada. A descrição dos dados também tem como objetivo identificar anomalias, até mesmo resultante do registro incorreto de valores, e dados dispersos, aqueles que não seguem a tendência geral do restante do conjunto. Não só nos artigos técnicos direcionados para pesquisadores, mas também, nos artigos de jornais e re- vistas escritos para o público leigo, é cada vez mais freqüente a utilização dos recursos de descrição para complementar a apresentação de um fato, justificar ou referendar um argumento. As ferramentas descritivas são os muitos tipos de gráficos e tabelas e as medidas de síntese, como os índices e as médias. 1.1 Método Estatístico A Estatística originou-se da coleta e construção de tabelas de dados para o governo. A situação foi evoluindo e esta coleta de dados representa somente um dos aspectos da Estatística. Hoje em dia podemos adotar a seguinte definição para a Estatística: Ciência que se baseia na Teoria das Probabilidades e cujo objetivo principal é nos auxiliar a tomar decisões ou tirar conclusões em situações de incerteza, a partir de informações numéricas. 1.1 Definição. Método é um conjunto de meios dispostos convenientemente para se chegar a um determinado objetivo. Dos métodos científicos podemos destacar os métodos: Experimental - consiste em manter constantes todas as causas (fatores), menos uma, e variar esta causa de modo que o pesquisador possa descobrir seus efeitos, caso existam. É o método preferido no estudo da Física e da Química. Estatístico - diante da impossibilidade de manter as causas constantes, admite todas essas causas presentes variando-as, registrando essas variações e procurando determinar, no resultado final, que influências cabem a cada uma delas. Como exemplo, podemos citar a determinação das causas que definem o preço de uma mercadoria. Para aplicarmos o método experimental, teríamos de fazer variar a quantidade da mercadoria e verificar se tal fato iria influenciar seu preço. Porém, seria necessário que não houvesse ESTATÍSTICA E PROBABILIDADE 9
  10. 10. alteração nos outros fatores. Assim, deveria existir, no momento da pesquisa, uma uniformidade dos salários, o gosto dos consumidores deveria permanecer constante, seria necessária a fixação do nível geral dos preços das outras necessidades e etc. Mas, isso tudo é impossível. Daí a necessidade de utilização do método estatístico. 1.1.1 Fases do Método Estatístico 1. DEFINIÇÃO DO PROBLEMA: Consiste em uma apreciação ou formulação correta do problema a ser estudado, e levando em consideração os valores: o que, onde, como e quando. 2. PLANEJAMENTO: Nesta fase temos a considerar o procedimento necessário para o desenvolvimento dos trabalhos ou seja: como levantar informações, que dados deverão seus obtidos, qual será a maneira mais correta para formular as perguntas, construir o cronograma das atividades, determinar os custos operacionais e determinar o tamanho da pesquisa. 3. COLETA DE DADOS: É a fase que consiste em adquirir as informações necessárias e é feita através de um questionário ou boletim. A coleta pode ser direta ou indireta. A coleta é direta quando feita sobre elementos informativos de reg- istro obrigatório (nascimentos, casamentos e óbitos, importação e exportação) elementos pertinentes aos prontuários dos alunos de uma escola, ou ainda, quando os dados são coletados pelo próprio pesquisador através de inquéritos e questionários, a exemplo de notas de verificação e de exames, do censo demográ- fico, etc. A coleta direta pode ser classificada relativamente ao fator tempo em — permanente: aquelas onde as informações são sempre atualizadas e são comunicadas por terceiros, por exemplo o registro civil; — contínua: feita continuamente, por exemplo, a freqüência dos alunos às aulas; — periódica: feita em intervalos constantes de tempo, é realizada em época certa e em tempo determi- nado, por exemplo, censo (a cada ano); — ocasional: aquela que é feita em dado momento com a finalidade de atingir um objetivo imediato, por exemplo, uma pesquisa do IBOPE. A coleta é indireta quando é inferida de elementos conhecidos (coleta direta) e/ou do conhecimento de outros fenômenos relacionados com o fenômeno estudado. Ex.: Pesquisa sobre a mortalidade infantil, feita a partir de dados colhidos por uma coleta direta. A coleta pode ser adquirida de duas maneiras: — Por vias internas: são aquelas obtidas dentro da organização; — Por vias externas: são aquelas que podem ser obtidas por via primária (informação obtida diretamente pela pessoa), ou por via secundária(obtida através de publicações). 4. CRÍTICA DOS DADOS - Pode ser externa, quando visa às causas dos erros por parte do informante; ou interna quando visa observar os elementos originais dos dados da coleta. 5. APURAÇÃO DOS DADOS: É a soma e o processamento dos dados obtidos e a disposição mediante critérios de classificação. Pode ser manual, eletromecânica ou eletrônica e os cálculos. 6. EXPOSIÇÃO OU APRESENTAÇÃO DOS DADOS: É a maneira de mostrar as informações a terceiros, podendo ser: a) Expositiva (descrição ou narração); b) Aritmética (apresentada através de tabelas); c) Geométrica (através de gráficos); d) Pictórica (o fenômeno é ilustrado através de figuras representativas). 7. ANÁLISE DOS RESULTADOS: Concluídas as fases anteriores (Estatística Descritiva), fazemos uma análise dos resultados obtidos, através dos métodos da Estatística Indutiva ou Inferencial, e tiramos desses resultados conclusões e previsões. É a etapa mais delicada e importante, pois ai temos que tirar as conclusões que servirão para auxiliar o pesquisador a resolver o seu problema. Atualmente a em- presa é uma das vigas mestras da Economia dos povos. A direção de qualquer tipo de empresa, exige de FTC EaD | LICENCIATURA EM MATEMÁTICA10
  11. 11. seu administrador a importante tarefa de tomar decisões, e o conhecimento e uso da Estatística facilitará seu tríplice trabalho de organizar, dirigir e controlar a empresa. 1.2 Divisões da Estatística A Teoria Estatística moderna se divide em dois grandes campos: Estatística Descritiva ou Dedutiva - consiste num conjunto de métodos que ensinam a reduzir uma quan- tidade de dados bastante numerosa por um número pequeno de medidas (dados numéricos, tabelas, gráficos ou curvas), substitutas e representantes daquela massa de dados. A disponibilidade de uma grande quantidade de dados e de métodos computacionais muito eficientes revig- orou a área da Estatística denominada “Estatística Descritiva”. Estatística Inferencial ou Indutiva - consiste em deduzir ou tirar conclusões (inferir) a respeito das pro- priedades de um universo a partir de uma amostra. O processo de generalização, que é característico do método indutivo, está associado a uma margem de incerteza. A medida da incerteza é tratada mediante técni- cas e métodos que se fundamentam na Teoria das Probabilidades. A inferência estatística procura com base nos dados amostrais tirar conclusões sobre a população. Con- sidere o exemplo abaixo para ilustrar as definições dadas. 1.3 População e Amostra 1.2 Definição. [População, Censo ou Universo Estatístico] Conjunto de indivíduos, objetos ou informações que apresentam pelo menos uma característica comum, cujo comportamento interessa analisar. Ou, em outras palavras, conjunto de todas as medidas, observações relativas ao estudo de determinado fenômeno. Seja χ = {xi } uma população, onde i representa a ordem do elemento populacional e ‫ג‬ = {Yk } um conjunto de características da população χ as quais no interessa estudar. Então, a cada elemento de χ podemos associar a uma característica Yk ∈ ‫.ג‬ Exemplo 1.1. i) O Ministério da Saúde pretende estudar o nível da glucose no sangue das crianças brasileiras com 7 anos de idade em 2.001. População: χ = {o conjunto formado por todas as crianças portuguesas com 7 anos}. Característica: ‫ג‬ = {nível de glucose no sangue}. ii) Deseja-se saber se nas indústrias situadas no Estado da Bahia, em 1997, existia algum tipo de controle ambiental. População: χ = {indústrias situadas no Estado da Bahia em 1997}. Característica: ‫ג‬ = {existência ou não de algum tipo de controle ambiental na indústria}. iii) Estudo sobre a precipitação pluviométrica na Região Nordeste no ano 1997. População ou universo: χ = {área referente à Região Nordeste}. Característica: ‫ג‬ = {precipitação pluviométrica}. ESTATÍSTICA E PROBABILIDADE 11
  12. 12. iv) Deseja-se conhecer o patrimônio líquido, faturamento, número de empregados, tempo de existência, das empresas situadas no Pólo Petroquímico de Camaçari neste ano. População ou universo: χ = {empresas existentes no Pólo Petroquímico de Camaçari no ano em estudo}. Características: ‫ג‬ = {patrimônio líquido, faturamento, número de empregados, tempo de existência}. v) Deseja-se conhecer a idade, o peso, a estatura, a classe social e o tipo de dieta alimentar das crianças até dois anos de idade residentes no bairro Cabula, Salvador, em 2000. População ou universo: χ = {crianças até dois anos de idade residentes no Cabula em 2000}. Característica: ‫ג‬ = {idade, peso, estatura, classe social, tipo de dieta alimentar}. vi) O Serviço de Meteorologia pretende estudar a temperatura ambiente na cidade de Salvador às 8h de hoje. População ou universo: χ = {Salvador}. Característica: ‫ג‬ = {a temperatura ambiente às 8h de hoje}. Devemos considerar ainda que as populações podem ser homogêneas (cujas partes todas são da mesma natureza) ou heterogêneas (pelo menos uma das partes possui natureza distinta) Em geral, como os universos são grandes, investigar todos os elementos populacionais para determinarmos a característica necessita muito tempo, e/ou o custo é elevado, e/ou o processo de investigação leva a destru- ição do elemento observado, ou, como no caso de populações infinitas, é impossível observar a totalidade da população. Assim, para minimizar a influência dessas dificuldades, estudar parte da população constitui-se um aspecto fundamental da Estatística. 1.3 Definição. [Amostra] Chamamos de amostra um subconjunto próprio e finito da população. A seleção da amostra é baseada em características da população. População característica Técnicas de amostragem −−−−−−−−−−−−−−−−−−−→ Amostra Ü Análise descritiva Ý Conclusões sobre as características da população Inferência Estatística ←−−−−−−−−−−−−−−−−−− Informações contidas nos dados Figura 1.1: Notas de Aula da Disciplina MAT116 - USP A estatística, portanto, muito se baseia em fatos deduzidos pela teoria da amostragem. Por exemplo: Seja µ a razão que expressa a intenção de voto a cada 10 eleitores indagados que o candidato a Prefeito Alberto Magalhães receberia se fosse analisada toda a população de uma cidade que está para realizar eleições brevemente. Como é um resultado difícil de se obter, vamos trabalhar com amostras. Seja ¯x1,¯x2, . . . ,¯xk , as razões que expressam a intenção de voto a cada 10 eleitores indagados, obtidas das amostras de tamanho n de determinadas regiões da cidade. Sabemos que estas medidas só terão algum significado se um número razoável destas estiverem suficientemente próximas da medida µ. Cada erro absoluto é calculado por |¯xi − µ| = εi . Se torna interessante para a Estatística analisar o comportamento dos erros nas diversas amostras referidas. Como o tamanho da amostra influencia na magnitude do erro, quanto maior for a amostra, mais provável será que se tenha uma melhor estimativa. FTC EaD | LICENCIATURA EM MATEMÁTICA12
  13. 13. Desta forma, analisaremos quais εi são menores que um valor fixo “aceitável” ε para o erro. Claro que, quanto maior a quantidade de valores εi menores ou iguais que ε, mais confiável será a estimativa, ou seja, quando trabalhamos com amostras, visando conhecer a população, é necessário conhecer a probabilidade α de que o erro obtido não seja maior do que ε: P(|¯xi − µ| ≤ ε) = 1 − α. Assim, dizemos que cada amostra é representativa da população e que a medida ¯xi , de uma amostra previamente selecionada, pode ser utilizada como estimativa para a medida µ. Uma medida, obtida com cálculos baseados em informações de uma amostra, é chamada de estatística enquanto que a medida, obtida com cálculos baseados em informações de uma população, é chamada de parâmetro. A parte da Estatística responsável pela determinação do tamanho da amostra e da forma de seleção dos seus elementos é chamada Amostragem. 1.4 Variáveis Estatísticas A Estatística ocupa-se, fundamentalmente, das propriedades das populações cujas características são passíveis de representação numérica como resultado de medições e contagens. Essas características da pop- ulação são comumente chamadas de variáveis. As variáveis podem ser divididas em dois grupos: qualitativas e quantitativas. QUALITATIVA NOMINAL (sexo, estado civil, cor dos olhos, etc.) ORDINAL (classe social, grau de instrução, etc.) QUANTITATIVA CONTÍNUA (peso, altura, salário mensal, etc.) DISCRETA (número de filhos, número de carros, idade, etc.) Variáveis qualitativas - quando o resultado da observação é apresentado na forma de qualidade ou atributo. Exemplos: setor de atividade econômica; estado civil; porte da empresa; etc. - Variável qualitativa nominal - quando não existe qualquer ordenação para os resultados obtidos do processo de observação. Como exemplo, temos, entre as variáveis acima citadas: setor de atividade econômica (industrial, comercial, serviços, etc.); estado civil (solteiro, casado, viúvo, etc.). - Variável qualitativa ordinal - quando existe uma certa ordenação nos possíveis resultados das ob- servações efetuadas. Exemplo: porte de uma empresa (micro, pequena, média e grande). Outro exemplo seria a classe social (alta, média e baixa); ou, ainda, o grau de escolaridade do empregado (1 grau; 2 grau; e 3 grau). Variáveis quantitativas - quando o resultado da observação é um número, decorrente de um processo de mensuração ou contagem. Exemplos: número de empregados; salário mensal; faturamento anual; idade; tamanho da família; etc. - Variável quantitativa discreta - quando os resultados possíveis da observação formam um conjunto finito ou enumerável de números e que resultam, freqüentemente, de uma contagem. Exemplos: número de empregados; tamanho da família. - Variável quantitativa contínua - quando os possíveis valores formam um intervalo ou uma união de intervalos de números reais e que resultam, normalmente, de uma mensuração. Exemplos: salário mensal; faturamento anual, altura; peso. Para resumir as informações levantadas durante uma pesquisa usaremos a técnica e a representação mais apropriada, a depender do tipo de variável que estamos analisando. ESTATÍSTICA E PROBABILIDADE 13
  14. 14. 1.5 Séries Estatísticas Uma série estatística é toda e qualquer coleção de dados estatísticos referidos a uma mesma ordem de classificação quantitativa. Genericamente podemos dizer que é uma sucessão de números que se relacionam com qualquer variável do fenômeno em estudo. A palavra série é usada normalmente para designar um con- junto de dados dispostos de acordo com um caráter variável. Assim, ao realizarmos um levantamento de dados sobre um fenômeno ou variável, o que obtemos é uma série estatística. Dados Brutos e Rol Quando fazemos um levantamento de dados, se faz necessário o registro das informações coletadas (ques- tionários, formulários, etc.). Estas informações, apresentadas de forma desorganizada são chamados de dados brutos. Por exemplo, 4, 3, 4, 5, 7, 4, 6, 6, 7, 7, 4, 6, 5, 6, 6, 7, 5, 8, 5, 6, 2, 3, 6. Quando os valores para cada variável investigada estão dispostos em uma determinada ordem, crescente ou decrescente, chamamos cada listagem de rol. Por exemplo, 2, 3, 3, 4, 4, 4, 4, 5, 5, 5, 5, 6, 6, 6, 6, 6, 6, 6, 7, 7, 7, 7, 8. Podemos também caracterizar os dados estatísticos à sua espécie ou tipo característico: discretos (pode- mos contar os ítens); contínuos (não podemos contar); nominais ou categóricos; por postos. Classificação das Séries Estatísticas As séries estatísticas são diferenciadas umas das outras pelos seguintes fatores dos elementos que a compõe: - A época (fator temporal ou cronológico) a que se refere o fenômeno observado; - O local (fator espacial ou geográfico) onde o fenômeno acontece; - O fenômeno (espécie do fato ou fator especificativo) que é descrito. O fator de diferenciação das séries estatísticas podem ser divididos em dois grandes grupos: Série Homógrada: a variável apresenta variação descontínua: 1a . Série temporal, cronológica, histórica ou marchas- quando os resultados da observação do fenômeno são registrados ao longo do tempo. 2a . Série geográfica ou espacial - o local varia, permanecendo fixos o tempo e o fenômeno. 3a . Série especificativa, específica ou categórica - quando o fenômeno é observado segundo algu- mas categorias, permanecendo fixos o tempo e o local. Série Heterógrada: o fenômeno apresenta subdivisões. Embora fixo, o fenômeno varia em intensidade. 4a . Distribuição de freqüências - neste tipo de série estatística o tempo, o local e o fenômeno per- manecem fixos. O fenômeno considerado é uma variável quantitativa (discreta ou contínua) e seus valores observados são descritos considerando o número de vezes que ocorreram na série (freqüência). FTC EaD | LICENCIATURA EM MATEMÁTICA14
  15. 15. 1.6 Apresentação de uma Série Estatística O modo de condensação ou apresentação das informações são dadas por tabelas ou gráficos que facilitam a visualização do fenômeno, permitem a comparação com outros elementos ou, ainda, fazer previsões. Os principais tipos de gráficos serão apresentados, porém, antecedendo-os, serão apresentadas as normas de apresentação tabular e as tabelas das séries estatísticas que deram origem aos gráficos. 1.6.1 Apresentação Tabular A representação tabular (tabela) é uma das modalidades mais utilizadas para a apresentação dos dados estatísticos coleta dos na amostragem. NORMAS DE APRESENTAÇÃO TABULAR DE DADOS As normas a seguir foram retiradas do documento: Normas de apresentação tabular do Centro de Documen- tação e Disseminação de Informação 3a edição IBGE, Rio de Janeiro, 1.993. Têm como objetivo fixar conceitos e procedimentos aplicáveis a elaboração de tabelas de dados numéricos, de modo a garantir a clareza das informações apresentadas. Apresentemos o esboço de uma tabela onde a seguir conceituaremos os elementos que a compõe. Topo : Espaço superior de uma tabela destinado ao seu título; Título: Conjunto de termos indicadores do conteúdo de uma tabela. Toda tabela deve ter título, inscrito no topo, para indicar a natureza e as abrangências geográfica e temporal dos dados numéricos. As indicações da natureza e da abrangência geográ- fica dos dados numéricos devem ser feitas sem abreviações, por extenso, de forma clara e concisa; TOPO Cabeçalho das colunas Coluna ↓ Linha → Célula RODAPÉ Centro : Espaço central de uma tabela destinado a moldura, aos dados numéricos e aos termos necessários a sua compressão. No centro identificam-se quatro espaços menores: o espaço do cabeçalho, a coluna, a linha e a célula. Espaço do cabeçalho: espaço superior do centro de uma tabela destinado a indicação do conteúdo das colunas. Toda tabela deve ter cabeçalho, escrito no espaço do cabeçalho, para indicar, complemen- tarmente ao título, o conteúdo das colunas. O conteúdo das colunas deve ser feito com palavras ou com notações, de forma clara e concisa. Recomenda-se que a indicação com palavras seja feita por extenso, sem abreviações; Coluna: Espaço vertical do centro de uma tabela destinado aos dados numéricos (coluna de dados numéricos) ou aos indicadores de linha (colunas indicadoras); Linha: Espaço horizontal do centro de uma tabela destinado aos dados numéricos. Toda tabela deve ter indicadores de linha, inscritos nas colunas indicadoras, para indicar, complementarmente ao título, o conteúdo as linhas. O conteúdo das linhas deve ser feito com palavras ou com notações, de forma clara e concisa. Recomenda-se que a indicação com palavras seja feita por extenso, sem abreviações; Dado numérico : Quantificador de um fato especifico observado. A estrutura dos dados numéricos e dos termos necessários a compreensão de uma tabela deve ser feita com, no mínimo, três traços horizontais paralelos. O primeiro para separar o topo, o segundo para separar o espaço do cabeçalho. O terceiro para separar o rodapé; ESTATÍSTICA E PROBABILIDADE 15
  16. 16. Célula : espaço mínimo do centro de uma tabela, resultante do cruzamento de uma linha com uma coluna, destinado ao dado numérico ou ao sinal convencional. Sinal convencional: Representação gráfica que substitui um dado numérico. A substituição de um dado numérico deve ser feita por um dos sinais abaixo, conforme o caso: − zero não resultante de arredondamento; ·· Não se aplica a um dado numérico; · · · Dado numérico não disponível; x Dado omitido ; 0 0, 0 0, 00 etc. zero aproximado de um dado numérico originalmente positivo. −0 −0, 0 −0, 00 etc. zero aproximado de um dado numérico originalmente negativo. Quando uma tabela contiver sinais convencionais, estes deverão ser apresentados em nota geral com seus respectivos sig- nificados. No caso de publicação que contenha tabelas com sinais convencionais, na qual a apresentação dos sinais e de seus significados figure em destaque, e dispensável a nota geral em cada tabela. Rodapé : Espaço inferior de uma tabela destinado a fonte, a nota geral e a nota especifica. Fonte: Identificador do responsável (pessoa física ou jurídica) ou responsáveis pelos dados numéri- cos. Toda tabela deve ter fonte, inscrita a partir da primeira linha de seu rodapé. A identificação do responsável ou responsáveis pelos dados numéricos deve ser feita com palavras, por extenso, e prece- dida da palavra Fonte ou Fontes. Quando os dados sao extraídos de algum documento, recomenda-se a indicação da referencia bibliográfica do documento e quando a tabela contiver dados numéricos resul- tantes de transformação dos dados numéricos obtidos na fonte, o responsável pela operação deve ser identificado em nota geral ou nota especifica. Nota geral: Texto esclarecedor do conteúdo geral de uma tabela, quando necessário. Deve ser inscrito logo após o rodapé da tabela e ser precedido do termo Nota ou Notas. Nota específica: Texto esclarecedor de algum elemento especifico de uma tabela, quando necessário. Deve ser inscrito no rodapé, logo após a nota geral (quando esta existir). Quando uma tabela contiver mais de uma nota especifica, estas devem ser distribuídas obedecendo a ordem de numeração das chamadas, separando-se uma das outras por um ponto. Chamada : Símbolo remissivo atribuído a algum elemento de uma tabela que necessita uma nota específica. A remissiva atribuída a algum elemento deve ser feita em algarismos arábicos em destaque: entre parên- teses, entre colchetes, exponencial. Quando uma tabela contiver mais de uma chamada, estas devem ser distribuídas sucessivamente, de cima para baixo e da esquerda para a direita, em ordem crescente de numeração. Unidade de medida : Termo indicador da expressão quantitativa ou metrológica dos dados numéricos. Uma tabela deve ter unidade de medida, inscrita no espaço do cabeçalho ou nas colunas indicadoras, sem- pre que houver necessidade de se indicar, complementarmente ao título, a expressão quantitativa ou metrológica dos dados numéricos. A unidade de medida deve ser feita com símbolos ou palavras entre parênteses. Apresentação do Tempo 1o . Toda série temporal consecutiva deve ser apresentada, em uma tabela, por seus pontos, inicial e final, ligados por hífen (-). FTC EaD | LICENCIATURA EM MATEMÁTICA16
  17. 17. Exemplo 1.2. 2001-2004: apresenta dados numéricos para os anos de 2001, 2002, 2003 e 2004. SET 2000-FEV 2001: apresenta dados numéricos para os meses de Setembro, Outubro, Novembro, Dezembro de 20001 e Janeiro, Fevereiro e Março de 2001. 30.05.2001-06.06.2001: dados referentes aos dias 30 e 31 de Maio de 2001 e 1, 2, 3, 4, 5, e 6 de Junho de 2001. 2o . Toda série temporal não consecutiva deve ser apresentada, em uma tabela, por seus pontos, inicial e final, ligados por barra (/). Exemplo 1.3. 2001/2004: apresenta dados numéricos para os anos de 2001 e 2004, não sendo apresentados dados numéricos de pelo menos um dos anos desta serie temporal. OUT 2001/MAR 2002: dados referentes aos meses de Outubro de 2001 e Março de 2002, não sendo apresentados dados numéricos de pelo menos um dos meses desta serie temporal. 30.05.2001/06.06.2001: dados referentes aos dias 30 de Maio de 2001 e 6 de junho de 2001, não sendo apresentados dados numéricos de pelo menos um dos dias desta serie temporal. 3o . No caso de uma serie temporal não consecutiva que contenha um numero reduzido de pontos, a serie tem- poral pode ser apresentada por todos os seus pontos, separados por vírgula, dispensando-se proceder conforme o item (ii). 4o . Quando uma tabela contiver dados numéricos de uma safra, abrangendo dois anos, a apresentação do ponto no tempo deve ser feita com os dois últimos algarismos de cada um dos anos ligados por barra (/) e precedida da palavra Safra. Exemplo 1.4. Safra 01/02: apresenta dados numéricos de uma safra iniciada em 2001 e terminada em 2002. 5o . Quando uma tabela contiver dados numéricos de um período anual diferente do ano civil, isto deve ser indicado no título, em nota geral ou nota específica Arredondamento de Dados Numéricos Os dados numéricos em uma tabela devem ser arredondados sempre que houver necessidade de apresentá- los com um número menor de algarismos. Isto deve ser indicado em nota geral ou nota específica. 1o . O arredondamento dos dados numéricos deve respeitar as diferenças significativas (absolutas e relativas) existentes entre eles. 2o . No arredondamento do dado numérico, quando o primeiro algarismo a ser abandonado for 0, 1, 2, 3 ou 4, deve ficar inalterado o ultimo algarismo a permanecer. Exemplo 1.5. Arredondar o número 9, 2317 para um número com duas casas decimais. O valor arredondado será 9, 23. 3o . No arredondamento de dado numérico, quando o primeiro algarismo a ser abandonado for 5, 6, 7, 8 ou 9, deve-se aumentar de uma unidade o último algarismo a permanecer. Exemplo 1.6. Arredondar o número 9, 2317 para um número com três casas decimais. O valor arredondado será 9, 232. ESTATÍSTICA E PROBABILIDADE 17
  18. 18. 1.6.2 Exercício Proposto EP 1.1. Arredondar cada um dos seguintes valores para a aproximação pedida: (a) 48, 6 para o inteiro mais próximo (g) 5, 781 para décimos (b) 2, 484 para centésimos (h) 23, 350 para uma casa decimal (c) 0, 0045 para milésimos (i) 4, 99 para décimos (d) 22, 250 para décimos (j) 25, 351 para décimos (e) 1.001, 39 para o inteiro mais próximo (k) 324 para a dezena mais próxima (f) 6.498 para a centena mais próxima (l) 5.872 para o milhar mais próximo 1.6.3 Exemplos de Tabelas de Algumas Séries Estatísticas A seguir, exemplificaremos, através de tabelas, algumas séries estatísticas. Exemplo 1.7. Série temporal Índice de Produto Industrial Brasil - 1979 Meses IPI Janeiro 18.633 Fevereiro 17.497 Março 19.470 Abril 18.884 Maio 20.308 Junho 20.146 Julho 20.258 Agosto 21.614 Setembro 19.717 Outubro 22.133 Novembro 20.503 Dezempbro 12.721 Tabela 1.1: FONTE: IBGE Exemplo 1.8. Série geográfica População residente segundo os municípios da região metropolitana de salvador − 1991 Municípios População (em 1.000 habitantes) Camaçari 114 Candeias 68 Dias D’Avila 31 Itaparica 15 Lauro de Freitas 69 Madre de Deus 9 Salvador 2.075 São Francisco do Conde 20 Simões Filho 73 Vera Cruz 22 Total 2.496 Tabela 1.2: FONTE: IBGE, Censo Demográfico, Bahia. 1991. Exemplo 1.9. Série específica Rebanhos brasileiros − 1992 Rebanho Quantidade Bovinos 154.441 Eqüinos 550 Ovinos 19.956 Suínos 34.532 Caprinos 12.160 FONTE: Revista Isto É. Exemplo 1.10. Série conjugada Terminais telefônicos em serviço1991 − 1993 Região 1991 1992 1993 Sudeste 6.234.501 6.729.467 7.231.634 Sul 1.497.315 1.608.989 1.746.232 Nordeste 1.287.813 1.379.101 1.486.649 Centro-Oeste 713.357 778.925 884.822 Norte 342.938 375.658 403.494 FONTE: Revista Isto É. 1.6.4 Exercícios Propostos EP 1.2. Assinale a alternativa correta. População ou universo é um: (a) conjunto de pessoas; FTC EaD | LICENCIATURA EM MATEMÁTICA18
  19. 19. (b) conjunto de indivíduos apresentando uma característica especial; (c) conjunto de todos os indivíduos apresentando uma característica comum objeto de estudo. (d) conjunto de objetos; (e) n.d.a. EP 1.3. Estabelecer quais dados são discretos e quais são contínuos: (a) número de ações vendidas diariamente na Bolsa de Valores; (b) temperaturas registradas em um posto de meteorologia; (c) vida média das válvulas de televisão produzidas por uma determinada companhia; (d) salários anuais de professores do colégio; (e) comprimentos de 1000 parafusos produzidos por uma fábrica. EP 1.4. Entre as alternativas seguintes, assinale aquela que contiver uma afirmação verdadeira. (a) Dados Brutos são aqueles que estiverem numericamente organizados; (b) Rol é um arranjo de dados numéricos brutos; (c) O conjunto das alturas de 100 estudantes, do sexo masculino, de uma universidade, arranjados em ordem crescente ou decrescente de grandeza, é um exemplo de rol de dados. EP 1.5. Entre as alternativas seguintes, assinale aquela que corresponder a uma afirmação falsa. (a) Faz-se um levantamento por censo quando todos os elementos da população são pesquisados. (b) Faz-se levantamento por amostragem quando se pesquisa parte dessa população e, com base no sub- conjunto pesquisado, pode-se tirar conclusão acerca da população. (c) A decisão entre os tipos de levantamento a serem realizados, censo e amostragem, depende de prazo para a realização da pesquisa e recursos financeiros disponíveis, entre outras variáveis que possam implicar em vantagens ou desvantagens do censo e da amostragem. (d) As afirmações contidas nas alternativas “a” e “c” são falsas. (e) n.d.a. EP 1.6. As fases principais do método estatístico são: (a) coleta de dados, amostragem, apresentação tabular, apresentação gráfica e definição do problema; (b) coleta de dados, amostragem, apresentação tabular, apresentação gráfica e definição do problema; (c) amostragem, apresentação tabular, apuração dos dados, interpretação dos dados e planejamento; (d) definição do problema, planejamento, coleta dos dados, apuração, apresentação dos dados, análise e interpretação dos dados; (e) coleta de dados; apuração dos dados, análise e interpretação dos dados, apresentação dos dados. EP 1.7. [TCU-94] Assinale a opção correta. (a) Estatística Inferencial compreende um conjunto de técnicas destinadas à síntese de dados numéricos. ESTATÍSTICA E PROBABILIDADE 19
  20. 20. (b) O processo utilizado para se medir as características de todos os membros de uma dada população recebe o nome de censo. (c) A Estatística Descritiva compreende as técnicas por meio das quais são tomadas decisões sobre uma população com base na observação de uma amostra. (d) Uma população pode ser caracterizada se forem observados todos os seus componentes. (e) Parâmetros são medidas características de grupos, determinadas por meio de uma amostra aleatória. EP 1.8. [TTN-94] Marque a opção correta. (a) Um evento tem, no mínimo, dois elementos do espaço-amostra de um experimento aleatório. (b) Em um experimento aleatório uniforme todos os elementos do espaço-amostra são iguais. (c) Dois experimentos aleatórios distintos têm, necessariamente, espaços-amostra distintos. (d) Uma parte não-nula do espaço-amostra de um experimento aleatório define um evento. (e) Um experimento aleatório pode ser repetido indefinidamente, mantidas as condições iniciais. EP 1.9. [AFC-94] A tabela ao lado apresenta a distribuição de um grupo de 200 estudantes segundo o curso que fazem (Estatística ou Matemática) e o sexo (homem ou mulher). A única afirmação errada é: Homem Mulher Estatística 40 20 Matemática 80 60 (a) 40% dos homens estudam Matemática. (b) 75% das mulheres fazem o curso de Matemática. (c) Dois em cada três estudantes de Estatística são homens. (d) Um em cada três homens faz o curso de Estatística. (e) 60% dos estudantes são homens. EP 1.10. [AFC-94] A tabela abaixo apresenta a esperança de vida ao nascer para o Brasil (média nacional) e a Região Nordeste (média regional) no período de 1940 a 1980. Esperança de vida ao nascer (em anos) Anos Brasil Região Nordeste 1940 41, 5 38, 7 1950 45, 5 38, 9 1960 51, 6 41, 0 1970 53, 5 45, 5 1980 60, 0 51, 0 Tabela 1.3: Fonte: IBGE, Perfil estatístico de crianças e mães no Brasil, 1984. Da análise da tabela podemos concluir que a única afirmação errada é: (a) a esperança de vida do cidadão brasileiro cresceu no período 1940/1980. (b) a esperança de vida de um cidadão do nordeste brasileiro cresceu no período 1940/1980. (c) a tabela aponta uma diminuição na diferença entre a esperança de vida na Região Nordeste e a média nacional; FTC EaD | LICENCIATURA EM MATEMÁTICA20
  21. 21. (d) a tabela indica uma defasagem de 20 anos entre os valores observados na Região Nordeste e a média nacional; (e) no período 1940/1980, a esperança de vida de um cidadão do Nordeste brasileiro cresceu a uma taxa inferior à taxa média no Brasil. EP 1.11. [TCDF-95] Assinale a opção correta. (a) Em Estatística, entende-se por população um conjunto de pessoas. (b) A variável é discreta quando pode assumir qualquer valor dentro de determinado intervalo. (c) Freqüência relativa de uma variável aleatória é o número de repetições dessa variável. (d) A série estatística é cronológica quando o elemento variável é o tempo. (e) Amplitude total é a diferença entre dois valores quaisquer do atributo. EP 1.12. [TTN] Assinale a opção correta: (a) Uma amostra aleatória extraída de uma população deve ser superior, no tamanho, a 5% do número de elementos populacionais. (b) Em um experimento aleatório, cada elemento do espaço amostral tem a mesma probabilidade de ser selecionado, em uma realização do experimento. (c) Em um experimento aleatório é impossível garantir a ocorrência de um evento em uma particular realização do experimento, se ele não for um evento certo. (d) Um plano de amostragem corretamente elaborado garante a fidedignidade dos dados da população. (e) A opção pela amostragem em relação ao censo, garante a redução de tempo, mas conduz sempre ao incremento de custo e à perda de precisão. EP 1.13. [TTN] Marque a opção correta: (a) Dois experimentos aleatórios distintos têm, necessariamente, espaço-amostra distintos. (b) Uma parte não nula de um experimento aleatório define um evento. (c) Um experimento aleatório pode ser repetido indefinidamente, mantidas as condições iniciais. (d) Um evento, tem, no mínimo, dois elementos do espaço-amostra de um experimento aleatório. (e) Em um experimento aleatório uniforme, todos os elementos do espaço-amostra são iguais. 1.7 Distribuição de Freqüências Após a coleta de informações relativamente a uma variável dispomos dos dados de uma forma desarru- mada e, naturalmente, devemos organizá-los. Essa organização facilita a interpretação dos dados e condensa o número de informações. Não é rara as situações onde existem vários valores repetidos. Denominamos freqüência absoluta, ou simplesmente freqüência, o número de vezes que um determinado valor da variável aparece. Somos capazes de observar muito mais facilmente estes valores ordenados se os dispusermos em uma coluna e, ao lado de cada valor, a sua respectiva freqüência. Esta tabela, portanto, é denominada dis- tribuição de freqüência ou dados agrupados. ESTATÍSTICA E PROBABILIDADE 21
  22. 22. 1.7.1 Tipos de Freqüências Freqüência Simples Absoluta Relativa Acumulada crescente Absoluta Relativa decrescente Absoluta Relativa A freqüência simples se divide em — freqüência simples absoluta (fi ): número de ocorrências ou repetições de um valor individual ou um in- tervalo de valores. — freqüência simples relativa (f ri ): razão entre a freqüência simples absoluta e o número total de dados (soma de todas as freqüências simples absolutas). f ri = fi i fi . Claro que i f ri = 1. As freqüências simples absoluta e relativa são simplesmente chamadas de freqüência absoluta e freqüência relativa. A freqüência relativa pode também ser apresentada na forma de percentagem, bastando para isso multiplicá-la por 100 - freqüência simples relativa percentual. As freqüências relativas e relativas percentuais são úteis quando necessitamos comparar dois conjuntos de dados com o total de observação diferentes. A freqüência acumulada, absoluta ou relativa, se divide em — freqüência acumulada crescente ou “abaixo de”: corresponde à soma das freqüências simples (absolu- tas ou relativas) das classes ou dos valores anteriores. Notação: Fci freqüência absoluta crescente e Frci freqüência relativa crescente. A expressão “abaixo de” refere-se ao fato de que as freqüências a serem acumuladas correspondem aos valores menores ou anteriores ao valor ou à classe cuja freqüência acumulada se deseja obter, ou seja, as observações existentes até uma determinada classe ou valor individual. — freqüência acumulada decrescente ou “acima de”: corresponde à soma das freqüências a partir de uma determinada classe ou valor individual. Notação: Fdi freqüência absoluta decrescente e Frdi freqüência relativa decrescente. Agora exemplificaremos as distribuições de freqüências e suas respectivas tabelas para cada tipo de var- iável. 1.7.2 1a - Variáveis Qualitativas As variáveis qualitativas obtidas em uma pesquisa podem ser organizadas em formas de tabelas para facilitar a visualização e análise dos dados. Por exemplo, considere as respostas de 30 pessoas que foram entrevistadas sobre as bebidas preferidas durante a refeição. Os resultados foram os seguintes: FTC EaD | LICENCIATURA EM MATEMÁTICA22
  23. 23. · Água · Suco · Refrigerante · Suco · Suco · Cerveja · Suco · Refrigerante · Suco · Água · Refrigerante · Água · Água · Refrigerante · Outras · Suco · Suco · Suco · Suco · Outras · Refrigerante · Suco · Refrigerante · Outras · Refrigerante · Suco · Refrigerante · Cerveja · Refrigerante · Suco TABELA DE FREQÜÊNCIAS Bebida preferida Freqüência simples absoluta Freqüência acumulada absoluta Freqüência simples relativa Freqüência acumulada relativa Água 4 4 0, 13 0, 13 Cerveja 2 6 0, 07 0, 20 Refrigerante 9 15 0, 30 0, 50 Suco 12 27 0, 40 0, 90 Outras 3 30 0, 10 1, 00 Total 30 − 1, 00 Fonte: Dados fictícios 1.7.3 2a - Variáveis Quantitativas Discretas No exemplo a seguir, as informações foram obtidas através de um processo de contagem. Portanto, trata-se de uma variável discreta. Um outro exemplo envolve o número de defeitos apresentados por uma máquina industrial durante o período de 30 dias. Os resultados foram os seguintes: ·1 ·1 ·1 ·0 ·1 ·1 ·0 ·2 ·1 ·3 ·1 ·0 ·2 ·2 ·1 ·1 ·1 ·1 ·2 ·0 ·1 ·1 ·1 ·4 ·1 ·0 ·3 ·1 ·0 ·1 TABELA DE FREQÜÊNCIAS Número de defeitos Freqüência simples absoluta Freqüência acumulada absoluta Freqüência simples relativa Freqüência acumulada relativa 0 6 6 0, 20 0, 20 1 17 23 0, 57 0, 77 2 4 27 0, 13 0, 90 3 2 29 0, 07 0, 97 4 1 30 0, 03 1, 00 Total 30 − 1, 0 Fonte: Dados fictícios Nota 1. A tabela de freqüências para uma variável qualitativa ou uma variável quantitativa discreta é também chamada de distribuição de freqüências para dados não-agrupados em classes. ER 1. Preencher a tabela que indica o número de salários mínimos dos alunos da turma de estatística com ESTATÍSTICA E PROBABILIDADE 23
  24. 24. os valores de freqüências correspondentes a cada uma das colunas. Valor fi f ri Fci Fdi Fcri Fdri 3 1 4 3 5 4 6 7 7 4 8 1 È (a) Qual a probabilidade de sortearmos, nesta turma, uma pessoa que possui vencimentos igual a 7 salários mínimos? (b) Qual a probabilidade de sortearmos, nesta sala, uma pessoa que recebe no máximo 7 salários mínimos? (c) Qual a probabilidade de sortearmos, nesta turma, uma pessoa que recebe no mínimo 5 salários mínimos? Solução: Valor fi f ri Fci Fdi Fcri Fdri 3 1 0, 05 1 20 0, 05 1, 00 4 3 0, 15 4 17 0, 20 0, 95 5 4 0, 20 8 13 0, 40 0, 80 6 7 0, 35 15 6 0, 75 0, 60 7 4 0, 20 19 2 0, 95 0, 25 8 1 0, 05 20 1 1, 00 0, 05 È 20 (a) 0, 20, pois, é justamente a freqüência relativa correspondente à freqüência absoluta de sete salários mínimos (b) Quando se diz no máximo sete salários mínimos, deve-se considerar o conjunto de pessoas que ganham até sete salários. Assim, a probabilidade é 0, 95 que é a freqüência acumulada crescente correspon- dente. (c) Quando se diz no mínimo cinco salários mínimos, deve-se considerar o conjunto de pessoas que ganham cinco salários ou mais. Assim, a probabilidade é 0, 80 que é a freqüência acumulada decrescente correspondente. 1.7.4 3a - Variáveis Quantitativas CFontínuas No caso em que a série estatística apresenta variáveis quantitativas contínuas, existe a necessidade de organizar os dados originais em uma distribuição de freqüências na qual os valores observados são agrupados em classes de valores. Portanto, adotemos a seguinte nomenclatura: 1. Máximo (max): maior valor pertencente ao conjunto. 2. Mínimo (min): menor valor pertencente ao conjunto. 3. Amplitude total (AT): é a diferença entre o valor máximo e mínimo AT = max − min . FTC EaD | LICENCIATURA EM MATEMÁTICA24
  25. 25. 4. Classe: é cada um dos intervalos em que se subdivide a amplitude total. 5. O número de classes (k): Quantidade de classes existentes. 6. Limite superior (ls): é a cota superior para os valores da classe. 7. Limite inferior (li ): é a cota inferior para os valores da classe. 8. Tipos de intervalos: li − ls: Aberto à esquerda e à direita; li ⊢ ls: Fechado à esquerda e aberto à direita; li ⊣ ls: Aberto à esquerda e fechado à direita; li ⊢⊣ ls: Fechado à esquerda e à direita; 9. Amplitude do intervalo de classe (h): é o comprimento da classe, definida como a diferença entre o limite superior e inferior. 1.7.5 Determinação do Número de Classes e Amplitude do Intervalo de Classes Não existem regras gerais para a determinação do número de classes em uma distribuição. No entanto, algumas regras são propostas por autores que nos dão uma idéia aproximada do número de classes em função do número de dados. A determinação do tamanho e da quantidade de classes deve observar as seguintes normas: 1. As classes devem abranger todos os dados; 2. Não deve existir classe com freqüência nula; 3. Cada dado deve enquadrar-se em apenas uma classe; 4. Para variáveis contínuas, o limite superior de uma classe é o limite inferior da classe subseqüente. Em geral, na definição das classes, o limite inferior é incluído e o superior excluído. 5. A quantidade de classes, de um modo geral, não deve inferior a 5 ou superior a 25. 6. Quando não for um sério inconveniente, a amplitude dos intervalos de classe deve ser constante. 1.7.6 A Regra de Sturges Um dos métodos mais utilizados é o chamado de regra de Sturges ou regra do logaritmo. Ele estabelece que o número de classes k será o inteiro imediatamente superior ou igual a log2(2n), em que n é o número de dados, isto é, log2(2n) ≤ k < log2(2n) + 1, k ∈ Z. Aplicando-se as propriedades concernes aos logaritmos log2(2) + 1 log(2) log(n) ≤ k ⇒ k ≈ 1 + 3, 32 · log(n), ESTATÍSTICA E PROBABILIDADE 25
  26. 26. Nota 2. Podemos encontrar o valor de k sem, necessariamente, ter que utilizar uma calculadora ou uma tábua de logaritmos. Para isso, considere as seguintes potências de base dois 21 22 23 24 25 26 27 28 29 210 211 212 2 4 8 16 32 64 128 256 512 1024 2048 4096. Seja n um valor que representa a quantidade de dados. Como k é o inteiro imediatamente superior ou igual a log2(2n), podemos escrever que k − 1 < log2(2n) ≤ k. Logo, 2k−1 < 2n ≤ 2k e, em seqüência, 2k−2 < n ≤ 2k−1 . 1.7.7 A Regra do Quadrado Outra maneira para se obter o número de classes é k ≈ √ n, k ∈ Z. A prática recomenda 5 ≤ k ≤ 16. Mesmo conhecendo alguns métodos para a determinação do k, deve-se saber que a escolha dependerá antes da natureza dos dados, da unidade de medida e da experiência e do bom senso de quem fará a organi- zação dos dados da pesquisa. 1.7.8 Amplitude do Intervalo de Classes Sendo k o número de classes, determina-se a amplitude do intervalo de classes h, como sendo um valor ligeiramente superior a AT k , pois, desta forma, haverá uma pequena folga na última classe. Com este proced- imento aumentamos a amplitude total que os dados nos permitiram obter, mas, é claro que quanto menor for este aumento, mais expressivos serão os resultados obtidos. Para montar a tabela (distribuição de freqüências) devemos definir as classes: a partir do valor mínimo da amostra e a amplitude de classe h temos a primeira classe. O primeiro elemento das classes seguintes sempre serão formadas pelo último elemento da classe anterior. ER 2. Antes de enviar um lote de aparelhos elétricos para venda, o Departamento de Inspeção da empresa produtora selecionou uma amostra casual de 32 aparelhos avaliando o desempenho através de uma medida específica, obtendo os seguintes resultados: ·154 ·165 ·175 ·180 ·190 ·195 ·202 ·211 ·155 ·170 ·176 ·180 ·190 ·198 ·205 ·212 ·156 ·172 ·178 ·180 ·190 ·200 ·205 ·215 ·164 ·175 ·178 ·184 ·192 ·200 ·210 ·218 Construir uma tabela de distribuição de freqüências com intervalos de classes. Solução: Neste caso, n = 32 e pela regra de Sturges 24 < 32 ≤ 25 ⇒ k − 1 = 5 ⇒ k = 6. A amplitude total será dada por AT = 218 − 154 = 64. Assim, a amplitude de cada intervalo de classe será: h = AT k = 64 6 ≈ 10, 67. FTC EaD | LICENCIATURA EM MATEMÁTICA26
  27. 27. Aproximando para o inteiro mais próximo, temos que h = 11. Dessa forma, a tabela de distribuição de freqüências para dados agrupados em classes fica da seguinte maneira: Tabela de Freqüências Medida Freqüência simples absoluta Freqüência simples acumulada Freqüência simples relativa 154 ⊢ 165 4 4 0, 13 165 ⊢ 176 5 9 0, 16 176 ⊢ 187 7 16 0, 22 187 ⊢ 198 5 21 0, 16 198 ⊢ 209 6 27 0, 19 209 ⊢ 220 5 32 0, 16 Total 32 − 1, 00 Fonte: Dados fictícios 1.7.9 Ponto Médio da Classe Informações relativas aos verdadeiros valores das séries estatísticas são perdidas ao efetuarmos uma dis- tribuição de freqüências por classes já que uma uma simplificação da realidade ocorre. Além disso, esse processo de classificação dos dados não nos permite um tratamento estatístico adequado para a descrição dos dados. Contornarmos esse problema se adotarmos a hipótese de que todos os valores de uma classe são iguais ao valor que se encontra no centro da classe. chamamos esse valor representativo de uma classe de ponto médio ou ponto central. No caso da variável contínua o ponto médio da classe, que representaremos por xm, é definido por: xm = lm + 1 2 hm; m = 1, 2, . . . , k , onde, xm : é o ponto médio da classe m lm : é o limite inferior da classe i; hm : é a amplitude do intervalo da classe i; k : é o número de classe da distribuição de freqüências. ER 3. Para a tabela de distribuição de freqüências do exercício 2, determine o ponto médio da 3a classe. Solução: Pela definição de ponto médio de classe, temos x3 = 176 + 1 2 × 11 = 181, 5. 1.7.10 Exercícios Propostos EP 1.14. A tabela abaixo mostra a distribuição de freqüência dos salários anuais, em reais, de 65 empregados de uma firma. Determine: ESTATÍSTICA E PROBABILIDADE 27
  28. 28. (a) o limite inferior da sexta classe; (b) o limite superior da quarta classe; (c) o ponto médio da terceira classe; (d) os limites reais da quinta classe; (e) a amplitude do quinto intervalo de classe; (f) a freqüência da terceira classe; (g) a freqüência relativa da terceira classe; (h) o intervalo de classe que tem maior freqüência; Salários Empregados 5.000 − 5.999 8 6.000 − 6.999 10 7.000 − 7.999 16 8.000 − 8.999 14 9.000 − 9.999 10 10.000 − 10.999 5 11.000 − 11.999 2 Total 65 (i) a porcentagem de empregados que ganham menos de R$8.000, 00 por ano; (j) a porcentagem de empregados que ganham menos que R$10.000, 00 e pelo menos R$6.000, 00 por ano. EP 1.15. Considerando as notas de 40 alunos de uma turma do Colégio Ajax, listadas abaixo, apresente a distribuição de freqüência, sendo 30 o limite inferior da primeira classe e 10 para o intervalo de classe: 74 71 81 91 65 55 57 35 85 88 59 80 41 50 53 65 76 85 73 60 67 41 78 56 94 35 45 55 64 74 65 94 66 48 39 69 89 98 42 54 EP 1.16. Os números abaixo foram obtidos com o lançamento de um dado 50 vezes. Obtenha a distribuição de freqüência sem intervalos de classe: 6 5 2 6 4 1 6 3 3 5 1 3 6 3 4 5 4 3 1 3 5 4 4 2 6 3 6 2 6 5 2 2 5 2 5 1 3 6 5 1 5 6 2 4 6 1 5 2 4 3 EP 1.17. Forme a distribuição de freqüência em intervalos de classes, a partir das seguintes notas de um teste de inteligência: ·64 ·78 ·66 ·82 ·74 ·65 ·78 ·86 ·83 ·87 ·73 ·95 ·82 ·89 ·73 ·92 ·85 ·80 ·81 ·90 ·78 ·86 ·78 ·61 ·85 ·98 ·75 ·73 ·90 ·86 ·86 ·84 ·86 ·76 ·76 ·83 ·73 ·86 ·84 ·85 ·76 ·80 ·92 ·62 ·73 ·87 ·70 ·85 ·79 ·93 ·82 ·90 ·83 ·81 ·85 ·72 ·81 ·96 ·81 ·85 ·68 ·96 ·86 ·70 ·72 ·74 ·84 ·99 ·81 ·89 ·71 ·73 ·63 ·55 ·74 ·98 ·78 ·78 ·83 ·96 ·95 ·94 ·88 ·62 ·91 ·83 ·98 ·93 ·83 ·76 ·94 ·75 ·67 ·95 ·80 ·98 ·71 ·92 ·72 ·73 EP 1.18. Obtenha a distribuição de freqüência dos dados abaixo, que representam a quantidade vendida de automóveis no decorrer de um mês: 14 12 11 13 14 13 12 14 13 14 11 12 12 14 10 13 15 11 15 13 16 17 14 14 EP 1.19. [TTN] Considere a distribuição de freqüências abaixo e identifique a afirmativa correta: (a) 65% das observações têm peso não inferior a 4 kg e inferior a 10kg. (b) Mais de 65% das observações têm peso maior ou igual a 4kg. (c) Menos de 20 observações têm peso igual ou superior a 4kg. (d) A soma dos pontos médios dos intervalos de classe é inferior ao tamanho da população. (e) 8% das observações têm peso no intervalo de classe 8 ⊢ 10. Peso (kg) fi 2 ⊢ 4 9 4 ⊢ 6 12 6 ⊢ 8 6 8 ⊢ 10 2 10 ⊢ 12 1 Total EP 1.20. A tabela abaixo representa os salários pagos a 100 operários de uma empresa. Pede-se: FTC EaD | LICENCIATURA EM MATEMÁTICA28
  29. 29. (a) no de operários que ganham até dois salários mínimos; (b) no de operários que ganham até seis salários mínimos; (c) porcentagem de operários com salário entre 6 e 8 salários mínimos; (d) porcentagem de operários com salário igual ou inferior a 4 salários míni- mos. Salários Operários mínimos 0 ⊣ 2 40 2 ⊣ 4 30 4 ⊣ 6 10 6 ⊣ 8 15 8 ⊣ 10 5 Total EP 1.21. Assinale, entre as alternativas, aquela que contiver uma afirmação verdadeira. (a) Reunindo-se dados brutos em classes pode-se obter o número de indivíduos pertencentes a cada uma das classes, que é denominado “freqüência da classe”. (b) Os intervalos de classe precisam ser necessariamente iguais, na elaboração de uma tabela que apresente uma distribuição de freqüência. (c) O limite superior real da classe 150 − 155 é 155. (d) O limite inferior real da classe 150 − 155 é 150. (e) n.d.a. EP 1.22. Assinale, entre as alternativas, aquela que contiver uma afirmação verdadeira. (a) A amplitude do intervalo de classe é calculada pela soma entre os limites reais inferior e superior de uma classe. (b) Obtém-se o ponto médio de uma classe pela média aritmética dos limites inferior e superior reais de uma classe. (c) Um intervalo de classe aberto em seus dois limites inclui ambos os números extremos. (d) Intervalos de classe fechados têm seus limites superior e inferior reais excluídos dos números que os compõem. (e) n.d.a. EP 1.23. [TTN] Os intervalos de classe podem ser apresentados de várias maneiras. Dentre as situações abaixo a correta é: (a) 2 − 6 compreende todos os valores entre 2 e 6, inclusive os extremos; (b) 2 ⊢⊣ 6 compreende todos os valores entre 2 e 6, exclusive os extremos; (c) 2 ⊢ 6 compreende todos os valores entre 2 e 6, exclusive 2 e inclusive 6; (d) 2 ⊣ 6 compreende todos os valores entre 2 e 6, inclusive 2 e exclusive 6; (e) 2 − 6 compreende todos os valores entre 2 e 6, exclusive os extremos. ESTATÍSTICA E PROBABILIDADE 29
  30. 30. EP 1.24. Considere a distribuição de freqüências abaixo, da du- ração de 400 válvulas de rádio, ensaiadas pela Companhia Ótima S/A. Os limites superiores reais da quinta e oitava classes e a am- plitude do intervalo de classe são, respectivamente: (a) 799, 5; 1.199, 5 e 100 horas; (b) 799; 1.099 e 99 horas; (c) 799, 5; 1.099, 5 e 100 horas; (d) 799; 1.199 e 99 horas; (e) 799; 1.099, 5 e 100 horas; DURAÇÃO NÚMERO (HORAS) VÁLVULAS 300 − 399 14 400 − 499 46 500 − 599 58 600 − 699 76 700 − 799 68 800 − 899 62 900 − 999 48 1.000 − 1.099 22 1.100 − 1.199 6 Total 400 EP 1.25. Com respeito a questão 1.24, a porcentagem das válvulas, cuja duração é de 500 horas, no mínimo, mas inferior a 1.000 horas: (a) 78% (b) 77% (c) 79% (d) 80% (e) 85% EP 1.26. Ouvindo-se 300 pessoas sobre o tema “reforma da previdência, contra ou a favor?”, foram obtidas 123 respostas a favor, 72 contra, 51 pessoas não quiseram opinar, e o restante não tinha opinião formada sobre o assunto. Distribuindo-se esses dados numa tabela, obtém-se: OPINIÃO fi fr Favorável 123 x Contra 72 y Omissos 51 0, 17 Sem Opinião 54 0, 18 Total 400 1, 00 Na coluna freqüência relativa, os valores de x e y são, respectivamente: (a) 0, 41 e 0, 24; (b) 0, 38 e 0, 27; (c) 0, 37 e 0, 28; (d) 0, 35 e 0, 30; (e) 0, 30 e 0, 35; (FT/MG) responda às questões 1.27 e 1.28 com base na seguinte situação: a distribuição a seguir indica o número de acidentes ocorridos com 40 motoristas de uma empresa de ônibus. Acidentes 0 1 2 3 4 5 6 Motoristas 13 7 10 4 3 2 1 EP 1.27. O número de motoristas que sofreram pelo menos 4 acidentes é: (a) 3 (b) 6 (c) 10 (d) 27 (e) 304 EP 1.28. A porcentagem de motoristas que sofreram no máximo 2 acidentes é: (a) 25% (b) 32, 5% (c) 42, 5% (d) 57, 5% (e) 75% EP 1.29. [TTN] Assinale a alternativa correta dada a distribuição de freqüências: (a) Mais de 85% das observações têm diâmetro não inferior a 6cm. (b) 75% das observações estão no intervalo de 2 ⊢ 12. (c) 28% das observações estão no quarto intervalo de classe. (d) Menos de 25 das observações têm diâmetro abaixo de 10cm. (e) A soma dos pontos médios dos intervalos de classe é inferior à soma das freqüências absolutas simples. Diâmetro(cm) fi 4 ⊢ 6 6 6 ⊢ 8 8 8 ⊢ 10 12 10 ⊢ 12 10 12 ⊢ 14 4 FTC EaD | LICENCIATURA EM MATEMÁTICA30
  31. 31. 1.8 Apresentação Gráfica A representação gráfica de séries estatísticas constitui-se num fator importante em apresentações de tra- balhos. Esta representação pode ser dividida em três grandes grupos: os diagramas; os cartogramas; e os estereogramas. ◦ Diagramas - são figuras geométricas dispostas em duas dimensões. São os mais usados na representação de séries estatísticas. ◦ Cartogramas - as séries estatísticas são representadas em cartas geográficas. ◦ Estereogramas - representam volumes e são apresentados em três dimensões sendo, portanto, necessário algum conhecimento de perspectiva. Apresentaremos, aqui, apenas os principais diagramas, que podem ser utilizados para qualquer represen- tação de uma série estatística. São eles: o gráfico em barras; o gráfico em colunas; o gráfico em curvas; o gráfico em setores; e os Histogramas. Recomenda-se a seguinte utilização de correspondência entre as séries estatísticas e a sua representação gráfica. TIPO DE SÉRIE ESTATÍSTICA FATOR VARIANTE GRÁFICO MAIS INDICADO Temporal Época Curvas, excepcionalmente Colunas Especificativas Fenômeno Barras, Colunas ou Setores Geográficas Local Cartogramas, Colunas, Barras ou Setores Distribuição de freqüências Intensidade do fenômeno Histograma (contínua), Bastão (discreta), Barras, Colunas ou Setores (qualitativa) 1o . Gráfico em Colunas Exemplo 1.11. Série Geográfica É o gráfico que corresponde ao Histograma, porém, é utilizado na representação de dados nominais (ou categorias) ou em séries temporais. Pode-se, também, usar barras horizontais. Número de crianças de baixa renda, segundo o bairro de residência, que participaram do ensino de música na Escola XYZ, Salvador-1998 Bairro Número de crianças Paripe 11 Periperi 39 Plataforma 45 Praia Grande 25 Total 120 Fonte: Escola de Música XYZ, Salvador. 10 20 30 40 50 Paripe Periperi Plataforma Praia Grande Número de crianças de baixa renda, segundo o bairro de residência, que participaram do ensino de música na escola XYZ, Salvador - 1998 ESTATÍSTICA E PROBABILIDADE 31
  32. 32. Exemplo 1.12. Série Especificativa-Temporal Ingressantes da Universidade XYZ segundo área de estudo e ano Área / Ano 1.998 1.999 2.000 Exatas 120 156 68 Humanas 72 85 112 Biológicas 169 145 73 Fonte: Dados Fictícios Ingressantes da Universidade XYZ segundo área de estudo e ano 0 50 100 150 200 1.998 1.999 2.000 Exatas Humanas Biológicas 2o . Gráfico em Barras Exemplo 1.13. Série Especificativa Tipo de fraude nos cartões de crédito da Mastercard Internacional no Brasil - 2.000 Tipo de fraude Quantidade Cartão roubado 243 Cartão falsificado 85 Pedido por correio/telefone 52 Outros 46 Fonte: Triola, Mario F. Quantidade Tipo de fraude nos cartões de crédito da Mastercard Internacional do Brasil - 2000 Cartão Roubado Cartão Falsificado Pedido por correio/telefone Outros 0 50 100 150 200 250 300 3o . Gráfico de Pareto O gráfico de Pareto é composto por barras verticais e por uma curva representado a percentagem acu- mulada. As barras estão disponíveis em ordem decrescente, tornando evidente a priorização de temas. Este gráfico é muito utilizado na área de Controle de Qualidade. Exemplo 1.14 (Werkema, volume 2). Uma indústria fabricante de lentes tem como objetivo resolver o seguinte problema: aumento do número de lentes defeituosas produzidas pela empresa a partir de fevereiro de 1995. A empresa classificou uma amostra de lentes fabricadas durante uma semana de produção de acordo com os tipos de defeitos detectados. O resultado está na tabela abaixo: DEFEITOS ENCONTRADOS EM UMA AMOSTRA DE LENTES FABRICADAS DURANTE UMA SEMANA DE PRODUÇÃO DE UMA INDÚSTRIA Tipo de defeito Quantidade Arranhão 12 Trinca 41 Revestimento inadequado 55 Muito fina ou muito grossa 11 Não acabada 05 Outros 03 Total 127 Número total de lentes inspecionadas: 1.200 FTC EaD | LICENCIATURA EM MATEMÁTICA32
  33. 33. Uma maneira de representarmos graficamente estes dados é através do gráfico de Pareto. Para constru- irmos o gráfico de Pareto é necessário obtermos a planilha de dados mostrada na tabela a seguir. PLANILHA DE DADOS PARA CONSTRUÇÃO DO GRÁFICO DE PARETOS Tipo de defeito Quantidade de defeito Total Acumulado Percentagem do Total Geral(%) Percentagem Acumulada Revest. Inadeq. 55 55 43, 3 43, 3 Trinca 41 96 32, 3 75, 6 Arranhão 12 108 9, 4 85, 0 Fina ou Grossa 11 119 8, 7 93, 7 Não-Acabada 5 124 3, 9 97, 6 Outros 3 127 2, 4 100, 0 Total 127 − 100, 0 − Nesta tabela, os tipos de defeitos foram listados em ordem decrescente de quantidade na coluna 1, a quantidade de defeitos aparece na coluna 2 e o total acumulado está na coluna 3. Nas colunas 4 e 5 estão as percentagens totais e as percentagens acumuladas respectivamente. As barras do gráfico de Pareto foram construídas a partir dos dados da coluna 2 e a curva acumulada conhecida como curva de Pareto, foi traçada a partir dos números da coluna 5. Gráfico de Pareto para defeito das lentes Defeitos Revestimento Inadequado Trinca Arranhão Fina ou Grossa Não acabada Outros 0 50 100 0 20 40 60 80 100 Observando o gráfico acima, foi imediato para indústria perceber que os dois tipos de defeitos mais fre- qüentes, “Revestimento inadequado” e “trinca ”, representavam 75, 6% dos defeitos detectados nas lentes pro- duzidas pela empresa. Portanto, “Revestimento inadequado” e “Trinca” foram considerados os defeitos mais importantes, que devem ser eliminados em primeira lugar esse tipo de defeito é chamado de poucos defeitos vitais, enquanto que os outros representam apenas os muitos defeitos triviais, pois, representam a minoria das observações. 4o . Gráfico em Linhas ou Curvas É muito utilizado na representação gráfica de dados não agrupados em classes, ao lado do gráfico de hastes ou bastões e também para a representação de séries temporais (cotação de ações, vendas, etc). Exemplo 1.15. Série Temporal ESTATÍSTICA E PROBABILIDADE 33
  34. 34. IPI, BRASIL-1979 Meses IPI JAN 18.633 FEV 17.497 MAR 19.470 ABR 18.884 MAI 20.308 JUN 20.146 JUL 20.258 AGO 21.614 SET 19.717 OUT 22.133 NOV 20.503 Fonte: IBGE ÍNDICE DE PRODUTO INDUSTRIAL - BRASIL - 1.979 0 5.000 10.000 15.000 20.000 25.000 JAN FEV MAR ABR MAI JUN JUL AGO SET OUT NOV 5o . Gráfico em Setores Exemplo 1.16. Série Geográfica Percentual de funcionários dos coletivos de Salvador segundo área de residência Área de residência Percentual Centro 17, 2 Subúrbio 39, 1 Periferia 43, 7 Fonte: Dados Fictícios 17, 2% 39, 1% 43, 7% Centro Subúrbio Periferia 6o . Gráficos de Hastes, Bastões ou Diagrama de Traços É muito utilizado na representação gráfica de dados não agrupados em classes, o que ocorre normalmente com dados discretos. Nestes casos não há perda de informação, pois, os valores da variável aparecem indi- vidualmente, como constam da amostra. Exemplo 1.17. xi fi 0 10 1 20 2 30 3 25 4 10 5 5 xi fi 0 10 20 30 40 1 2 3 4 5 7o . Histograma É muito utilizado na representação gráfica de dados agrupados em intervalos de classes, o que ocorre normalmente com dados contínuos e, conseqüentemente, há perda de informação. O seu uso é recomendado quando - existem valores não inteiros para a variável; - a quantidade de valores da variável é grande, no caso de valores inteiros (discretos); - não é importante a perda de informação ocasionada pelos dados apresentados. FTC EaD | LICENCIATURA EM MATEMÁTICA34
  35. 35. No caso de classes com a mesma amplitude, é construído um retângulo para cada classe com base igual à amplitude do intervalo de classe e altura proporcional a freqüência da classe. Quando temos classes com am- plitudes diferentes, devemos construir um retângulo para cada classe, com base igual à amplitude do intervalo de classe e altura dada por: h = freqüência amplitude ( 1.1) Note que a área do retângulo é igual a freqüência da classe. A altura h em ( 1.1) é chamada de densidade de freqüência. Exemplo 1.18. Histograma para a distribuição de freqüência do exemplo 2. TABELA DE FREQÜÊNCIAS Medida fi Fci f ri 154 ⊢ 165 4 4 0, 13 165 ⊢ 176 5 9 0, 16 176 ⊢ 187 7 16 0, 22 187 ⊢ 198 5 21 0, 16 198 ⊢ 209 6 27 0, 19 209 ⊢ 220 5 32 0, 16 Total 32 1, 00 0 2 4 6 8 154⊢165 165⊢176 176⊢187 187⊢198 198⊢209 209⊢220 Medida fi Medida específica de um aparelho elétrico Exemplo 1.19. Histograma para a distribuição de freqüências com amplitudes diferentes. TABELA DE FREQÜÊNCIAS Medida fi Fci f ri 150 ⊢ 155 3 3 0, 09375 155 ⊢ 161 4 7 0, 125 161 ⊢ 173 5 12 0, 15625 173 ⊢ 177 3 15 0, 09375 177 ⊢ 184 10 25 0, 3125 184 ⊢ 198 1 26 0, 03125 198 ⊢ 206 3 29 0, 09375 206 ⊢ 220 3 32 0, 09375 Total 32 1, 00000 150⊢155 155⊢161 161⊢173 173⊢177 177⊢184 184⊢198 198⊢206 206⊢220 8o . Polígono de Freqüências É a representação gráfica de uma distribuição por meio de um polígono e é obtido ao se unir por um segmento de reta dois pontos médios consecutivos das bases superiores dos retângulos de um histograma. Idade fi Fci 2 ⊢ 4 4 4 ⊢ 6 6 6 ⊢ 8 10 8 ⊢ 10 7 10 ⊢ 12 3 Total Limites das classes fi 0 2 4 6 8 10 12 3 4 6 7 10 9o . Polígono de Freqüências Acumuladas É construído a partir das freqüências acumuladas. Os segmentos possuem extremidades de abscissas nos limites inferior e superior referente a cada classe. A abscissa que representa o limite inferior da classe se relaciona com a freqüência acumulada da classe anterior. Já a abscissa que representa o limite superior da classe se relaciona com a freqüência acumulada da mesma. ESTATÍSTICA E PROBABILIDADE 35
  36. 36. Exemplo 1.20. A representação através de um gráfico de polígono de freqüências da distribuição Notas fi 0 ⊢ 2 2 2 ⊢ 4 7 4 ⊢ 6 3 6 ⊢ 8 1 8 ⊢ 10 3 Total é Notas fi 0 2 4 6 8 10 2 4 6 8 10 12 14 16 1.8.1 Cuidados na Representação Gráfica Há vários problemas com este gráfico. Ele impressiona mais pela tecnologia utilizada do que pela infor- mação que passa para o leitor. Os dados não são tridimensionais. As grades do fundo mais o efeito tridimen- sional distraem a visão e dificultam comparações entre trimestre e regiões. Uma forma de melhorar o gráfico é dar-lhe a dimensão correta. Pode-se eliminar as linhas de grade. Não utilize faixas horizontais, verticais ou similares, que só atrapalham a visão do leitor. Faça mais de um gráfico até encontrar um que seja informativo, claro, e que não possua objetos desnecessários. Não apresente gráficos supérfluos. Se retirarmos a figura abaixo, toda a informação poderá ser transmitida textualmente, com uma simples frase: “80% das respostas foram positivas e 20% negativas”. O gráfico abaixo tem alguns problemas. Primeiro, o efeito 3-D dificulta o julgamento das porcentagens relativas de cada categoria da variável. A retirada do efeito 3-D ajudará o leitor a julgar melhor as proporções relativas observadas em cada amostra. 1.8.2 Exercícios Propostos EP 1.30. [TCU] Gráficos são instrumentos úteis na análise estatística. Assinale a afirmação incorreta. (a) Um histograma representa uma distribuição de freqüências para variáveis do tipo contínuo. (b) O gráfico de barras representa, por meio de uma série de barras, quantidades ou freqüências para var- iáveis categóricas. (c) O gráfico de setores é apropriado, quando se quer representar as divisões de um montante total. (d) Um histograma pode ser construído utilizando-se, indistintamente, as freqüências absolutas ou relativas de um intervalo de classe. (e) Uma ogiva pode ser obtida ligando-se os pontos médios dos topos dos retângulos de um histograma. EP 1.31. [AFTN] Analise a opção correta. (a) A utilização de gráficos da barra ou de colunas exige amplitude de classe constante na distribuição de freqüência. (b) O histograma é um gráfico construído com freqüências de uma distribuição de freqüências ou de uma série temporal. (c) O polígono de freqüência é um indicador gráfico da distribuição de probabilidade que se ajusta à dis- tribuição empírica a que ele se refere. (d) O histograma pode ser construído para a distribuição de uma variável discreta ou contínua. FTC EaD | LICENCIATURA EM MATEMÁTICA36
  37. 37. (e) O polígono de freqüência é construído unido-se os pontos correspondentes aos limites inferiores dos intervalos de classe da distribuição de freqüência. EP 1.32. [TCDF] Em relação aos tipos de gráficos, assinale a opção correta. (a) Uma série categórica é representada por um gráfico de linha. (b) Uma série cronológica é melhor representada por um gráfico de setores. (c) Se uma distribuição de freqüências apresenta intervalos de tamanhos desiguais, o melhor gráfico para representá-la é um polígono de freqüências. (d) O gráfico de barras é usado somente para séries geográficas. (e) O gráfico de setores é usado para comparar proporções. EP 1.33. O gráfico formado por um conjunto de retângulos justapostos, de forma que a área de cada retângulo seja proporcional à freqüência da classe que ele representa é chamado de: (a) Polígono de Freqüências (b) Gráfico de Barras (c) Gráfico de Colunas (d) Histograma (e) Ogivograma EP 1.34. [AFE] Indique a alternativa correta: (a) A freqüência relativa nos fornece o número de observações dentro de cada intervalo de classe. (b) Ao falarmos em distribuição de freqüências estamos nos referindo a uma população. Quando tratamos com amostra, nos referimos a distribuição de probabilidade. (c) Curvas de freqüências simétricas são aquelas em que as observações equidistantes do ponto central têm a mesma freqüência. (d) Um polígono de freqüências é um conjunto de retângulos, cujas áreas são proporcionais às freqüências das classes. (e) A amplitude de um intervalo de classe é a diferença entre o limite superior e o ponto médio do intervalo. A Estatística Descritiva consiste em um conjunto de métodos que ensinam a reduzir uma quantidade de dados, bastante numerosa, em um número pequeno de medidas que substituem e representam aquela massa de dados. Quatro tipos fundamentais de medidas descritivas são estudadas: (i) medidas de posição (ou de locação ou de localização); (ii) medidas de dispersão (ou de variabilidade); (iii) medidas de assimetria; (iv) medidas de curtose. Entre as medidas de posição, aquelas que tendem a estar no centro da distribuição são chamadas de medidas de tendência central. Veremos também algumas idéias gerais sobre assimetria e análise exploratória de dados. ESTATÍSTICA E PROBABILIDADE 37
  38. 38. 1.9 Medidas de Posição MedidasdePosição ∗ Média Aritmética Representativas ∗ Média Geométrica ∗ Média Harmônica ∗ Mediana Separatrizes ∗ Quartis ∗ Decis ∗ Centis ou Percentis ∗ Moda de Czuber Dominantes ∗ Moda de King ∗ Moda de Pearson Tem por objetivo descrever um conjunto de dados de forma organizada e compacta que possibilita a visualização do conjunto estudado por meio de suas estatísticas, o que não significa que estes cálculos e con- clusões possam ser levados para a popu- lação. Podemos classificar as medidas de posição conforme a tabela ao lado: 1.9.1 Média Aritmética Considere um conjunto de dados numéricos X = {xi ; i = 1, 2, . . . , n}. Uma média para X é um valor que pode substituir todos os valores da lista sem alterar uma determinada característica da lista. Se a característica a ser mantida é a soma dos elementos de X, obtemos a média aritmética. Ou seja, a média aritmética dos números do conjunto X é um valor ¯x tal que x1 + x2 + . . . + xk = ¯x + ¯x + . . . + ¯x = k · ¯x. Logo, ¯x = x1 + x2 + . . . + xk k = k i=1 xi k ( 1.2) ER 4. Um estudante obteve, durante o ano letivo, as seguintes médias para os quatro bimestres: 4.5, 6.5, 7, 6. Sabendo que a média final nessa instituição de ensino é 5, determine se o aluno foi aprovado. Solução: A média do aluno é ¯x = 4.5 + 6.5 + 7 + 6 4 = 6. Portanto, o aluno foi aprovado. Se o conjunto de dados numéricos for X = {xi ; i = 1, 2, . . . , k}, em que cada elemento xi possui freqüência fi , a média aritmética para o conjunto X é definida por: ¯x = k i=1 xi · fi n , n = k i=1 fi . ( 1.3) ER 5. Em um determinado dia de campanha de vacinação contra hepatite 100 crianças se vacinaram num posto de saúde. Destas 25 crianças tinham 12 anos, 35 crianças tinham 14 anos e, o restante, 15 anos. Determine a média das idades das crianças. Solução: A média é ¯x = n i=1 xi · fi n = 12 · 25 + 14 · 35 + 15 · 40 100 . Pode-se entender, em diversas situações, as freqüências com que os dados numéricos de X, os quais quer- emos sintetizar, como diferentes graus de importância para cada xi . A média aritmética é chamada, portanto, média aritmética ponderada em que as respectivas freqüências dos elementos de X são uma espécie de “peso” (ou ponderação) aos valores possíveis da variável xi . FTC EaD | LICENCIATURA EM MATEMÁTICA38

×