Análise de dados

184 visualizações

Publicada em

Anánse de dados estatísticos
Introdução as técnicas de amostragem
Introdução á estimação
Introdução aos testes
Métodos não paramétricos

Publicada em: Economia e finanças
0 comentários
0 gostaram
Estatísticas
Notas
  • Seja o primeiro a comentar

  • Seja a primeira pessoa a gostar disto

Sem downloads
Visualizações
Visualizações totais
184
No SlideShare
0
A partir de incorporações
0
Número de incorporações
3
Ações
Compartilhamentos
0
Downloads
8
Comentários
0
Gostaram
0
Incorporações 0
Nenhuma incorporação

Nenhuma nota no slide

Análise de dados

  1. 1. Análise de Dados Introdução às técnicas de Amostragem Introdução à Estimação Introdução aos testes Métodos não paramétricos Maria Eugénia Graça Martins Faculdade de Ciências da Universidade de Lisboa Março 2009
  2. 2. ÍNDICE Capítulo 1 – Introdução às técnicas de Amostragem 1.1 Introdução – A Estatística estuda a variabilidade apresentada pelos dados.......................1 1.2 Probabilidade e Estatística .................................................................................................2 1.3 Aquisição de Dados .................................................................................................6 1.3.1 Introdução .................................................................................................6 1.3.2 Técnicas de amostragem aleatória....................................................................9 1.3.2.1 Amostra aleatória simples.....................................................................9 1.3.2.2 Amostra aleatória sistemática...............................................................12 1.3.2.3 Amostra estratificada ............................................................................13 1.3.2.4 Amostragem por clusters ou grupos.....................................................14 1.3.3 Amostragem não aleatória.................................................................................14 1.3.4 Outros tipos de erros num processo de aquisição de dados.............................14 1.4 Estimador centrado e não centrado. Precisão ......................................................................15 1.5 Qual a dimensão que se deve considerar para a amostra....................................................17 1.6 Estimação do valor médio utilizando amostras aleatórias simples .......................................18 1.6.1 Distribuição de amostragem da média ..............................................................19 1.6.1.1 Distribuição de amostragem exacta......................................................19 1.6.1.2 Distribuição de amostragem aproximada .............................................27 1.6.2 Distribuição aproximada da média, como estimador do valor médio de uma população finita, mas de dimensão suficientemente grande.............................27 1.7 Distribuição de amostragem da média em amostragem com reposição ..............................28 1.8 Forma da distribuição de amostragem da média em populações infinitas ou amostragem com reposição .................................................................................................32 1.8.1 Valor médio e desvio padrão da média .............................................................35 1.8.2 Distribuição da média, para populações normais..............................................35 1.8.2.1 Desvio padrão σ conhecido ..................................................................35 1.8.2.2 Desvio padrão σ desconhecido ............................................................36 1.8.3 Distribuição da média para populações não normais. Teorema Limite Central .................................................................................................37 1.9 Distribuição de amostragem da proporção............................................................................38 1.9.1 Distribuição de amostragem da proporção para populações finitas..................38 1.9.2 Distribuição de amostragem da proporção para populações infinitas ou com reposição .................................................................................................40 Capítulo 2 – Introdução à estimação 2.1 Introdução .................................................................................................41 2.2 Estimação da proporção. Intervalo de confiança para a proporção......................................43 2.3 Estimação do valor médio. Intervalo de confiança para o valor médio.................................49 2.3.1 Intervalo de confiança para o valor médio – σ conhecido .................................49 2.3.2 Intervalo de confiança para o valor médio – σ desconhecido ...........................53
  3. 3. Capítulo 3 – Introdução aos testes de hipóteses 3.1 Introdução .................................................................................................59 3.2 Outros exemplos .................................................................................................62 3.3 Hipótese nula e Hipótese alternativa; erros de tipo 1 e tipo 2; estatística de teste; região de rejeição .................................................................................................63 3.4 Testes de hipóteses para a proporção p...............................................................................65 3.4.1 Determinação dos pontos críticos......................................................................68 3.4.2 P-Value .................................................................................................69 3.5 Vamos conversar acerca de testes .......................................................................................70 3.6 Testes de hipóteses sobre o valor médio..............................................................................74 3.6.1 P-value .................................................................................................78 Capítulo 4 – Testes à igualdade de duas populações 4.1 Inferência sobre a diferença entre as proporções de duas populações ..............................83 4.1.1 Testes de hipóteses sobre a diferença de proporções......................................84 4.1.2 Intervalo de confiança para a diferença de proporções.....................................85 4.2 Inferência sobre a diferença entre os valores médios de duas populações .........................85 4.2.1 Inferência sobre a diferença entre valores médios de populações independentes .................................................................................................86 4.2.1.1 As populações são normais e as variâncias conhecidas .....................87 4.2.1.2 As populações são normais e as variâncias são iguais e desconhecidas – teste t para amostras independentes .......................88 4.2.1.3 As populações são normais e as variâncias são diferentes e desconhecidas ......................................................................................89 4.2.1.4 As populações não são normais e as amostras são de grande dimensão...............................................................................................90 4.2.2 Amostras emparelhadas ....................................................................................90 4.2.2.1 Populações normais, pequenas amostras – teste t emparelhado........91 4.2.2.2 Grandes amostras.................................................................................92 4.2.3 Que tipo de planeamento fazer..........................................................................93 4.3 Teste para a igualdade de variâncias em populações normais ............................................94 Capítulo 5 – Métodos não paramétricos 5.1 Introdução .................................................................................................97 5.2 Testes de ajustamento .................................................................................................99 5.2.1 Introdução .................................................................................................99 5.2.2 Generalização do modelo Binomial – o modelo Multinomial.............................99 5.2.3 Teste de ajustamento do Qui-quadrado ............................................................103 5.2.3.1 Análise de dados qualitativos ...............................................................103 5.2.3.2 Análise de dados discretos ...................................................................107 5.2.3.3 Análise de dados contínuos..................................................................111 5.2.4 Teste de Kolmogorov-Smirnov...........................................................................117 5.2.5 Comparação entre os testes do Qui-quadrado e o de Kolmogorov-Smirnov....120 5.3 Problema da localização e da localização e simetria – teste dos sinais e teste de Wilcoxon .................................................................................................122 5.3.1 Introdução .................................................................................................122
  4. 4. 5.3.2 Teste dos Sinais.................................................................................................123 5.3.2.1 Teste dos Sinais para amostras emparelhadas ...................................126 5.3.3 Teste de Wilcoxon..............................................................................................127 5.3.3.1 Distribuição de amostragem de + nT .......................................................130 5.3.3.2 Teste de Wilcoxon para amostras emparelhadas ................................134 5.3.3.3 O teste de Wilcoxon e o teste-t.............................................................135 5.4 Testes de hipóteses em modelos não paramétricos para testar a homogeneidade de várias populações independentes.........................................................................................135 5.4.1 Comparação de duas populações independentes ............................................135 5.4.1.1 Teste de Mann-Whitney-Wilcoxon........................................................135 5.4.1.1.1 Distribuição de amostragem de Wm,n ................................136 5.4.1.1.2 O teste de Mann-Whitney-Wilcoxon e o teste-t para duas amostras ...................................................................139 5.4.1.1.3 Forma alternativa para a estatística de Mann-Whitney- Wilcoxon ............................................................................141 5.4.1.2 Teste de Kolmogorov-Smirnov para duas amostras ............................143 5.4.2 Comparação de mais de duas populações independentes...............................146 5.4.2.1 Teste de Kruskal-Wallis ........................................................................146 5.4.2.1.1 Comparações múltiplas.....................................................152 5.4.2.2 Teste do Qui-quadrado em tabelas de contingência para testar a homogeneidade ....................................................................................153 5.5 Testes de hipóteses em modelos não paramétricos para testar a independência...............156 5.5.1 Teste do Qui-quadrado em tabelas de contingência para testar a independência de duas populações ..................................................................156 5.5.2 Coeficiente de correlação ordinal de Spearman................................................158 5.5.3 Índice de Friedman ............................................................................................162 Bibliografia Conover, W.J. (1980) – Practical Nonparametric Statistics, John Wiley & Sons De Veaux, R. Et al. (2004) – Intro Stats, Pearson, Addison Wesley Graça Martins, M. E. (2005) – Introdução à Probabilidade e à Estatística – Com complementos de Excel, SPE Graça Martins, M. E. et al. (1999) – Probabilidades e Combinatória, Ministério da Educação, Departamento do Ensino SEcundário Mendenhall, W., et al. (1987) – Statistics: a Tool for the Social Sciences, PWSKent Montgomery, D. et al. (1999) – Applied Statistics and Probability for Engineers, John Wiley & Sons, Inc. New York Murteira, B. et al. (2002) – Introdução à Estatística, McGraw-Hill de Portugal Sprent, P. (1989) – Applied Nonparametric Statistical Methods, Chapman and Hal Tannenbaum. P. et al. (1998) – Excursions in Modern Mathematics, Prentice Hall
  5. 5. Análise de Dados 1 Maria Eugénia Graça Martins Introdução às técnicas de amostragem 1 Introdução às técnicas de amostragem. Distribuição de amostragem de algumas estatísticas baseadas em amostras aleatórias simples e em amostragem com reposição. Estudo dos estimadores Média e Proporção amostral. 1.1 ► Introdução – A Estatística estuda a variabilidade apresentada pelos dados Da experiência que temos no dia a dia com os dados já concluímos, com certeza, que estes apresentam variabilidade. Por exemplo é comum que um pacote de açúcar que na embalagem tenha escrito um quilograma, não pese exactamente um quilograma. Por outro lado ao pesar duas vezes o mesmo pacote possivelmente não obteremos o mesmo valor. Assim, ao dizermos que o peso do pacote é um determinado valor, não podemos ter a certeza que esse valor seja correcto. Esta variabilidade está presente em todas as situações do mundo que nos rodeia, pelo que as conclusões que tiramos a partir dos dados que se nos apresentam, têm inerente um certo grau de incerteza. A Estatística trata e estuda esta variabilidade apresentada pelos dados. Permite-nos a partir dos dados retirar conclusões, mas também exprimir o grau de confiança que devemos ter nessas conclusões. É precisamente nesta particularidade que se manifesta toda a potencialidade da Estatística. Podemos então, e tal como refere David Moore em Perspectives on Contemporary Statistics, considerar três grandes áreas nesta ciência dos dados: • Aquisição de dados • Análise dos dados • Inferência a partir dos dados
  6. 6. Análise de Dados 2 Maria Eugénia Graça Martins Vamos, numa das secções seguintes, abordar o primeiro tema considerado, ou seja o que diz respeito à Aquisição de Dados, numa perspectiva de que pretendemos obter dados, para respondermos a determinadas questões, isto é, para posteriormente retirarmos conclusões para as Populações a partir das quais esses dados são adquiridos – contexto em que tem sentido fazer inferência estatística. Vamos assim, preocupar-nos em obter amostras representativas de Populações que se pretendem estudar. 1.2 ► Probabilidade e Estatística A Probabilidade é o instrumento que permite ao estatístico utilizar a informação recolhida da amostra para descrever ou fazer inferências sobre a População de onde a amostra foi recolhida. Podemos ainda dizer que os objectivos da Probabilidade e da Estatística são, de certo modo, inversos. Alguns exemplos ajudar-nos-ão a compreender melhor esta ideia. EXEMPLO 1.1 (Graça Martins, M.E. et al, 1999) Suponha que tem uma moeda equilibrada e que lança a moeda uma série de vezes, registando em cada lançamento a face que fica voltada para cima. O resultado dos registos é uma sucessão de F e de C, onde utilizamos a letra F para designar cara (face) e a letra C para designar coroa. Como admitimos que a moeda é equilibrada, isto é, estamos a adoptar um determinado modelo probabilístico, esperamos que o número de F’s seja aproximadamente metade do número de lançamentos efectuados. Se, por outro lado, considerarmos uma amostra de dimensão 1, isto é, fizermos unicamente um lançamento, dizemos que a probabilidade de obter F é 1/2, já que existe igual possibilidade de obter F ou C (ao dizer que a moeda é equilibrada estamos a atribuir igual probabilidade à saída de cara ou de coroa num lançamento). Suponha agora que a sua moeda não era equilibrada. Neste caso quando procedemos a vários lançamentos já não sabemos qual a proporção de caras que esperamos obter, uma vez que a População não é perfeitamente conhecida – conhecemos os resultados possíveis em cada lançamento – cara ou coroa, mas o modelo não está completamente especificado, uma vez que as probabilidades associadas a esses resultados não são conhecidas (estamos a assumir que a moeda não é equilibrada). Então um modo possível de obter mais alguma informação sobre o modelo probabilístico é proceder a um certo número de lançamentos e calcular a frequência relativa da saída de cara, nos lançamentos efectuados. Este valor vai-nos servir para estimar a probabilidade da saída de cara. Por exemplo, se em 1000 lançamentos se obtiveram 324 caras, dizemos que um valor aproximado para a probabilidade de se
  7. 7. Análise de Dados 3 Maria Eugénia Graça Martins verificar cara é 0.324 (ao fim de 1000 lançamentos verificou-se uma certa estabilidade à volta deste valor) e o valor aproximado para a probabilidade de sair coroa será 0.676. Com este exemplo procuramos exemplificar o papel relativo da Probabilidade e da Estatística: Enquanto que ao assumirmos um determinado modelo de probabilidade – População conhecida, o que foi feito ao admitir que a moeda era equilibrada, estamos aptos a raciocinar do geral para o particular, isto é, da População para a Amostra, quando a População não é conhecida utilizamos a Estatística para fazer raciocínios no sentido inverso, isto é, inferir para a População resultados observados na Amostra. Para esclarecer melhor esta ideia, consideremos ainda os seguintes exemplos: EXEMPLO 1.2 (Adaptado de Murteira, B. et al., 2002) Consideremos um conjunto numeroso de pessoas, por exemplo os alunos matriculados na FCUL no ano lectivo de 2005/2006. Relativamente a esta população, existe uma percentagem p, de alunos que praticam desporto. Escolhem-se (sem reposição) ao acaso 10 alunos. Se p fosse conhecido, por exemplo 0.3, podíamos calcular a probabilidade de encontrar x praticantes de desporto, com 0≤x≤10, nesse grupo de 10 alunos, probabilidade que se sabe ser determinada pela expressão ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ x 10 0.3x 0.710-x Como a população era numerosa, podemos admitir que o número de estudantes que praticam desporto, em 10 estudantes retirados aleatoriamente da população, é bem modelado pelo modelo Binomial, de parâmetros 10 e 0.3 (a composição da população praticamente não se altera, quando retiramos alguns elementos, pelo que podemos admitir que temos provas de Bernoulli). Trata-se de um problema de probabilidade. Pode, no entanto, suceder, que p seja desconhecido, sendo esta, aliás, a situação mais corrente. Então, neste caso, vamos utilizar a informação sobre o número de praticantes de desporto na amostra de 10, nomeadamente a proporção x/n, para tirar conclusões sobre a proporção de praticantes de desporto da população. Trata-se de um problema de inferência estatística. EXEMPLO 1.3 Sabe-se que determinado tipo de componentes electrónicas tem um tempo de vida que não depende da idade, isto é, a falha pode ocorrer em qualquer instante e não depende de há quanto tempo as componentes já estão em funcionamento. Sabe-se ainda que estas componentes podem falhar em qualquer altura, não tendo, portanto, um tempo de garantia. Se se souber que o tempo médio θ até à falha é 100 horas, então o tempo de vida T, deste tipo de componentes, pode ser bem
  8. 8. Análise de Dados 4 Maria Eugénia Graça Martins modelado por uma exponencial, com função densidade de probabilidade e função distribuição, respectivamente f (t) = 100 1 exp(- 100 t ), t>0 e F(t) = 1 – exp(- 100 t ) Então, assumindo o modelo anterior, podemos calcular, por exemplo, a probabilidade de uma destas componentes não falhar antes de 200 horas: P(T>200) = 1 – F(200) = exp(-2) = 0.135 Na realidade, a situação corrente é que aquele valor médio θ é desconhecido e o modelo probabilístico para o tempo de vida das componentes é conhecido a menos de um parâmetro, sendo a sua função densidade f(t) = θ 1 exp(- θ t ), θ>0, t>0 Como estimar θ? Um estimador natural é considerar uma amostra de n componentes que se colocam em teste, observar os tempos até à falha e tomar a média desses tempos, como estimativa do tempo médio até à falha, já que, no modelo exponencial tal como foi apresentado anteriormente, o parâmetro θ é o valor médio de T. EXEMPLO 1.4 Numa Universidade os inquéritos pedagógicos são lidos através de leitura óptica. Sabe-se que estes leitores, embora raramente, podem cometer alguns erros. Um processo de controlar a qualidade da leitura é seleccionar aleatoriamente uns tantos inquéritos e verificar quantos erros foram cometidos pela leitura óptica, em cada um dos inquéritos. Admitindo que o número de erros, Z, por inquérito, pode ser bem modelado por uma Poisson, temos para função massa de probabilidade da v.a. Z P(Z=k) = exp-λ !k k λ , k=0, 1, 2, ... Se soubermos que, em média, se detectam 0,2 erros por página, podemos calcular, por exemplo, a probabilidade de não encontrarmos nenhum erro num inquérito escolhido aleatoriamente. Efectivamente, neste caso, λ=0.2, pelo que a probabilidade pretendida será P(Z=0) = exp(-0.2) (0.2)0 /0!= 0,82. No entanto, numa situação em que, à partida, não se conheça o desempenho dos leitores ópticos, terá de se estimar o parâmetro λ. Uma estimativa para este parâmetro obtém-se seleccionando alguns inquéritos já lidos, e depois de contar o número de erros cometidos em cada um, calcular a média dos valores obtidos. EXEMPLO 1.5 Uma equipa móvel de colheita de sangue, estacionada no Saldanha, interpela as pessoas que passam, no sentido de as sensibilizar a darem sangue, investigando nomeadamente o seu
  9. 9. Análise de Dados 5 Maria Eugénia Graça Martins grupo sanguíneo. Qual a probabilidade de, em certo dia, só encontrarem um indivíduo de grupo O RH-, ao 10 indivíduo que abordam? Estamos numa situação em que temos uma população constituída por indivíduos pertencentes a uma de 2 categorias – ter sangue O RH-, ou não ter este tipo de sangue. Pretendemos fazer um raciocínio probabilístico sobre a variável aleatória X, que representa o número de indivíduos inquiridos (insucessos) até se encontrar um com sangue O RH- (sucesso). Para obter um modelo probabilístico para esta variável aleatória, vamos começar por admitir que desta experiência aleatória, que consiste em perguntar a cada indivíduo o seu grupo sanguíneo, resultam provas de Bernoulli: efectivamente em cada prova podemos ter sucesso ou insucesso e podemos considerar as provas independentes, com probabilidade de sucesso constante, uma vez que, embora a população seja finita, as provas ainda podem ser consideradas independentes, pois a dimensão da amostra seleccionada é muito pequena, quando comparada com a dimensão da população. Então, se representarmos por p a proporção de indivíduos da população com sangue O RH-, um modelo para X (modelo geométrico) será P(X=k) = (1-p)k-1 p, k=1, 2, ... Se conhecermos o valor de p, por exemplo, 6%, podemos calcular a probabilidade pretendida: P(X=10) = (1-0.06)9 0.06 = 0.034 E se a probabilidade p for desconhecida? Neste caso temos de a estimar. Tendo em consideração que o valor médio de X é 1/p, uma estimativa natural para p pode ser obtida recolhendo uma amostra, em que cada elemento é o número de indivíduos abordados até se obter sucesso, calcular a média dessa amostra e considerar como estimativa de p, o inverso da média obtida. EXEMPLO 1.6 O sr. Silva, industrial têxtil, decidiu começar a fabricar camisas de homem, destinadas a serem vendidas em Portugal. Precisava de ter alguma informação sobre os moldes que devia utilizar, nomeadamente sobre o comprimento R, adequado para as mangas. Um estatístico, a quem pediu ajuda, passado algum tempo, sugeriu-lhe o modelo Normal. O sr. Silva ficou muito espantado, pois tinha alguns estudos, embora poucos, de Estatística e uma das coisas que se lembrava era de que o suporte do modelo Normal era R. Ora nós sabemos que o comprimento do braço é necessariamente positivo! Na verdade, o que acontece é que se tentassemos encontar um modelo com suporte positivo, teríamos grandes dificuldades e na realidade, adoptando um modelo normal, com valores convenientes para os parâmetros valor médio (μ) e desvio padrão (σ), podemos verificar, que a probabilidade de obtermos valores para R inferiores a determinado valor é praticamente nula. Estes valores convenientes são estimados a partir de uma amostra de comprimentos de braços de homem, para a qual se calculam a média e o desvio padrão, que são utilizados como estimativas dos parâmetros desconhecidos.
  10. 10. Análise de Dados 6 Maria Eugénia Graça Martins Os exemplos apresentados anteriormente mostram a importância de encontrarmos modelos probabilísticos para as situações reais descritas. Em algumas das situações tivémos de propor modelos que não descrevem perfeitamente a situação real, mas que consideramos úteis, pois nos permitem tomar decisões. Nesta reflexão sobre qual o modelo a adoptar para traduzir um fenómeno aleatório, vem a propósito lembrar o que diz Box: Todos os modelos são maus, alguns são úteis Na secção seguinte abordamos o problema da aquisição de dados e a sua importância e cuidados necessários para, numa fase seguinte, procedermos a inferências sobre as populações de onde os dados foram retirados. 1.3 ► Aquisição de dados 1.3.1 ► Introdução Abordaremos de seguida (Graça Martins, M. E., 2005) algumas das técnicas de aquisição de dados, em que se distinguem as Sondagens e Experimentações (aleatoriezadas) Gostaríamos desde já de realçar que o objectivo desta secção é o de explorar, de uma forma simples, algumas das técnicas de amostragem, com vista à realização de sondagens, situações que se encontram de um modo geral nas Ciências Sociais, ao contrário das Ciências experimentais, tais como Física ou Química, em que a recolha de dados se faz fundamentalmente recorrendo a experiências. Por exemplo, a população constituída pelos eleitores, a população constituída pela contas sedeadas num banco, etc, só contêm um número finito de elementos, ao contrário da População conceptual de respostas geradas por um processo químico. Não é demais realçar a importância desta fase, a que chamamos de Produção ou Aquisição de Dados. Como é referido em Tannenbaum (1998), página 426: “Behind every statistical statement there is a story, and like a story it has a beginning, a middle, an end, and a moral. In this first statistics chapter we begin with the beginning, which in statistics typically means the process of gathering or collecting data. Data are the raw
  11. 11. Análise de Dados 7 Maria Eugénia Graça Martins material of which statistical information is made, and in order to get good statistical information one needs good data”. Sondagem, População, Amostra População, unidade, amostra População é o conjunto de objectos, indivíduos ou resultados experimentais acerca do qual se pretende estudar alguma característica comum. As Populações podem ser finitas ou infinitas, existentes ou conceptuais. Aos elementos da população chamamos unidades estatísticas. Amostra é uma parte da população que é observada com o objectivo de obter informação para estudar a característica pretendida. O objectivo de uma sondagem é o de recolher informação acerca de uma população, seleccionando e observando um conjunto de elementos dessa população. Sondagem – Estudo estatístico de uma população, feito através de uma amostra, destinado a estudar uma ou mais características tais como elas se apresentam nessa população. Se se observarem todos os elementos da população tem-se um recenseamento Geralmente, há algumas quantidades numéricas acerca da população que se pretendem conhecer. A essas quantidades chamamos parâmetros. Os parâmetros são estimados por estatísticas, que são números calculados a partir da amostra. Estas quantidades são conceptualmente distintas, pois enquanto a característica populacional pode ser considerada um valor exacto, embora desconhecido, a característica amostral é conhecida, embora contendo um certo erro, inerente à amostra seleccionada, mas que todavia pode ser considerada uma estimativa útil da característica populacional respectiva.
  12. 12. Análise de Dados 8 Maria Eugénia Graça Martins População Amostra Parâmetro Estatística No entanto, para se poder utilizar as estatísticas – estimadores, para estimar parâmetros é necessário que as amostras sejam representativas das populações de onde foram retiradas. Amostra enviesada. Amostra aleatória e amostra não aleatória. Uma amostra que não seja representativa da População diz-se enviesada e a sua utilização pode dar origem a interpretações erradas Um processo de amostragem diz-se enviesado quando tende sistematicamente a seleccionar elementos de alguns segmentos da População, e a não seleccionar sistematicamente elementos de outros segmentos da População. Surge assim, a necessidade de fazer um planeamento da amostragem, onde se decide quais e como devem ser seleccionados os elementos da População, com o fim de serem observados, relativamente à característica de interesse. Amostra aleatória e amostra não aleatória – Dada uma população, uma amostra aleatória é uma amostra tal que qualquer elemento da população tem alguma probabilidade de ser seleccionado para a amostra. Numa amostra não aleatória, alguns elementos da população podem não poder ser seleccionados para a amostra. Normalmente obtêm-se amostras enviesadas quando existe a intervenção do factor humano. Com o objectivo de minimizar o enviesamento, no planeamento da escolha da amostra deve ter-se presente o princípio da aleatoriedade de forma a obter uma amostra aleatória.
  13. 13. Análise de Dados 9 Maria Eugénia Graça Martins Quando se pretende recolher uma amostra de dimensão n, de uma População de dimensão N, podemos recorrer a vários processos de amostragem. Como o nosso objectivo é, a partir das propriedades estudadas na amostra, inferir propriedades para a População, gostaríamos de obter processos de amostragem que dêem origem a “bons” estimadores e consequentemente “boas” estimativas. Acontece que as propriedades dos estimadores, como veremos a seguir, só podem ser estudadas se conseguirmos estabelecer um plano de amostragem que atribua a cada amostra seleccionada uma determinada probabilidade, e esta atribuição só pode ser feita com planos de amostragem aleatórios. Assim, é importante termos sempre presente o princípio da aleatoriedade, quando vamos proceder a um estudo em que procuramos alargar para a População as propriedades estudadas na amostra. 1.3.2 ► Técnicas de amostragem aleatória Seguidamente apresentaremos algumas dos planeamentos mais utilizados para seleccionar amostras aleatórias. Dos vários tipos de planeamento utilizados, destacam- se os que conduzem a amostras aleatórias simples, amostras sistemáticas e amostras estratificadas. 1.3.2.1 ► Amostra aleatória simples O plano de amostragem aleatória mais básico é o que permite obter a amostra aleatória simples: Amostra aleatória simples - Dada uma população, uma amostra aleatória simples de dimensão n é um conjunto de n unidades da população, tal que qualquer outro conjunto de n unidades teria igual probabilidade de ser seleccionado. Se uma população tem dimensão N e se pretende uma amostra aleatória simples de dimensão n, esta amostra é recolhida aleatoriamente de entre todas as N n ⎛ ⎝ ⎜ ⎞ ⎠ ⎟ amostras distintas que se podem recolher da população. Isto implica que cada amostra tenha a
  14. 14. Análise de Dados 10 Maria Eugénia Graça Martins mesma probabilidade N n ⎛ ⎝ ⎜ ⎞ ⎠ ⎟ −1 de ser seleccionada. Uma amostra destas pode ser escolhida sequencialmente da população, escolhendo um elemento de cada vez, sem reposição, pelo que em cada selecção cada elemento tem a mesma probabilidade de ser seleccionado. Um esquema de amostragem aleatória simples, conduz a que cada elemento da População tenha a mesma probabilidade de ser seleccionado para a amostra, podendo-se demonstrar que é igual a n N 1 . No entanto existem outros esquemas de amostragem em que cada elemento tem igual probabilidade de ser seleccionado, sem que cada conjunto de n elementos tenha a mesma probabilidade de ser seleccionado. É o que se passa com a amostragem aleatória sistemática, em determinadas situações particulares. Como seleccionar uma amostra aleatória simples? 1. Para seleccionar uma amostra aleatória simples, teoricamente o processo mais simples consiste em colocar objectos identificadores (bolas, bocados de papel de igual dimensão, etc) de todos os elementos da população numa caixa, e retirar um a um, sequencialmente, sem reposição. Os elementos seleccionados serão observados relativamente à característica de interesse. 2. O processo anterior é pouco prático, pelo que é normalmente substituído por uma selecção feita utilizando uma tabela de dígitos aleatórios: Dígitos aleatórios (ou números aleatórios) - Uma tabela de dígitos aleatórios é uma listagem dos dígitos 0, 1, 2, 3, 4, 5, 6, 7, 8 ou 9 tal que: - qualquer um dos dígitos considerados tem igual possibilidade de figurar em qualquer posição da lista; - a posição em que figura cada dígito é independente das posições dos outros dígitos. 1 O nº de amostras de n elementos que não contêm um dado elemento é ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ − n 1N . A probabilidade de qualquer elemento não ser incluído é portanto igual a ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ − n 1N / ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ n N , ou seja (N-n)/N. Assim, a probabilidade de um determinado elemento ser seleccionado é 1-(N-n)/N, ou seja n/N.
  15. 15. Análise de Dados 11 Maria Eugénia Graça Martins Apresenta-se a seguir um extracto de uma tabela de números aleatórios (Moore, 1997). O facto de os dígitos se apresentarem agrupados 5 a 5 é só para facilidade de leitura. Linha 101 19223 95034 05756 28713 96409 12531 42544 82853 102 73676 47150 99400 01927 27754 42648 82425 36290 103 45467 71709 77558 00095 32863 29485 82226 90056 104 52711 38889 93074 60227 40011 85848 48767 52573 105 95592 94007 69971 91481 60779 53791 17297 59335 106 68417 35013 15529 72765 85089 57067 50211 47487 107 82739 57890 20807 47511 81676 55300 94383 14893 108 60940 72024 17868 24943 61790 90656 87964 18883 109 36009 19365 15412 39638 85453 46816 83485 41979 A partir da tabela de dígitos aleatórios podem-se obter números aleatórios de 2 dígitos - qualquer par dos 100 pares possíveis 00, 01, …98, 99, tem igual probabilidade de ser seleccionado, de 3 dígitos - qualquer triplo dos 1000 triplos possíveis 000, 001, …998, 999, tem igual probabilidade de ser seleccionado, etc, tomando os dígitos da tabela 2 a 2, 3 a 3, etc, a partir de uma linha qualquer e percorrendo-a da esquerda para a direita. Para seleccionar uma amostra de uma população utilizando a tabela procede-se em duas etapas: 1. atribui-se um número a cada elemento da população. Esta atribuição terá de ser feita com as devidas precauções, de forma a que cada número tenha o mesmo número de dígitos, para ter igual probabilidade de ser seleccionado; 2. a partir da tabela escolhe-se uma linha ao acaso e começa-se a percorrê-la da esquerda para a direita, tomando de cada vez os dígitos necessários. EXEMPLO 1.7 Considerando a população constituída por 18 alunos de uma turma, vamos numerá- los com os números 01, 02, 03, …, 17, 18 (podia ser utilizado qualquer outro conjunto de 18 números de 2 dígitos). Para seleccionar uma amostra de dimensão 4 fixamo-nos numa linha qualquer da tabela, por exemplo a linha 107 e começamos a seleccionar os números de dois dígitos, tendo-se obtido: 82 73 95 78 90 20 80 74 75 11 81 67 65 53 00 94 38 31 48 93 60 94 07 20 24 17 86 82 49 43 61 79 09
  16. 16. Análise de Dados 12 Maria Eugénia Graça Martins Tivemos de ler 33 números, dos quais só aproveitámos 4, pois os outros não correspondiam a elementos da população. Como obter uma tabela de números aleatórios? Um processo poderá consistir em meter numa caixa 10 bolas numeradas de 0 a 9 e fazer várias extracções de uma bola, tantas quantas os dígitos que se pretendem para constituir a tabela. De cada vez que se faz uma extracção, lê-se o número da bola, aponta-se e repõe-se a bola na caixa - extracção com reposição. Com este processo qualquer dígito tem igual probabilidade de ser seleccionado. Além disso a saída de qualquer um dos dígitos em qualquer momento, é independente dos dígitos que já saíram anteriormente. Além das tabelas de números aleatórios também existe a possibilidade de utilizar o computador para os gerar ou uma simples máquina de calcular. Este é o processo mais utilizado hoje em dia, mas convém ter presente que os números que se obtêm são pseudo-aleatórios, já que é um mecanismo determinista que lhes dá origem, embora se comportem como números aleatórios (passam numa bateria de testes destinados a confirmar a sua aleatoriedade). Sugere-se a utilização do Excel para seleccionar amostras aleatórias simples2 . 1.3.2.2 ► Amostra aleatória sistemática Na prática o processo de seleccionar uma amostra aleatória simples de uma população com grande dimensão, não é tão simples como o descrito anteriormente. Se a dimensão da população for grande o processo torna-se muito trabalhoso. Então uma alternativa é considerar uma amostra aleatória sistemática. Por exemplo, se pretendermos seleccionar uma amostra de 150 alunos de uma Universidade com 6000 alunos, considera-se um ficheiro com o nome dos 6000 alunos ordenados por ordem alfabética. Considera-se o quociente 6000/150=40 e dos primeiros 40 elementos da lista, selecciona-se um aleatoriamente. A partir deste elemento seleccionamos sistematicamente todos os elementos distanciados de 40 unidades. Assim, se o elemento seleccionado aleatoriamente de entre os primeiros 40, foi o 27, os outros 2 Consultar, por exemplo, Graça Martins, M. E. – Introdução à Probabilidade e à Estatística, Com complementos de Excel, 2005
  17. 17. Análise de Dados 13 Maria Eugénia Graça Martins elementos a serem seleccionados são 67, 107, 147, etc. Obviamente que o quociente entre a dimensão da população e a da amostra não é necessariamente inteiro, como anteriormente, mas não há problema pois considera-se a parte inteira desse quociente. Amostra aleatória sistemática – Dada uma população de dimensão N, ordenada por algum critério, se se pretende uma amostra de dimensão n, escolhe-se aleatoriamente um elemento de entre os k primeiros, onde k é a parte inteira do quociente N/n. A partir desse elemento escolhido, escolhem-se todos os k-ésimos elementos da população para pertencerem à amostra. A amostra aleatória sistemática não é uma amostra aleatória simples, já que nem todas as amostras possíveis de dimensão n, têm a mesma probabilidade de serem seleccionadas. No entanto, se o quociente N/n for inteiro, mostra-se que a probabilidade de qualquer elemento ser seleccionado é igual a n/N3 . 1.3.2.3 ► Amostra estratificada Pode acontecer que a população possa ser subdividida em várias subpopulações, mais ou menos homogéneas relativamente à característica a estudar. Por exemplo, se se pretende estudar o salário médio auferido pelas famílias lisboetas, é possível dividir a região de Lisboa segundo zonas mais ou menos homogéneas, estratos, quanto à característica em estudo – salário médio, e posteriormente extrair de cada um destes estratos uma percentagem de elementos que irão constituir a amostra, sendo esta percentagem, de um modo geral, proporcional à dimensão dos estratos. Amostra estratificada – Divide-se a população em várias subpopulações – estratos, e de cada uma destes estratos extrai-se aleatoriamente uma amostra. O conjunto de todas estas amostras constitui a amostra pretendida. EXEMPLO 1.8 - Suponhamos que se pretendia estudar o volume das vendas de prestação de serviços, das empresas de construção civil. Podemos à partida considerar a População das empresas 3 Pensemos nos N elementos colocados em circulo e seja N=nk. Comecemos por fixar uma posição inicial j. A probabilidade de um elemento A ser seleccionado é igual a ∑= N 1j (P A ε amostra/ posição inicial é j) P(posição inicial ser j) = N n N 1 N n N 1j =×∑= .
  18. 18. Análise de Dados 14 Maria Eugénia Graça Martins divididas em 3 estratos, quanto ao número de trabalhadores que emprega: pequenas - 10 ou menos trabalhadores, médias - entre 11 e 40 e grandes - mais de 41 trabalhadores. Uma vez identificados os estratos, procede-se numa segunda etapa à recolha de uma amostra aleatória simples dentro de cada estrato. Admitindo que a População em estudo é constituída por 500 empresas, das quais 55% são pequenas, 35% são médias e 10% são grandes e que a dimensão da amostra pretendida é de 85, seleccionaríamos amostras de dimensão 47 (85x0.55=46.75), 30 (85x0.35=29.75) e 8 (85x0.10=8.5), respectivamente do conjunto das pequenas, das médias ou das grandes empresas. Existe um tipo de amostragem não aleatória, muito semelhante à amostragem estratificada, que é a amostragem por quotas. Neste tipo de amostragem, consideram-se os estratos, mas depois em vez de se recolher uma amostra aleatória de dentro de cada estrato, extrai-se uma amostra não aleatória, de dimensão proporcional à do estrato na população. 1.3.2.4 ► Amostragem por “clusters” ou grupos Por exemplo, suponha que se pretende estudar o nível de satisfação dos trabalhadores têxteis, das empresas do Norte do País. Não dispondo de uma lista com todos os trabalhadores, considera-se uma lista de todas as empresas têxteis – “clusters”, admitindo-se que o conjunto de trabalhadores de cada empresa caracteriza convenientemente a população que se pretende estudar. A partir dessa lista seleccionam-se aleatoriamente algumas empresas e considera-se a amostra constituída por todos os trabalhadores das empresas seleccionadas. Amostra por clusters – A população é dividida em clusters, onde cada cluster é representativo da população. Selecciona-se aleatoriamente um conjunto de clusters e a amostra é constituída por todos os elementos dos clusters seleccionados. 1.3.3 ► Amostragem não aleatória Amostragem por conveniência e amostragem por resposta voluntária são exemplos de amostragem não aleatória.
  19. 19. Análise de Dados 15 Maria Eugénia Graça Martins 1.3.4 ► Outros tipos de erro num processo de aquisição de dados, sem serem erros de amostragem 1 - A população inquirida diferente da população alvo ou população objectivo 2 – Informação recolhida não é verdadeira 3 – Problema da não resposta 4 – Erros de processamento 1.4 ► Estimador centrado e não centrado. Precisão Uma vez escolhido um plano de amostragem aleatório, ao pretendermos estimar um parâmetro, pode ser possível utilizar várias estatísticas (estimadores) diferentes. Por exemplo, quando pretendemos estudar a variabilidade presente numa População, que pode ser medida pela variância populacional σ2 , sabemos que podemos a partir de uma amostra, obter duas estimativas diferentes para essa variância, a partir das expressões s 2 = (xi −x)2 i=1 n ∑ n −1 ou s’ 2 = (xi −x)2 i=1 n ∑ n Quais as razões que nos podem levar a preferir uma das estatísticas relativamente à outra? Um critério que costuma ser aplicado é o de escolher um “bom” estimador como sendo aquele que é centrado e que tem uma boa precisão. Escolhido um plano de amostragem, define-se: Estimador centrado – Um estimador diz-se centrado quando a média das estimativas obtidas para todas as amostras possíveis que se podem extrair da População, segundo o esquema considerado, coincide com o parâmetro a estimar. Quando se tem um estimador centrado, também se diz que é não enviesado. No capítulo seguinte abordaremos com mais detalhe este assunto do não enviesamento dos estimadores. Veremos assim, que uma das razões que nos levam a preferir o estimador S2 para a variância, relativamente a S’2 , é o facto de praticamente não apresentar enviesamento (Mostra-se mais à frente que E(S2 )= 1−N N σ2 ).
  20. 20. Análise de Dados 16 Maria Eugénia Graça Martins Para se evitar o enviesamento, é necessário estarmos atentos, primeiro na escolha do plano de amostragem e depois na escolha do estimador utilizado para estimar o parâmetro desconhecido. O facto de utilizarmos um estimador centrado, não nos previne contra a obtenção de más estimativas, se o plano de amostragem utilizado, sistematicamente favorecer uma parte da População (isto é, fornecer amostras enviesadas). Precisão - Ao utilizar o valor de uma estatística para estimar um parâmetro, vimos que cada amostra fornece um valor para a estatística que se utiliza como estimativa desse parâmetro. Estas estimativas não são iguais devido à variabilidade presente na amostra. Se, no entanto, os diferentes valores obtidos para a estatística forem próximos, e o estimador for centrado, podemos ter confiança de que o valor calculado a partir da amostra recolhida (na prática recolhe-se uma única amostra) está próximo do valor do parâmetro (desconhecido). A falta de precisão juntamente com o problema do enviesamento da amostra são dois tipos de erros com que nos defrontamos num processo de amostragem (mesmo que tenhamos escolhido um “bom” estimador). Não se devem, contudo, confundir. Enquanto o enviesamento se manifesta por um desvio nos valores da estatística, relativamente ao valor do parâmetro a estimar, sempre no mesmo sentido, a falta de precisão manifesta-se por uma grande variabilidade nos valores da estatística, uns relativamente aos outros. Por outro lado, enquanto o enviesamento se reduz com o recurso a amostras aleatórias, a precisão aumenta-se aumentando a dimensão da amostra. Como veremos a seguir o estudo de um estimador é feito através da sua distribuição de amostragem, ou seja, da distribuição dos valores obtidos pelo estimador, quando se consideram todas as amostras possíveis. Distribuição de amostragem – Distribuição de amostragem de uma estatística é a distribuição dos valores que a estatística assume para todas as possíveis amostras, da mesma dimensão, da população.
  21. 21. Análise de Dados 17 Maria Eugénia Graça Martins A maior parte das vezes não se consegue obter a distribuição de amostragem exacta, mas tem-se uma distribuição aproximada, considerando um número suficientemente grande de amostras da mesma dimensão e calculando para cada uma delas uma estimativa do parâmetro em estudo (problema a estudar posteriormente). 1.5 ► Qual a dimensão que se deve considerar para a amostra? Outro problema que se levanta com a recolha da amostra é o de saber qual a dimensão desejada para a amostra a recolher. Este é um problema para o qual, nesta fase, não é possível avançar nenhuma teoria, mas sobre o qual se podem tecer algumas considerações gerais. Pode-se começar por dizer que, para se obter uma amostra que permita calcular estimativas suficientemente precisas dos parâmetros a estudar, a sua dimensão depende muito da variabilidade da população subjacente. Por exemplo, se relativamente à população constituída pelos alunos do 10º ano de uma escola secundária, estivermos interessados em estudar a sua idade média, a dimensão da amostra a recolher não necessita de ser muito grande já que a variável idade apresenta valores muito semelhantes, numa classe etária muito restrita. No entanto se a característica a estudar for o tempo médio que os alunos levam a chegar de casa à escola, já a amostra terá de ter uma dimensão maior, uma vez que a variabilidade da população é muito maior. Cada aluno pode apresentar um valor diferente para esse tempo. Num caso extremo, se numa população a variável a estudar tiver o mesmo valor para todos os elementos, então bastaria recolher uma amostra de dimensão 1 para se ter informação completa sobre a população; se, no entanto, a variável assumir valores diferentes para todos os elementos, para se ter o mesmo tipo de informação seria necessário investigar todos os elementos. Chama-se a atenção para a existência de técnicas que permitem obter valores mínimos para as dimensões das amostras a recolher e que garantem estimativas com uma determinada precisão exigida à partida. Uma vez garantida essa precisão, a opção por escolher uma amostra de maior dimensão, é uma questão a ponderar entre os custos envolvidos e o ganho com o acréscimo de precisão. Vem a propósito a seguinte frase (Statistics: a Tool for the Social Sciences, Mendenhall et al., 1987, pag. 226):
  22. 22. Análise de Dados 18 Maria Eugénia Graça Martins "Se a dimensão da amostra é demasiado grande, desperdiça-se tempo e talento; se a dimensão da amostra é demasiado pequena, desperdiça-se tempo e talento". Convém ainda observar que a dimensão da amostra a recolher não é directamente proporcional à dimensão da população a estudar, isto é, se por exemplo para uma população de dimensão 1000 uma amostra de dimensão 100 for suficiente para o estudo de determinada característica, não se exige necessariamente uma amostra de dimensão 200 para estudar a mesma característica de uma população análoga, mas de dimensão 2000, quando se pretende obter a mesma precisão. Como explicava George Gallup, um dos pais da consulta da opinião pública (Tannenbaum, 1998),: Whether you poll the United States or New York State or Baton Rouge (Louisiana) … you need … the same number of interviews or samples. It´s no mystery really – if a cook has two pots of soup on the stove, one far larger than the other, and thoroughly stirs them both, he doesn´t have to take more spoonfuls from one than the other to sample the taste accurately”. Finalmente chama-se a atenção para o facto de que se o processo de amostragem originar uma amostra enviesada, aumentar a dimensão não resolve nada, antes pelo contrário! 1.6 ► Estimação do valor médio utilizando amostras aleatórias simples Quando se pretende estimar um parâmetro, uma vez definido o esquema de amostragem, considera-se uma estatística conveniente, isto é, uma função adequada das observações, função esta que para cada amostra observada dará uma estimativa do parâmetro que se pretende estimar. Quando o parâmetro a estimar é o valor médio ou média populacional, então é natural considerar como estimador a função média, que para cada amostra observada dará uma estimativa do parâmetro.
  23. 23. Análise de Dados 19 Maria Eugénia Graça Martins Como é que podemos saber se a média é um “bom” estimador para o valor médio? Será que para as diferentes amostras que podemos obter da população, as diferentes estimativas são próximas umas das outras e do parâmetro valor médio? É que se isso acontecer, temos uma certa garantia que a amostra que seleccionámos, já que na prática só se selecciona uma amostra, nos fornece uma estimativa razoável. A resposta à questão anterior á dada construindo a distribuição de amostragem da média, em que, como vimos anteriormente, se define distribuição de amostragem de uma estatística como sendo a distribuição dos valores que a estatística assume para todas as possíveis amostras, da mesma dimensão, da população. São as distribuições de amostragem das estatísticas que nos vão permitir fazer inferências sobre os parâmetros populacionais correspondentes. A aleatoriedade presente no processo de selecção das amostras, faz com que se possa utilizar a distribuição de amostragem de uma estatística para descrever o comportamento dessa estatística, quando se utiliza para estimar um determinado parâmetro. Podemos dizer que é através da distribuição de amostragem que introduzimos a probabilidade num procedimento estatístico, em que a partir das propriedades estudadas na amostra, procuramos tirar conclusões para a população. 1.6.1 ► Distribuição de amostragem da média, como estimador do valor médio de uma População finita 1.6.1.1 ► Distribuição de amostragem exacta Seguidamente vamos exemplificar o processo de obtenção da distribuição de amostragem da Média, e consequente estudo das suas propriedades como estimador do valor médio de uma População finita. Vamos considerar uma População de dimensão suficientemente pequena, para que o problema possa ser tratado dentro dos limites do razoável. Consideremos a seguinte população constituída pelos 9 alunos de uma classe infantil
  24. 24. Análise de Dados 20 Maria Eugénia Graça Martins Nº Aluno Peso (kg) Altura (cm) Nº irmãos 1 Maria 12.5 65 0 2 Teresa 11.6 68 1 3 Tiago 13.4 61 0 4 David 14.1 64 1 5 Rita 12.0 59 2 6 Ana 10.8 69 1 7 Joana 11.9 58 0 8 Bernardo 12.7 61 1 9 Leonor 9.6 63 1 Algumas características desta população são: Val. médio Desvio padrão Mín. Máx. Mediana Peso 12.07 1.34 9.6 14.1 12 Altura 63.11 3.57 58 69 63 Nº irmãos 0.78 0.67 0 2 1 Esta população é tão pequena, que para a estudar não tivemos necessidade de recorrer a amostras para estimar alguns parâmetros desconhecidos, tais como altura média, peso médio, etc. Vamos, no entanto utilizá-la para exemplificar como se pode estimar a altura média a partir da média de amostras de dimensão 3. Como a nossa População tem dimensão 9, vamos utilizar a porção de tabela de dígitos aleatórios considerada na página 7, seleccionando números de 1 dígito. Considerando ao acaso uma das linhas, por exemplo a linha 104, os elementos seleccionados são o 5, o 2 e o 7, sobre os quais vamos recolher a informação relevante ou seja a altura: Nº Nome Altura 5 Rita 59 2 Teresa 68 7 Joana 58 A média das alturas observadas é 61.7, que é uma estimativa da altura média da População. Como neste caso conhecemos o valor do parâmetro, podemos dizer que a estimativa está razoavelmente próxima do parâmetro a estimar. Obviamente que se recolhermos outras amostras, obteremos outras estimativas. Então vamos seleccionar mais 9 amostras de dimensão 3, com o auxílio da tabela:
  25. 25. Análise de Dados 21 Maria Eugénia Graça Martins Amostra 1 2 3 4 5 6 7 8 9 10 5 59 1 65 8 61 7 58 2 68 1 65 8 61 6 69 3 61 5 59 2 68 3 61 9 63 4 64 7 58 8 61 4 64 7 58 9 63 9 63 7 58 8 61 3 61 6 69 4 64 5 59 7 58 5 59 5 59 2 68 Na obtenção das amostras anteriores tivemos o cuidado de fazer a selecção sem reposição, o que significa que ao obter cada amostra, um elemento seleccionado não poderia voltar a ser seleccionado. Também tivemos o cuidado de verificar se as amostras eram todas distintas (constituídas por elementos diferentes). Os valores obtidos para as médias das 10 amostras foram: Amostra 1 2 3 4 5 6 7 8 9 10 61.7 62.3 61.7 63.7 63.3 61.7 61.0 62.0 61.0 61.5 Obtivemos vários valores diferentes como estimativas, sendo esta variabilidade resultado da variabilidade presente na amostra. Os valores apresentados pelas médias das 10 amostras, não diferem muito entre si, nem do valor do parâmetro. Mas como é que podemos ter a garantia que se recolhermos outra amostra, não vamos obter como estimativa do valor médio da altura, um valor muito diferente do verdadeiro valor do parâmetro? Por outras palavras, gostaríamos de poder responder à seguinte questão: Para este processo de amostragem, como é que podemos concluir que a média (amostral) é um “bom” estimador do valor médio (média populacional)? Teremos de estudar a distribuição de amostragem da média, que neste caso consiste em estudar como se comporta a distribuição das médias obtidas para as 9 3 ⎛ ⎝ ⎜ ⎞ ⎠ ⎟ = 84 amostras diferentes, de dimensão 3, que se podem extrair da População. Considerando então todas as amostras aleatórias simples, diferentes, de dimensão 3, obtemos Am. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 65 65 65 65 65 65 65 65 65 65 65 65 65 65 65 65 65 65 65 65 65 68 68 68 68 68 68 68 61 61 61 61 61 61 64 64 64 64 64 59 59 59 61 64 59 69 58 61 63 64 59 69 58 61 63 59 69 58 61 63 69 58 61 média 64.7 65.7 64.0 67.3 63.7 64.7 65.3 63.3 61.7 65.0 61.3 62.3 63.0 62.7 66.0 62.3 63.3 64.0 64.3 60.7 61.7
  26. 26. Análise de Dados 22 Maria Eugénia Graça Martins Am. 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 65 65 65 65 65 65 65 68 68 68 68 68 68 68 68 68 68 68 68 68 68 59 69 69 69 58 58 61 61 61 61 61 61 61 64 64 64 64 64 59 59 59 63 58 61 63 61 63 63 64 59 69 58 61 63 59 69 58 61 63 69 58 61 média 62.3 64.0 65.0 65.7 61.3 62.0 63.0 64.3 62.7 66.0 62.3 63.3 64.0 63.7 67.0 63.3 64.3 65.0 65.3 61.7 62.7 Am. 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 68 68 68 68 68 68 68 61 61 61 61 61 61 61 61 61 61 61 61 61 61 59 69 69 69 58 58 61 64 64 64 64 64 59 59 59 59 69 69 69 58 58 63 58 61 63 61 63 63 59 69 58 61 63 69 58 61 63 58 61 63 61 63 média 63.3 65.0 66.0 66.7 62.3 63.0 64.0 61.3 64.7 61.0 62.0 62.7 63.0 59.3 60.3 61.0 62.7 63.7 64.3 60.0 60.7 Am. 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 61 64 64 64 64 64 64 64 64 64 64 59 59 59 59 59 59 69 69 69 58 61 59 59 59 59 69 69 69 58 58 61 69 69 69 58 58 61 58 58 61 61 63 69 58 61 63 58 61 63 61 63 63 58 61 63 61 63 63 61 63 63 63 média 61.7 64.0 60.3 61.3 62.0 63.7 64.7 65.3 61.0 61.7 62.7 62.0 63.0 63.7 59.3 60.0 61.0 62.7 63.3 64.3 60.7 Uma vez que o plano de amostragem considerado, foi a amostragem aleatória simples, cada amostra tem igual probabilidade (=1/84) de ser seleccionada, pelo que podemos considerar os diferentes valores obtidos para a variável Média, assim como as respectivas probabilidades – ou seja, estamos em condições de considerar a seguinte função massa de probabilidade para a variável Média, que vamos designar por Média3, para realçar o facto de as amostras a partir das quais se obtiveram os seus valores, terem dimensão 3: Média3 59.3 60.0 60.3 60.7 61.0 61.3 61.7 62.0 62.3 62.7 63.0 63.3 Prob. 2/84 2/84 2/84 3/84 4/84 4/84 5/84 4/84 5/84 7/84 5/84 6/84 Média3 63.7 64.0 64.3 64.7 65.0 65.3 65.7 66.0 66.7 67.0 67.3 Prob. 5/84 6/84 5/84 4/84 4/84 3/84 2/84 3/84 1/84 1/84 1/84
  27. 27. Análise de Dados 23 Maria Eugénia Graça Martins Algumas características da variável Média3 são: Valor médio Desvio padrão Mínimo Máximo Mediana Média3 63.11 1.79 59.3 67.3 62.83 Repare-se que: • o valor médio da variável Média3 coincide com o valor médio da População – Altura, de onde se recolheram as amostras; • o desvio padrão da variável Média3 é bastante menor que o da variável Altura. As observações anteriores permitem-nos concluir que a Média3, como estimador do parâmetro - valor médio da Altura, é um estimador centrado, já que o seu valor médio coincide com parâmetro a estimar. A partir da distribuição de probabilidade da Média3, podemos ainda concluir que a probabilidade de obtermos estimativas no intervalo [61.3, 65.3] é de 0.75, assim como a probabilidade de obtermos essas estimativas no intervalo [59.5, 66.7] é superior a 95%. Este resultado significa que, ao recolhermos uma amostra de dimensão 3 e ao calcularmos a partir dela uma estimativa para o valor médio, estamos confiantes, com uma confiança superior a 95%, de que essa estimativa não se afasta do parâmetro a estimar de uma distância superior a 3.6, aproximadamente (63.1–59.5=3.61; 66.7–63.1=3.6). Chamamos a atenção para que a confiança anterior, não nos dá a garantia de que a estimativa que nós calculamos, para a amostra seleccionada, esteja naquele intervalo. Temos “fé” que sim! E se as amostras tiverem maior dimensão? O que é que ganhamos com isso? Repetindo o processo anterior, mas agora para amostras de dimensão 5, será que a variabilidade apresentada pelo estimador diminui? Já que temos mais informação, é de esperar algum “ganho” na precisão do estimador! Vamos então considerar a distribuição de amostragem da média para amostras de dimensão 5. O processo é em tudo idêntico ao considerado anteriormente, mas agora será um pouco mais trabalhoso já que o número de amostras distintas, de dimensão 5, que podemos extrair da População de dimensão 9 é 9 5 ⎛ ⎝ ⎜ ⎞ ⎠ ⎟ = 126.
  28. 28. Análise de Dados 24 Maria Eugénia Graça Martins Os resultados obtidos para a distribuição de amostragem da média, para amostras de dimensão 5, foi: Média5 60.4 60.6 60.8 61.0 61.2 61.4 61.6 61.8 62.0 62.2 62.4 62.6 62.8 63.0 Probab 0.008 0.008 0.008 0.016 0.016 0.032 0.024 0.040 0.040 0.056 0.063 0.048 0.063 0.079 Média5 63.2 63.4 63.6 63.8 64.0 64.2 64.4 64.6 64.8 65.0 65.2 65.4 65.8 Probab 0.063 0.071 0.056 0.056 0.048 0.048 0.048 0.024 0.024 0.024 0.016 0.016 0.008 Algumas características da variável Média5 são: Valor médio Desvio padrão Mínimo Máximo Mediana Média5 63.11 1.13 60.4 65.8 63.1 Repare-se que: • o valor médio da variável Média5 coincide com o valor médio da População – variável Altura, de onde se recolheram as amostras; • o desvio padrão da variável Média3 é bastante menor que o da População – variável Altura e é ainda inferior ao da variável Média3. Na figura seguinte apresentamos as distribuições de amostragem da Média3 e da Média5:
  29. 29. Análise de Dados 25 Maria Eugénia Graça Martins Conclusão: a precisão do estimador aumenta, à medida que se aumenta a dimensão da amostra. Recordamos que quanto menor for a variabilidade apresentada pelo estimador, maior é a precisão. Resultado teórico: Dada uma População de dimensão N, de valor médio μ e variância σ2 , quando se considera um plano de amostragem aleatória simples, e como estimador de μ a Média, calculada a partir de amostras de dimensão n, então: • O valor médio da Média é μ, isto é, a Média como estimador do valor médio é um estimador centrado; • A variância da Média é igual a σ 2 n ( N-n N-1 ) • n S ) N n-N ( 2 é um estimador não enviesado da variância da Média Nota: A demonstração destes resultados é apresentada a seguir, depois de algumas considerações sobre as expressões apresentadas. A expressão obtida para a variância é muito interessante pela informação que contém. Nomeadamente: • Confirma o que já havíamos esperado, no sentido de que ao aumentar a dimensão da amostra, aumentamos a precisão do estimador (na medida em que diminui a sua variabilidade).
  30. 30. Análise de Dados 26 Maria Eugénia Graça Martins • Permite-nos ainda concluir que, para obter a mesma precisão, quando estimamos o valor médio de Populações da mesma dimensão, a dimensão da amostra terá de ser tanto maior, quanto maior for a variabilidade presente na População. • Mas mais interessante, embora menos intuitivo, permite-nos concluir que se a dimensão da População for substancialmente maior que a da amostra, então a precisão do estimador não depende da dimensão dessa População, mas unicamente da variabilidade aí presente (pois (N-n)/(N-1) ≈1). Demonstração: Seja Y1, Y2, ...,Yn uma amostra aleatória simples de uma população de valores {u1, u2, ..., uN}. Considerando um Yi, tem-se E(Yi)= μ=∑= N 1 N 1i iu e V(Yi)= 2 iu( σ=μ∑= N 1 )- 2 N 1i . Representando a média dos Yi por Y , tem-se E( Y )= ∑= n 1i n 1 )E(Yi =μ. Por outro lado, Cov(Yi, Yj) = E[(Yi -μ)(Yj-μ)]= E(YiYj) – μ2 = 2 N 1i i N ji ji )u( )1N(N uu ∑∑ =≠ − 2 N 1 - = 2 N 1i i2 N ji ji )u( N 1 )1N(N uu ∑∑ =≠ − − = ⎥ ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎢ ⎣ ⎡ − − ∑∑ =≠ 2 N 1i i N ji ji )u( N 1 )1N( uu N 1 = ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎣ ⎡ − − − ∑ ∑∑ = == 2 N 1i i N 1i 2 i 2 N 1i i )u( N 1 1N u)u( N 1 = - ⎥ ⎥ ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎢ ⎢ ⎣ ⎡ ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ − − − ∑ ∑= = N 1i 2 N 1i i 2 i u )1N(N 1 u 1N 1 N 1 = - 2 N 1i i )u( )1N(N 1 μ− − ∑= = - 1N 1 − σ2 . Como Var( Y ) = Var ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ ∑= n 1i iY n 1 = ⎥ ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎢ ⎣ ⎡ +σ∑ ∑∑= < n 1i ji ji 2 2 )Y,Y(Cov2 n 1 então Var( Y ) = ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ − σ− +σ∑ ∑∑= < n 1i ji 2 2 2 1N 2 n 1 = ⎪⎭ ⎪ ⎬ ⎫ ⎪⎩ ⎪ ⎨ ⎧ − − σ −σ 2 )1n(n 1N 2 n n 1 2 2 2 pois há n(n-1)/2 pares (i,j) seleccionados de entre os inteiros 1,2, ..., n tais que i<j. Portanto Var( Y )= 1-N n-N n 2 σ Pode-se ainda mostrar que n S N nN 2 − , com S2 = ( )∑= − − n 1i iY 1N 1 2 Y , é um estimador não enviesado de Var( Y ). Efectivamente E(S2 ) = 1-N N σ2 , donde E( n S N nN 2 − ) = Var( Y ).
  31. 31. Análise de Dados 27 Maria Eugénia Graça Martins 1.6.1.2 ► Distribuição de amostragem aproximada Quando a população é finita, e a amostragem se faz sem reposição, existem algumas condições necessárias e suficientes para que se possa considerar a distribuição da média aproximada pela distribuição Normal. Não vamos apresentar essas condições, embora admitamos que elas estão satisfeitas e enunciamos o seguinte resultado: Suponhamos que uma amostra aleatória simples é seleccionada de uma População de dimensão N, em que a variável em estudo tem valor médio μ e variância σ2 . Então, se a dimensão n da amostra for suficientemente grande (um valor que é usual considerar como suficientemente grande é 30), a distribuição de amostragem da média pode ser aproximada pela distribuição Normal com valor médio μ e variância σ 2 n ( N-n N-1 ). A aproximação verifica-se para amostras de dimensão suficientemente grande, independentemente da forma da distribuição da População. O resultado anterior permite concluir que quanto maior for a dimensão da amostra, menor é a variabilidade apresentada pelo estimador. 1.6.2 ► Distribuição de amostragem aproximada da média, como estimador do valor médio de uma População finita, mas de dimensão suficientemente grande Na maior parte dos casos em que é necessário recolher uma amostra para estudar uma característica de uma População, não se conhece a dimensão desta. Então costuma-se assumir que é suficientemente grande de modo que se diz que se tem uma População de dimensão infinita. Em termos práticos costuma-se considerar que se tem uma população de dimensão infinita quando n≤N/20. Nestas condições o factor (N-n)/(N-1) que aparece na expressão da variância da Média toma um valor aproximadamente igual a 1, pelo que temos o seguinte resultado, conhecido como Teorema Limite Central (TLC), de que o resultado anterior é uma versão para Populações finitas:
  32. 32. Análise de Dados 28 Maria Eugénia Graça Martins Suponhamos que uma amostra aleatória simples é seleccionada de uma População de dimensão grande, em que a variável em estudo tem valor médio μ e variância σ2 . Então, se a dimensão n da amostra for suficientemente grande (um valor que é usual considerar como suficientemente grande é 30), a distribuição de amostragem da média pode ser aproximada pela distribuição Normal com valor médio μ e variância σ 2 n . A aproximação verifica-se para amostras de dimensão suficientemente grande, independentemente da forma da distribuição da População subjacente às amostras. Mais uma vez chamamos a atenção para a seguinte propriedade, já anteriormente referida: quanto maior for a dimensão da amostra, menor é a variabilidade apresentada pelo estimador. Além disso, também concluímos que, para Populações de dimensão suficientemente grande, esta não tem influência sobre a variabilidade do estimador. Em conclusão, a precisão de um estimador, para Populações de grande dimensão, não depende do tamanho da População, mas sim da variabilidade aí presente. Quando pretendemos estimar um parâmetro da População, para obter uma determinada precisão, a dimensão da amostra terá de ser tanto maior, quanto maior for a variabilidade existente na População. No entanto, se a dimensão da População já não for suficientemente grande, essa dimensão terá interferência na precisão do estimador. 1.7 ► Distribuição de amostragem da média, em amostragem com reposição Será interessante estudarmos a distribuição de amostragem da Média, quando se faz amostragem com reposição, de uma População com dimensão N e comparar com o que se obtém em amostragem sem reposição. Agora, cada elemento da População tem uma probabilidade constante e igual a 1/N de ser seleccionado para pertencer à amostra, já que quando um elemento é seleccionado, uma vez a informação recolhida, ele é novamente reposto na População.
  33. 33. Análise de Dados 29 Maria Eugénia Graça Martins Este processo é equivalente a seleccionarmos uma amostra aleatória de dimensão n de uma população uniforme discreta no conjunto dos valores da característica a estudar da População, que podemos representar por y1, y2, …, yN. Então cada vez que se selecciona um elemento da População é como se obtivéssemos um valor da variável Y que assume os valores yi considerados anteriormente, com probabilidade 1/N. Seleccionar uma amostra de dimensão n significa seleccionar n variáveis Y1, Y2, …, Yn, independentes e com distribuição idêntica à de Y. Então a Média será uma variável cujo valor médio é o valor médio μ da População (ou da distribuição uniforme) e cuja variância é σ2 /n, onde σ2 é a variância da População (ou da distribuição uniforme subjacente). A amostragem sem reposição é mais eficiente do que a amostragem com reposição Comparando o resultado n 2 σ , para a variância da Média, com o resultado apresentado quando se faz amostragem sem reposição, nomeadamente σ 2 n ( N-n N-1 ), conclui-se que a amostragem sem reposição é mais eficiente, quando se pretende estimar o valor médio da População, uma vez que produz um estimador com uma variância mais pequena, isto é, que apresenta menor variabilidade. EXEMPLO 1.9 Considere uma população constituída pelos elementos 1, 2, 3, 4 e 5. Pretende estimar o valor médio desta população, pelo que decide recolher uma amostra de dimensão 2, com reposição. e calcular a sua média. Obtenha a distribuição de amostragem do estimador utilizado para estimar o valor médio da população. Resolução: A População anterior é constituída pelos elementos 1, 2, 3, 4 e 5, tendo cada um uma probabilidade constante e igual a 1/5 de ser seleccionado para pertencer a uma amostra: População X 1 2 3 4 5 Probabilidade 1/5 1/5 1/5 1/5 1/5 Propriedades da População: Valor médio = 3 Desvio padrão = √2.
  34. 34. Análise de Dados 30 Maria Eugénia Graça Martins A metodologia seguida para obter a distribuição de amostragem consiste em obter todas as amostras de dimensão 2, com reposição, calcular o valor da estatística média para cada uma delas e depois representar a distribuição dos valores obtidos: Amostras (1,1) (1,2) (1,3) (1,4) (1,5) (2,5) (3,5) (4,5) (5,5) (2,1) (2,2) (2,3) (2,4) (3,4) (4,4) (5,4) (3,1) (3,2) (3,3) (4,3) (5,3) (4,1) (4,2) (5,2) (5,1) média 1 1.5 2 2.5 3 3.5 4 4.5 5 De acordo com a tabela anterior obtemos a seguinte distribuição de amostragem para o estimador Média2 (assim representado por se obter a partir de amostras de dimensão 2) Média2 1 1.5 2 2.5 3 3.5 4 4.5 5 Probabilidade 1/25 2/25 3/25 4/25 5/25 4/25 3/25 2/25 1/25 3 3.5 4 4.5 51 1.5 2 2.5 Características da distribuição de amostragem da Média para amostras de dimensão 2: Valor médio = 3 Desvio padrão = 1 Algumas observações: • O centro da distribuição de amostragem do estimador Média utilizado para estimar o valor médio da população (igual a 3), coincide com o parâmetro a estimar . • O desvio padrão da população inicial é igual a 2 , enquanto que o desvio padrão da média, calculada a partir de amostras de dimensão 2 é 1 ( 2 / 2 =1 – resultado considerado anteriormente). Se repetirmos a metodologia seguida no processo do exemplo anterior, considerando agora amostras de dimensão 3, o problema torna-se mais trabalhoso, já que o número de amostras possíveis é 53 =125. Assim, abstemo-nos de apresentar todas essas amostras, limitando-nos a apresentar a distribuição de amostragem da Média3:
  35. 35. Análise de Dados 31 Maria Eugénia Graça Martins Média3 1 1.33 1.67 2 2.33 2.67 3 3.33 3.67 4 4.33 4.67 5 Proba. .008 .024 .048 .080 .120 .144 .152 .144 .120 .080 .048 .024 .008 1 2 3 4 5 Características da distribuição de amostragem: Valor médio = 3 Desvio padrão = 0.816 Algumas observações: • O centro da distribuição de amostragem do estimador Média3 utilizado para estimar o valor médio da população (igual a 3), coincide com o parâmetro a estimar . • O desvio padrão da população inicial é igual a 2 , enquanto que o desvio padrão da Média3, calculada a partir de amostras de dimensão 3 é 0.816 ( 2 / 3 =0.816 – o que condiz com o resultado apresentado anteriormente, de que a variância da Média é σ2 /n). • A variabilidade apresentada pela distribuição de amostragem é inferior à obtida quando se consideram amostras de dimensão 2. Este resultado indicia que quanto maior for a dimensão da amostra, menor é a variabilidade apresentada pela distribuição de amostragem. Se a dimensão da População for muito grande, a probabilidade de extrairmos o mesmo elemento duas vezes é extremamente pequena. Assim, os dois processos de amostragem, com reposição e sem reposição, são praticamente equivalentes, quando estamos a estimar a média populacional. A conclusão anterior vai de encontro com a que se pode obter também se tomarmos atenção às variâncias das Médias de amostras de dimensão n, quando se faz extracção com e sem reposição. Efectivamente o factor N− n N− 1 = N N- 1 × (1− n N ) que aparece na expressão da variância num processo de amostragem aleatória simples (sem reposição) assume um valor próximo de 1, quando N é razoavelmente grande e n
  36. 36. Análise de Dados 32 Maria Eugénia Graça Martins é razoavelmente pequeno, quando comparado com N. Ao quociente n N costuma-se chamar fracção de amostragem. Já apontamos anteriormente que se considera uma População “grande” se a sua dimensão for cerca de 20 vezes superior à dimensão da amostra, ou seja, quando a fracção de amostragem for menor que 0.05. 1.8 ► A forma da distribuição de amostragem da Média em popula- ções infinitas ou amostragem com reposição Vimos anteriormente que o estimador Média é um estimador centrado do valor médio da população, quer a população seja finita ou infinita e a amostragem com reposição ou sem reposição. Vimos também a expressão para a variância, em qualquer das situações consideradas. Vamos agora admitir que estamos a realizar uma amostragem com reposição, ou que a população a estudar, X, é infinita, situação em que a selecção de um elemento para a amostra, pode ser considerada independente da selecção dos outros elementos. Assim, consideremos a amostra aleatória (X1, X2, ..., Xn) onde as variáveis aleatórias X1, X2, ..., Xn são indepententes e identicamente distribuídas a X, como se apresenta no seguinte esquema: Se tivermos k amostras de dimensão n, recolhidas da População X: População X 1ª amostra 2ª amostra k-ésima amostra xx x x x x x x x x x x x x x ... ... ... Relativamente às amostras anteriores, podemos considerar o seguinte:
  37. 37. Análise de Dados 33 Maria Eugénia Graça Martins x11, x21, ...,xk1 são os valores observados de uma v.a. com distribuição idêntica à de X, mas que representamos por X1, para significar que foi o 1º elemento recolhido nas diferentes amostras; x12, x22, ...,xk2 são os valores observados de uma v.a. com distribuição idêntica à de X, independente de X1 (numa amostra aleatória, os valores não podem depender uns dos outros), mas que representamos por X2, para significar que corresponde ao 2º elemento recolhido; x1n, x2n, ...,xkn são os valores observados de uma v.a. com distribuição idêntica à de X, independente de X1, X2,... que representamos por Xn, para significar que foi o enésimo elemento a ser recolhido. Com esta notação, as amostras (x11, x12, x13,..., x1n ), ( x21, x22, x23,..., x2n ) ..., ( xk1, xk2, xk3,..., xkn ) são amostras observadas da amostra aleatória (X1, X2, …, Xn) Admitindo que a população X, que estávamos a estudar, era constituída pelas alturas (em cm) dos alunos inscritos na FCUL, no ano lectivo de 2005/2006, era tal que X∩N(165,10), podemos obter várias amostras observadas, de dimensão 10: (158, 163, 171, 150, 149, 167, 158, 172, 149, 150) (167, 149, 168, 153, 162, 160, 170, 161, 160, 149) … … … … … … … … (170, 160, 158, 168, 165, 159, 163, 159, 172, 150) da amostra aleatória (X1, X2, …, X10), em que todas as v.a. Xi, i=1,…,10, são independentes e têm distribuição Normal de valor médio 165 e desvio padrão 10. Tendo em consideração o que foi dito anteriormente, podemos afirmar que x1, x2 , … , xk , são valores observados da variável aleatória X = Xi i =1 n ∑ n onde X1, X2, … , Xn são variáveis aleatórias independentes e com a mesma distribuição que uma variável aleatória X ( população em estudo). Sendo a estatística uma variável aleatória tem uma distribuição de probabilidades, a que damos o nome de distribuição de amostragem, como já vimos nas secções consideradas anteriormente.
  38. 38. Análise de Dados 34 Maria Eugénia Graça Martins São as distribuições de amostragem das estatísticas que nos vão permitir fazer inferências sobre os parâmetros populacionais correspondentes. Ao aleatoriezarmos o processo de selecção das amostras, faz com que se possa utilizar a distribuição de amostragem de uma estatística para descrever o comportamento dessa estatística, quando se utiliza para estimar um determinado parâmetro. Por outro lado, para podermos utilizar os resultados da Teoria das Probabilidades, o processo de amostragem que se considera é o de amostragem com reposição. Esta observação é relevante, sobretudo para populações de dimensão pequena, em que a composição da população, relativamente à característica de interesse, se altera quando se retiram alguns elementos; esta situação não se verifica com populações de grande dimensão, que é normalmente a situação de interesse em Estatística. Assim, se uma população tiver N elementos, para obter as distribuições de amostragem de estatísticas, a partir de amostras de dimensão n, teríamos de seleccionar Nn amostras distintas. Então, para calcular a distribuição de amostragem da média, será necessário considerar todas as amostras possíveis e calcular as respectivas médias? Felizmente não é necessário estar com tanto trabalho, graças a um dos resultados mais importantes da Teoria das Probabilidades, conhecido como Teorema Limite Central, que nos fornece um modelo matemático para a distribuição de amostragem da média, como veremos a seguir. Algumas questões que se podem levantar acerca da distribuição de amostragem da estatística média, são as seguintes: • A distribuição da média, depende da distribuição da população X, subjacente às amostras? • Será sempre possível conhecer essa distribuição? No que se segue procuraremos responder a estas questões, adiantando desde já que, na verdade, a distribuição de amostragem da média depende da distribuição da população subjacente às amostras. Veremos também, que nem sempre é possível obter a distribuição exacta da média, mas sim uma distribuição aproximada.
  39. 39. Análise de Dados 35 Maria Eugénia Graça Martins 1.8.1 ► Valor médio e desvio padrão da média Dada uma população X de valor médio μ e desvio padrão σ, então, tendo em consideração as propriedades do valor médio e da variância, pode-se mostrar facilmente que E( X) = μ e Var( X) = σ2 n Obs: Não esquecer que X é uma combinação linear de variáveis aleatórias independentes e com a mesma distribuição. Chamamos a atenção para o facto do valor médio da v.a estimador X, coincidir com o parâmetro que estamos a estimar, o valor médio, µ, da população. Dizemos que o estimador é centrado ou não enviesado. Além disso, a variância do estimador decresce com a dimensão da amostra, o que permite concluir que, à medida que aumentamos a dimensão da amostra a variabilidade do estimador, em torno do parâmetro, diminui. Diz-se então que o estimador é consistente. Estas propriedades de não enviesamento e de consistência fazem com que a média seja um “bom” estimador do valor médio. 1.8.2 ► Distribuição da média, para populações Normais Para obter a distribuição de X, vamos distinguir o caso de a população X ser Normal e não Normal, distinguindo ainda se o desvio padrão σ é conhecido ou não. 1.8.2.1 ► Desvio padrão σ conhecido Já dissemos quando estudamos a distribuição Normal, que qualquer combinação linear de variáveis aleatórias independentes, com distribuição Normal, ainda tem distribuição Normal. Como a média é uma combinação linear de variáveis aleatórias Xi, independentes, com distribuição idêntica à de X, que por hipótese é Normal(μ,σ), vem imediatamente que X tem distribuição Normal, com valor médio μ e desvio padrão σ n , pelo que procedendo à standardização, se obtém o seguinte resultado
  40. 40. Análise de Dados 36 Maria Eugénia Graça Martins Populações Normais, σ conhecido Z = X - μ σ/ n ∩ N(0,1) 1.8.2.2 ► Desvio padrão σ desconhecido Quando o parâmetro σ é desconhecido, situação que ocorre com frequência, já o resultado anterior não é válido. Assim, estima-se o desvio padrão desconhecido pelo desvio padrão empírico, S, em que S2 = (Xi −X)2 i =1 n ∑ n −1 e tem-se o seguinte resultado Populações Normais, σ desconhecido T = X−μ S n ∩ t(n-1) o que significa que se conhece a distribuição exacta da variável aleatória T, que é a chamada distribuição t-Student (t de Student), com (n-1) graus de liberdade e que se representa por t(n-1). Este modelo tem uma função densidade semelhante à da Normal, mas com as caudas mais altas, isto é, não é tão concentrada. No entanto, à medida que o número de graus de liberdade aumenta (isto é, à medida que n aumenta), a t-Student confunde-se com a Normal. Do mesmo modo que a Normal, também a distribuição t-Student se encontra tabelada.
  41. 41. Análise de Dados 37 Maria Eugénia Graça Martins 1.8.3 ► Distribuição da média, para populações não normais. Teorema Limite Central Quando a distribuição da população X já não é Normal, a distribuição de amostragem da média dependerá da distribuição de X, não sendo em geral conhecida. No entanto, um dos teoremas fundamentais das probabilidades, dá-nos uma indicação do comportamento da distribuição da média de um número suficientemente grande de variáveis aleatórias independentes e identicamente distribuídas: Teorema limite central Se X1, X2, …, Xn são variáveis aleatórias independentes e identicamente distribuídas a uma variável aleatória X com valor médio µ e variância σ 2 , finita, então a distribuição da soma Sn = X1+ X2+ …+ Xn, ou da média X = Sn n tende a aproximar-se da distribuição Normal, para n suficientemente grande P( Sn − nμ σ n ≤ z ) ≈ Φ(z) e P( X−μ σ n ≤ z ) ≈ Φ(z) O teorema limite central dá-nos uma justificação teórica para a grande utilização da distribuição Normal, como modelo de fenómenos aleatórios. Quantidades tais como alturas e pesos de uma população relativamente homogénea, podem ser consideradas como somas de um grande número de causas genéticas e efeitos devido ao meio ambiente, mais ou menos independentes entre si, cada um contribuindo com uma pequena quantidade para a soma. O que é que se entende por um valor de n suficientemente grande? Uma questão que se pode pôr é a seguinte: quando queremos aplicar o teorema do limite central: qual o valor de n, para que se possa considerar que temos uma boa aproximação para a distribuição Normal? Este valor de n depende da distribuição subjacente à amostra e será tanto maior quanto mais enviesada for a distribuição da população (o termo enviesado aplica-se como contrário a simétrico).
  42. 42. Análise de Dados 38 Maria Eugénia Graça Martins 1.9 ► Distribuição de amostragem da proporção Anteriormente estudámos a estimação do valor médio e vamos, neste capítulo, ver como os resultados que se obtiveram podem ser traduzidos para o estudo da estimação do parâmetro proporção de elementos da População que satisfazem determinada propriedade ou verificam determinada característica. 1.9.1 ► Distribuição de amostragem da proporção para populações finitas Consideremos então uma população de dimensão N e seja p a proporção (desconhecida) de elementos de uma população que verificam determinada característica. Na metodologia que vamos utilizar, no estudo da estimação da proporção, começamos por verificar que uma proporção é uma média de 0’s e 1’s em que atribuímos o valor 1 a um elemento da população que verifique a característica em estudo e o valor 0 a um elemento que não verifique essa característica. Assim, a proporção p não é mais do que o valor médio desta população cujos elementos são 0’s e 1’s, pelo que o estudo feito para a estimação do valor médio será facilmente adaptado para a estimação da proporção. Para esta população tão particular, constituída por 0’s e 1’s, em que a média populacional é a proporção populacional, a média amostral também será a proporção amostral, que será assim, o estimador intuitivo para a proporção populacional. Como no capítulo anterior estudámos a distribuição de amostragem da média, tendo concluído que a média é um “bom” estimador para o valor médio, imediatamente concluímos que a proporção amostral é um “bom” estimador para a proporção populacional. A fim de utilizar os resultados enunciados para a distribuição de amostragem da média, vejamos a que é igual a variância de uma população constituída por 0’s e 1’s em que a percentagem de 1’s é p.
  43. 43. Análise de Dados 39 Maria Eugénia Graça Martins Variância σ2 da população em estudo: A partir da expressão da variância, temos que σ2 = (1- p)2 Np + (0- p)2 N(1- p) N σ2 = p (1- p) A variância de uma população constituída por 0’s e 1’s, em que a percentagem de 1’s é p, é igual a p(1- p). As conclusões a que chegámos no capítulo anterior, permitem-nos agora enunciar os seguintes resultados: Dada uma população de dimensão N, em que p é a percentagem de elementos da população que verificam determinada característica, quando se considera um esquema de amostragem aleatória simples, e como estimador de p, a proporção amostral ˆp, isto é a proporção de elementos com a característica em estudo, existente em amostras de dimensão n, então: • O estimador ˆp de p é um estimador centrado, já que o seu valor médio coincide com p; • A variância de ˆp é igual a p(1-p) n ( N-n N-1 ). O resultado teórico conhecido como Teorema Limite Central toma agora a seguinte expressão: Suponhamos que uma amostra aleatória simples é seleccionada de uma População de dimensão grande, em que a característica em estudo está presente numa proporção p (desconhecida) Então, se a dimensão n da amostra for suficientemente grande (um valor que é usual considerar como suficientemente grande é 30), a distribuição de amostragem da proporção amostral ˆp pode ser aproximada pela distribuição Normal com valor médio p e variância p(1- p) n .
  44. 44. Análise de Dados 40 Maria Eugénia Graça Martins 1.9.2 ► Distribuição de amostragem da proporção para populações infinitas ou com reposição Neste caso, em que a população é infinita ou a amostragem se faz com reposição, as n variáveis aleatórias X1, X2, ..., Xn (n provas) que consistem em seleccionar outros tantos elementos da população e verificar se sim ou não têm a característica em estudo (sucesso ou insucesso), que existe na população com uma proporção p, são variáveis de Bernoulli. Assim, a v.a. X que representa o nº de sucessos nas n provas tem distribuição Binomial de parâmetros n e p, Bin(n,p). Um estimador da proporção p é a proporção amostral ˆp= n X , cujas propriedades podem ser deduzidas a partir do facto da distribuição de X ser conhecida. Efectivamente E( ˆp) = p n np n )X(E == e Var( ˆp) = n )p(p n )p(np n )X(Var − = − = 11 22 Por outro lado, se a dimensão da amostra for suficientemente grande, a distribuição Bin(n,p) pode ser aproximada por uma distribuição Normal(np, )p(np −1 ), pelo que a distribuição de ˆp pode ser aproximada por uma distribuição Normal (p, n )p(p −1 ), como já havíamos concluído anteriormente.
  45. 45. Análise de Dados 41 Maria Eugénia Graça Martins Introdução à estimação 2 Introdução à estimação. Estimação pontual e intervalar. Intervalo de confiança com uma confiança de 100(1-α)%. Dimensão da amostra necessária para obter um intervalo de confiança com uma determinada precisão e uma determinada confiança. Margem de erro. 2.1 ► Introdução Dada uma amostra, vimos que é possível fazer a sua redução, através do cálculo de certas estatísticas. No entanto, a importância destas características amostrais não se fica por aqui, pois o nosso objectivo vai ser utilizá-las para inferir algo sobre a população subjacente à amostra. Foi nesta perspectiva que falámos em utilizar: i) a média xcomo estimativa do valor médio µ; ii) a proporção ˆp=x/n, onde x representa o nº de sucessos obtidos numa certa amostra de dimensão n, como estimativa da probabilidade p de sucesso, na distribuição Binomial, etc. Quer dizer que as estatísticas referidas permitem-nos obter determinados valores que servem como estimativas dos parâmetros (desconhecidos) ou características das distribuições populacionais - a estes valores chamamos estimativas pontuais. Por vezes interessa-nos obter, não um valor que estime o parâmetro em causa, mas um intervalo que contenha, com determinada probabilidade, esse parâmetro - neste caso pretendemos uma estimativa intervalar ou um intervalo de confiança. Um estimador é uma variável aleatória, função da amostra aleatória, que para valores observados da amostra fornece estimativas pontuais ou estimativas intervalares do parâmetro populacional desconhecido. Então, a v.a. X é um estimador do valor médio,
  46. 46. Análise de Dados 42 Maria Eugénia Graça Martins assim como ˆp= X n é um estimador da probabilidade p. De um modo geral quando nos referimos ao estimador utilizamos letra maiúscula, enquanto que a estimativa se representa com letra minúscula. Esta metodologia por vezes não é seguida, como é por exemplo, no caso anteriormente considerado da proporção. O que é um "bom" estimador? O facto de termos escolhido a média como estimador do valor médio, não se deve unicamente à analogia existente, entre parâmetros populacionais e parâmetros amostrais. Comom vimos no capítulo 1, existem alguns critérios que definem à partida, se um estimador é "bom" ou "mau". Assim, o critério mais utilizado exige que o estimador seja não enviesado ou centrado, isto é, que o seu valor médio coincida com o parâmetro populacional a estimar, e de entre os que satisfazem esta condição deve ter variância mínima. Estas duas propriedades são, de certo modo intuitivas, pois ao considerar um estimador esperamos que as estimativas que ele fornece coincidam, em média, com o parâmetro a estimar, e além disso a variabilidade dessas estimativas, em torno do parâmetro, deve ser pequena. Por exemplo, no caso concreto de populações simétricas, podem existir vários estimadores centrados para o valor médio, nomeadamente a média e a mediana. No entanto, escolhe-se o que tem variância mínima, que é a média. No que diz respeito à variância populacional σ2, alguns estimadores possíveis são S2= Σ(Xi − X)2 n −1 ou S'2= Σ(Xi − X)2 n Ao considerar estas duas estatísticas, costuma-se dizer que por razões que se prendem com a inferência estatística, a estatística mais utilizada é S2. Neste momento já podemos dar a razão que nos leva a escolher Σ(Xi − X)2 n −1 - é o facto de este estimador, ao contrário de Σ(Xi − X)2 n , ser centrado, pois pode-se mostrar que E [S 2 ]=σ 2 com Xi , i=1,...,n variáveis aleatórias independentes e identicamente distribuídas a X, enquanto
  47. 47. Análise de Dados 43 Maria Eugénia Graça Martins que E [S’ 2 ]= n 1n − σ 2 . Assim, quando a dimensão da amostra é suficientemente grande, S’ 2 é assintóticamente centrado, pois n 1n − → 1, sendo indiferente utilizar um ou outro estimador. 2.2 ► Estimação da proporção. Intervalo de confiança para a proporção Já vimos no capítulo 1 que se tivermos uma população constituída por indivíduos que pertencem a uma de duas categorias, que representamos por A e Ac em que p é a proporção (desconhecida) de indivíduos que pertencem à categoria A, um estimador desta proporção é ˆp. Vimos que ˆp é um estimador centrado ou não enviesado e tem uma variabilidade que tende para 0, à medida que a dimensão da amostra recolhida aumenta. Podemos dizer que temos um bom estimador, pelo menos relativamente ao critério considerado anteriormente! Então, quando pretendemos fazer inferência sobre p, recolhemos uma amostra de dimensão n e calculamos ˆp. O valor obtido é uma estimativa pontual de p. Se recolhermos várias amostras da mesma dimensão e calcularmos outras tantas estimativas para p, não temos possibilidade de saber qual o erro associado com cada uma dessas estimativas. O verdadeiro valor da percentagem p é desconhecido, pelo que não sabemos se as estimativas que obtivemos são boas ou más, portanto não sabemos qual a confiança com que devem ser encaradas, e não temos assim possibilidade de saber qual a que devemos utilizar. Por exemplo, se dois jornais distintos apresentarem, no mesmo dia, as percentagens de 45% e 52% de pessoas que votarão “Sim” à Constituição Europeia, não sabemos qual a que nos merece mais confiança. Perante esta incapacidade de medir o erro cometido ao tomar uma estimativa pontual, abordamos o problema de outra forma e vamos procurar uma estimativa intervalar, isto é, um intervalo da forma [a,b], que contenha o verdadeiro valor da percentagem (desconhecida), com uma determinada confiança, que definimos à priori, isto é, Prob( [a,b] conter p ) = 1-α
  48. 48. Análise de Dados 44 Maria Eugénia Graça Martins De um modo geral a confiança exprime-se na forma 100(1-α)%, com α pequeno. Como determinar os limites a e b do intervalo de confiança? Já que, como vimos na secção anterior, a distribuição de amostragem de ˆp pode ser aproximada pela distribuição Normal, quando a dimensão n da amostra utilizada for suficientemente grande, então é possível, dada uma probabilidade P, por exemplo .95, obter o valor de z tal que se tenha P( n p)p(1 |ppˆ| − − ≤ z ) = .95. Se P( n p)p(1 |ppˆ| − − ≤ z ) = .95 então z=1.96, ou seja P( n p)p(1 |ppˆ| − − ≤ 1.96 ) = .95. Trabalhando a expressão anterior obtemos P(pˆ -1.96 n p)p(1− ≤ p ≤ ˆp+1.96 n p)p(1− ) = .95 Se n é suficientemente grande ˆp está suficientemente próximo de p, pelo que na expressão anterior vamos substituir p por ˆp em p(1− p) n , obtendo-se P( ˆp-1.96 n )pˆ(1pˆ − ≤ p ≤ ˆp+1.96 n )pˆ(1pˆ − ) ≈ .95 Dizemos que o intervalo [ ˆp-1.96 n )pˆ(1pˆ − , ˆp+1.96 n )pˆ(1pˆ − ] é um intervalo aproximado de confiança para p, com uma confiança de 95%. De um modo geral se considerarmos uma confiança de 100(1-α)% (representamos por α uma probabilidade pequena, que associamos à desconfiança ou ao erro cometido na obtenção do intervalo de confiança), o intervalo de confiança para p assume o aspecto [ ˆp-z1-α/2 n )pˆ(1pˆ − , ˆp+z1-α/2 n )pˆ(1pˆ − ] onde representamos por z1-α/2 o quantil de probabilidade (1-α/2) da N(0,1) e ˆp é a proporção de elementos da amostra pertencentes à categoria em estudo.
  49. 49. Análise de Dados 45 Maria Eugénia Graça Martins EXEMPLO 2.1 (Adaptado de De Veaux and al, 2004) Os corais estão em declínio, em todo o mundo, possívelmente devido à poluição ou mudança da temperatura da água do mar. A morte dos recifes de corais pode ser um aviso das mudanças climáticas e poderá ter um impacto económico ainda não calculado. Uma espécie muito bonita de coral, conhecida como Leque do Mar, é particularmente afectada pela poluição e pela doença aspergillosis. Em Junho de 2000, uma equipa de investigadores recolheu uma amostra de corais desta espécie, a uma profundidade de 40 pés, em Las Redes Reef, Akumal, México. Verificaram que 54 dos 104 corais que recolheram, estavam infectados com aquela doença. O que é que se pode dizer sobre a prevalência desta doença, sobre aquele tipo de corais? Para já, temos uma proporção de corais doentes de 51.9%, mas ninguém nos garante que os investigadores obteriam a mesma proporção se recolhessem outra amostra de 104 corais.O que é que podemos dizer efectivamente sobre a proporção p de corais infectados? Apresentamos a seguir uma lista de coisas que poderíamos dizer, ou que por vezes se dizem, e a razão pela qual não são correctas a maior parte delas: 1. “51.9% de todos os corais da espécie Leque do Mar, em Las Redes Ref, estão infectados” – Não temos informação suficiente para fazer esta afirmação. Só poderíamos fazer esta afirmação se tivéssemos investigado o que se passava com todos os corais. Assim, se recolhessemos outra amostra, obteríamos outra percentagem. 2. “Provavelmente é verdade que 51.9% de todos os corais da espécie Leque do Mar, em Las Redes Ref, estejam infectados” – Não podemos fazer esta afirmação. Podemos ter quase a certeza de que, qualquer que seja a verdadeira proporção de corais infertados, ela não será exactamente igual a 51.900%. 3. “Não sabemos exactamente qual a proporção de corais infectados, da espécie Leque do Mar, em Las Redes Ref, mas sabemos que essa proporção está no intervalo 51.9% ±1.96 104 )519.01(519.0 −× , ou seja 51.9%±9.6%, ou seja ainda entre 42.3% e 61.5%”. Ainda não podemos fazer esta afirmação, pois não podemos ter a certeza que a verdadeira proporção esteja neste intervalo, ou noutro qualquer.

×