Resumo -estimacao

306 visualizações

Publicada em

0 comentários
0 gostaram
Estatísticas
Notas
  • Seja o primeiro a comentar

  • Seja a primeira pessoa a gostar disto

Sem downloads
Visualizações
Visualizações totais
306
No SlideShare
0
A partir de incorporações
0
Número de incorporações
3
Ações
Compartilhamentos
0
Downloads
2
Comentários
0
Gostaram
0
Incorporações 0
Nenhuma incorporação

Nenhuma nota no slide

Resumo -estimacao

  1. 1. Instituto Superior de Engenharia de Lisboa Área Departamental de Matemática Resumos sobre Probabilidades e Estatística Estimação A Estatística Descritiva tem por objectivo resumir ou descrever característi- cas importantes de dados populacionais conhecidos. Na Inferência Estatística utilizamos os dados amostrais para fazer inferências (ou generalizações) sobre a população. As duas principais aplicações da estatística inferencial envol- vem a utilização de dados amostrais para estimar o valor de um parâmetro populacional e para formular uma conclusão sobre a população. Vamos estudar como, a partir de estatísticas baseadas numa amostra aleatória, podemos fazer inferências ou generalizações acerca do valor de parâmetros de uma distribuição. 1 Estimador e estimativa Um estimador (ou estimador pontual) de um parâmetro θ de uma popula- ção é uma estatística amostral pΘ utilizada para obter uma aproximação do parâmetro populacional θ. Por exemplo, a média amostral X é estimador pontual da média μ da população. Uma estimativa de um parâmetro θ de uma população é um valor espe- cífico pθ, de uma estatística amostral pΘ, usado para aproximar o parâmetro populacional θ. Por exemplo, o valor x do estimador X, calculado de uma amostra aleatória é estimativa da média μ da população. 1.1 Métodos para determinar estimadores Existem dois métodos gerais para obter estimadores de parâmetros da popu- lação: o método dos momentos e o método da máxima verosimilhança. O método dos momentos - devido a Karl Pearson - é um dos mais antigos métodos de estimação pontual. De fácil aplicação, apesar de falta de uma sólida justificação teórica, fornece frequentemente estimadores aceitáveis. O método da máxima verosimilhança é um método melhor, o qual requer usualmente soluções numéricas de equações não lineares. E se antes o método dos momentos se popularizou face a esta dificuldade, a sua razão de ser desa- pareceu face às facilidades computacionais actuais. Deve dizer-se, contudo, que as estimativas do método dos momentos são ainda usadas como primeira aproximação nos procedimentos iterativos para a resolução das equações de verosimilhança. O estudo destes dois métodos não faz parte do programa da disciplina de Probabilidades e Estatística. Estimação C. Fernandes & P. Ramos 1/23 Instituto Superior de Engenharia de Lisboa Área Departamental de Matemática Resumos sobre Probabilidades e Estatística 1.1.1 Propriedades dos estimadores 1. Consistência: A consistência indica que, quanto maior for a amostra, maior é a probabilidade do valor estimado do parâmetro estar próximo de θ. Um estimador dir-se-á consistente se e só se P ” | pΘ ´ θ |ď ε ı Ñ 1 quando n Ñ 8, @ε ą 0. Note-se que a consistência é fundamental- mente, uma propriedade para grandes amostras. 2. Não enviesamento: Um estimador diz-se não enviesado se o valor espe- rado por amostragem do estimador pΘ coincidir com θ, isto é, E ” pΘ ı “ θ. Caso E ” pΘ ı ‰ θ, o estimador pΘ diz-se enviesado e a função b pθq, dada por b ´ pΘ ¯ “ E ” pΘ ı ´ θ mede o enviesamento do estimador. 3. Eficiência e erro quadrático médio: Entre estimadores não-enviesados, preferimos o estimador com menor variância, isto é, o estimador mais eficiente. A eficiência de um estimador não-enviesado é a variância da sua distribuição amostral. O erro quadrático médio de um estimador pontual pΘ é definido como sendo o valor esperado do quadrado da distância entre pΘ e θ, isto é, EQM ´ pΘ ¯ “ E „´ pΘ ´ θ ¯2 j . O erro quadrático médio é igual à soma da variância com o quadrado do enviesamento. Assim, o erro quadrático médio de um estimador é a sua variância quando o estimador é não-enviesado: EQM ´ pΘ ¯ “ V ar ” pΘ ı ` ” b ´ pΘ ¯ı2 . Podemos, então, generalizar o conceito de eficiência: a eficiência de um estimador é o erro quadrático médio da sua distribuição amostral. 4. Suficiência: Se for possível condensar, numa simples estatística, toda a informação amostral relevante para o parâmetro a estimar, essa es- tatística diz-se um estimador suficiente para o parâmetro em análise. A estatística pΘ diz-se suficiente (ou exaustiva) para θ, se retira da amostra observada x1, x2, . . . , xn toda a informação desejada sobre θ. Qualquer outra informação contida na amostra, além do valor da es- tatística suficiente, não contém mais informações sobre θ. Isto implica Estimação C. Fernandes & P. Ramos 2/23
  2. 2. Instituto Superior de Engenharia de Lisboa Área Departamental de Matemática Resumos sobre Probabilidades e Estatística que as inferências sobre θ, obtidas de amostras distintas que conduzam ao mesmo valor pθ de pΘ, são as mesmas, ou seja, a distribuição con- dicional da amostra aleatória X1, X2, . . . , Xn, dado o valor de pΘ, não depende de θ. 1.2 Estimação por intervalos de confiança Em vários problemas de inferência estatística está-se interessado em construir uma família de conjuntos - colecções de pontos - que contenham o verdadeiro valor do parâmetro desconhecido com uma probabilidade alta especificada. Tais colecções são vulgarmente conhecidas por intervalos de confiança. Um intervalo de confiança (ou estimativa intervalar) é uma amplitude (ou um intervalo) de valores que tem probabilidade de conter o verdadeiro valor da população. Um intervalo de confiança está associado a um nível de confiança que é uma medida da nossa certeza de que o intervalo con- tém o parâmetro populacional. Pretende-se construir intervalos que conte- nham o valor do parâmetro populacional desconhecido com uma certa pro- babilidade. Um intervalo de confiança aleatório para o parâmetro θ é um intervalo ı pΘ1; pΘ2 ” , onde pΘ1 e pΘ2 são duas estatísticas amostrais tais que P ” pΘ1 ă θ ă pΘ2 ı “ 1 ´ α, com 0 ă α ă 1, onde 1 ´ α é o nível de confi- ança e α o nível de significância. Para uma amostra em particular obtêm-se estimativas para as estatísticas amostrais pθ1 e pθ2. Diferentes amostras produ- zem estimativas de intervalo diferentes, obtendo-se o intervalo deterministaı pθ1; pθ2 ” . O nível de confiança é a probabilidade 1´α (normalmente expressa como valor percentual equivalente) de o intervalo de confiança aleatório con- ter o verdadeiro valor do parâmetro populacional. O nível de confiança é também chamado grau de confiança ou coeficiente de confiança. O nível de significância α pα P s0, 1rq é a probabilidade do intervalo de confiança aleatório não conter o verdadeiro valor do parâmetro θ. Quanto mais pequena for a amplitude de um intervalo de confiança, maior é a precisão desse intervalo. Idealmente, um intervalo de confiança deverá ter amplitude pequena e nível de confiança elevado. Infelizmente, para um tamanho da amostra fixo, o coeficiente de confiança só pode aumentar, se a amplitude do intervalo também aumentar. Além disso, em geral, para valores do coefici- ente de confiança elevados, a amplitude do intervalo de confiança aumenta rapidamente. São escolhas comuns para o nível de confiança: 90% (com α “ 0, 1), 95% (com α “ 0, 05) e 99% (com α “ 0, 01). A mais comum é a opção 95%, por- que proporciona bom equilíbrio entre a precisão (reflectida na amplitude do Estimação C. Fernandes & P. Ramos 3/23 Instituto Superior de Engenharia de Lisboa Área Departamental de Matemática Resumos sobre Probabilidades e Estatística intervalo de confiança) e a confiabilidade (expressa pelo nível de confiança), no entanto, pode ser utilizado outro nível de confiança. Como vimos, a estimativa intervalar consiste em um intervalo e está asso- ciada a um nível de confiança. O nível de confiança 1´α deve ser interpretado como uma probabilidade, do intervalo de confiança aleatório conter o parâme- tro θ, anterior à realização da amostragem e portanto, anterior à estimação dos limites do intervalo. Este aspecto da probabilidade ser anterior à realiza- ção da amostragem é fundamental. Na prática, não se sabe se um intervalo determinista ı pθ1, pθ2 ” , obtido de uma amostra particular, contém ou não o parâmetro θ, porque o valor de θ é desconhecido. Devemos ter em conta que θ é um valor fixo e não uma variável aleatória; portanto, é errado dizer que há 95% de hipóteses de θ estar no intervalo determinista. Qualquer intervalo de confiança contém, ou não contém θ e como θ é fixo e desconhecido, não existe a probabilidade de θ estar num intervalo. Existe a probabilidade condicional, posterior à realização da amostragem, P ” pΘ1 ă θ ă pΘ2 | pΘ1 “ pθ1; pΘ2 “ pθ2 ı “ " 0 , se o intervalo não contém θ 1 , se o intervalo contém θ . O nível de confiança não se refere ao evento condicional pΘ1 ă θ ă pΘ2 | pΘ1 “ pθ1; pΘ2 “ pθ2, o intervalo de confiança observado, que nada tem de aleatório, mas refere-se ao intervalo pΘ1 ă θ ă pΘ2 e indica a probabilidade deste intervalo aleatório conter o parâmetro θ. Ou seja, o nível de confiança indica a proporção de vezes que os intervalos observados ı pθ1, pθ2 ” contêm o parâmetro θ. Interpre- tamos este intervalo de confiança como se segue: Se seleccionássemos muitas amostras diferentes de tamanho n da população e construíssemos um inter- valo de 95% de confiança análogo para cada amostra, 95% desses intervalos conteriam efectivamente o parâmetro populacional θ. Para a construção de um intervalo de confiança deverá proceder-se da seguinte forma: 1. identificar a população, a sua distribuição e o parâmetro a estimar; 2. estabelecer um nível de confiança e o tamanho da amostra; 3. escolher a variável fulcral, que é a estatística a escolher para estimar o parâmetro. A variável fulcral contém o parâmetro a estimar na sua ex- pressão e a sua distribuição não pode depender do parâmetro a estimar nem de quaisquer outros valores que se desconheçam; Estimação C. Fernandes & P. Ramos 4/23
  3. 3. Instituto Superior de Engenharia de Lisboa Área Departamental de Matemática Resumos sobre Probabilidades e Estatística 4. identificar a distribuição amostral da variável fulcral; 5. construir o intervalo de confiança aleatório; 6. determinar os extremos do intervalo de confiança a partir dos valores da amostra observada, obtendo o intervalo de confiança determinista. Nota 1.1. Consultar o quadro resumo sobre intervalos de confiança para uma e duas populações. 1.2.1 Intervalo de confiança para a média • Se σ é conhecido, X é uma variável aleatória com distribuição normal e n qualquer então sI1´αrμ “ j X ´ σ ? n Z1´ α 2 ; X ` σ ? n Z1´ α 2 „ , onde Z1´ α 2 “ Φ´1 ` 1 ´ α 2 ˘ é o percentil 100 ˆ ` 1 ´ α 2 ˘ da distribuição N p0; 1q; α/2 α/2 1−α 0 1− α/2−Z 1− α/2Z • Se σ é conhecido, X é uma variável aleatória com distribuição arbitrária e n ą 30 então sI1´αrμ “ j X ´ σ ? n Z1´ α 2 ; X ` σ ? n Z1´ α 2 „ , onde Z1´ α 2 “ Φ´1 ` 1 ´ α 2 ˘ é o percentil 100 ˆ ` 1 ´ α 2 ˘ da distribuição N p0; 1q; • Se σ é desconhecido, X é uma variável aleatória com distribuição arbi- trária e n ą 30 então sI1´αrμ “ j X ´ S ? n Z1´ α 2 ; X ` S ? n Z1´ α 2 „ , onde Z1´ α 2 “ Φ´1 ` 1 ´ α 2 ˘ é o percentil 100 ˆ ` 1 ´ α 2 ˘ da distribuição N p0; 1q; Estimação C. Fernandes & P. Ramos 5/23 Instituto Superior de Engenharia de Lisboa Área Departamental de Matemática Resumos sobre Probabilidades e Estatística • Se σ é desconhecido, X é uma variável aleatória com distribuição nor- mal e n qualquer então sI1´αrμ “ j X ´ S ? n tn´1;1´ α 2 ; X ` S ? n tn´1;1´ α 2 „ , onde tn´1;1´ α 2 é o percentil 100 ˆ ` 1 ´ α 2 ˘ da distribuição tn´1. α/2 α/2 1−α 0 n−1;1− α/2−t n−1;1− α/2t Quando utilizamos dados amostrais para estimar uma média populacional μ, a margem de erro, denotada por E, é a diferença máxima provável (com probabilidade 1´α) entre a média amostral observada X e a verdadeira média populacional μ. A margem de erro E também é chamada erro máximo da estimativa e pode ser obtida por: σ ? n Z1´ α 2 ou S ? n Z1´ α 2 ou S ? n tn´1;1´ α 2 , conforme o caso. Assim, antes de efectuar a amostragem, pode estimar-se, com um nível de confiança de 1 ´ α dado, o tamanho n da amostra que garante um erro máximo de estimativa (precisão) que não ultrapasse um valor ε desejado. Para isso, consoante o caso, resolvemos a inequação: σ ? n Z1´ α 2 ď ε ou S ? n Z1´ α 2 ď ε, Estimação C. Fernandes & P. Ramos 6/23
  4. 4. Instituto Superior de Engenharia de Lisboa Área Departamental de Matemática Resumos sobre Probabilidades e Estatística em ordem a n, obtendo-se, respectivamente: n ě ˆ σZ1´ α 2 ε ˙2 ou n ě ˆ SZ1´ α 2 ε ˙2 , pelo que basta tomar para n o menor inteiro que satisfaz a desigualdade. É imediato concluir que para diminuir o erro é necessário aumentar o tamanho da amostra. Nos casos em que a variância populacional σ2 é desco- nhecida, antes de se determinar a ordem de grandeza de n recorre-se a uma amostra preliminar de tamanho n ą 30 para calcular S. Exemplo 1.1. Um fabricante produz peças de peso especificado em 200 gra- mas. Querendo estimar o verdadeiro peso médio num grande lote a fornecer ao seu maior cliente, seleccionou 35 peças ao acaso, que depois de pesadas forneceram os seguintes valores: ř35 i“1 xi “ 7140 e ř35 i“1 pxi ´ xq2 “ 560. (a) Apresente uma estimativa para o peso médio das peças do lote; Como X “ řn i“1 Xi n obtém-se x “ ř35 i“1 xi 35 “ 7140 35 “ 204 gramas. (b) Construa um intervalo de confiança a 95% para o peso médio das peças do lote; Seja X - “peso, em gramas, das peças do lote”. Pretendemos um inter- valo de confiança para o verdadeiro peso médio das peças. – Parâmetro a estimar: μ; – Tipo de população: desconhecida; – Dimensão da amostra: n “ 35; – Nível de confiança: 1 ´ α “ 0, 95; – Variável fulcral: X´μ S? n 9„N p0; 1q; – Outros dados: Como S “ c řn i“1pXi´Xq 2 n´1 obtém-se s “ bř35 i“1pxi´xq2 34 “ b 560 34 “ 4, 058; Estimação C. Fernandes & P. Ramos 7/23 Instituto Superior de Engenharia de Lisboa Área Departamental de Matemática Resumos sobre Probabilidades e Estatística α/2 α/2 1−α 0 1− α/2−Z 1− α/2Z com ´Z1´ α 2 “ ´Z0,975 “ ´1, 96 e Z1´ α 2 “ Z0,975 “ 1, 96. Logo tem-se P „ ´Z1´ α 2 ă X´μ S? n ă Z1´ α 2 j “ 1 ´ α ô ô P „ ´1, 96 ă X´μ S? n ă 1, 96 j “ 0, 95 ô ô P ” ´1, 96 ˆ S? n ă X ´ μ ă 1, 96 ˆ S? n ı “ 0, 95 ô ô P ” X ´ 1, 96 ˆ S? n ă μ ă X ` 1, 96 ˆ S? n ı “ 0, 95. Obtendo-se, o intervalo aleatório: sI0,95rμ “ j X ´ 1, 96 ˆ S ? n ; X ` 1, 96 ˆ S ? n „ e o intervalo determinista: sI0,95r˚ μ “ j 204 ´ 1, 96 ˆ 4, 058 ? 35 ; 204 ` 1, 96 ˆ 4, 058 ? 35 „ “ “ s202, 656; 205, 344r. Estima-se, com um nível de confiança de 95%, que o peso médio das peças do lote se situe entre 202, 656 gramas e 205, 344 gramas. (c) Qual deve ser a dimensão mínima da amostra para que a amplitude do intervalo de confiança a 95% para o peso médio seja inferior a 1, 75? Amplitude do intervalo “ ´ X ` 1, 96 ˆ S? n ¯ ´ ´ X ´ 1, 96 ˆ S? n ¯ “ 2ˆ 1, 96 ˆ S? n . Pretende-se que Amplitude ă 1, 75 ô 2 ˆ 1, 96 ˆ 4,058? n ă 1, 75 ô n ą 80, 63. A dimensão mínima da amostra é de 81 peças. Estimação C. Fernandes & P. Ramos 8/23
  5. 5. Instituto Superior de Engenharia de Lisboa Área Departamental de Matemática Resumos sobre Probabilidades e Estatística Exemplo 1.2. O tempo em horas de funcionamento sem falha de um com- ponente electrónico tem distribuição aproximadamente normal. Para esti- mar os parâmetros da referida distribuição foi recolhida uma amostra aleató- ria de 15 componentes para os quais foram observados os tempos de fun- cionamento. Obtiveram-se os seguintes resultados: ř15 i“1 xi “ 147180 eř15 i“1 x2 i “ 1446552944. (a) a) Indique estimativas pontuais do tempo médio de funcionamento sem falha e do desvio padrão do tempo de funcionamento sem falha deste tipo de componentes. Como X “ řn i“1 Xi n obtém-se x “ ř15 i“1 xi 15 “ 147180 15 “ 9812 horas. Como S “ břn i“1 X2 i ´nX 2 n´1 obtém-se s “ b 1446552944´15ˆ98122 14 “ ? 173056 “ 416 horas. (b) b) Construa um intervalo de confiança a 95% para o tempo médio de funcionamento sem falha de um componente electrónico. Seja X - “tempo de funcionamento sem falha de um componente electró- nico em horas”. Pretendemos um intervalo de confiança para o tempo médio de funcionamento sem falha de um componente electrónico. – Parâmetro a estimar: μ; – Tipo de população: normal; – Dimensão da amostra: n “ 15; – Nível de confiança: 1 ´ α “ 0, 95; – Variável fulcral: X´μ S? n „ tn´1; – Outros dados: x “ 9812 e s “ 416; α/2 α/2 1−α 0 n−1;1− α/2−t n−1;1− α/2t com ´tn´1;1´ α 2 “ ´t14;0,975 “ ´2, 1448 e tn´1;1´ α 2 “ t14;0,975 “ 2, 1448. Estimação C. Fernandes & P. Ramos 9/23 Instituto Superior de Engenharia de Lisboa Área Departamental de Matemática Resumos sobre Probabilidades e Estatística Logo tem-se P „ ´tn´1;1´ α 2 ă X´μ S? n ă tn´1;1´ α 2 j “ 1 ´ α ô ô P „ ´2, 1448 ă X´μ S? n ă 2, 1448 j “ 0, 95 ô ô P ” ´2, 1448 ˆ S? n ă X ´ μ ă 2, 1448 ˆ S? n ı “ 0, 95 ô ô P ” X ´ 2, 1448 ˆ S? n ă μ ă X ` 2, 1448 ˆ S? n ı “ 0, 95. Obtendo-se, o intervalo aleatório: sI0,95rμ “ j X ´ 2, 1448 ˆ S ? n ; X ` 2, 1448 ˆ S ? n „ e o intervalo determinista: sI0,95r˚ μ “ j 9812 ´ 2, 1448 ˆ 416 ? 15 ; 9812 ` 2, 1448 ˆ 416 ? 15 „ “ “ s9581, 625; 10042, 375r. Estima-se, com um nível de confiança de 95%, que o tempo médio de funcionamento sem falha de um componente electrónico se situe entre 9581, 625 horas e 10042, 375 horas. 1.2.2 Intervalo de confiança para a proporção Se n ą 30 (amostras grandes) então sI1´αrp “ ff pp ´ Z1´ α 2 c pp p1 ´ ppq n ; pp ` Z1´ α 2 c pp p1 ´ ppq n « , onde Z1´ α 2 “ Φ´1 ` 1 ´ α 2 ˘ é o percentil 100ˆ ` 1 ´ α 2 ˘ da distribuição N p0; 1q. Erro máximo da estimativa: E “ Z1´ α 2 c pp p1 ´ ppq n . Tamanho da amostra: n ě pp p1 ´ ppq ˆ Z1´ α 2 ε ˙2 , onde ε é o valor do erro pretendido. Estimação C. Fernandes & P. Ramos 10/23
  6. 6. Instituto Superior de Engenharia de Lisboa Área Departamental de Matemática Resumos sobre Probabilidades e Estatística Exemplo 1.3. O dono de uma ervanária produz um chá, relativamente ao qual, afirma ser eficaz em pelo menos 85% dos casos para curar dores de cabeça. Num inquérito feito a 250 pessoas, 198 concordaram que o chá cura de facto as dores de cabeça. Construa um intervalo de confiança com um nível de 95% para a percentagem de potenciais consumidores que concordam com o dono da ervanária. Seja X - “número de consumidores que concorda com o dono da ervaná- ria”. Pretendemos um intervalo de confiança para a percentagem de potenci- ais consumidores que concordam com o dono da ervanária. • Parâmetro a estimar: p; • Tipo de população: Bernoulli; • Dimensão da amostra: n “ 250; • Nível de confiança: 1 ´ α “ 0, 95; • Variável fulcral: pp´pb ppp1´ppq n 9„N p0; 1q; • Outros dados: pp “ 198 250 “ 0, 792; α/2 α/2 1−α 0 1− α/2−Z 1− α/2Z com ´Z1´ α 2 “ ´Z0,975 “ ´1, 96 e Z1´ α 2 “ Z0,975 “ 1, 96. Logo tem-se P „ ´Z1´ α 2 ă pp´pb ppp1´ppq n ă Z1´ α 2 j “ 1 ´ α P „ ´1, 96 ă pp´pb ppp1´ppq n ă 1, 96 j “ 0, 95 ô ô P „ ´1, 96 ˆ b ppp1´ppq n ă pp ´ p ă 1, 96 ˆ b ppp1´ppq n j “ 0, 95 ô ô P „ pp ´ 1, 96 ˆ b ppp1´ppq n ă p ă pp ` 1, 96 ˆ b ppp1´ppq n j “ 0, 95. Estimação C. Fernandes & P. Ramos 11/23 Instituto Superior de Engenharia de Lisboa Área Departamental de Matemática Resumos sobre Probabilidades e Estatística Obtendo-se o intervalo aleatório: sI0,95rp “ ff pp ´ 1, 96 ˆ c pp p1 ´ ppq n ; pp ` 1, 96 ˆ c pp p1 ´ ppq n « e o intervalo determinista: sI0,95r˚ p “ ff 0, 792 ´ 1, 96 ˆ c 0, 792 ˆ 0, 208 250 ; 0, 792 ` 1, 96 ˆ c 0, 792 ˆ 0, 208 250 « “ “ s0, 7417; 0, 8423r. Estima-se que a percentagem de potenciais consumidores que concordam com o dono da ervanária se situe entre 74, 17% e 84, 23%, a um nível de confiança de 95%. 1.2.3 Intervalo de confiança para a variância duma população nor- mal sI1´αrσ2 “ ff pn ´ 1q S2 χ2 n´1;1´ α 2 ; pn ´ 1q S2 χ2 n´1; α 2 « , onde χ2 n´1;1´ α 2 é o percentil 100 ˆ ` 1 ´ α 2 ˘ da distribuição χ2 n´1 e χ2 n´1; α 2 é o percentil 100 ˆ α 2 da distribuição χ2 n´1. Este resultado não deve ser usado no caso de populações claramente não normais. α/2 1−α n−1;1− α/2χ α/2 2 n−1;α/2χ2 Se pretendermos obter o intervalo de confiança para o desvio padrão faz-se sI1´αrσ “ ffd pn ´ 1q S2 χ2 n´1;1´ α 2 ; d pn ´ 1q S2 χ2 n´1; α 2 « . Estimação C. Fernandes & P. Ramos 12/23
  7. 7. Instituto Superior de Engenharia de Lisboa Área Departamental de Matemática Resumos sobre Probabilidades e Estatística Exemplo 1.4. Um laboratório pretende avaliar a variabilidade associada ao resultado de um determinado método de análise química. Com esse objectivo, efectuaram-se 17 análises a uma determinada substância em que se seguiu o referido método, em condições perfeitamente estabilizadas. A variância amostral dos resultados, expressos numa determinada unidade, foi de 2, 70. Admitindo que o resultado das análises segue uma distribuição normal, cons- trua um intervalo de confiança a 95% para o desvio padrão dos resultados do método de análise química. Seja X - “resultado de um determinado método de análise química”. Pre- tendemos um intervalo de confiança para o verdadeiro desvio padrão dos resultados do método de análise química. Vamos começar por construir o intervalo de confiança para a variância. • Parâmetro a estimar: σ2 ; • Tipo de população: normal; • Dimensão da amostra: n “ 17; • Nível de confiança: 1 ´ α “ 0, 95; • Variável fulcral: pn´1qS2 σ2 „ χ2 n´1; • Outros dados: s2 “ 2, 70; α/2 1−α n−1;1− α/2χ α/2 2 n−1;α/2χ2 com χ2 n´1; α 2 “ χ2 16;0,025 “ 6, 9077 e χ2 n´1;1´ α 2 “ χ2 16;0,975 “ 28, 8454. Logo tem-se P ” χ2 n´1; α 2 ă pn´1qS2 σ2 ă χ2 n´1;1´ α 2 ı “ 1 ´ α ô ô P ” 6, 9077 ă pn´1qS2 σ2 ă 28, 8454 ı “ 0, 95 ô ô P ” 6,9077 pn´1qS2 ă 1 σ2 ă 28,8454 pn´1qS2 ı “ 0, 95 ô ô P ” pn´1qS2 28,8454 ă σ2 ă pn´1qS2 6,9077 ı “ 0, 95. Estimação C. Fernandes & P. Ramos 13/23 Instituto Superior de Engenharia de Lisboa Área Departamental de Matemática Resumos sobre Probabilidades e Estatística Obtendo-se, o intervalo aleatório: sI0,95rσ2 “ j pn ´ 1q S2 28, 8454 ; pn ´ 1q S2 6, 9077 „ e o intervalo determinista: sI0,95r˚ σ2 “ j 16 ˆ 2, 70 28, 8454 ; 16 ˆ 2, 70 6, 9077 „ “ “ s1, 4976; 6, 2539r. Estima-se, com um nível de confiança de 95%, que variância dos resultados do método de análise química se situe entre 1, 2238 e 2, 5008. O intervalo de confiança para o desvio padrão será: sI0,95r˚ σ “ s1, 4976; 6, 2539r. Estima-se, com um nível de confiança de 95%, que o desvio padrão dos re- sultados do método de análise química se situe entre 1, 2238 e 2, 5008. 1.2.4 Intervalo de confiança para a diferença de valores médios com duas amostras independentes • Se σ1 e σ2 são conhecidos, X1 e X2 seguem uma distribuição normal e n1 e n2 quaisquer então sI1´αrμ1´μ2 “ fi fl ` X1 ´ X2 ˘ ´ d σ2 1 n1 ` σ2 2 n2 Z1´ α 2 ; ` X1 ´ X2 ˘ ` d σ2 1 n1 ` σ2 2 n2 Z1´ α 2 » – , onde Z1´ α 2 “ Φ´1 ` 1 ´ α 2 ˘ é o percentil 100 ˆ ` 1 ´ α 2 ˘ da distribuição N p0, 1q; • Se σ1 e σ2 são conhecidos, X1 e X2 seguem uma distribuição arbitrária e n1 ą 30 e n2 ą 30 então sI1´αrμ1´μ2 “ fi fl ` X1 ´ X2 ˘ ´ d σ2 1 n1 ` σ2 2 n2 Z1´ α 2 ; ` X1 ´ X2 ˘ ` d σ2 1 n1 ` σ2 2 n2 Z1´ α 2 » – , Estimação C. Fernandes & P. Ramos 14/23
  8. 8. Instituto Superior de Engenharia de Lisboa Área Departamental de Matemática Resumos sobre Probabilidades e Estatística onde Z1´ α 2 “ Φ´1 ` 1 ´ α 2 ˘ é o percentil 100 ˆ ` 1 ´ α 2 ˘ da distribuição N p0, 1q; • se σ1 e σ2 são desconhecidos, X1 e X2 seguem uma distribuição arbi- trária e n1 ą 30 e n2 ą 30 então sI1´αrμ1´μ2 “ fi fl ` X1 ´ X2 ˘ ´ d S1 2 n1 ` S2 2 n2 Z1´ α 2 ; ` X1 ´ X2 ˘ ` d S1 2 n1 ` S2 2 n2 Z1´ α 2 » – , onde Z1´ α 2 “ Φ´1 ` 1 ´ α 2 ˘ é o percentil 100 ˆ ` 1 ´ α 2 ˘ da distribuição N p0, 1q; • Se σ1 e σ2 são desconhecidos, as populações são homocedásticas pσ2 1 “ σ2 2q, X1 e X2 seguem uma distribuição normal e n1 e n2 quaisquer então sI1´αrμ1´μ2 “ ‰` X1 ´ X2 ˘ ´ A ˆ tn1`n2´2;1´ α 2 ; ` X1 ´ X2 ˘ ` A ˆ tn1`n2´2;1´ α 2 “ , onde A “ d pn1 ´ 1q S1 2 ` pn2 ´ 1q S2 2 n1 ` n2 ´ 2 ˆ 1 n1 ` 1 n2 ˙ e tn1`n2´2;1´ α 2 é o percentil 100 ˆ ` 1 ´ α 2 ˘ da distribuição tn1`n2´2; • Se σ1 e σ2 são desconhecidos, as populações são heterocedásticas pσ2 1 ‰ σ2 2q, X1 e X2 seguem uma distribuição normal e n1 e n2 quaisquer então sI1´αrμ1´μ2 “ fi fl ` X1 ´ X2 ˘ ´ d S1 1 2 n1 ` S1 2 2 n2 tr;1´ α 2 ; ` X1 ´ X2 ˘ ` d S1 2 n1 ` S2 2 n2 tr;1´ α 2 » – , onde r é o número natural mais próximo de r˚ e este é dado por r˚ “ ´ S1 2 n1 ` S2 2 n2 ¯2 1 n1´1 ´ S1 2 n1 ¯2 ` 1 n2´1 ´ S2 2 n2 ¯2 . Estimação C. Fernandes & P. Ramos 15/23 Instituto Superior de Engenharia de Lisboa Área Departamental de Matemática Resumos sobre Probabilidades e Estatística Exemplo 1.5. Um campo experimental foi utilizado para testar o cresci- mento de duas espécies florestais, A e B. Analisaram-se 200 árvores da espécie A com 2 anos de idade, obtendo-se uma altura média de 145cm e um desvio padrão de 15cm. Uma amostra de 150 árvores da espécie B, com a mesma idade, conduziu a uma altura média de 141cm e um desvio padrão de 12cm. Pretende-se determinar o intervalo de confiança a 95% para a dife- rença entre os valores esperados das alturas das duas espécies ao fim de dois anos. Sejam X1 - “altura, em cm, das árvores da espécie A” e X2 - “altura, em cm, das árvores da espécie B”. Pretendemos um intervalo de confiança para a diferença entre os valores esperados das alturas das duas espécies ao fim de dois anos. • Parâmetro a estimar: μ1 ´ μ2; • Tipos de população: Quaisquer; • Dimensão das amostras: n1 “ 200 e n2 “ 150; • Nível de confiança: 1 ´ α “ 0, 95; • Variável fulcral: pX1´X2q´pμ1´μ2q c S2 1 n1 ` S2 2 n2 9„N p0; 1q; • Outros dados: x1 “ 145, x2 “ 141, s1 “ 15 e s2 “ 12; α/2 α/2 1−α 0 1− α/2−Z 1− α/2Z com ´Z1´ α 2 “ ´Z0,975 “ ´1, 96 e Z1´ α 2 “ Z0,975 “ 1, 96. Logo tem-se P » –´Z1´ α 2 ă pX1´X2q´pμ1´μ2q c S2 1 n1 ` S2 2 n2 ă Z1´ α 2 fi fl “ 1 ´ α P » –´1, 96 ă pX1´X2q´pμ1´μ2q c S2 1 n1 ` S2 2 n2 ă 1, 96 fi fl “ 0, 95 ô Estimação C. Fernandes & P. Ramos 16/23
  9. 9. Instituto Superior de Engenharia de Lisboa Área Departamental de Matemática Resumos sobre Probabilidades e Estatística ô P „ ´1, 96 ˆ b S2 1 n1 ` S2 2 n2 ă ` X1 ´ X2 ˘ ´ pμ1 ´ μ2q ă 1, 96ˆ ˆ b S2 1 n1 ` S2 2 n2 j “ 0, 95 ô ô P „ ` X1 ´ X2 ˘ ´ 1, 96 ˆ b S2 1 n1 ` S2 2 n2 ă μ1 ´ μ2 ă ` X1 ´ X2 ˘ ` 1, 96ˆ ˆ b S2 1 n1 ` S2 2 n2 j “ 0, 95. Obtendo-se o intervalo aleatório: sI0,95rμ1´μ2 “ fi fl ` X1 ´ X2 ˘ ´ 1, 96 ˆ d S2 1 n1 ` S2 2 n2 ; ` X1 ´ X2 ˘ ` 1, 96 ˆ d S2 1 n1 ` S2 2 n2 » – e o intervalo determinista: sI0,95r˚ μ1´μ2 “ ff p145 ´ 141q ´ 1, 96 ˆ c 152 200 ` 122 150 ; p145 ´ 141q ` 1, 96 ˆ c 152 200 ` 122 150 « “ “ s1, 1698; 6, 8302r. Estima-se que a diferença entre os valores esperados das alturas das duas espécies ao fim de dois anos se situe entre 1, 1698cm e 6, 8302cm, a um nível de confiança de 95%. Exemplo 1.6. Um determinado método de análise permite determinar o conteúdo de enxofre no petróleo bruto. Os ensaios efectuados em 10 e 8 amostras de 1kg de petróleo bruto, provenientes de furos pertencentes respec- tivamente aos campos A e B, revelaram os seguintes resultados (em gramas): • Campo A: 105, 111, 114, 112, 106, 110, 109, 107, 112, 110. • Campo B: 101, 106, 104, 105, 103, 110, 108, 109. Considere que o conteúdo de enxofre por quilograma de petróleo bruto, medido em gramas para os dois campos, se pode considerar normal com variâncias iguais e que as amostras obtidas são independentes. Determine um intervalo, Estimação C. Fernandes & P. Ramos 17/23 Instituto Superior de Engenharia de Lisboa Área Departamental de Matemática Resumos sobre Probabilidades e Estatística com 95% de confiança, para a diferença entre os valores médios da quantidade de enxofre por quilograma de petróleo proveniente de cada campo. Sejam X1 - “conteúdo de enxofre no petróleo bruto no campo A, em gra- mas” e X2 - “conteúdo de enxofre no petróleo bruto no campo B, em gramas”. Pretendemos um intervalo de confiança para a diferença entre os valores mé- dios da quantidade de enxofre por quilograma de petróleo proveniente de cada campo. • Parâmetro a estimar: μ1 ´ μ2; • Tipos de população: Normais; • Dimensão das amostras: n1 “ 10 e n2 “ 8; • Nível de confiança: 1 ´ α “ 0, 95; • Variável fulcral: pX1´X2q´pμ1´μ2q c pn1´1qS2 1 `pn2´1qS2 2 n1`n2´2 ´ 1 n1 ` 1 n2 ¯ „ tn1`n2´2; • Outros dados: x1 “ 109, 6, x2 “ 105, 75, s2 1 “ 8, 267 e s2 2 “ 9, 643; α/2 α/2 1−α 0 n +n −2;1− α/2−t 1 2 n +n −2;1− α/2t 1 2 com ´tn1`n2´2;1´ α 2 “ ´t16;0,975 “ ´2, 1199 e tn1`n2´2;1´ α 2 “ t16;0,975 “ 2, 1199. Logo tem-se P » –´tn1`n2´2;1´ α 2 ă pX1´X2q´pμ1´μ2q c pn1´1qS2 1 `pn2´1qS2 2 n1`n2´2 ´ 1 n1 ` 1 n2 ¯ ă tn1`n2´2;1´ α 2 fi fl “ 1 ´ α ô P » –´2, 1199 ă pX1´X2q´pμ1´μ2q c pn1´1qS2 1 `pn2´1qS2 2 n1`n2´2 ´ 1 n1 ` 1 n2 ¯ ă 2, 1199 fi fl “ 0, 95 Para aligeirar esta expressão podemos considerar A “ d pn1 ´ 1q S2 1 ` pn2 ´ 1q S2 2 n1 ` n2 ´ 2 ˆ 1 n1 ` 1 n2 ˙ Estimação C. Fernandes & P. Ramos 18/23
  10. 10. Instituto Superior de Engenharia de Lisboa Área Departamental de Matemática Resumos sobre Probabilidades e Estatística tendo-se P “ ´2, 1199 ˆ A ă ` X1 ´ X2 ˘ ´ pμ1 ´ μ2q ă 2, 1199 ˆ A ‰ “ 0, 95 ô ô P “` X1 ´ X2 ˘ ´ 2, 1199 ˆ A ă μ1 ´ μ2 ă ` X1 ´ X2 ˘ ` `2, 1199 ˆ As “ 0, 95. Obtendo-se o intervalo aleatório: sI0,95rμ1´μ2 “ ‰` X1 ´ X2 ˘ ´ 2, 1199 ˆ A; ` X1 ´ X2 ˘ ` 2, 1199 ˆ A “ . Para obter o intervalo determinista teremos que calcular A “ d 9 ˆ 8, 267 ` 7 ˆ 9, 643 16 ˆ 1 10 ` 1 8 ˙ “ 1, 413 e tem-se: sI0,95r˚ μ1´μ2 “ sp109, 6 ´ 105, 75q ´ 2, 1199 ˆ 1, 413; p109, 6 ´ 105, 75q ` `2, 1199 ˆ 1, 413r “ “ s0, 855; 6, 845r. Estima-se, com um nível de confiança de 95%, que a diferença entre os valo- res médios da quantidade de enxofre por quilograma de petróleo proveniente de cada campo se situe entre 0, 855 gramas e 6, 845 gramas. 1.2.5 Intervalo de confiança para a diferença de proporções com duas amostras independentes Se n1 ą 30 e n2 ą 30 (amostras grandes) então sI1´αrp1´p2 “ ff ppp1 ´ pp2q ´ d pp1 p1 ´ pp1q n1 ` pp2 p1 ´ pp2q n2 Z1´ α 2 ; ppp1 ´ pp2q ` d pp1 p1 ´ pp1q n1 ` pp2 p1 ´ pp2q n2 Z1´ α 2 « , onde Z1´ α 2 “ Φ´1 ` 1 ´ α 2 ˘ é o percentil 100ˆ ` 1 ´ α 2 ˘ da distribuição N p0, 1q. Estimação C. Fernandes & P. Ramos 19/23 Instituto Superior de Engenharia de Lisboa Área Departamental de Matemática Resumos sobre Probabilidades e Estatística Exemplo 1.7. Uma grande cadeia de venda a retalho pretende comparar os hábitos de compra de homens e mulheres. Uma das variáveis em estudo con- siste na proporção de vezes que uma compra é concretizada após a entrada numa loja. Em 45 observações seleccionadas aleatoriamente, os homens re- alizaram compras 27 vezes. No caso das mulheres, em 74 observações a compra concretizou-se 32 vezes. Com base nestes dados, construa o intervalo de confiança a 95% para a diferença entre as proporções de concretização de compras entre homens e mulheres. Sejam X1 - “número de vezes que a compra é concretizada pelos homens” e X2 - “número de vezes que a compra é concretizada pelas mulheres”. Pre- tendemos um intervalo de confiança para a diferença entre as proporções de concretização de compras entre homens e mulheres. • Parâmetro a estimar: p1 ´ p2; • Tipos de população: Bernoulli; • Dimensão das amostras: n1 “ 45 e n2 “ 74; • Nível de confiança: 1 ´ α “ 0, 95; • Variável fulcral: ppp1´pp2q´pp1´p2qc pp1p1´pp1q n1 ` pp2p1´pp2q n2 9„N p0; 1q; • Outros dados: pp1 “ 27 45 “ 0, 6, pp2 “ 32 74 “ 0, 43, s1 “ 15 e s2 “ 12; α/2 α/2 1−α 0 1− α/2−Z 1− α/2Z com ´Z1´ α 2 “ ´Z0,975 “ ´1, 96 e Z1´ α 2 “ Z0,975 “ 1, 96. Logo tem-se P » –´Z1´ α 2 ă ppp1´pp2q´pp1´p2qc pp1p1´pp1q n1 ` pp2p1´pp2q n2 ă Z1´ α 2 fi fl “ 1 ´ α P » –´1, 96 ă ppp1´pp2q´pp1´p2qc pp1p1´pp1q n1 ` pp2p1´pp2q n2 ă 1, 96 fi fl “ 0, 95 ô Estimação C. Fernandes & P. Ramos 20/23
  11. 11. Instituto Superior de Engenharia de Lisboa Área Departamental de Matemática Resumos sobre Probabilidades e Estatística ô P ” ´1, 96 ˆ b pp1p1´pp1q n1 ` pp2p1´pp2q n2 ă ppp1 ´ pp2q ´ pp1 ´ p2q ă 1, 96ˆ ˆ b pp1p1´pp1q n1 ` pp2p1´pp2q n2 ı “ 0, 95 ô ô P ” ppp1 ´ pp2q ´ 1, 96 ˆ b pp1p1´pp1q n1 ` pp2p1´pp2q n2 ă p1 ´ p2 ă ppp1 ´ pp2q ` `1, 96 ˆ b pp1p1´pp1q n1 ` pp2p1´pp2q n2 ı “ 0, 95. Obtendo-se o intervalo aleatório: sI0,95rp1´p2 “ ff ppp1 ´ pp2q ´ 1, 96 ˆ d pp1 p1 ´ pp1q n1 ` pp2 p1 ´ pp2q n2 ; ppp1 ´ pp2q ` `1, 96 ˆ d pp1 p1 ´ pp1q n1 ` pp2 p1 ´ pp2q n2 « e o intervalo determinista: sI0,95r˚ p1´p2 “ ff p0, 6 ´ 0, 43q ´ 1, 96 ˆ c 0, 6 ˆ 0, 4 45 ` 0, 43 ˆ 0, 57 74 ; p0, 6 ´ 0, 43q ` 1, 96 ˆ c 0, 6 ˆ 0, 4 45 ` 0, 43 ˆ 0, 57 74 « “ “ s´0, 0118; 0, 3518r. Estima-se que a diferença entre as proporções de concretização de compras entre homens e mulheres se situe entre ´0, 0118 e 0, 3518, a um nível de confiança de 95%. 1.2.6 Intervalo de confiança para o quociente de duas variâncias de populações normais Sejam X1, X2, . . . , Xn e Y1, Y2, . . . , Yn duas amostras aleatórias independentes de dimensão n1 e n2, respectivamente, onde X „ N pμ1; σ1q e Y „ N pμ2; σ2q. Então sI1´αrσ2 1 σ2 2 “ ff S1 2 S2 2 ˆ 1 F ` n1 ´ 1; n2 ´ 1; 1 ´ α 2 ˘; S1 2 S2 2 ˆ 1 F ` n1 ´ 1; n2 ´ 1; α 2 ˘ « , onde F ` n1 ´ 1; n2 ´ 1; 1 ´ α 2 ˘ designa o percentil 100ˆ ` 1 ´ α 2 ˘ da distribui- ção F pn1 ´ 1; n2 ´ 1q e F ` n1 ´ 1; n2 ´ 1; α 2 ˘ designa o percentil 100 ˆ α 2 da distribuição F pn1 ´ 1; n2 ´ 1q. Estimação C. Fernandes & P. Ramos 21/23 Instituto Superior de Engenharia de Lisboa Área Departamental de Matemática Resumos sobre Probabilidades e Estatística α/2 1−α α/2 F (n −1;n −1;α/2)1 2 F (n −1;n −1;1−α/2)1 2 Exemplo 1.8. Pretende-se comparar o desempenho de duas máquinas, A e B, no que diz respeito à precisão de fabrico de uma peça. A partir de 13 peças produzidas na máquina A e de 16 peças produzidas na máquina B, obtiveram-se os seguintes resultados para a variância amostral de uma determinada dimensão cotada no desenho: s2 1 “ 6, 32mm2 para a máquina A e s2 2 “ 4, 8mm2 para a máquina B. Admitindo que para as duas máquinas a distribuição da referida dimensão é normal, determine um intervalo de confiança a 90% para a razão entre as variâncias σ2 1 e σ2 1. Sejam X1 - “dimensão cotada no desenho de uma peça produzida na má- quina A em mm” e X2 - “dimensão cotada no desenho de uma peça produ- zida na máquina B em mm”. Pretendemos um intervalo de confiança para o quociente entre as variâncias das dimensões cotadas no desenho para peças produzidas nas duas máquinas. • Parâmetro a estimar: σ2 1 σ2 2 ; • Tipos de população: Normais; • Dimensão das amostras: n1 “ 13 e n2 “ 16; • Nível de confiança: 1 ´ α “ 0, 90; • Variável fulcral: S2 1 S2 2 ˆ σ2 2 σ2 1 „ F pn1 ´ 1; n2 ´ 1q; • Outros dados: s2 1 “ 6, 32, s2 2 “ 4, 8; α/2 1− α α/2 F (n −1;n −1;α/2)1 2 F (n −1;n −1;1−α/2)1 2 Estimação C. Fernandes & P. Ramos 22/23
  12. 12. Instituto Superior de Engenharia de Lisboa Área Departamental de Matemática Resumos sobre Probabilidades e Estatística com F ` n1 ´ 1; n2 ´ 1; α 2 ˘ “ F p12; 15; 0, 05q “ 1 F p15;12;0,95q “ 1 2,6169 “ 0, 3821 e F ` n1 ´ 1; n2 ´ 1; 1 ´ α 2 ˘ “ F p12; 15; 0, 95q “ 2, 4753. Logo tem-se P ” F ` n1 ´ 1; n2 ´ 1; α 2 ˘ ă S2 1 S2 2 ˆ σ2 2 σ2 1 ă F ` n1 ´ 1; n2 ´ 1; 1 ´ α 2 ˘ı “ 1 ´ α P ” 0, 3821 ă S2 1 S2 2 ˆ σ2 2 σ2 1 ă 2, 4753 ı “ 0, 9 ô ô P ” 0, 3821 ˆ S2 2 S2 1 ă σ2 2 σ2 1 ă 2, 4753 ˆ S2 2 S2 1 ı “ 0, 9 ô ô P ” 1 2,4753 ˆ S2 1 S2 2 ă σ2 1 σ2 2 ă 1 0,3817 ˆ S2 1 S2 2 ı “ 0, 9. Obtendo-se o intervalo aleatório: sI0,9rσ2 1 σ2 2 “ j 1 2, 4753 ˆ S2 1 S2 2 ; 1 0, 3817 ˆ S2 1 S2 2 „ e o intervalo determinista: sI0,9r˚ σ2 1 σ2 2 “ j 1 2, 4753 ˆ 6, 32 4, 8 ; 1 0, 3817 ˆ 6, 32 4, 8 „ “ “ s0, 5319; 3, 4495r. Estima-se que o quociente entre as variâncias das dimensões cotadas no de- senho para peças produzidas nas duas máquinas se situe entre 0, 5319mm e 3, 4495mm, a um nível de confiança de 90%. Estimação C. Fernandes & P. Ramos 23/23

×