SlideShare uma empresa Scribd logo
1 de 48
Baixar para ler offline
1
TEORIA DA MOSTRAGEM
1- INTRODUÇÃO
A amostragem e, em particular, os processos de amostragem se
aplicam em diversas áreas do conhecimento e constitui-se, muitas vezes,
a única forma de obter as informações sobre uma determinada realidade.
A teoria da amostragem é, portanto, um dos instrumentos que
possibilita o conhecimento científico da realidade, onde outros
processos ou métodos alternativos, por razões diversas, não se mostram
adequados ou até mesmo possíveis.
A teoria da amostragem estuda as relações existentes entre uma
população e as amostras extraídas desse universo. É útil para avaliação
de grandezas desconhecidas da população, ou para determinar se as
diferenças observadas entre duas amostras são devidas ao acaso ou se
são verdadeiramente significativas.
Em geral, a maioria das pesquisas observacionais consiste em
estudar os elementos que compõem a amostra, extraída ao acaso da
população de interesse (universo). O conceito de população é intuitivo;
trata-se de um conjunto de indivíduos (ou objetos) que apresentam, em
comum, determinadas características de interesse. Amostra é um
subconjunto da população.
É compreensível que o estudo de todos os elementos da população
possibilitaria o conhecimento “preciso” das variáveis pesquisadas
(censo); todavia, nem sempre é possível obter informações de todos os
elementos da população. Limitações de tempo, custo e as vantagens das
técnicas de amostragem que proporcionam maior qualidade dos dados
levantados justificam o seu uso. Torna-se claro que a representatividade
da amostra depende do seu tamanho e de outras considerações de ordem
metodológica. Isto é, o investigador procurará cercar de todos os
cuidados, sempre visando obter uma amostra significativa, ou seja, que
de fato represente "bem" toda a informação contida na população.
Após identificar o tipo de dados que deverão ser selecionados e a
elaboração de um instrumento (questionário estruturado, por exemplo),
o passo seguinte consiste em definir um plano de amostragem adequado
2
e o instrumento de análise, visando assegurar a confiabilidade e a
comparabilidade desses dados.
Assim, o plano de amostragem deverá começar por determinar qual
o nível de extensão geográfica em que o processo de amostragem deverá
ser conduzido (mundial, nacional, regional, urbano, rural, grupo de
indivíduos, etc).
A construção da amostra propriamente dita envolve várias etapas
igualmente importantes e que são:
(i) Identificação da população alvo/população inquirida: A
identificação da população de uma forma clara e objetiva é
imprescindível, embora possa parecer demasiado óbvia em muitas
circunstâncias. Designa-se por população alvo a totalidade dos
elementos sobre os quais se deseja obter determinado tipo de
informações.
Exemplo 1: Um estudo sobre as intenções de voto teria como população
alvo todos aqueles que estão em idade e em condições de votar. No
entanto, a população inquirida poderia incluir apenas aqueles que
votaram nas últimas eleições.
Resumindo, a população alvo é constituída por todos os elementos
sobre os quais se deseja obter um determinado conjunto de informações.
No entanto, em muitas situações, não é operacional inquirir uma
amostra retirada da população alvo e, portanto, haverá necessidade de
definir qual população será inquirido, não coincidente com a população
alvo e, a partir disso, retirar a amostra.
(ii) Métodos de Seleção da Amostra: Basicamente, existem dois
métodos para seleção da amostra: probabilístico (aleatório) e não
probabilístico (ou intencional).
(iii) Dimensionamento da Amostra: Escolha do plano de amostragem
e a determinação do tamanho ótimo da amostra, de acordo com a
precisão desejada (erro aceitável e determinado pelo pesquisador),
3
variabilidade das informações e custo para a coleta da informação.
2- MÉTODOS DE SELEÇÃO DA AMOSTRA
O processo de amostragem pode ser do tipo probabilístico
(aleatória) ou não probabilístico.
Na amostragem probabilística (aleatória), cada elemento da
população tem uma probabilidade conhecida e diferente de zero de fazer
parte da amostra.
2.1 - AMOSTRAGEM PROBABILÍSTICA (ALEATÓRIA)
Como foi dito, os métodos de amostragem probabilística (aleatória)
exigem que cada elemento da população tenha uma probabilidade
conhecida de ser selecionado. Assim, se N for o tamanho da população,
a probabilidade de cada elemento fazer parte da amostra será de 1/N.
Somente com base em amostragens probabilísticas é possível fazer
inferências estatísticas sobre a população, a partir do conhecimento da
amostra, permitindo ainda medir a sua precisão. Ou seja, uma das
vantagens da amostragem aleatória é a possibilidade de estimar as
margens de erro dos resultados que são devidas à amostragem.
Além disso, o uso da amostragem aleatória evita a ocorrência de
viés na seleção.
No entanto, devemos comentar algumas dificuldades na seleção de
uma amostra aleatória. A principal dificuldade consiste na obtenção de
uma listagem completa da população para serem inquiridas. Estas
listagens são, na maioria dos casos, difíceis de conseguir, de custo
elevado, demoradas na sua obtenção e nem sempre de confiabilidade
aceitável.
4
O segundo tipo de dificuldades relaciona-se com as não respostas.
Depois de definidos os respondentes, não poderá haver substituições,
pois as não-respostas constituem uma fonte importante de viés e,
portanto, teremos que fazer de tudo para que a sua taxa seja minimizada.
Todas as novas tentativas (por entrevista pessoal, telefone ou correio)
para obter respostas bem sucedidas implicam no aumento de custos e
demora na obtenção dos resultados.
A amostragem aleatória é, sem dúvida, o processo mais caro, mas
os custos tendem a ser de pouca importância face à confiabilidade dos
resultados obtidos.
2.1.1 Amostragem Aleatória Simples (AAS)
É o processo mais elementar e freqüentemente utilizado. Atribui-se
a cada elemento da população um número distinto. Se a população for
numerada, utilizam-se esses "rótulos". Efetuam-se sucessivos sorteios
até completar o tamanho da amostra, n. Para realizar os sorteios,
utilizam-se "tabelas de números aleatórios" que apresentam seqüências
dos dígitos de 0 a 9, distribuídos aleatoriamente.
Se, por exemplo, a população tem 1000 elementos (N = 1.000),
pode-se numerá-los de 000 a 999. Primeiro, faz-se um sorteio da
posição (linha da tabela de números aleatórios), em seguida, retiram-se
conjuntos de três algarismos para escolher os elementos que irão
compor a amostra, n = 50. Suponha que a seqüência de dígitos
aleatórios seja: 385; 559; 555; 432; 886; ...; logo, esses elementos serão
os componentes da amostra.
Se o número sorteado superar o maior número dos elementos
rotulados, abandona-se o número sorteado, prosseguindo-se o processo.
Se o número sorteado for repetido, convém abandoná-lo.
Outro exemplo: Selecionar uma amostra, ao acaso, com n = 5
elementos de uma população de tamanho N = 30.
5
Exemplo 2: Considere uma população X1, X2, ... , XN e uma amostra
aleatória obtida de algum processo probabilístico, X1, X2, ... , Xn .
(a)- Quando a amostragem é feita com reposição, por exemplo,
n = 2 temos:
212111211
1
N
)xX(P).xX(P)xXxX(P ====================∩∩∩∩==== e
NN/
N/
)xX(P
)xXxX(P
)xX|xX(P
1
1
1 2
11
1211
1112
========
====
====∩∩∩∩====
============
(b)- Quando a amostragem é feita sem reposição, temos:
01211
========∩∩∩∩==== )xXxX(P e sendo
N
)xX(P
1
11
======== , então
1
1
1122
−−−−
============
N
)xX|xX(P
)xX(P
)xXxX(P
)xX|xX(P
11
2211
1122
====
====∩∩∩∩====
============
6
)N(
.
N
)xX|xX(P).xX(P)xXxX(P
1
11
1122112211
−−−−
========================∩∩∩∩====
Exemplo 3: Considere a população hipotética {1; 2; 3; 4; 5; 6; 7; 8; 9}.
A média da população é dada por: 5
9
921
====
++++++++++++
====
...
µ .
Retiremos dessa população amostra de tamanho n = 3.
(a)- Com reposição:
(a1)- amostra com os menores valores
→ 1, 1, 1 → 1
3
111
====
++++++++
====x → µε −−−−==== x = 1 – 5 = - 4
(a2)- amostra com os maiores valores
→ 9, 9, 9 → 9
3
999
====
++++++++
====x → µε −−−−==== x = 9 – 5 = 4
Portanto, 4≤≤≤≤−−−−==== |x||| µε
(b)- Sem reposição:
(bl)- amostra com os menores valores
→ 1, 2, 3 → 2
3
321
====
++++++++
====x → µε −−−−==== x = 2 – 5 = - 3
b2)- amostra com os maiores valores
→ 7, 8, 9 → 8
3
987
====
++++++++
====x → µε −−−−==== x = 8 – 5 = 3
Portanto, 3≤≤≤≤−−−−==== |x||| µε
7
Neste caso, podemos verificar que o erro amostral é menor quando
se usa amostragem sem reposição.
2.1.2 Amostragem Estratificada (AE)
No caso de população heterogênea em que podemos distinguir
subpopulações mais ou menos homogêneas (estratos), é possível utilizar
o processo de amostragem estratificada.
As variáveis de estratificação mais comuns são: classe social,
idade, sexo, profissão, etc. ou qualquer outro atributo que revele os
estratos dentro da população.
Após a determinação dos estratos, seleciona-se uma amostra
aleatória simples de cada subpopulação (estrato).
Exemplo 4: Considere o exemplo anterior. Devemos usar uma variável
de interesse (critério) para dividir a população em estratos. No exemplo,
o critério de estratificação será:
E1: grupo formado pelos três menores valores; E1 = 1, 2, 3
E2: grupo formado pelos três valores centrais; E2 = 4, 5, 6
E3: grupo formado pelos três maiores valores; E3 = 7, 8, 9
Selecionemos dessa população um elemento de cada estrato para
formarmos amostras aleatórias de tamanho n = 3.
(a1)- amostra com os menores valores
→ 1, 4, 7 → 4
3
741
====
++++++++
====x → µε −−−−==== x = 4 – 5 = - 1
(a2)- amostra com os maiores valores
→ 3, 6, 9 → 6
3
963
====
++++++++
====x → µε −−−−==== x = 6 – 5 = 1
Portanto, 1≤≤≤≤−−−−==== |x||| µε
8
Podemos verificar que, quando a população não é homogênea, o
uso de amostragem estratificada diminui o erro amostral.
Assim, no caso de população heterogênea em que podemos
distinguir subpopulações mais ou menos homogêneas, denominadas
estratos, é possível utilizar o processo de amostragem estratificada.
As variáveis de estratificação mais comuns são: classe social, idade,
sexo, profissão, etc. ou qualquer outro atributo que revele os estratos
dentro da população.
Após a determinação dos estratos, seleciona-se uma amostra
aleatória simples de cada subpopulações.
Para especificar o número de elementos de cada estrato que irá
compor a amostra total, consideram-se duas situações: uniforme e
proporcional
Uniforme
De k estratos retiram-se amostras de mesmo tamanho. Usada
quando os estratos populacionais possuem o mesmo tamanho, ou seja,
k
n
ni ====
Tabela 1 – Número de propriedades amostradas uniformemente de
uma população estratificada quanto à área.
9
Proporcionais
Quando queremos várias sub-amostras de tamanhos proporcionais
aos respectivos números de elementos dos estratos.
O estrato i fornece uma quantidade ni de elementos, proporcional ao
tamanho Ni populacional do respectivo estrato para formar a amostra de
tamanho n.
n
N
N
n i
i ====
Talela 2 – Número de propriedades amostradas proporcionalmente
de uma população estratificada quanto à área
Exemplo 5: Considere uma população (finita) com 50.000 operários de
uma indústria automobilística. Retira-se uma amostra aleatória e
independente de 5% dos operários para estimar o salário médio.
Usando uma variável (cargo) como critério para estratificar a
população, e retirando uma amostra de 5% de cada estrato, obtemos o
seguinte quadro.
Cargos População Amostra
Chefes de Seção 5000 250
Operários Especializados 15000 750
Operários Não Especializados 30000 1500
Total 50000 2500
10
A amostragem estratificada tem as seguintes características:
• Dentro de cada estrato existe homogeneidade entre os elementos.
• Entre os estratos existe grande heterogeneidade.
2.1.3 Amostragem Sistemática (AS)
Trata-se de uma variação da amostragem aleatória simples, ideal
quando a população está ordenada segundo algum critério, como fichas
em um fichário, listas telefônicas, etc.
Calcula-se o intervalo de amostragem
n
N
aproximando-o para o
inteiro mais próximo, K. Em seguida, utilizando-se a tábua de números
aleatórios, sorteia-se um número x entre 1 e K, formando-se uma
amostra aleatória dos elementos correspondentes aos números x; x + K;
x + 2k; x + 3K; ... ; etc.
Exemplo 6: Como exemplo, seja N = 1.000, n = 200. Logo:
200
1000
========
n
N
K = 5
Imagine que três seja o número sorteado entre 1 e 5. Portanto, os
elementos da população numerados por 3; 8; 13; .... ; 998 irão compor a
amostra.
2.1.4 Amostragem por Conglomerados (AC)
Quando a população é formada por subgrupos (conglomerados),
nesse caso, a forma como aparecem os subgrupos impedem a existência
de uma listagem dos elementos da população, sendo possível apenas
11
uma lista dos conglomerados (quarteirões, famílias, organizações,
agências, edifícios, etc). Nesse caso, é possível fazer amostragem por
meio desses conglomerados, que consiste em sortear um número
suficiente de conglomerados cujos elementos constituirão a amostra.
Para a escolha da amostra, obtém-se uma AAS dos conglomerados;
nesse caso, a unidade amostral passa a ser conglomerado e; obtida uma
amostra de conglomerados, mede-se todos os indivíduos dentro de cada
conglomerado, como em um censo, ou seja, sorteia-se uma amostra de
conglomerados, e após isso, entrevistamos todos os elementos dos
conglomerados sorteados.
A amostra final (ou total) será constituída de todos os elementos
entrevistados, num total de ∑∑∑∑====
====
C
i
i
nn
1
, onde ni é o total do conglomerado
i, e C é o número de conglomerados escolhidos na amostra.
Exemplo 7: Num levantamento populacional de uma determinada
cidade, geralmente dispomos de um mapa indicando cada quarteirão,
mas não dispomos da relação atualizada de seus moradores. Pode-se,
então, sortear uma amostra aleatória dos quarteirões e fazer a contagem
completa de todos os moradores que neles residem.
Exemplo 8: Para estimar o número de cabeças de gados de uma região,
sorteiam-se alguns municípios dessa região e dentro dos municípios,
sorteiam-se algumas propriedades para compor a amostra.
3 - MÉTODOS DE AMOSTRAGEM NÃO PROBABILÍSTICA
Na amostragem não probabilística, a probabilidade de seleção,
muitas vezes, é desconhecida para alguns ou todos os elementos da
população, ou seja, alguns dos elementos podem ter probabilidade nula
12
de fazer parte da amostra, por exemplo, em amostragens intencionais,
a esmo ou voluntários.
São amostragens em que há uma escolha deliberada dos elementos
da amostra. Não é possível generalizar os resultados das pesquisas para
a população, pois as amostras não probabilísticas não garantem a
representatividade da população.
3.1 Amostragem Acidental
Trata-se de uma amostra formada por elementos que vão
aparecendo e que são possíveis de obter até completar o número de
elementos necessários na amostra. Geralmente utilizada em pesquisas de
opinião, em que os entrevistados são acidentalmente escolhidos.
3.2 Amostragem Intencional
Segundo um critério, é escolhido intencionalmente um grupo
de elementos que irão compor a amostra. Ou seja, o investigador dirige-
se intencionalmente a um grupo de elementos dos quais se deseja obter a
opinião porque considera que esses elementos possuem características
típicas ou representativas da população.
Exemplo 9: Numa pesquisa opinião sobre preferência por determinado
cosmético, o pesquisador dirige-se a um grande salão de beleza e
entrevista as pessoas que ali se encontram.
Exemplo 10: Numa pesquisa de mercado, para lançar uma nova marca
de leite tipo A (longa vida), o pesquisador vai selecionar apenas
indivíduos com poder aquisitivo médio-alto.
13
3.3 Amostragem Sem Norma (a esmo)
Não se usa nenhum sorteio embora o pesquisador procure ser aleatório.
Exemplo 11: Escolher 100 galinhas num galinheiro dentre 3000, a
esmo.
Exemplo 12: Quando se deseja retirar uma amostra de 100 parafusos
de uma caixa contendo 10.000, evidentemente não se usa uma
amostragem aleatória simples, pois seria extremamente trabalhoso, mas
procedemos retiradas simplesmente a esmo.
Obs: Se a população for homogênea, então o processo é equivalente a
amostragem probabilística.
3.4 Amostragem de População Formada com Material Contínuo
Neste caso, não é possível realizar amostragem probabilística pela
impraticabilidade de um sorteio aleatório.
Exemplo 13: Se a população é formada por líquido (ou gás), devemos
homogeneizar o material e retirar uma amostra a esmo.
14
4 - CONCEITOS BÁSICOS
População: Conjunto (universo populacional) formado por indivíduos
(ou objetos) e que tem pelos menos uma característica (variável) em
comum e observável. Por exemplo:
• População de operários da indústria automobilística;
• População de peças fabricadas numa linha de produção;
• População de indivíduos que votaram na próxima eleição para
prefeito.
A população é considerada finita ou infinita. Finita quando o
número de elementos é conhecido (N) e possível de enumerar. Infinita
quando o número de elementos é muito grande.
Amostra: Uma vez definida a população de interesse, qualquer
subconjunto formado por seus elementos é denominado amostra. Para
indicar o número de elementos da amostra (tamanho da amostra),
designaremos de (n).
Amostragem: é o processo de seleção da amostra que possibilita o
estudo das características da população.
Parâmetro: é a medida usada para descrever uma característica
numérica desconhecida da população em estudo. Geralmente
representamos por θ. Exemplos de parâmetros populacionais: µ; 2
σ ; DIF
µ ;
P; 21
µµ −−−− ; 2
2
2
1
σ
σ
; 21
PP −−−− ; XY
ρ ; etc.
Amostra Aleatória: Seja X variável aleatória com uma distribuição de
probabilidade específica. Sejam também (X1, X2, ... , Xn), n variáveis
aleatórias independentes, cada um tendo a mesma distribuição de X.
Nesse caso, (Xl , X2, ... , Xn) é definida como sendo uma amostra
aleatória independente da variável aleatória X.
15
Estatística ou Estimador: Seja (X1, X2, ... , Xn) uma amostra aleatória
independente da variável aleatória X e (x1, x2, ... , xn) os valores
assumidos pela amostra. Define-se estatística como sendo uma função
da amostra, θˆ = T(X1, X2, ... , Xn), que assume o valor t = t(xl, x2, ... , xn).
Assim, as estatísticas s´ˆθ são os estimadores pontuais de θ´s
(parâmetros populacionais). Exemplos de estimadores:
Estimadores Pontuais Parâmetros
1.
n
x
x
n
i
i∑∑∑∑====
==== 1 µ
2.
1
1
2
2
−−−−
−−−−
====
∑∑∑∑====
n
)xx(
s
n
i
i
2
σ
3.
n
d
d
n
i
i∑∑∑∑====
==== 1
DIF
µ
4.
n
x
m
x
xx
n
i
i
m
i
i ∑∑∑∑∑∑∑∑ ========
−−−−====−−−− 11
21
21
µµ −−−−
5.
1
1
1
2
2
1
2
1
2
2
2
1
−−−−
−−−−
−−−−
−−−−
====
∑∑∑∑
∑∑∑∑
====
====
n
)xx(
m
)xx(
s
s
n
i
i
m
i
i
2
2
2
1
σ
σ
6. 101
,x,
n
x
n
X
pˆ i
n
i
i
============
∑∑∑∑====
P
7. 101121
21
,x,
n
x
m
x
n
X
m
X
pˆpˆ i
n
i
i
m
i
i
====−−−−====−−−−====−−−−
∑∑∑∑∑∑∑∑ ========
21
PP −−−−
8.
YX
n
i
ii
XY
)n(
)yy)(xx(
r
σσ1
1
−−−−
−−−−−−−−
====
∑∑∑∑====
=
YX
n
i
ii
)n(
yxnyx
σσ1
1
−−−−
−−−−∑∑∑∑====
XY
ρ
16
Estimativa: é o valor numérico determinado pelo estimador.
Erro Amostral: é o erro que acontece justamente pelo uso da amostra,
ou seja, erro que cometemos ao estimar o parâmetro θ (desconhecido)
da distribuição da variável aleatória X pelo estimador T = t(X1, ... , Xn),
baseado na amostra.
Logo, o erro amostral que designaremos por ε é definido por:
θθε −−−−==== ˆ
Observe no exemplo 1 que há uma variação para mais ou menos no
valor do erro ε em cada uma das n
N possíveis amostras de tamanho n
retiradas da população de interesse, como segue:
Amostra 1 → 1θθθθˆ
Amostra 2 → 2θθθθˆ
M
Amostra n
N → n
N
ˆθθθθ
Assim, como θˆ é uma variável aleatória, podemos determinar a
esperança e a variância da distribuição amostral de θˆ , ou seja, E[θˆ ] e
Var[θˆ ].
Desmembrando o erro amostral em duas partes, temos:
)]ˆ[E(])ˆ[Eˆ(ˆ θθθθ−−−−θθθθ++++θθθθ−−−−θθθθ====θθθθ−−−−θθθθ====εεεε
sendo que, ])ˆ[Eˆ( θθ −−−− é considerada parte aleatória e )]ˆ[E( θθ −−−− é o viés
(ou vício). Quando )]ˆ[E( θθθθ−−−−θθθθ = 0, implica que θθθθ====θθθθ]ˆ[E e, portanto, θθθθˆ é
dito um estimador não viesado de θ.
O viés pode aparecer na forma de seleção da amostra, na coleta dos
dados ou na estimação dos parâmetros.
17
Viés de Seleção: A melhor forma de evitar o viés de seleção é usar
amostragem probabilística, através de sorteio, seja ele manual ou por
meio de uma tabela de números aleatórios, ou ainda pela geração de
números aleatórios por computador.
Viés na Coleta de Dados: Este tipo de viés pode ocorrer principalmente
quando substituímos uma unidade amostral por outra, ou quando há
falta de respostas, por exemplo, em questionários.
Viés de Estimação: Este tipo de viés também pode ser controlado
fazendo uso de amostragens probabilísticas.
Exemplo 1: Na população considerada normal, o nível médio de
protombina é de 20mg/100ml de sangue. Em uma amostra (obtida de
forma aleatória e independente) com n pacientes que tinham
deficiência de vitamina K, foram observadas as estatísticas: nível médio
de protombina, variância e desvio padrão. Com base nesta amostra, seria
razoável suspeitar que a verdadeira média dos pacientes com deficiência
da vitamina K é a mesma da população normal? Construa um intervalo
de confiança de 95% para a verdadeira média da população com
deficiência de vitamina K. Realize um teste de hipótese (teoria da
decisão estatística).
Simulação de 10000 dados de uma população tendo distribuição
Normal (simétrica) com os seguintes parâmetros, µµµµ = 20 (média
populacional ) e σσσσ = 5.0 (desvio-padrão populacional)
set.seed(1962) ## gera amostra com uma semente específica
x=rnorm(10000,20,5.0) ## comando para gerar aleatoriamente 10000 dados
## da distribuição Normal (Curva Gaussiana)
hist(x, freq=F,col=37) ## comando para verificar graficamente a distribuição
lines(density(x),lwd=2,col=2)
18
x5=sample(x,5,replace=F) # amostra aleatória sem reposição de tamanho n = 5
hist(x5,freq=FALSE,col=39)
curve(dnorm(x,20,5),from=-10,to=50,add=T,lwd=2,col=4)
mean(x5) # cálculo da média amostral ( µµµµˆoux )
var(x5) # cálculo da variância amostral (
22
σσσσˆous )
sd(x5) # cálculo da desvio-padrão amostral ( σσσσˆous )
Retirando-se, ao acaso, 5 amostras de diferentes tamanhos (n = 5, 10 e 40),
constata-se que há uma variação nas estimativas (erro de estimação), tanto nas
médias como nos desvios padrões. Assim, precisamos conhecer o comportamento
das distribuições amostrais das estatísticas: médias, variâncias, proporções, etc.
µµµµ = 20 (média populacional ) e σσσσ = 5.0 (desvio-padrão populacional)
n = 5 n = 10 n = 40
mean sd mean sd mean sd
Amostra 01 23.68685 5.616357 20.57992 4.955696 19.575120 5.423480
Amostra 02 20.19549 6.823957 21.79075 6.422069 19.834050 5.103577
Amostra 03 22.79406 7.353665 20.86891 4.539070 19.984380 4.725706
Amostra 04 20.08150 6.887941 18.74310 4.576508 20.097630 5.347176
Amostra 05 22.50877 5.081862 21.30383 4.371076 20.430010 4.907666
19
========================================================================================
n = 5
n = 10
n = 40
========================================================================================
20
5 - DISTRIBUIÇÕES AMOSTRAIS
Vimos que o problema da inferência estatística é fazer afirmações
sobre os parâmetros da população, através da amostra, na presença da
incerteza. Digamos que nossa afirmação deva ser feita sobre um
parâmetro da população, θ, por exemplo, a média, a variância ou
qualquer outra medida.
Decidimos que usaremos uma AAS de n elementos selecionados
dessa população. Nossa decisão será baseada na estatística T, que será
uma função da amostra (X1, X2, ... , Xn), ou seja, T = f(X1, X2, ... , Xn).
Selecionada uma amostra, teremos observado um valor particular de T,
digamos to, e com base nesse valor, faremos afirmação sobre o
parâmetro populacional θ (desconhecido).
Veja a Figura 10.1(a) abaixo.
A validade de nossas respostas seria bem compreendida se
soubéssemos o que acontece com a estatística T quando retiramos todas
as amostras possíveis dessa população, segundo algum plano amostral
adotado. Ou seja, qual o comportamento da distribuição da estatística T
quando (T1, T2, ... , Tn) assume todos os valores possíveis. Esta
21
distribuição é chamada de distribuição amostral da estatística T e
desempenha papel fundamental na teoria da inferência estatística.
Esquematicamente, teríamos o procedimento representado na
Figura 10.1(b) acima:
(i)- uma população X com determinado parâmetro de interesse;
(ii)- retiram-se todas as amostras dessa população, segundo algum
procedimento amostral (plano amostral);
(iii)- de cada amostra, calcula-se o valor t da estatística T;
(iv)- os valores t formam uma nova população, cuja distribuição recebe
o nome de distribuição amostral da estatística T.
Vejamos alguns exemplos simples para entender o conceito de
distribuição amostral de uma estatística. Nosso principal objetivo é
identificar um modelo que explique bem a distribuição amostral de T. É
evidente que a distribuição de T irá depender da distribuição de X e do
plano amostral, em nosso caso reduzido AAS.
Exemplo 1: Seja X uma população hipotética constituída dos seguintes
elementos {1, 2, 2, 3}. Neste caso, temos que a média populacional (µµµµ)
e a variância populacional (σσσσ2
) são dadas por:
02
4
3221
.====
++++++++++++
====µµµµ ; 50
4
23222221 2222
2
.
)()()()(
====
−−−−++++−−−−++++−−−−++++−−−−
====σσσσ
2
1 2 3
Vamos extrair, aleatoriamente, com reposição, todas amostras de
tamanho n = 2 elementos. Então, Nn
= 42
= 16 é o número de amostras
possíveis para N = 4 e n = 2.
(1, 1) (1, 2) (1, 2) (1, 3)
(2, 1) (2, 2) (2, 2) (2, 3)
(2, 1) (2, 2) (2, 2) (2, 3)
(3, 1) (3, 2) (3, 2) (3, 3)
22
Se calcularmos para cada amostra a sua média,
n
x
x
n
i
i∑∑∑∑====
==== 1
,
obtemos a seguinte população de médias para amostras de tamanho n =
2.
2.0
2.0
1.5 2.0 2.5
1.5 2.0 2.5
1.5 2.0 2.5
1.0 1.5 2.0 2.5 3.0
A distribuição de probabilidade da variável aleatória x é dada por:
Distribuição Amostral das Médias
x 1.0 1.5 2.0 2.5 3.0
P(x) 1/16 4/16 6/16 4/16 1/16
x=c(1,1.5,2,2.5,3)
fx=c(1/16,4/16,6/16,4/16,1/16)
plot(x,fx,type="h",main="Distribuição de Freqüências",ylab="Freqüências",
xlab="Médias",lwd=5,col=2)
Calculando-se a média e a variância dessa distribuição, encontramos:
23
E[x] = )x(px i
c
i
i∑∑∑∑==== 1
=
16
1
03
16
1
52
16
1
02
16
1
51
16
1
01 ××××++++××××++++××××++++××××++++×××× ..... = 2.0;
E[x2
] = )x(px i
c
i
i∑∑∑∑==== 1
2
=
16
1
03
16
1
52
16
1
02
16
1
51
16
1
01 22222
××××++++××××++++××××++++××××++++×××× ).().().().().( = 4.25;
Var[x] = E[x2
] – { E[x]}2
= 4.25 – (2.0)2
= 0.25
Observando os resultados acima, verificamos que E[ x] = µµµµ e
Var[ x] =
n
2
σ
, que é a metade da variância da população, pois n = 2.
Essas relações importantes podem ser constatadas pelos teoremas
abaixo:
Teorema 1: Se a população é infinita, ou se a amostragem é com
reposição, então, a média e a variância da distribuição amostral das
médias são dadas por:
E[ x] = µ e Var[x] =
n
2
σ
Teorema 2: Se a população é finita, ou se a amostragem é sem
reposição, a média e a variância da distribuição amostral das médias são
dadas por:
E[x] = µ e Var[x] = 





−−−−
−−−−
××××
1
2
N
nN
n
σ
Exercício 1: Verifique o Teorema 2 numericamente, utilizando os dados
do Exemplo 1.
Obs 1: a expressão (N - n)/(N - 1) é denominada fator de correção para
população finita.
Obs 2: Quando retiramos uma amostra pequena de uma população com
tamanho muito maior, ou seja, n << N, é indiferente o uso de fator de
correção para população finita, pois o erro é muito pequeno.
24
3.1- Distribuição Amostral das Médias ( 2
σ - Conhecido)
Teorema 3: Seja X uma variável aleatória normalmente distribuída com
média µ (desconhecida) e variância 2
σ (conhecido). Suponha que
(X1, X2, ... , Xn) seja uma amostra aleatória independente retirada dessa
população. Então,






n
,N~x
2
σ
µ e ),(N~
n/
x
z 10
σ
µ−−−−
==== (caso infinito)










−−−−
−−−−σσσσ
µµµµ
1
2
N
nN
n
,N~x e ),(N~
N
nN
n
x
z 10
1−−−−
−−−−σσσσ
µµµµ−−−−
==== (caso infinito)
3.2 - Distribuição Amostral das Médias ( 2
σ - desconh. – n ≥ 40)
Teorema 4: Seja X uma variável aleatória normalmente distribuída com
média µ e variância 2
σ (desconhecido). Suponha que (X1, X2, ... , Xn)
seja uma amostra aleatória independente retirada dessa população.
Então, para n suficientemente grande (n → ∞),
),(N~
n/s
x
z 10&
µµµµ−−−−
==== (caso infinito)
),(N~
N
nN
n
s
x
z 10
1
&
−−−−
−−−−
µµµµ−−−−
==== (caso infinito)
Teorema 5: (Teorema Central do Limite) Considere uma amostra
aleatória e independente (Xl, X2, ... , Xn) retirada de uma população com
média µ e variância 2
σ finita (note que a distribuição da variável
aleatória não é especificada), então:
∞∞∞∞→→→→
σσσσ
µµµµ−−−−
nquando),(N~
n/
x
10&
25
O teorema 5 diz que para n suficientemente grande, a distribuição
amostral da média, devidamente padronizada, se comporta segundo a
distribuição normal padrão. Na prática podemos dizer que as
aproximações são razoáveis quando n > 40.
Exemplo 2: Uma variável aleatória X tem distribuição normal, com
média 100 e desvio padrão 10.
(a) Qual a probabilidade de X estar entre 90 e 110?
(b) Se x for a média de uma amostra de 16 elementos retiradas
dessa população, calcule a probabilidade de x estar entre 90 e
110.
(c) Que tamanho deveria ter a amostra para que P(90 < x < 110) =
0.95?
Exemplo 3: Uma fabrica produz 50000 válvulas cuja duração em
condições normais, segue distribuição normal com média de 800 horas
e desvio padrão de 100 horas. Um comprador quer saber qual a
probabilidade de, numa amostra aleatória de 400 válvulas, a
durabilidade média seja de no máximo 700 horas?
Exemplo 4: Numa certa cidade, a duração de conversas telefônicas (em
minutos) originadas de telefones públicos, tem média igual a 3 e
variância igual a 9. Observando-se uma amostra aleatória de n = 50
dessas chamadas, qual será a probabilidade delas, em média, não
ultrapassarem 4 minutos?
)x(P 4≤≤≤≤ = 




 −−−−
≤≤≤≤
−−−−
503
34
/
)(
n/
x
P
σ
µ
= 0.9909.
Ou seja, é praticamente certo que a média estará abaixo de 4 minutos.
26
3.3- Distribuição Amostral das Proporções
Uma importante aplicação do Teorema Central do Limite
relaciona-se com a distribuição amostral das proporções.
Suponha que X ~ B(n, p), sendo que X = Sn representa a
quantidade de indivíduos que apresentam uma característica "A" de
interesse na amostra e p é a proporção amostral calculada por:
n
S
n
X
pˆ n
========
Observe que, E[pˆ ] = p e Var[pˆ ] =
n
)p(p −−−−1
.
Assim, de acordo com o TCL, pˆ terá distribuição
aproximadamente normal com média p e variância
n
)p(p −−−−1
quando
∞∞∞∞→→→→n , ou seja,





 −−−−
n
)p(p
,pN~pˆ
1
&
que é a distribuição amostral das proporções. Neste caso, temos que:
)X(V
]X[EX
z
−−−−
==== =
)p(np
npX
−−−−
−−−−
1
= ),(N~
n
)p(p
ppˆ
10
1
&
−−−−
−−−−
quando ∞∞∞∞→→→→n ,
Teorema 6: (Teorema Moivre-Laplace). Sejam (X1, X2, ... , Xn)
variáveis aleatórias independentes e identicamente distribuídas com
média p e variância pq, ou seja, Xi ~ B(1, p). Seja também Sn = ∑∑∑∑
====
n
i
iX
1
=
X = X1 + X2 + . . . + Xn, onde, E[Sn] = E[X] = np e V[Sn] = E[X] = npq
= np(1 – p). Neste caso, Sn = X ~ B(n, p).
Então, para n suficientemente grande (n → ∞),
Zp =
))p(np
npSn
−−−−
−−−−
1 =
),(N~
n
)p(p
ppˆ
10
1
&
−−−−
−−−−
27
Vejamos a constatação desse resultado com exemplos.
a=30
n1=10; p1=0.20
n2=10; p2=0.5
x1=rbinom(a,n1,p1)
z1=((x1/n1)-p1)/(sqrt((p1*(1-p1))/n1))
x2=rbinom(a,n2,p2)
z2=((x2/n2)-p2)/(sqrt((p2*(1-p2))/n2))
par(mfrow=c(2,2))
hist(x1);hist(z1)
hist(x2);hist(z2)
shapiro.test(z1); shapiro.test(z2)
Shapiro-Wilk normality test
data: z1
W = 0.9268, p-value = 0.04043
Shapiro-Wilk normality test
data: z2
W = 0.9616, p-value = 0.3408
Hipótese testada pelo teste de Shapiro-Wilk.
HO: os dados seguem o comportamento da Distribuição Normal (Hipótese nula)
HA: os dados não seguem a Distribuição Normal (Hipótese Alternativa)
Critério de Decisão
Se p-value < 0.05, rejeita-se a hipótese HO e conclui-se que, ao nível de significância
αααα = 5% (0.05), os dados amostrais não seguem o comportamento da distribuição
normal. Caso contrário, aceita-se a hipótese HO.
28
a=30
n1=30; p1=0.20
n2=30; p2=0.5
x1=rbinom(a,n1,p1)
z1=((x1/n1)-p1)/(sqrt((p1*(1-p1))/n1))
x2=rbinom(a,n2,p2)
z2=((x2/n2)-p2)/(sqrt((p2*(1-p2))/n2))
par(mfrow=c(2,2))
hist(x1);hist(z1)
hist(x2);hist(z2)
shapiro.test(z1); shapiro.test(z2)
Shapiro-Wilk normality test
data: z1
W = 0.9613, p-value = 0.3350
Shapiro-Wilk normality test
data: z2
W = 0.9828, p-value = 0.8938
29
Exemplo 5: Seja X uma população hipotética formada por duas
mulheres e um homem; S = {M1, M2, H}.
Suponha que p seja a proporção de mulheres na população
(característica de interesse). Logo, p = 2/3 é a probabilidade de
ocorrência de mulheres e (1 - p) = 1/3 é a probabilidade de ocorrência de
um homem na população, respectivamente.
Vamos retirar todas as amostras possíveis de tamanho 2 (n = 2),
com reposição, e calculemos para cada amostra a estimativa (pˆ ) de p
para a proporção de mulheres na população.
Distribuição Amostral da Proporção de Mulheres na População
Amostras M1M1 M1M2 M1H M2M1 M2M2 M2H HM1 HM2 HH
pˆ 1 1 1/2 1 1 1/2 1/2 1/2 0
Logo, a distribuição amostral da proporção amostral de mulheres é
dada por:
pˆ 0 1/2 1
p(pˆ ) 1/9 4/9 4/9
30
x=c(0,0.5,1)
fx=c(1/9,4/9,4/9)
plot(x,fx,type="h",main="Distribuição de Freqüências",ylab="Freqüências",
xlab="Proporção",lwd=5,col=2)
E[pˆ ] = )pˆ(ppˆ i
c
i
i∑∑∑∑==== 1
=
9
1
0×××× +
9
4
2
1
×××× +
9
4
01 ××××. =
3
2
;
E[pˆ 2
] = )pˆ(ppˆ i
c
i
i∑∑∑∑==== 1
2
=
9
1
02
×××× +
9
4
2
1
2
××××





+
9
4
12
×××× =
9
5
;
Var[pˆ ] = E[pˆ 2
] – { E[pˆ ]}2
=
9
5
–
2
3
2






=
9
1
Portanto, usando-se o Teorema Central do Limite, temos:
E[pˆ ] = p = 2/3 e Var[pˆ ] = p(l - p)/n = (2/3)(1/3)/2 = 1/9
Observação: Quando a população é finita aqui também é conveniente
considerar o fator de correção (N - n)/(N - 1). Verifique!!
Exemplo 6: Suponha que a proporção de peças fora de especificação em
um lote é de 40%. Se for retirada uma amostra aleatória e independente
de tamanho n = 50, qual é probabilidade dessa amostra fornecer uma
proporção de peças defeituosas menores que 0.50?
31
A probabilidade pode ser calculada de forma exata e aproximada pela
distribuição Normal.
Seja X: número de peças defeituosas na amostra
X ~ B(n = 50, p = 0.40).
P(pˆ < 0.50) = P(
50
X
< 0.50) = P(X < 25) = 0.9021926.
= pbinom(24,50,0.40) = 0.9021926 (Usando R)
Considerando aproximação Normal, temos que:
P(pˆ <0.50) =












−−−−
−−−−
<<<<
−−−−
−−−−
50
4001400
400500
1 ).(.
..
n
)p(p
ppˆ
P = P(Z < 1.44) = 0.9250663.
Distribuição Qui-Quadrado (
2
)k(χχχχ )
A distribuição qui-quadrado,
2
)k(χχχχ , é uma distribuição
importante usada, principalmente, como uma aproximação em várias
estatísticas tais como: testes de aderência, testes de independência e
testes de homogeneidade.
Definição: Diz-se que a v.a. contínua X tem Distribuição qui-quadrado
com k graus de liberdade, se a sua f.d.p. é dada por:







≤≤≤≤
>>>>>>>>






ΓΓΓΓ====
−−−−





−−−−
00
00
2
2
2
2
1
2
xse,
k;xse,
k
ex
)x(f
k
xk
32
plot(function(x) dchisq(x,1),xlim=c(0,10),ylab="f(x)")
plot(function(x) dchisq(x,2),xlim=c(0,10),add=T,col="2")
plot(function(x) dchisq(x,3),xlim=c(0,10),add=T,col="3")
plot(function(x) dchisq(x,4),xlim=c(0,10),add=T,col="4")
legend(6.5,1,c("dchisq(x,1)","dchisq(x,2)","dchisq(x,3)","dchisq(x,
4)"))
0 2 4 6 8 10
0.00.20.40.60.81.01.2
x
f(x)
dchisq(x,1)
dchisq(x,2)
dchisq(x,3)
dchisq(x,4)
Propriedades:
i). E(X) = k
ii). Var(X) = 2k
iii). A distribuição qui-quadrado se encontra Tabelada para valores de
k ≤ 30. Para valores de k > 30 podemos usar o resultado,
2
χχχχ
Z = 1)N(0,k2X2 ~&−−−−
Significa que se a variável aleatória X tem distribuição qui-quadrado,
então, quando k tende para o infinito (k > 30), 2
χχχχ
Z tende para N(0, 1).
Exemplo 7: Para ilustrar a aproximação, suponha que X ~
2
30)(χχχχ . A
Tabela indica que, P(X > 43.77) = 0.05.
33
1-pchisq(43.77297,30)
[1] 0.05000002
qchisq(1-0.05,30) (Usando R)
[1] 43.77297
Através da aproximação normal, podemos calcular:
P(X > φ) ≈ )]k)kx[(P 2222 −−−−φφφφ>>>>−−−−
P(X > 43.77) ≈ ])().(Z[P]kZ[P 3027729743222 22 −−−−>>>>====−−−−φφφφ>>>> χχχχχχχχ
P(X > 43.77) ≈ ].Z[P 6112
>>>> = 0.0570 [1-pnorm(1.61)= 0.053698]
Teorema 7: Sejam Z1, Z2, … , Zk variáveis aleatórias independentes
com Zi ~ N(0, 1). Então, a variável W = 22
2
2
1 kZ...ZZ ++++++++++++ tem
distribuição qui-quadrado com k graus de liberdade.
Notação: W ~
2
)k(χχχχ , se lê : W tem distribuição qui-quadrado com k
graus de liberdade (g.l.).
Uso da tabela:
p)(P k,p ====>>>> 22
χχ
p,k
34
Exemplos:
χχχχ2
0,05 ;18 = 28.8693
χχχχ2
0.025 ;29 = 45.7222
χχχχ2
αααα ;10 tal que P(χχχχ2
> χχχχ2
αααα ;10 ) = 0.025 ⇒ χχχχ2
αααα ;10 = 20.4831
χχχχ2
αααα ;20 tal que P(χχχχ2
≤ χχχχ2
αααα ;20) = 0.95 ⇒ χχχχ2
αααα ;20 = 10.851
Propriedades de Reprodutividade:
• Se χχχχ2
(m) e χχχχ2
(n) são independentes: χχχχ2
(m) + χχχχ2
(n) ~ χχχχ2
(m+n)
• Se (X1, X2, … , Xn ) é uma amostra aleatória de X ~ N(µ, σ2
), então:
(i)
2
)(2
1
2
~
)µ(
n
n
i
iX
U χ
σ
−
=
∑
=
(ii)
2
)1(
2
~
/
χ





σ
µ−
=
n
x
Z
(iii)
2
)1(2
1
2
2
2
~
)x(
)1(
−
=
χ
σ
−
=
σ
−
=
∑
n
n
i
iX
sn
V
3.3 - Distribuição Amostral da Variância
Tomando-se todas as amostras aleatórias possíveis, de tamanho n,
de uma população e calculando a variância de cada amostra, obtemos a
distribuição amostral da variância. Porém, é mais conveniente
determinar a distribuição amostral da variável aleatória relacionada à
variância amostral.
35
Teorema 8: Seja (X1, X2, … , Xn ) uma amostra aleatória obtida de
uma população com distribuição normal, X ~ N(µ, σ2
). Então, a
estatística (ou quantidade pivotal) da distribuição amostral da variância,
tem distribuição qui-quadrado com (n - 1) graus de liberdade, ou seja,
V =
2
)1(2
2
~
)1(
−χ
σ
−
n
sn
Neste caso, 1
1
2
2
−−−−====





σσσσ
−−−−
==== n
s)n(
E]V[E ⇒ E[ 2
s ] = 2
σσσσ
)n(
s)n(
V]V[V 12
1
2
2
−−−−====





σσσσ
−−−−
==== ⇒ V[ 2
s ] =
1
2 4
−−−−
σσσσ
n
Distribuição t-Student
Definição: Diz-se que a variável aleatória contínua X tem distribuição
t-student com k graus de liberdade, se a sua f.d.p. é dada por:
∞+<<∞−+
π





Γ
+Γ
= +−
tse,)k/t1(
k
2
k
]2/)1(k[
f(x) 2/)1(2 k
Teorema 9: Sejam Z ~ N(0, 1) e 2
)(~ kV χ , Z e V são independentes.
Então:
(k)t~
V/k
Z
T = .
36
Propriedades:
(i) E(T) = 0 e Var(T) =
2K
k
−
, se k > 2.
(ii) Se (X1, X2, … , Xn) é uma amostra aleatória independente de uma
população X ~ N(µ, σ2
), então:
n
x
Z
/σ
µ−
= ~ N(0, 1) e 2
2
)1(
σ
−
=
sn
V ~ χχχχ2
(n-1) ,
logo:
ns
x
n
sn
n
x
nV
Z
T
/
)1/(
)1(
/
)1/(
2
2
µ−
=
−





σ
−
σ
µ−
=
−
= ~ t(n-1)
(iii) A curva é simétrica entorno de 0, porém com caudas mais pesadas
que a distribuição Normal.
Uso da tabela:
37
Exemplos:
(a) t(0,025 ; 10) = 2,2281
(b) t(0,05 ; 20) = 1,7247
(c) t(0,95 ; 15) = - t(0,05 , 15) = - 1,7531
(d) Encontre t(αααα ; 10) tal que : P(t > t(αααα ; 10)) = 0,05 ⇒ t(αααα ; 10) = 1,8125.
3.4 - Distribuição Amostral das Médias ( 2
σ - desconh. – n < 40)
Teorema 10: Seja X uma variável aleatória normalmente distribuída
com média µ (desconhecido) e variância 2
σ (também desconhecido).
Suponha que (X1, X2, ... , Xn) seja uma amostra aleatória independente
retirada dessa população. Então, para n suficientemente pequeno, temos
a seguinte quantidade pivotal:
}1{~
/
−
µ−
= nt
ns
x
T
3.5 - Distribuição Amostral das Médias das Diferenças ( DIFµ )
(Amostras Dependentes, Relacionadas ou Pareadas)
Em estudos chamados pareados ou relacionados, temos uma
amostra aleatória independente avaliada duas vezes, antes e após (ou
lado direito e lado esquerdo). Neste caso, a suposição de que as
amostras são independentes não é razoável.
Tais situações ocorrem, por exemplo, em estudos de avaliações
mensuradas antes e após um tratamento, no mesmo indivíduo (ou na
mesma unidade amostral). Como esperado, as duas mensurações dentro
do mesmo indivíduo, são mais prováveis de serem similares e, portanto,
não podem ser consideradas estatisticamente independentes.
38
Assim, as observações pareadas são representadas pelas variáveis
aleatórias:
X11, ... , X1n : medida 1 (antes)
X21, ... , X2n : medida 2 (após)
e nesse caso, devemos trabalhar com as diferenças entre as medidas de
cada par como, iii
XXd 12
−−−−==== , i = 1, ... , n.
Temos agora uma amostra aleatória independente das diferenças e
assumindo que d1, ... , dn ~ N( DIF
µ , 2
DIFσσσσ ), podemos usar os métodos das
quais já estamos familiarizados.
Neste caso,
n
d
d
n
i
i∑
=
= 1
→→→→ Média amostral das diferenças
1
)(
1
2
2
−
−
=
∑
=
n
dd
s
n
i
i
DIF → Variância amostral das diferenças
2
DIFDIF ss = → Desvio padrão amostral das diferenças
Teorema 11: Seja D uma variável aleatória normalmente distribuída
com média DIFµµµµ e variância 2
DIFσσσσ (conhecido). Suponha também que
(d1, d2, ... , dn) seja uma amostra aleatória independente das diferenças
entre as mensurações, retirada dessa população. Então, as distribuições
amostrais das médias das diferenças são dadas por:







 σσσσ
µµµµ
n
,N~d DIF
DIF
2
e ),(N~
n/
d
z
DIF
DIF
DIF 10
σσσσ
µµµµ−−−−
==== (caso infinito)












−−−−
−−−−σσσσ
µµµµ
1
2
N
nN
n
,N~d DIF
DIF e ),(N~
N
nN
n
d
z
DIF
DIF
DIF 10
1−−−−
−−−−σσσσ
µµµµ−−−−
==== (caso infinito)
39
3.5 - Distribuição Amostral para Diferença entre Médias de
Duas Populações Independentes
(a) Populações Normais e variâncias conhecidas
Suponha que agora temos duas populações independentes, a
primeira com média 1µµµµ e variância
2
1σσσσ e a segunda com média 2µµµµ e
variância
2
2σσσσ .
Seja 1x a média amostral de tamanho n1 retirada da primeira
população, e seja 2x a média amostral de tamanho n2 retirada da
segunda população, ambas independentemente.
(i) Se as duas populações têm distribuições normais, temos que:







 σσσσ
++++
σσσσ
µµµµ−−−−µµµµ−−−−
2
2
2
1
2
1
2121
nn
,N~xx
Assim,
),(N~
nn
)()xx(
Z xx 10
2
2
2
1
2
1
2121
21
σσσσ
++++
σσσσ
µµµµ−−−−µµµµ−−−−−−−−
====−−−−
(ii) Se as duas populações não são Normais, porém n1 e n2 são
ambas suficientemente "grandes" ( ≥ 40):
)n,n(quando),(N~
nn
)()xx(
∞∞∞∞→→→→∞∞∞∞→→→→
σσσσ
++++
σσσσ
µµµµ−−−−µµµµ−−−−−−−−
21
2
2
2
1
2
1
2121
10&
40
Exemplo 8: Os tubos de televisão das fábricas A e B têm as seguintes
características (em anos):
Tubo A Tubo B
µA = 6,5 µB = 6,0
σA = 1,0 σB = 1,2
Determine a probabilidade de, uma amostra aleatória de 64 tubos da
marca A ter vida média maior que a vida média de 81 tubos da marca B,
em pelo menos 0.91 anos?
50656 ..BABXAX
====−−−−====−−−−====−−−−
µµµ
0.0304
81
21
64
122
2
====++++====++++====−−−−
.
nn B
B
A
A
BXAX
σσ
σ
)
.
..
Z(P).XX(P BA
03040
50910
910
−−−−
>>>>====>>>>−−−−
= 2.35)P(Z-12.35) ≤≤≤≤====>>>>Z(P
= 009400.9906-1 .====
(b) Populações Normais e variâncias desconhecidas
Se as variâncias são desconhecidas, mas ambas são iguais:
HO:
22
2
2
1 σσσσ====σσσσ====σσσσ (Hipótese)
Então, temos que:
),(N~
nn
)()xx(
Z 10
11
21
2121
++++σσσσ
µµµµ−−−−µµµµ−−−−−−−−
====
Temos ainda que,
2
12
2
11
1
1
)n(~
s)n(
−−−−χχχχ
σσσσ
−−−−
e
2
12
2
2
21
)n(~
s)n(
−−−−χχχχ
σσσσ
−−−−
são ambas
independentes, então:
41
2
22
2
11
2
2
11
21
11
)nn(~
s)n(s)n(
−−−−++++χχχχ
σσσσ
−−−−
++++
σσσσ
−−−−
Assim, sob a hipótese de variâncias iguais, podemos calcular uma
estimativa da variância amostral ponderada, dada por:
2
11
21
2
22
2
112
−−−−++++
−−−−++++−−−−
====
nn
s)n(s)n(
sp
Neste caso, temos que:
2
22
2
21
21
2
)nn(
p
~
s)nn(
−−−−++++χχχχ
σσσσ
++++++++
,
logo:
)nn(
p
p
t~
nn
s
)()xx(
)nn/(
s)nn(
nn
/)]()xx[(
T 2
21
2
2121
212
2
21
21
2121
21
11
2
2
11
−−−−++++






++++
µµµµ−−−−µµµµ−−−−−−−−
====
++++++++








σσσσ
++++++++
++++σσσσµµµµ−−−−µµµµ−−−−−−−−
====
(c) Populações normais, mas variâncias desconhecidas e diferentes
(Ho: 2
2
2
1
σσ ≠≠≠≠ )
(Quantidade pivotal aproximado)
A violação da hipótese de variâncias iguais (
22
2
2
1 σσσσ====σσσσ====σσσσ ) induz
a um sério problema teórico, uma vez que não será possível encontrar
uma quantidade pivotal para a diferença entre duas médias com
distribuição teórica conhecida. Mesmo assim, se o pesquisador tem
interesse em estudar o parâmetro 21 µµµµ−−−−µµµµ , deve levar em conta o
problema de ordem teórica na interpretação dos resultados quando existe
diferença substancial entre 2
1
σ e 2
2
σ .
A literatura estatística apresenta vários métodos para resolver este
problema, mas nenhum deles é completamente satisfatório. Um
42
procedimento possível (e aproximado) consiste em utilizar a estatística
pivotal:
(((( )))) (((( ))))
)(
.aprox
t~
n
s
n
s
XX
t νννν
++++
µµµµ−−−−µµµµ−−−−−−−−
====
2
2
2
1
2
1
2121
sendo
)n(
n
s
)n(
n
s
n
s
n
s
11 2
2
2
2
2
1
2
1
2
1
2
2
2
2
1
2
1
−−−−








++++
−−−−
















++++
====νννν
Distribuição F de Snedecor
Definição: Diz-se que a variável aleatória contínua X tem distribuição
F de Snedecor, com n1 e n2 graus de liberdade, se a sua f.d.p. é dada por:
0
12
n
2
n
2
(n
f(x)
2
2
1
2
2
2
2
1
21
21
21
11
>>>>






++++












ΓΓΓΓ





ΓΓΓΓ



 ++++
ΓΓΓΓ
==== ++++
−−−−
x,
x
n
n
x
n
n
)n
)nn(
)n(n
Teorema 12: Sejam U e V duas variáveis aleatórias independentes, cada
uma com distribuição qui-quadrado, n1 e n2 graus de liberdade,
respectivamente. Então,
2
1
n/V
n/U
F ====
tem distribuição F de Snedecor com n1 e n2 graus de liberdade.
43
F{0,01; 4; 9} = 6.422
F{0,05; 15; 10} = 2,845
Propriedades:
(i) – E[X] =
22
2
++++n
n
e V[X] =
)n()n(n
)nn(n
42
22
2
2
21
21
2
2
−−−−−−−−
−−−−++++
(ii) – Para encontrar os valores inferiores, pois a distribuição não é
simétrica, usa-se a identidade
}n;n;{
}n;n;{
F
F
12
21
1
1
αααα
αααα−−−− ====
(iii) – Se as variáveis aleatórias
2
12
2
11
1
1
)n(~
s)n(
U −−−−χχχχ
σσσσ
−−−−
==== e
2
12
2
22
2
1
)n(~
s)n(
V −−−−χχχχ
σσσσ
−−−−
==== são independentes, então:
)n,n(F~
/S
/S
)n(
S)n(
)n(
S)n(
F
n
V
n
U
11
1
1
1
1
212
2
2
2
2
1
2
1
22
2
2
22
12
1
2
11
1
1
2
1
−−−−−−−−
σσσσ
σσσσ
====
−−−−
σσσσ
−−−−
−−−−
σσσσ
−−−−
========
−−−−
−−−−
Veja as demonstrações formais dos teoremas 8, 10 e 12.
(Somente Leitura, mas em Cálculo de Probabilidades, deve saber
demonstrar).
44
Teorema 13: Sejam X1, X2, ... , Xn v.as. independentes e
identicamente distribuídas (iid) tendo N(µ, σ2
). Então,
V = 2
)1n(
n
1i
2
i
2
2
~
xxs)1n(
−−−−
====
χχχχ





σσσσ
−−−−
====
σσσσ
−−−−
∑∑∑∑
Prova:
2
n
1i
i
2
n
1i
i )]x()xx[()x( µµµµ−−−−++++−−−−====µµµµ−−−− ∑∑∑∑∑∑∑∑
========
= })x()x()xx(2)xx{( 2
i
2
n
1i
i µµµµ−−−−++++µµµµ−−−−−−−−++++−−−−∑∑∑∑
====
onde, ∑∑∑∑ ∑∑∑∑∑∑∑∑∑∑∑∑
==== ============
µµµµ++++−−−−µµµµ−−−−====µµµµ++++−−−−µµµµ−−−−====µµµµ−−−−−−−−
n
1i
2
n
1i
ii
n
1i
2
ii
n
1i
i xnxnxxx)xxxxx()x()xx(
= xnxnxnxnx 2
µµµµ++++−−−−µµµµ−−−− = 0
nesse caso, ∑∑∑∑∑∑∑∑∑∑∑∑
============
µµµµ−−−−++++−−−−====µµµµ−−−−
n
1i
22
n
1i
i
2
n
1i
i )x()xx()x(
e
22n
1i
i
2n
1i
2n
1i
i
2n
1i
i
n/
xxxxxxx






σσσσ
µµµµ−−−−
++++





σσσσ
−−−−
====





σσσσ
µµµµ−−−−
++++





σσσσ
−−−−
====





σσσσ
µµµµ−−−−
∑∑∑∑∑∑∑∑∑∑∑∑∑∑∑∑
================
U = V + 2
xZ
Logo, ]e[E)t(M)t21()t(M
)Z
xx
(t
)Z
xx
(
2/n
U
2
X
2n
1i
i
2
X
2n
1i
i
++++∑∑∑∑ 





σσσσ
−−−−
++++∑∑∑∑ 





σσσσ
−−−−
−−−− ====
====
========−−−−====
= )Z(t
xx
t 2
X
2n
1i
i
e[E].e[E
∑∑∑∑ 





σσσσ
−−−−
====
= )t(M).t(M 2
X
2n
1i
i Zxx
∑∑∑∑ 





σσσσ
−−−−
====
= 2/1
xx
)t21).(t(M 2n
1i
i
−−−−
∑∑∑∑ 





σσσσ
−−−−
−−−−
====
Portanto, 2
)1n(
2/12/n
xx
)t21()t21()t21()t(M 2n
1i
i
−−−−
−−−−
−−−−
∑∑∑∑ 





σσσσ
−−−−
−−−−====−−−−−−−−====
====
c.q.d
45
Teorema 14: Seja o par (X, Y) vetor aleatório contínuo com f.d.p.
conjunta fxy(x, y). Sejam Z = H1(X, Y) e W = H2(X, Y) funções de
variáveis aleatórias satisfazendo as seguintes condições:
(a) - As equações z = H1(x, y) e w = H2(x, y) podem ser resolvidas
univocamente para x e y, em termos de z e w, isto é, existem as
transformações inversas, x = H1
-1
(z, w) e y = H2
-1
(z, w)
(b) - As derivadas parciais ∂x/∂z, ∂x/∂w, ∂y/∂z e ∂y/∂w existem e são
contínuas.
(c) – O Jacobiano da transformação inversa, J(z, w) = det 





∂∂∂∂
∂∂∂∂
w/yz/y
w/xz/x
,
é diferente de zero para (z, w), dentro de amplitude da transformação.
Então, o vetor aleatório (Z, W) tem f.d.p. conjunta dada por:
fzw(z, w) = fxy{H1
-1
(z, w), H2
-1
(z, w)}.| J(z, w) |
Teorema 2: Se Z ~ N(0, 1), W ~ 2
)k(χχχχ e se Z e W são independentes,
então a v.a k/W/ZT==== tem distribuição t–student com k graus de
liberdade.
Prova: Vejamos a distribuição conjunta de Z e W. Como Z e W são
independentes, temos:
fzw(z, w) = fz(z).fw(w) = 













ΓΓΓΓ







ππππ
−−−−−−−−
−−−−
2/w1)2/k(
2/k
2
z
ew
2
1
)2/k(
1
.e
2
1
2
, -∞ < z < +∞ ,
w > 0
Faça a transformação: t = H1(z, w) = k/W/Z
y = H2(z, w) = w (variável auxiliar)
z = H1
-1
(t, y) = t).k/y(
w = H2
-1
(t, y) = y
46
O Jacobiano J(t, y) = det 





∂∂∂∂∂∂∂∂∂∂∂∂∂∂∂∂
∂∂∂∂∂∂∂∂∂∂∂∂∂∂∂∂
y/wt/w
y/zt/z
= det 







∂∂∂∂
∂∂∂∂
10
y
z
k/y
= k/y .
A f.d.p. conjunta de (t, y) é dada por:
Fty(t, y) = fty{H1
-1
(t, y), H2
-1
(t, y)}.| J(t, y) |
fty(t, y) =
k
y
ey
2
1
)2/k(
1
.e
2
1 2/y1)2/k(
2/k
t
k
y
2
1 2














ΓΓΓΓ







ππππ
−−−−−−−−
−−−−
, -∞ < t < +∞ , y > 0
A f.d.p. marginal de t é obtida por:
fT(t) = dyey
2
1
)2/k(
1
k2
1
0
1
k
t
y
2
1
1
2
1k2/k
2
∫∫∫∫
∞∞∞∞








++++−−−−





−−−−
++++






ΓΓΓΓππππ
Fazemos mudança de variável








++++==== 1
k
t
y
2
1
u
2
⇒
12
1
k
t
u2y
−−−−








++++==== ⇒ du1
k
t
2dy
12 −−−−








++++====
y = 0 → u = 0 ; y = + ∞ → u = + ∞
Assim,
fT(t) = du1
k
t
2e1
k
t
u2
2
1
)2/k(
1
k2
1
12
0
u
1
2
1k
122/k −−−−∞∞∞∞
−−−−






−−−−
++++
−−−−








++++
















++++





ΓΓΓΓππππ
∫∫∫∫
fT(t) = dueu1
k
t
2
2
1
)2/k(
1
k2
1
0
u
1
2
1k
2
1k
2
2
1k2/k
∫∫∫∫
∞∞∞∞
−−−−






−−−−
++++




 ++++
−−−−





 ++++








++++





ΓΓΓΓππππ
47
fT(t) = ]2/)1k([1
k
t
2
)2/k(
1
k2
1 2
1k
2
2
1
++++ΓΓΓΓ







++++
ΓΓΓΓππππ





 ++++
−−−−
, - ∞∞∞∞ < t < + ∞∞∞∞
fT(t) =





 ++++








++++
ππππΓΓΓΓ
++++ΓΓΓΓ
2
1k
2
1
k
t
1
k
1
)2/k(
]2/)1k([
, - ∞∞∞∞ < t < + ∞∞∞∞
que é a f.d.p. de uma v.a. que tem distribuição t-student com k graus de
liberdade.
Teorema 15: Se U ~ 2
)m(χχχχ , V ~ 2
)n(χχχχ e se U e V são independentes, então a
v.a.
n/V
m/U
X ==== tem distribuição F-Snedecor com m e n graus de
liberdade.
Prova: Vejamos a distribuição conjunta de U e V. Como U e V são
independentes, temos:
fUV(U, V) = fU(u).fV(v) =
















Γ















Γ
−−−− 2/1)2/(
2/
2/1)2/(
2/
2
1
)
2
(
1
.
2
1
)
2
(
1 vn
n
um
m
ev
n
eu
m
I{0, ∞}(u) ×
I{0, ∞}(v); - ∞ < U < +∞ ; -∞ < V < +∞.
Faça a transformação: x = H1(u, v) =
nV
mU
/
/
y = H2(u, v) = v (variável auxiliar)
u = H1
-1
(x, y) = vx
n
m
v = H2
-1
(x, y) = y
O Jacobiano J(x, y) = det 





∂∂∂∂
∂∂∂∂
yvxv
yuxu
//
//
= det 







10
0v
n
m
= v
n
m
.
A f.d.p. conjunta de (x, y) é dada por:
fxy(x, y) = fxy{H1
-1
(x, y), H2
-1
(x, y)}.| J(x, y) |
48
fxy(x, y) = ( ) y
n
m
eyxy
n
m
nm
yxy
n
m
n
mnm






















ΓΓ






+−
−
−
+
2
1
1
2
1
22
2
1
)2/(
1
)2/(
1
, -∞ < t < +∞ , y > 0
= ( ) ( )
















ΓΓ





 





+−
−
+
−
+
1
2
1
1
2
1
2
22
2
1
)2/(
1
)2/(
1 x
n
m
ynmm
nmm
eyx
nmn
m
A f.d.p. marginal de x é obtida por:
fx(x) = ( ) ( ) dyeyx
nmn
m x
n
m
ynmm
nmm
∫
∞






+−
−
+
−
+






ΓΓ






0
1
2
1
1
2
1
2
22
2
1
)2/(
1
)2/(
1
Fazemos mudança de variável






+= 1
2
1
x
n
m
yz ⇒
1
12
−






+= x
n
m
zy ⇒ dzx
n
m
dy
1
12
−






+=
y = 0 → z = 0 ; y = + ∞ → z = + ∞
Assim,
fx(x) = ( ) ( ) dzx
n
m
ex
n
m
zx
nmn
m z
nm
nmm
nmm 1
0
1
21
2
1
2
22
1212
2
1
)2/(
1
)2/(
1
−
∞
−






−
+
−
−
+
−
+
∫ 





+





+





ΓΓ






= ( ) dzez
x
n
m
x
n
m
nm
z
nm
nm
mm
∫
∞
−
−
+
+
−






+






ΓΓ 0
1
2
2
1
22
1
)2/(
1
)2/(
1
fx(x) = ( ) ∞<<











+
ΓΓ
+
Γ
+
−
xpara
n
m
x
n
m
x
nm
nm m
nm
m
0
1
)
2
()
2
(
)
2
( 2
2
1
2
que é a f.d.p. de uma v.a. que tem distribuição F com m e n graus de liberdade.

Mais conteúdo relacionado

Mais procurados

Estatistica aplicada exercicios resolvidos manual tecnico formando
Estatistica aplicada exercicios resolvidos manual tecnico formandoEstatistica aplicada exercicios resolvidos manual tecnico formando
Estatistica aplicada exercicios resolvidos manual tecnico formandoAntonio Mankumbani Chora
 
A técnica citológica de papanicolaou
A técnica citológica de  papanicolaouA técnica citológica de  papanicolaou
A técnica citológica de papanicolaouJaqueline Almeida
 
Fases do trabalho estatístico
Fases do trabalho estatísticoFases do trabalho estatístico
Fases do trabalho estatísticoJosimar Nunes
 
Slide de Estatística Aplicada à Educação
Slide de Estatística Aplicada à EducaçãoSlide de Estatística Aplicada à Educação
Slide de Estatística Aplicada à EducaçãoEduardo Alves dos Reis
 
Método estatístico
Método estatísticoMétodo estatístico
Método estatísticoPaulo Carioca
 
Capacitação em análise de dados quantitativos
Capacitação em análise de dados quantitativosCapacitação em análise de dados quantitativos
Capacitação em análise de dados quantitativosAliny Lima
 
Introdução aos métodos de pesquisa. 2, Métodos quaNTItativos
Introdução aos métodos de pesquisa. 2, Métodos quaNTItativosIntrodução aos métodos de pesquisa. 2, Métodos quaNTItativos
Introdução aos métodos de pesquisa. 2, Métodos quaNTItativosLeticia Strehl
 
Aula bioestatistica
Aula bioestatisticaAula bioestatistica
Aula bioestatisticaAleNiv
 
Aula1 metodologia de pesquisa aplicada
Aula1  metodologia de pesquisa aplicadaAula1  metodologia de pesquisa aplicada
Aula1 metodologia de pesquisa aplicadaMarcos Sérgio
 
Distribuição de frequencia
Distribuição de frequenciaDistribuição de frequencia
Distribuição de frequenciaAsafe Salomao
 
Apostila de-estatistica-experimental-3
Apostila de-estatistica-experimental-3Apostila de-estatistica-experimental-3
Apostila de-estatistica-experimental-3edjane_gf
 
Critérios de Validação
Critérios de ValidaçãoCritérios de Validação
Critérios de ValidaçãoLABIMUNO UFBA
 

Mais procurados (20)

Estatistica aplicada exercicios resolvidos manual tecnico formando
Estatistica aplicada exercicios resolvidos manual tecnico formandoEstatistica aplicada exercicios resolvidos manual tecnico formando
Estatistica aplicada exercicios resolvidos manual tecnico formando
 
A técnica citológica de papanicolaou
A técnica citológica de  papanicolaouA técnica citológica de  papanicolaou
A técnica citológica de papanicolaou
 
Teoria da Amostragem - Profa. Rilva - GESME
Teoria da Amostragem - Profa. Rilva - GESMETeoria da Amostragem - Profa. Rilva - GESME
Teoria da Amostragem - Profa. Rilva - GESME
 
03 tópico 2 - regressão multipla
03   tópico 2 - regressão multipla03   tópico 2 - regressão multipla
03 tópico 2 - regressão multipla
 
Atividade sobre amostragem
Atividade sobre amostragemAtividade sobre amostragem
Atividade sobre amostragem
 
Tabelas e gráficos
Tabelas e gráficosTabelas e gráficos
Tabelas e gráficos
 
Intervalo de confiança
Intervalo de confiançaIntervalo de confiança
Intervalo de confiança
 
Fases do trabalho estatístico
Fases do trabalho estatísticoFases do trabalho estatístico
Fases do trabalho estatístico
 
Slide de Estatística Aplicada à Educação
Slide de Estatística Aplicada à EducaçãoSlide de Estatística Aplicada à Educação
Slide de Estatística Aplicada à Educação
 
Da populacao a amostra
Da populacao a amostraDa populacao a amostra
Da populacao a amostra
 
Método estatístico
Método estatísticoMétodo estatístico
Método estatístico
 
Capacitação em análise de dados quantitativos
Capacitação em análise de dados quantitativosCapacitação em análise de dados quantitativos
Capacitação em análise de dados quantitativos
 
Introdução aos métodos de pesquisa. 2, Métodos quaNTItativos
Introdução aos métodos de pesquisa. 2, Métodos quaNTItativosIntrodução aos métodos de pesquisa. 2, Métodos quaNTItativos
Introdução aos métodos de pesquisa. 2, Métodos quaNTItativos
 
Aula bioestatistica
Aula bioestatisticaAula bioestatistica
Aula bioestatistica
 
Aula1 metodologia de pesquisa aplicada
Aula1  metodologia de pesquisa aplicadaAula1  metodologia de pesquisa aplicada
Aula1 metodologia de pesquisa aplicada
 
Estatistica descritiva
Estatistica descritiva Estatistica descritiva
Estatistica descritiva
 
Adaptação celular
Adaptação celularAdaptação celular
Adaptação celular
 
Distribuição de frequencia
Distribuição de frequenciaDistribuição de frequencia
Distribuição de frequencia
 
Apostila de-estatistica-experimental-3
Apostila de-estatistica-experimental-3Apostila de-estatistica-experimental-3
Apostila de-estatistica-experimental-3
 
Critérios de Validação
Critérios de ValidaçãoCritérios de Validação
Critérios de Validação
 

Semelhante a Apostila teoria da amostragem

Amostragem-1.pdf
Amostragem-1.pdfAmostragem-1.pdf
Amostragem-1.pdfMatsuBara1
 
Formas de amostragem inspeções
Formas de amostragem inspeçõesFormas de amostragem inspeções
Formas de amostragem inspeçõesPaulo Diniz
 
Formas de amostragem
Formas de amostragemFormas de amostragem
Formas de amostragemPaulo Diniz
 
Apostila estatística psicologia vol 1 2007
Apostila estatística psicologia vol 1 2007Apostila estatística psicologia vol 1 2007
Apostila estatística psicologia vol 1 2007smpgiacobbo
 
Apostila estatística psicologia vol 1 2007
Apostila estatística psicologia vol 1 2007Apostila estatística psicologia vol 1 2007
Apostila estatística psicologia vol 1 2007smpgiacobbo
 
Aula Amostragem Contábeis
Aula Amostragem ContábeisAula Amostragem Contábeis
Aula Amostragem ContábeisPatriciaBarros20
 
Apostila estatística matemática vol 1 2009
Apostila estatística matemática vol 1 2009Apostila estatística matemática vol 1 2009
Apostila estatística matemática vol 1 2009Edson Xavier
 
Amostragem e estimacao
Amostragem e estimacaoAmostragem e estimacao
Amostragem e estimacaoLuciano Alves
 
amostragem.ppt
amostragem.pptamostragem.ppt
amostragem.pptwfkam
 
Probabilidade e estat+¡stica
Probabilidade e estat+¡sticaProbabilidade e estat+¡stica
Probabilidade e estat+¡sticaRafael Dos Santos
 
Tecnicas de pesquisa de mercado - Amostragem - Aula 5
Tecnicas de pesquisa de mercado - Amostragem - Aula 5Tecnicas de pesquisa de mercado - Amostragem - Aula 5
Tecnicas de pesquisa de mercado - Amostragem - Aula 5Ueliton da Costa Leonidio
 
1ª apostila de estatística quimica
1ª apostila de estatística  quimica1ª apostila de estatística  quimica
1ª apostila de estatística quimicaMarianne Soares
 
Resumo aulas (daniela gomes)
Resumo aulas (daniela gomes)Resumo aulas (daniela gomes)
Resumo aulas (daniela gomes)Daniela Gomes
 
APOSTILA DE ESTATISTICA BASICA E SIMPLIFICADA.docx
APOSTILA DE ESTATISTICA BASICA E SIMPLIFICADA.docxAPOSTILA DE ESTATISTICA BASICA E SIMPLIFICADA.docx
APOSTILA DE ESTATISTICA BASICA E SIMPLIFICADA.docxMariaDeSousa41
 
Apost estatistica
Apost estatistica Apost estatistica
Apost estatistica takeshikasuo
 
Aula 2 Teoria Da Amostragem Daniel
Aula 2 Teoria Da Amostragem DanielAula 2 Teoria Da Amostragem Daniel
Aula 2 Teoria Da Amostragem Danielguest8af68839
 
EstatíStica Aula 00
EstatíStica Aula 00EstatíStica Aula 00
EstatíStica Aula 00educacao f
 

Semelhante a Apostila teoria da amostragem (20)

Amostragem-1.pdf
Amostragem-1.pdfAmostragem-1.pdf
Amostragem-1.pdf
 
Formas de amostragem inspeções
Formas de amostragem inspeçõesFormas de amostragem inspeções
Formas de amostragem inspeções
 
Formas de amostragem
Formas de amostragemFormas de amostragem
Formas de amostragem
 
Amostragem
AmostragemAmostragem
Amostragem
 
Apostila estatística psicologia vol 1 2007
Apostila estatística psicologia vol 1 2007Apostila estatística psicologia vol 1 2007
Apostila estatística psicologia vol 1 2007
 
Apostila estatística psicologia vol 1 2007
Apostila estatística psicologia vol 1 2007Apostila estatística psicologia vol 1 2007
Apostila estatística psicologia vol 1 2007
 
Aula Amostragem Contábeis
Aula Amostragem ContábeisAula Amostragem Contábeis
Aula Amostragem Contábeis
 
Apostila estatística matemática vol 1 2009
Apostila estatística matemática vol 1 2009Apostila estatística matemática vol 1 2009
Apostila estatística matemática vol 1 2009
 
Amostragem e estimacao
Amostragem e estimacaoAmostragem e estimacao
Amostragem e estimacao
 
amostragem.ppt
amostragem.pptamostragem.ppt
amostragem.ppt
 
Probabilidade e estat+¡stica
Probabilidade e estat+¡sticaProbabilidade e estat+¡stica
Probabilidade e estat+¡stica
 
Tecnicas de pesquisa de mercado - Amostragem - Aula 5
Tecnicas de pesquisa de mercado - Amostragem - Aula 5Tecnicas de pesquisa de mercado - Amostragem - Aula 5
Tecnicas de pesquisa de mercado - Amostragem - Aula 5
 
1ª apostila de estatística quimica
1ª apostila de estatística  quimica1ª apostila de estatística  quimica
1ª apostila de estatística quimica
 
Resumo aulas (daniela gomes)
Resumo aulas (daniela gomes)Resumo aulas (daniela gomes)
Resumo aulas (daniela gomes)
 
APOSTILA DE ESTATISTICA BASICA E SIMPLIFICADA.docx
APOSTILA DE ESTATISTICA BASICA E SIMPLIFICADA.docxAPOSTILA DE ESTATISTICA BASICA E SIMPLIFICADA.docx
APOSTILA DE ESTATISTICA BASICA E SIMPLIFICADA.docx
 
Apost estatistica
Apost estatistica Apost estatistica
Apost estatistica
 
Aula 2 Teoria Da Amostragem Daniel
Aula 2 Teoria Da Amostragem DanielAula 2 Teoria Da Amostragem Daniel
Aula 2 Teoria Da Amostragem Daniel
 
Amostragem.pptx
Amostragem.pptxAmostragem.pptx
Amostragem.pptx
 
EstatíStica Aula 00
EstatíStica Aula 00EstatíStica Aula 00
EstatíStica Aula 00
 
Estatistica
EstatisticaEstatistica
Estatistica
 

Último

COMPETÊNCIA 1 DA REDAÇÃO DO ENEM - REDAÇÃO ENEM
COMPETÊNCIA 1 DA REDAÇÃO DO ENEM - REDAÇÃO ENEMCOMPETÊNCIA 1 DA REDAÇÃO DO ENEM - REDAÇÃO ENEM
COMPETÊNCIA 1 DA REDAÇÃO DO ENEM - REDAÇÃO ENEMVanessaCavalcante37
 
Sociologia Contemporânea - Uma Abordagem dos principais autores
Sociologia Contemporânea - Uma Abordagem dos principais autoresSociologia Contemporânea - Uma Abordagem dos principais autores
Sociologia Contemporânea - Uma Abordagem dos principais autoresaulasgege
 
Slides Lição 4, CPAD, Como se Conduzir na Caminhada, 2Tr24.pptx
Slides Lição 4, CPAD, Como se Conduzir na Caminhada, 2Tr24.pptxSlides Lição 4, CPAD, Como se Conduzir na Caminhada, 2Tr24.pptx
Slides Lição 4, CPAD, Como se Conduzir na Caminhada, 2Tr24.pptxLuizHenriquedeAlmeid6
 
Simulado 1 Etapa - 2024 Proximo Passo.pdf
Simulado 1 Etapa - 2024 Proximo Passo.pdfSimulado 1 Etapa - 2024 Proximo Passo.pdf
Simulado 1 Etapa - 2024 Proximo Passo.pdfEditoraEnovus
 
Slides Lição 4, Betel, Ordenança quanto à contribuição financeira, 2Tr24.pptx
Slides Lição 4, Betel, Ordenança quanto à contribuição financeira, 2Tr24.pptxSlides Lição 4, Betel, Ordenança quanto à contribuição financeira, 2Tr24.pptx
Slides Lição 4, Betel, Ordenança quanto à contribuição financeira, 2Tr24.pptxLuizHenriquedeAlmeid6
 
BRASIL - DOMÍNIOS MORFOCLIMÁTICOS - Fund 2.pdf
BRASIL - DOMÍNIOS MORFOCLIMÁTICOS - Fund 2.pdfBRASIL - DOMÍNIOS MORFOCLIMÁTICOS - Fund 2.pdf
BRASIL - DOMÍNIOS MORFOCLIMÁTICOS - Fund 2.pdfHenrique Pontes
 
trabalho wanda rocha ditadura
trabalho wanda rocha ditaduratrabalho wanda rocha ditadura
trabalho wanda rocha ditaduraAdryan Luiz
 
activIDADES CUENTO lobo esta CUENTO CUARTO GRADO
activIDADES CUENTO  lobo esta  CUENTO CUARTO GRADOactivIDADES CUENTO  lobo esta  CUENTO CUARTO GRADO
activIDADES CUENTO lobo esta CUENTO CUARTO GRADOcarolinacespedes23
 
Slides 1 - O gênero textual entrevista.pptx
Slides 1 - O gênero textual entrevista.pptxSlides 1 - O gênero textual entrevista.pptx
Slides 1 - O gênero textual entrevista.pptxSilvana Silva
 
Família de palavras.ppt com exemplos e exercícios interativos.
Família de palavras.ppt com exemplos e exercícios interativos.Família de palavras.ppt com exemplos e exercícios interativos.
Família de palavras.ppt com exemplos e exercícios interativos.Susana Stoffel
 
Apresentação | Eleições Europeias 2024-2029
Apresentação | Eleições Europeias 2024-2029Apresentação | Eleições Europeias 2024-2029
Apresentação | Eleições Europeias 2024-2029Centro Jacques Delors
 
ATIVIDADE AVALIATIVA VOZES VERBAIS 7º ano.pptx
ATIVIDADE AVALIATIVA VOZES VERBAIS 7º ano.pptxATIVIDADE AVALIATIVA VOZES VERBAIS 7º ano.pptx
ATIVIDADE AVALIATIVA VOZES VERBAIS 7º ano.pptxOsnilReis1
 
Época Realista y la obra de Madame Bovary.
Época Realista y la obra de Madame Bovary.Época Realista y la obra de Madame Bovary.
Época Realista y la obra de Madame Bovary.keislayyovera123
 
Gerenciando a Aprendizagem Organizacional
Gerenciando a Aprendizagem OrganizacionalGerenciando a Aprendizagem Organizacional
Gerenciando a Aprendizagem OrganizacionalJacqueline Cerqueira
 
UFCD_10392_Intervenção em populações de risco_índice .pdf
UFCD_10392_Intervenção em populações de risco_índice .pdfUFCD_10392_Intervenção em populações de risco_índice .pdf
UFCD_10392_Intervenção em populações de risco_índice .pdfManuais Formação
 
LEMBRANDO A MORTE E CELEBRANDO A RESSUREIÇÃO
LEMBRANDO A MORTE E CELEBRANDO A RESSUREIÇÃOLEMBRANDO A MORTE E CELEBRANDO A RESSUREIÇÃO
LEMBRANDO A MORTE E CELEBRANDO A RESSUREIÇÃOColégio Santa Teresinha
 
Prova uniasselvi tecnologias da Informação.pdf
Prova uniasselvi tecnologias da Informação.pdfProva uniasselvi tecnologias da Informação.pdf
Prova uniasselvi tecnologias da Informação.pdfArthurRomanof1
 
Guia completo da Previdênci a - Reforma .pdf
Guia completo da Previdênci a - Reforma .pdfGuia completo da Previdênci a - Reforma .pdf
Guia completo da Previdênci a - Reforma .pdfEyshilaKelly1
 
Bullying - Texto e cruzadinha
Bullying        -     Texto e cruzadinhaBullying        -     Texto e cruzadinha
Bullying - Texto e cruzadinhaMary Alvarenga
 
Programa de Intervenção com Habilidades Motoras
Programa de Intervenção com Habilidades MotorasPrograma de Intervenção com Habilidades Motoras
Programa de Intervenção com Habilidades MotorasCassio Meira Jr.
 

Último (20)

COMPETÊNCIA 1 DA REDAÇÃO DO ENEM - REDAÇÃO ENEM
COMPETÊNCIA 1 DA REDAÇÃO DO ENEM - REDAÇÃO ENEMCOMPETÊNCIA 1 DA REDAÇÃO DO ENEM - REDAÇÃO ENEM
COMPETÊNCIA 1 DA REDAÇÃO DO ENEM - REDAÇÃO ENEM
 
Sociologia Contemporânea - Uma Abordagem dos principais autores
Sociologia Contemporânea - Uma Abordagem dos principais autoresSociologia Contemporânea - Uma Abordagem dos principais autores
Sociologia Contemporânea - Uma Abordagem dos principais autores
 
Slides Lição 4, CPAD, Como se Conduzir na Caminhada, 2Tr24.pptx
Slides Lição 4, CPAD, Como se Conduzir na Caminhada, 2Tr24.pptxSlides Lição 4, CPAD, Como se Conduzir na Caminhada, 2Tr24.pptx
Slides Lição 4, CPAD, Como se Conduzir na Caminhada, 2Tr24.pptx
 
Simulado 1 Etapa - 2024 Proximo Passo.pdf
Simulado 1 Etapa - 2024 Proximo Passo.pdfSimulado 1 Etapa - 2024 Proximo Passo.pdf
Simulado 1 Etapa - 2024 Proximo Passo.pdf
 
Slides Lição 4, Betel, Ordenança quanto à contribuição financeira, 2Tr24.pptx
Slides Lição 4, Betel, Ordenança quanto à contribuição financeira, 2Tr24.pptxSlides Lição 4, Betel, Ordenança quanto à contribuição financeira, 2Tr24.pptx
Slides Lição 4, Betel, Ordenança quanto à contribuição financeira, 2Tr24.pptx
 
BRASIL - DOMÍNIOS MORFOCLIMÁTICOS - Fund 2.pdf
BRASIL - DOMÍNIOS MORFOCLIMÁTICOS - Fund 2.pdfBRASIL - DOMÍNIOS MORFOCLIMÁTICOS - Fund 2.pdf
BRASIL - DOMÍNIOS MORFOCLIMÁTICOS - Fund 2.pdf
 
trabalho wanda rocha ditadura
trabalho wanda rocha ditaduratrabalho wanda rocha ditadura
trabalho wanda rocha ditadura
 
activIDADES CUENTO lobo esta CUENTO CUARTO GRADO
activIDADES CUENTO  lobo esta  CUENTO CUARTO GRADOactivIDADES CUENTO  lobo esta  CUENTO CUARTO GRADO
activIDADES CUENTO lobo esta CUENTO CUARTO GRADO
 
Slides 1 - O gênero textual entrevista.pptx
Slides 1 - O gênero textual entrevista.pptxSlides 1 - O gênero textual entrevista.pptx
Slides 1 - O gênero textual entrevista.pptx
 
Família de palavras.ppt com exemplos e exercícios interativos.
Família de palavras.ppt com exemplos e exercícios interativos.Família de palavras.ppt com exemplos e exercícios interativos.
Família de palavras.ppt com exemplos e exercícios interativos.
 
Apresentação | Eleições Europeias 2024-2029
Apresentação | Eleições Europeias 2024-2029Apresentação | Eleições Europeias 2024-2029
Apresentação | Eleições Europeias 2024-2029
 
ATIVIDADE AVALIATIVA VOZES VERBAIS 7º ano.pptx
ATIVIDADE AVALIATIVA VOZES VERBAIS 7º ano.pptxATIVIDADE AVALIATIVA VOZES VERBAIS 7º ano.pptx
ATIVIDADE AVALIATIVA VOZES VERBAIS 7º ano.pptx
 
Época Realista y la obra de Madame Bovary.
Época Realista y la obra de Madame Bovary.Época Realista y la obra de Madame Bovary.
Época Realista y la obra de Madame Bovary.
 
Gerenciando a Aprendizagem Organizacional
Gerenciando a Aprendizagem OrganizacionalGerenciando a Aprendizagem Organizacional
Gerenciando a Aprendizagem Organizacional
 
UFCD_10392_Intervenção em populações de risco_índice .pdf
UFCD_10392_Intervenção em populações de risco_índice .pdfUFCD_10392_Intervenção em populações de risco_índice .pdf
UFCD_10392_Intervenção em populações de risco_índice .pdf
 
LEMBRANDO A MORTE E CELEBRANDO A RESSUREIÇÃO
LEMBRANDO A MORTE E CELEBRANDO A RESSUREIÇÃOLEMBRANDO A MORTE E CELEBRANDO A RESSUREIÇÃO
LEMBRANDO A MORTE E CELEBRANDO A RESSUREIÇÃO
 
Prova uniasselvi tecnologias da Informação.pdf
Prova uniasselvi tecnologias da Informação.pdfProva uniasselvi tecnologias da Informação.pdf
Prova uniasselvi tecnologias da Informação.pdf
 
Guia completo da Previdênci a - Reforma .pdf
Guia completo da Previdênci a - Reforma .pdfGuia completo da Previdênci a - Reforma .pdf
Guia completo da Previdênci a - Reforma .pdf
 
Bullying - Texto e cruzadinha
Bullying        -     Texto e cruzadinhaBullying        -     Texto e cruzadinha
Bullying - Texto e cruzadinha
 
Programa de Intervenção com Habilidades Motoras
Programa de Intervenção com Habilidades MotorasPrograma de Intervenção com Habilidades Motoras
Programa de Intervenção com Habilidades Motoras
 

Apostila teoria da amostragem

  • 1. 1 TEORIA DA MOSTRAGEM 1- INTRODUÇÃO A amostragem e, em particular, os processos de amostragem se aplicam em diversas áreas do conhecimento e constitui-se, muitas vezes, a única forma de obter as informações sobre uma determinada realidade. A teoria da amostragem é, portanto, um dos instrumentos que possibilita o conhecimento científico da realidade, onde outros processos ou métodos alternativos, por razões diversas, não se mostram adequados ou até mesmo possíveis. A teoria da amostragem estuda as relações existentes entre uma população e as amostras extraídas desse universo. É útil para avaliação de grandezas desconhecidas da população, ou para determinar se as diferenças observadas entre duas amostras são devidas ao acaso ou se são verdadeiramente significativas. Em geral, a maioria das pesquisas observacionais consiste em estudar os elementos que compõem a amostra, extraída ao acaso da população de interesse (universo). O conceito de população é intuitivo; trata-se de um conjunto de indivíduos (ou objetos) que apresentam, em comum, determinadas características de interesse. Amostra é um subconjunto da população. É compreensível que o estudo de todos os elementos da população possibilitaria o conhecimento “preciso” das variáveis pesquisadas (censo); todavia, nem sempre é possível obter informações de todos os elementos da população. Limitações de tempo, custo e as vantagens das técnicas de amostragem que proporcionam maior qualidade dos dados levantados justificam o seu uso. Torna-se claro que a representatividade da amostra depende do seu tamanho e de outras considerações de ordem metodológica. Isto é, o investigador procurará cercar de todos os cuidados, sempre visando obter uma amostra significativa, ou seja, que de fato represente "bem" toda a informação contida na população. Após identificar o tipo de dados que deverão ser selecionados e a elaboração de um instrumento (questionário estruturado, por exemplo), o passo seguinte consiste em definir um plano de amostragem adequado
  • 2. 2 e o instrumento de análise, visando assegurar a confiabilidade e a comparabilidade desses dados. Assim, o plano de amostragem deverá começar por determinar qual o nível de extensão geográfica em que o processo de amostragem deverá ser conduzido (mundial, nacional, regional, urbano, rural, grupo de indivíduos, etc). A construção da amostra propriamente dita envolve várias etapas igualmente importantes e que são: (i) Identificação da população alvo/população inquirida: A identificação da população de uma forma clara e objetiva é imprescindível, embora possa parecer demasiado óbvia em muitas circunstâncias. Designa-se por população alvo a totalidade dos elementos sobre os quais se deseja obter determinado tipo de informações. Exemplo 1: Um estudo sobre as intenções de voto teria como população alvo todos aqueles que estão em idade e em condições de votar. No entanto, a população inquirida poderia incluir apenas aqueles que votaram nas últimas eleições. Resumindo, a população alvo é constituída por todos os elementos sobre os quais se deseja obter um determinado conjunto de informações. No entanto, em muitas situações, não é operacional inquirir uma amostra retirada da população alvo e, portanto, haverá necessidade de definir qual população será inquirido, não coincidente com a população alvo e, a partir disso, retirar a amostra. (ii) Métodos de Seleção da Amostra: Basicamente, existem dois métodos para seleção da amostra: probabilístico (aleatório) e não probabilístico (ou intencional). (iii) Dimensionamento da Amostra: Escolha do plano de amostragem e a determinação do tamanho ótimo da amostra, de acordo com a precisão desejada (erro aceitável e determinado pelo pesquisador),
  • 3. 3 variabilidade das informações e custo para a coleta da informação. 2- MÉTODOS DE SELEÇÃO DA AMOSTRA O processo de amostragem pode ser do tipo probabilístico (aleatória) ou não probabilístico. Na amostragem probabilística (aleatória), cada elemento da população tem uma probabilidade conhecida e diferente de zero de fazer parte da amostra. 2.1 - AMOSTRAGEM PROBABILÍSTICA (ALEATÓRIA) Como foi dito, os métodos de amostragem probabilística (aleatória) exigem que cada elemento da população tenha uma probabilidade conhecida de ser selecionado. Assim, se N for o tamanho da população, a probabilidade de cada elemento fazer parte da amostra será de 1/N. Somente com base em amostragens probabilísticas é possível fazer inferências estatísticas sobre a população, a partir do conhecimento da amostra, permitindo ainda medir a sua precisão. Ou seja, uma das vantagens da amostragem aleatória é a possibilidade de estimar as margens de erro dos resultados que são devidas à amostragem. Além disso, o uso da amostragem aleatória evita a ocorrência de viés na seleção. No entanto, devemos comentar algumas dificuldades na seleção de uma amostra aleatória. A principal dificuldade consiste na obtenção de uma listagem completa da população para serem inquiridas. Estas listagens são, na maioria dos casos, difíceis de conseguir, de custo elevado, demoradas na sua obtenção e nem sempre de confiabilidade aceitável.
  • 4. 4 O segundo tipo de dificuldades relaciona-se com as não respostas. Depois de definidos os respondentes, não poderá haver substituições, pois as não-respostas constituem uma fonte importante de viés e, portanto, teremos que fazer de tudo para que a sua taxa seja minimizada. Todas as novas tentativas (por entrevista pessoal, telefone ou correio) para obter respostas bem sucedidas implicam no aumento de custos e demora na obtenção dos resultados. A amostragem aleatória é, sem dúvida, o processo mais caro, mas os custos tendem a ser de pouca importância face à confiabilidade dos resultados obtidos. 2.1.1 Amostragem Aleatória Simples (AAS) É o processo mais elementar e freqüentemente utilizado. Atribui-se a cada elemento da população um número distinto. Se a população for numerada, utilizam-se esses "rótulos". Efetuam-se sucessivos sorteios até completar o tamanho da amostra, n. Para realizar os sorteios, utilizam-se "tabelas de números aleatórios" que apresentam seqüências dos dígitos de 0 a 9, distribuídos aleatoriamente. Se, por exemplo, a população tem 1000 elementos (N = 1.000), pode-se numerá-los de 000 a 999. Primeiro, faz-se um sorteio da posição (linha da tabela de números aleatórios), em seguida, retiram-se conjuntos de três algarismos para escolher os elementos que irão compor a amostra, n = 50. Suponha que a seqüência de dígitos aleatórios seja: 385; 559; 555; 432; 886; ...; logo, esses elementos serão os componentes da amostra. Se o número sorteado superar o maior número dos elementos rotulados, abandona-se o número sorteado, prosseguindo-se o processo. Se o número sorteado for repetido, convém abandoná-lo. Outro exemplo: Selecionar uma amostra, ao acaso, com n = 5 elementos de uma população de tamanho N = 30.
  • 5. 5 Exemplo 2: Considere uma população X1, X2, ... , XN e uma amostra aleatória obtida de algum processo probabilístico, X1, X2, ... , Xn . (a)- Quando a amostragem é feita com reposição, por exemplo, n = 2 temos: 212111211 1 N )xX(P).xX(P)xXxX(P ====================∩∩∩∩==== e NN/ N/ )xX(P )xXxX(P )xX|xX(P 1 1 1 2 11 1211 1112 ======== ==== ====∩∩∩∩==== ============ (b)- Quando a amostragem é feita sem reposição, temos: 01211 ========∩∩∩∩==== )xXxX(P e sendo N )xX(P 1 11 ======== , então 1 1 1122 −−−− ============ N )xX|xX(P )xX(P )xXxX(P )xX|xX(P 11 2211 1122 ==== ====∩∩∩∩==== ============
  • 6. 6 )N( . N )xX|xX(P).xX(P)xXxX(P 1 11 1122112211 −−−− ========================∩∩∩∩==== Exemplo 3: Considere a população hipotética {1; 2; 3; 4; 5; 6; 7; 8; 9}. A média da população é dada por: 5 9 921 ==== ++++++++++++ ==== ... µ . Retiremos dessa população amostra de tamanho n = 3. (a)- Com reposição: (a1)- amostra com os menores valores → 1, 1, 1 → 1 3 111 ==== ++++++++ ====x → µε −−−−==== x = 1 – 5 = - 4 (a2)- amostra com os maiores valores → 9, 9, 9 → 9 3 999 ==== ++++++++ ====x → µε −−−−==== x = 9 – 5 = 4 Portanto, 4≤≤≤≤−−−−==== |x||| µε (b)- Sem reposição: (bl)- amostra com os menores valores → 1, 2, 3 → 2 3 321 ==== ++++++++ ====x → µε −−−−==== x = 2 – 5 = - 3 b2)- amostra com os maiores valores → 7, 8, 9 → 8 3 987 ==== ++++++++ ====x → µε −−−−==== x = 8 – 5 = 3 Portanto, 3≤≤≤≤−−−−==== |x||| µε
  • 7. 7 Neste caso, podemos verificar que o erro amostral é menor quando se usa amostragem sem reposição. 2.1.2 Amostragem Estratificada (AE) No caso de população heterogênea em que podemos distinguir subpopulações mais ou menos homogêneas (estratos), é possível utilizar o processo de amostragem estratificada. As variáveis de estratificação mais comuns são: classe social, idade, sexo, profissão, etc. ou qualquer outro atributo que revele os estratos dentro da população. Após a determinação dos estratos, seleciona-se uma amostra aleatória simples de cada subpopulação (estrato). Exemplo 4: Considere o exemplo anterior. Devemos usar uma variável de interesse (critério) para dividir a população em estratos. No exemplo, o critério de estratificação será: E1: grupo formado pelos três menores valores; E1 = 1, 2, 3 E2: grupo formado pelos três valores centrais; E2 = 4, 5, 6 E3: grupo formado pelos três maiores valores; E3 = 7, 8, 9 Selecionemos dessa população um elemento de cada estrato para formarmos amostras aleatórias de tamanho n = 3. (a1)- amostra com os menores valores → 1, 4, 7 → 4 3 741 ==== ++++++++ ====x → µε −−−−==== x = 4 – 5 = - 1 (a2)- amostra com os maiores valores → 3, 6, 9 → 6 3 963 ==== ++++++++ ====x → µε −−−−==== x = 6 – 5 = 1 Portanto, 1≤≤≤≤−−−−==== |x||| µε
  • 8. 8 Podemos verificar que, quando a população não é homogênea, o uso de amostragem estratificada diminui o erro amostral. Assim, no caso de população heterogênea em que podemos distinguir subpopulações mais ou menos homogêneas, denominadas estratos, é possível utilizar o processo de amostragem estratificada. As variáveis de estratificação mais comuns são: classe social, idade, sexo, profissão, etc. ou qualquer outro atributo que revele os estratos dentro da população. Após a determinação dos estratos, seleciona-se uma amostra aleatória simples de cada subpopulações. Para especificar o número de elementos de cada estrato que irá compor a amostra total, consideram-se duas situações: uniforme e proporcional Uniforme De k estratos retiram-se amostras de mesmo tamanho. Usada quando os estratos populacionais possuem o mesmo tamanho, ou seja, k n ni ==== Tabela 1 – Número de propriedades amostradas uniformemente de uma população estratificada quanto à área.
  • 9. 9 Proporcionais Quando queremos várias sub-amostras de tamanhos proporcionais aos respectivos números de elementos dos estratos. O estrato i fornece uma quantidade ni de elementos, proporcional ao tamanho Ni populacional do respectivo estrato para formar a amostra de tamanho n. n N N n i i ==== Talela 2 – Número de propriedades amostradas proporcionalmente de uma população estratificada quanto à área Exemplo 5: Considere uma população (finita) com 50.000 operários de uma indústria automobilística. Retira-se uma amostra aleatória e independente de 5% dos operários para estimar o salário médio. Usando uma variável (cargo) como critério para estratificar a população, e retirando uma amostra de 5% de cada estrato, obtemos o seguinte quadro. Cargos População Amostra Chefes de Seção 5000 250 Operários Especializados 15000 750 Operários Não Especializados 30000 1500 Total 50000 2500
  • 10. 10 A amostragem estratificada tem as seguintes características: • Dentro de cada estrato existe homogeneidade entre os elementos. • Entre os estratos existe grande heterogeneidade. 2.1.3 Amostragem Sistemática (AS) Trata-se de uma variação da amostragem aleatória simples, ideal quando a população está ordenada segundo algum critério, como fichas em um fichário, listas telefônicas, etc. Calcula-se o intervalo de amostragem n N aproximando-o para o inteiro mais próximo, K. Em seguida, utilizando-se a tábua de números aleatórios, sorteia-se um número x entre 1 e K, formando-se uma amostra aleatória dos elementos correspondentes aos números x; x + K; x + 2k; x + 3K; ... ; etc. Exemplo 6: Como exemplo, seja N = 1.000, n = 200. Logo: 200 1000 ======== n N K = 5 Imagine que três seja o número sorteado entre 1 e 5. Portanto, os elementos da população numerados por 3; 8; 13; .... ; 998 irão compor a amostra. 2.1.4 Amostragem por Conglomerados (AC) Quando a população é formada por subgrupos (conglomerados), nesse caso, a forma como aparecem os subgrupos impedem a existência de uma listagem dos elementos da população, sendo possível apenas
  • 11. 11 uma lista dos conglomerados (quarteirões, famílias, organizações, agências, edifícios, etc). Nesse caso, é possível fazer amostragem por meio desses conglomerados, que consiste em sortear um número suficiente de conglomerados cujos elementos constituirão a amostra. Para a escolha da amostra, obtém-se uma AAS dos conglomerados; nesse caso, a unidade amostral passa a ser conglomerado e; obtida uma amostra de conglomerados, mede-se todos os indivíduos dentro de cada conglomerado, como em um censo, ou seja, sorteia-se uma amostra de conglomerados, e após isso, entrevistamos todos os elementos dos conglomerados sorteados. A amostra final (ou total) será constituída de todos os elementos entrevistados, num total de ∑∑∑∑==== ==== C i i nn 1 , onde ni é o total do conglomerado i, e C é o número de conglomerados escolhidos na amostra. Exemplo 7: Num levantamento populacional de uma determinada cidade, geralmente dispomos de um mapa indicando cada quarteirão, mas não dispomos da relação atualizada de seus moradores. Pode-se, então, sortear uma amostra aleatória dos quarteirões e fazer a contagem completa de todos os moradores que neles residem. Exemplo 8: Para estimar o número de cabeças de gados de uma região, sorteiam-se alguns municípios dessa região e dentro dos municípios, sorteiam-se algumas propriedades para compor a amostra. 3 - MÉTODOS DE AMOSTRAGEM NÃO PROBABILÍSTICA Na amostragem não probabilística, a probabilidade de seleção, muitas vezes, é desconhecida para alguns ou todos os elementos da população, ou seja, alguns dos elementos podem ter probabilidade nula
  • 12. 12 de fazer parte da amostra, por exemplo, em amostragens intencionais, a esmo ou voluntários. São amostragens em que há uma escolha deliberada dos elementos da amostra. Não é possível generalizar os resultados das pesquisas para a população, pois as amostras não probabilísticas não garantem a representatividade da população. 3.1 Amostragem Acidental Trata-se de uma amostra formada por elementos que vão aparecendo e que são possíveis de obter até completar o número de elementos necessários na amostra. Geralmente utilizada em pesquisas de opinião, em que os entrevistados são acidentalmente escolhidos. 3.2 Amostragem Intencional Segundo um critério, é escolhido intencionalmente um grupo de elementos que irão compor a amostra. Ou seja, o investigador dirige- se intencionalmente a um grupo de elementos dos quais se deseja obter a opinião porque considera que esses elementos possuem características típicas ou representativas da população. Exemplo 9: Numa pesquisa opinião sobre preferência por determinado cosmético, o pesquisador dirige-se a um grande salão de beleza e entrevista as pessoas que ali se encontram. Exemplo 10: Numa pesquisa de mercado, para lançar uma nova marca de leite tipo A (longa vida), o pesquisador vai selecionar apenas indivíduos com poder aquisitivo médio-alto.
  • 13. 13 3.3 Amostragem Sem Norma (a esmo) Não se usa nenhum sorteio embora o pesquisador procure ser aleatório. Exemplo 11: Escolher 100 galinhas num galinheiro dentre 3000, a esmo. Exemplo 12: Quando se deseja retirar uma amostra de 100 parafusos de uma caixa contendo 10.000, evidentemente não se usa uma amostragem aleatória simples, pois seria extremamente trabalhoso, mas procedemos retiradas simplesmente a esmo. Obs: Se a população for homogênea, então o processo é equivalente a amostragem probabilística. 3.4 Amostragem de População Formada com Material Contínuo Neste caso, não é possível realizar amostragem probabilística pela impraticabilidade de um sorteio aleatório. Exemplo 13: Se a população é formada por líquido (ou gás), devemos homogeneizar o material e retirar uma amostra a esmo.
  • 14. 14 4 - CONCEITOS BÁSICOS População: Conjunto (universo populacional) formado por indivíduos (ou objetos) e que tem pelos menos uma característica (variável) em comum e observável. Por exemplo: • População de operários da indústria automobilística; • População de peças fabricadas numa linha de produção; • População de indivíduos que votaram na próxima eleição para prefeito. A população é considerada finita ou infinita. Finita quando o número de elementos é conhecido (N) e possível de enumerar. Infinita quando o número de elementos é muito grande. Amostra: Uma vez definida a população de interesse, qualquer subconjunto formado por seus elementos é denominado amostra. Para indicar o número de elementos da amostra (tamanho da amostra), designaremos de (n). Amostragem: é o processo de seleção da amostra que possibilita o estudo das características da população. Parâmetro: é a medida usada para descrever uma característica numérica desconhecida da população em estudo. Geralmente representamos por θ. Exemplos de parâmetros populacionais: µ; 2 σ ; DIF µ ; P; 21 µµ −−−− ; 2 2 2 1 σ σ ; 21 PP −−−− ; XY ρ ; etc. Amostra Aleatória: Seja X variável aleatória com uma distribuição de probabilidade específica. Sejam também (X1, X2, ... , Xn), n variáveis aleatórias independentes, cada um tendo a mesma distribuição de X. Nesse caso, (Xl , X2, ... , Xn) é definida como sendo uma amostra aleatória independente da variável aleatória X.
  • 15. 15 Estatística ou Estimador: Seja (X1, X2, ... , Xn) uma amostra aleatória independente da variável aleatória X e (x1, x2, ... , xn) os valores assumidos pela amostra. Define-se estatística como sendo uma função da amostra, θˆ = T(X1, X2, ... , Xn), que assume o valor t = t(xl, x2, ... , xn). Assim, as estatísticas s´ˆθ são os estimadores pontuais de θ´s (parâmetros populacionais). Exemplos de estimadores: Estimadores Pontuais Parâmetros 1. n x x n i i∑∑∑∑==== ==== 1 µ 2. 1 1 2 2 −−−− −−−− ==== ∑∑∑∑==== n )xx( s n i i 2 σ 3. n d d n i i∑∑∑∑==== ==== 1 DIF µ 4. n x m x xx n i i m i i ∑∑∑∑∑∑∑∑ ======== −−−−====−−−− 11 21 21 µµ −−−− 5. 1 1 1 2 2 1 2 1 2 2 2 1 −−−− −−−− −−−− −−−− ==== ∑∑∑∑ ∑∑∑∑ ==== ==== n )xx( m )xx( s s n i i m i i 2 2 2 1 σ σ 6. 101 ,x, n x n X pˆ i n i i ============ ∑∑∑∑==== P 7. 101121 21 ,x, n x m x n X m X pˆpˆ i n i i m i i ====−−−−====−−−−====−−−− ∑∑∑∑∑∑∑∑ ======== 21 PP −−−− 8. YX n i ii XY )n( )yy)(xx( r σσ1 1 −−−− −−−−−−−− ==== ∑∑∑∑==== = YX n i ii )n( yxnyx σσ1 1 −−−− −−−−∑∑∑∑==== XY ρ
  • 16. 16 Estimativa: é o valor numérico determinado pelo estimador. Erro Amostral: é o erro que acontece justamente pelo uso da amostra, ou seja, erro que cometemos ao estimar o parâmetro θ (desconhecido) da distribuição da variável aleatória X pelo estimador T = t(X1, ... , Xn), baseado na amostra. Logo, o erro amostral que designaremos por ε é definido por: θθε −−−−==== ˆ Observe no exemplo 1 que há uma variação para mais ou menos no valor do erro ε em cada uma das n N possíveis amostras de tamanho n retiradas da população de interesse, como segue: Amostra 1 → 1θθθθˆ Amostra 2 → 2θθθθˆ M Amostra n N → n N ˆθθθθ Assim, como θˆ é uma variável aleatória, podemos determinar a esperança e a variância da distribuição amostral de θˆ , ou seja, E[θˆ ] e Var[θˆ ]. Desmembrando o erro amostral em duas partes, temos: )]ˆ[E(])ˆ[Eˆ(ˆ θθθθ−−−−θθθθ++++θθθθ−−−−θθθθ====θθθθ−−−−θθθθ====εεεε sendo que, ])ˆ[Eˆ( θθ −−−− é considerada parte aleatória e )]ˆ[E( θθ −−−− é o viés (ou vício). Quando )]ˆ[E( θθθθ−−−−θθθθ = 0, implica que θθθθ====θθθθ]ˆ[E e, portanto, θθθθˆ é dito um estimador não viesado de θ. O viés pode aparecer na forma de seleção da amostra, na coleta dos dados ou na estimação dos parâmetros.
  • 17. 17 Viés de Seleção: A melhor forma de evitar o viés de seleção é usar amostragem probabilística, através de sorteio, seja ele manual ou por meio de uma tabela de números aleatórios, ou ainda pela geração de números aleatórios por computador. Viés na Coleta de Dados: Este tipo de viés pode ocorrer principalmente quando substituímos uma unidade amostral por outra, ou quando há falta de respostas, por exemplo, em questionários. Viés de Estimação: Este tipo de viés também pode ser controlado fazendo uso de amostragens probabilísticas. Exemplo 1: Na população considerada normal, o nível médio de protombina é de 20mg/100ml de sangue. Em uma amostra (obtida de forma aleatória e independente) com n pacientes que tinham deficiência de vitamina K, foram observadas as estatísticas: nível médio de protombina, variância e desvio padrão. Com base nesta amostra, seria razoável suspeitar que a verdadeira média dos pacientes com deficiência da vitamina K é a mesma da população normal? Construa um intervalo de confiança de 95% para a verdadeira média da população com deficiência de vitamina K. Realize um teste de hipótese (teoria da decisão estatística). Simulação de 10000 dados de uma população tendo distribuição Normal (simétrica) com os seguintes parâmetros, µµµµ = 20 (média populacional ) e σσσσ = 5.0 (desvio-padrão populacional) set.seed(1962) ## gera amostra com uma semente específica x=rnorm(10000,20,5.0) ## comando para gerar aleatoriamente 10000 dados ## da distribuição Normal (Curva Gaussiana) hist(x, freq=F,col=37) ## comando para verificar graficamente a distribuição lines(density(x),lwd=2,col=2)
  • 18. 18 x5=sample(x,5,replace=F) # amostra aleatória sem reposição de tamanho n = 5 hist(x5,freq=FALSE,col=39) curve(dnorm(x,20,5),from=-10,to=50,add=T,lwd=2,col=4) mean(x5) # cálculo da média amostral ( µµµµˆoux ) var(x5) # cálculo da variância amostral ( 22 σσσσˆous ) sd(x5) # cálculo da desvio-padrão amostral ( σσσσˆous ) Retirando-se, ao acaso, 5 amostras de diferentes tamanhos (n = 5, 10 e 40), constata-se que há uma variação nas estimativas (erro de estimação), tanto nas médias como nos desvios padrões. Assim, precisamos conhecer o comportamento das distribuições amostrais das estatísticas: médias, variâncias, proporções, etc. µµµµ = 20 (média populacional ) e σσσσ = 5.0 (desvio-padrão populacional) n = 5 n = 10 n = 40 mean sd mean sd mean sd Amostra 01 23.68685 5.616357 20.57992 4.955696 19.575120 5.423480 Amostra 02 20.19549 6.823957 21.79075 6.422069 19.834050 5.103577 Amostra 03 22.79406 7.353665 20.86891 4.539070 19.984380 4.725706 Amostra 04 20.08150 6.887941 18.74310 4.576508 20.097630 5.347176 Amostra 05 22.50877 5.081862 21.30383 4.371076 20.430010 4.907666
  • 19. 19 ======================================================================================== n = 5 n = 10 n = 40 ========================================================================================
  • 20. 20 5 - DISTRIBUIÇÕES AMOSTRAIS Vimos que o problema da inferência estatística é fazer afirmações sobre os parâmetros da população, através da amostra, na presença da incerteza. Digamos que nossa afirmação deva ser feita sobre um parâmetro da população, θ, por exemplo, a média, a variância ou qualquer outra medida. Decidimos que usaremos uma AAS de n elementos selecionados dessa população. Nossa decisão será baseada na estatística T, que será uma função da amostra (X1, X2, ... , Xn), ou seja, T = f(X1, X2, ... , Xn). Selecionada uma amostra, teremos observado um valor particular de T, digamos to, e com base nesse valor, faremos afirmação sobre o parâmetro populacional θ (desconhecido). Veja a Figura 10.1(a) abaixo. A validade de nossas respostas seria bem compreendida se soubéssemos o que acontece com a estatística T quando retiramos todas as amostras possíveis dessa população, segundo algum plano amostral adotado. Ou seja, qual o comportamento da distribuição da estatística T quando (T1, T2, ... , Tn) assume todos os valores possíveis. Esta
  • 21. 21 distribuição é chamada de distribuição amostral da estatística T e desempenha papel fundamental na teoria da inferência estatística. Esquematicamente, teríamos o procedimento representado na Figura 10.1(b) acima: (i)- uma população X com determinado parâmetro de interesse; (ii)- retiram-se todas as amostras dessa população, segundo algum procedimento amostral (plano amostral); (iii)- de cada amostra, calcula-se o valor t da estatística T; (iv)- os valores t formam uma nova população, cuja distribuição recebe o nome de distribuição amostral da estatística T. Vejamos alguns exemplos simples para entender o conceito de distribuição amostral de uma estatística. Nosso principal objetivo é identificar um modelo que explique bem a distribuição amostral de T. É evidente que a distribuição de T irá depender da distribuição de X e do plano amostral, em nosso caso reduzido AAS. Exemplo 1: Seja X uma população hipotética constituída dos seguintes elementos {1, 2, 2, 3}. Neste caso, temos que a média populacional (µµµµ) e a variância populacional (σσσσ2 ) são dadas por: 02 4 3221 .==== ++++++++++++ ====µµµµ ; 50 4 23222221 2222 2 . )()()()( ==== −−−−++++−−−−++++−−−−++++−−−− ====σσσσ 2 1 2 3 Vamos extrair, aleatoriamente, com reposição, todas amostras de tamanho n = 2 elementos. Então, Nn = 42 = 16 é o número de amostras possíveis para N = 4 e n = 2. (1, 1) (1, 2) (1, 2) (1, 3) (2, 1) (2, 2) (2, 2) (2, 3) (2, 1) (2, 2) (2, 2) (2, 3) (3, 1) (3, 2) (3, 2) (3, 3)
  • 22. 22 Se calcularmos para cada amostra a sua média, n x x n i i∑∑∑∑==== ==== 1 , obtemos a seguinte população de médias para amostras de tamanho n = 2. 2.0 2.0 1.5 2.0 2.5 1.5 2.0 2.5 1.5 2.0 2.5 1.0 1.5 2.0 2.5 3.0 A distribuição de probabilidade da variável aleatória x é dada por: Distribuição Amostral das Médias x 1.0 1.5 2.0 2.5 3.0 P(x) 1/16 4/16 6/16 4/16 1/16 x=c(1,1.5,2,2.5,3) fx=c(1/16,4/16,6/16,4/16,1/16) plot(x,fx,type="h",main="Distribuição de Freqüências",ylab="Freqüências", xlab="Médias",lwd=5,col=2) Calculando-se a média e a variância dessa distribuição, encontramos:
  • 23. 23 E[x] = )x(px i c i i∑∑∑∑==== 1 = 16 1 03 16 1 52 16 1 02 16 1 51 16 1 01 ××××++++××××++++××××++++××××++++×××× ..... = 2.0; E[x2 ] = )x(px i c i i∑∑∑∑==== 1 2 = 16 1 03 16 1 52 16 1 02 16 1 51 16 1 01 22222 ××××++++××××++++××××++++××××++++×××× ).().().().().( = 4.25; Var[x] = E[x2 ] – { E[x]}2 = 4.25 – (2.0)2 = 0.25 Observando os resultados acima, verificamos que E[ x] = µµµµ e Var[ x] = n 2 σ , que é a metade da variância da população, pois n = 2. Essas relações importantes podem ser constatadas pelos teoremas abaixo: Teorema 1: Se a população é infinita, ou se a amostragem é com reposição, então, a média e a variância da distribuição amostral das médias são dadas por: E[ x] = µ e Var[x] = n 2 σ Teorema 2: Se a população é finita, ou se a amostragem é sem reposição, a média e a variância da distribuição amostral das médias são dadas por: E[x] = µ e Var[x] =       −−−− −−−− ×××× 1 2 N nN n σ Exercício 1: Verifique o Teorema 2 numericamente, utilizando os dados do Exemplo 1. Obs 1: a expressão (N - n)/(N - 1) é denominada fator de correção para população finita. Obs 2: Quando retiramos uma amostra pequena de uma população com tamanho muito maior, ou seja, n << N, é indiferente o uso de fator de correção para população finita, pois o erro é muito pequeno.
  • 24. 24 3.1- Distribuição Amostral das Médias ( 2 σ - Conhecido) Teorema 3: Seja X uma variável aleatória normalmente distribuída com média µ (desconhecida) e variância 2 σ (conhecido). Suponha que (X1, X2, ... , Xn) seja uma amostra aleatória independente retirada dessa população. Então,       n ,N~x 2 σ µ e ),(N~ n/ x z 10 σ µ−−−− ==== (caso infinito)           −−−− −−−−σσσσ µµµµ 1 2 N nN n ,N~x e ),(N~ N nN n x z 10 1−−−− −−−−σσσσ µµµµ−−−− ==== (caso infinito) 3.2 - Distribuição Amostral das Médias ( 2 σ - desconh. – n ≥ 40) Teorema 4: Seja X uma variável aleatória normalmente distribuída com média µ e variância 2 σ (desconhecido). Suponha que (X1, X2, ... , Xn) seja uma amostra aleatória independente retirada dessa população. Então, para n suficientemente grande (n → ∞), ),(N~ n/s x z 10& µµµµ−−−− ==== (caso infinito) ),(N~ N nN n s x z 10 1 & −−−− −−−− µµµµ−−−− ==== (caso infinito) Teorema 5: (Teorema Central do Limite) Considere uma amostra aleatória e independente (Xl, X2, ... , Xn) retirada de uma população com média µ e variância 2 σ finita (note que a distribuição da variável aleatória não é especificada), então: ∞∞∞∞→→→→ σσσσ µµµµ−−−− nquando),(N~ n/ x 10&
  • 25. 25 O teorema 5 diz que para n suficientemente grande, a distribuição amostral da média, devidamente padronizada, se comporta segundo a distribuição normal padrão. Na prática podemos dizer que as aproximações são razoáveis quando n > 40. Exemplo 2: Uma variável aleatória X tem distribuição normal, com média 100 e desvio padrão 10. (a) Qual a probabilidade de X estar entre 90 e 110? (b) Se x for a média de uma amostra de 16 elementos retiradas dessa população, calcule a probabilidade de x estar entre 90 e 110. (c) Que tamanho deveria ter a amostra para que P(90 < x < 110) = 0.95? Exemplo 3: Uma fabrica produz 50000 válvulas cuja duração em condições normais, segue distribuição normal com média de 800 horas e desvio padrão de 100 horas. Um comprador quer saber qual a probabilidade de, numa amostra aleatória de 400 válvulas, a durabilidade média seja de no máximo 700 horas? Exemplo 4: Numa certa cidade, a duração de conversas telefônicas (em minutos) originadas de telefones públicos, tem média igual a 3 e variância igual a 9. Observando-se uma amostra aleatória de n = 50 dessas chamadas, qual será a probabilidade delas, em média, não ultrapassarem 4 minutos? )x(P 4≤≤≤≤ =       −−−− ≤≤≤≤ −−−− 503 34 / )( n/ x P σ µ = 0.9909. Ou seja, é praticamente certo que a média estará abaixo de 4 minutos.
  • 26. 26 3.3- Distribuição Amostral das Proporções Uma importante aplicação do Teorema Central do Limite relaciona-se com a distribuição amostral das proporções. Suponha que X ~ B(n, p), sendo que X = Sn representa a quantidade de indivíduos que apresentam uma característica "A" de interesse na amostra e p é a proporção amostral calculada por: n S n X pˆ n ======== Observe que, E[pˆ ] = p e Var[pˆ ] = n )p(p −−−−1 . Assim, de acordo com o TCL, pˆ terá distribuição aproximadamente normal com média p e variância n )p(p −−−−1 quando ∞∞∞∞→→→→n , ou seja,       −−−− n )p(p ,pN~pˆ 1 & que é a distribuição amostral das proporções. Neste caso, temos que: )X(V ]X[EX z −−−− ==== = )p(np npX −−−− −−−− 1 = ),(N~ n )p(p ppˆ 10 1 & −−−− −−−− quando ∞∞∞∞→→→→n , Teorema 6: (Teorema Moivre-Laplace). Sejam (X1, X2, ... , Xn) variáveis aleatórias independentes e identicamente distribuídas com média p e variância pq, ou seja, Xi ~ B(1, p). Seja também Sn = ∑∑∑∑ ==== n i iX 1 = X = X1 + X2 + . . . + Xn, onde, E[Sn] = E[X] = np e V[Sn] = E[X] = npq = np(1 – p). Neste caso, Sn = X ~ B(n, p). Então, para n suficientemente grande (n → ∞), Zp = ))p(np npSn −−−− −−−− 1 = ),(N~ n )p(p ppˆ 10 1 & −−−− −−−−
  • 27. 27 Vejamos a constatação desse resultado com exemplos. a=30 n1=10; p1=0.20 n2=10; p2=0.5 x1=rbinom(a,n1,p1) z1=((x1/n1)-p1)/(sqrt((p1*(1-p1))/n1)) x2=rbinom(a,n2,p2) z2=((x2/n2)-p2)/(sqrt((p2*(1-p2))/n2)) par(mfrow=c(2,2)) hist(x1);hist(z1) hist(x2);hist(z2) shapiro.test(z1); shapiro.test(z2) Shapiro-Wilk normality test data: z1 W = 0.9268, p-value = 0.04043 Shapiro-Wilk normality test data: z2 W = 0.9616, p-value = 0.3408 Hipótese testada pelo teste de Shapiro-Wilk. HO: os dados seguem o comportamento da Distribuição Normal (Hipótese nula) HA: os dados não seguem a Distribuição Normal (Hipótese Alternativa) Critério de Decisão Se p-value < 0.05, rejeita-se a hipótese HO e conclui-se que, ao nível de significância αααα = 5% (0.05), os dados amostrais não seguem o comportamento da distribuição normal. Caso contrário, aceita-se a hipótese HO.
  • 28. 28 a=30 n1=30; p1=0.20 n2=30; p2=0.5 x1=rbinom(a,n1,p1) z1=((x1/n1)-p1)/(sqrt((p1*(1-p1))/n1)) x2=rbinom(a,n2,p2) z2=((x2/n2)-p2)/(sqrt((p2*(1-p2))/n2)) par(mfrow=c(2,2)) hist(x1);hist(z1) hist(x2);hist(z2) shapiro.test(z1); shapiro.test(z2) Shapiro-Wilk normality test data: z1 W = 0.9613, p-value = 0.3350 Shapiro-Wilk normality test data: z2 W = 0.9828, p-value = 0.8938
  • 29. 29 Exemplo 5: Seja X uma população hipotética formada por duas mulheres e um homem; S = {M1, M2, H}. Suponha que p seja a proporção de mulheres na população (característica de interesse). Logo, p = 2/3 é a probabilidade de ocorrência de mulheres e (1 - p) = 1/3 é a probabilidade de ocorrência de um homem na população, respectivamente. Vamos retirar todas as amostras possíveis de tamanho 2 (n = 2), com reposição, e calculemos para cada amostra a estimativa (pˆ ) de p para a proporção de mulheres na população. Distribuição Amostral da Proporção de Mulheres na População Amostras M1M1 M1M2 M1H M2M1 M2M2 M2H HM1 HM2 HH pˆ 1 1 1/2 1 1 1/2 1/2 1/2 0 Logo, a distribuição amostral da proporção amostral de mulheres é dada por: pˆ 0 1/2 1 p(pˆ ) 1/9 4/9 4/9
  • 30. 30 x=c(0,0.5,1) fx=c(1/9,4/9,4/9) plot(x,fx,type="h",main="Distribuição de Freqüências",ylab="Freqüências", xlab="Proporção",lwd=5,col=2) E[pˆ ] = )pˆ(ppˆ i c i i∑∑∑∑==== 1 = 9 1 0×××× + 9 4 2 1 ×××× + 9 4 01 ××××. = 3 2 ; E[pˆ 2 ] = )pˆ(ppˆ i c i i∑∑∑∑==== 1 2 = 9 1 02 ×××× + 9 4 2 1 2 ××××      + 9 4 12 ×××× = 9 5 ; Var[pˆ ] = E[pˆ 2 ] – { E[pˆ ]}2 = 9 5 – 2 3 2       = 9 1 Portanto, usando-se o Teorema Central do Limite, temos: E[pˆ ] = p = 2/3 e Var[pˆ ] = p(l - p)/n = (2/3)(1/3)/2 = 1/9 Observação: Quando a população é finita aqui também é conveniente considerar o fator de correção (N - n)/(N - 1). Verifique!! Exemplo 6: Suponha que a proporção de peças fora de especificação em um lote é de 40%. Se for retirada uma amostra aleatória e independente de tamanho n = 50, qual é probabilidade dessa amostra fornecer uma proporção de peças defeituosas menores que 0.50?
  • 31. 31 A probabilidade pode ser calculada de forma exata e aproximada pela distribuição Normal. Seja X: número de peças defeituosas na amostra X ~ B(n = 50, p = 0.40). P(pˆ < 0.50) = P( 50 X < 0.50) = P(X < 25) = 0.9021926. = pbinom(24,50,0.40) = 0.9021926 (Usando R) Considerando aproximação Normal, temos que: P(pˆ <0.50) =             −−−− −−−− <<<< −−−− −−−− 50 4001400 400500 1 ).(. .. n )p(p ppˆ P = P(Z < 1.44) = 0.9250663. Distribuição Qui-Quadrado ( 2 )k(χχχχ ) A distribuição qui-quadrado, 2 )k(χχχχ , é uma distribuição importante usada, principalmente, como uma aproximação em várias estatísticas tais como: testes de aderência, testes de independência e testes de homogeneidade. Definição: Diz-se que a v.a. contínua X tem Distribuição qui-quadrado com k graus de liberdade, se a sua f.d.p. é dada por:        ≤≤≤≤ >>>>>>>>       ΓΓΓΓ==== −−−−      −−−− 00 00 2 2 2 2 1 2 xse, k;xse, k ex )x(f k xk
  • 32. 32 plot(function(x) dchisq(x,1),xlim=c(0,10),ylab="f(x)") plot(function(x) dchisq(x,2),xlim=c(0,10),add=T,col="2") plot(function(x) dchisq(x,3),xlim=c(0,10),add=T,col="3") plot(function(x) dchisq(x,4),xlim=c(0,10),add=T,col="4") legend(6.5,1,c("dchisq(x,1)","dchisq(x,2)","dchisq(x,3)","dchisq(x, 4)")) 0 2 4 6 8 10 0.00.20.40.60.81.01.2 x f(x) dchisq(x,1) dchisq(x,2) dchisq(x,3) dchisq(x,4) Propriedades: i). E(X) = k ii). Var(X) = 2k iii). A distribuição qui-quadrado se encontra Tabelada para valores de k ≤ 30. Para valores de k > 30 podemos usar o resultado, 2 χχχχ Z = 1)N(0,k2X2 ~&−−−− Significa que se a variável aleatória X tem distribuição qui-quadrado, então, quando k tende para o infinito (k > 30), 2 χχχχ Z tende para N(0, 1). Exemplo 7: Para ilustrar a aproximação, suponha que X ~ 2 30)(χχχχ . A Tabela indica que, P(X > 43.77) = 0.05.
  • 33. 33 1-pchisq(43.77297,30) [1] 0.05000002 qchisq(1-0.05,30) (Usando R) [1] 43.77297 Através da aproximação normal, podemos calcular: P(X > φ) ≈ )]k)kx[(P 2222 −−−−φφφφ>>>>−−−− P(X > 43.77) ≈ ])().(Z[P]kZ[P 3027729743222 22 −−−−>>>>====−−−−φφφφ>>>> χχχχχχχχ P(X > 43.77) ≈ ].Z[P 6112 >>>> = 0.0570 [1-pnorm(1.61)= 0.053698] Teorema 7: Sejam Z1, Z2, … , Zk variáveis aleatórias independentes com Zi ~ N(0, 1). Então, a variável W = 22 2 2 1 kZ...ZZ ++++++++++++ tem distribuição qui-quadrado com k graus de liberdade. Notação: W ~ 2 )k(χχχχ , se lê : W tem distribuição qui-quadrado com k graus de liberdade (g.l.). Uso da tabela: p)(P k,p ====>>>> 22 χχ p,k
  • 34. 34 Exemplos: χχχχ2 0,05 ;18 = 28.8693 χχχχ2 0.025 ;29 = 45.7222 χχχχ2 αααα ;10 tal que P(χχχχ2 > χχχχ2 αααα ;10 ) = 0.025 ⇒ χχχχ2 αααα ;10 = 20.4831 χχχχ2 αααα ;20 tal que P(χχχχ2 ≤ χχχχ2 αααα ;20) = 0.95 ⇒ χχχχ2 αααα ;20 = 10.851 Propriedades de Reprodutividade: • Se χχχχ2 (m) e χχχχ2 (n) são independentes: χχχχ2 (m) + χχχχ2 (n) ~ χχχχ2 (m+n) • Se (X1, X2, … , Xn ) é uma amostra aleatória de X ~ N(µ, σ2 ), então: (i) 2 )(2 1 2 ~ )µ( n n i iX U χ σ − = ∑ = (ii) 2 )1( 2 ~ / χ      σ µ− = n x Z (iii) 2 )1(2 1 2 2 2 ~ )x( )1( − = χ σ − = σ − = ∑ n n i iX sn V 3.3 - Distribuição Amostral da Variância Tomando-se todas as amostras aleatórias possíveis, de tamanho n, de uma população e calculando a variância de cada amostra, obtemos a distribuição amostral da variância. Porém, é mais conveniente determinar a distribuição amostral da variável aleatória relacionada à variância amostral.
  • 35. 35 Teorema 8: Seja (X1, X2, … , Xn ) uma amostra aleatória obtida de uma população com distribuição normal, X ~ N(µ, σ2 ). Então, a estatística (ou quantidade pivotal) da distribuição amostral da variância, tem distribuição qui-quadrado com (n - 1) graus de liberdade, ou seja, V = 2 )1(2 2 ~ )1( −χ σ − n sn Neste caso, 1 1 2 2 −−−−====      σσσσ −−−− ==== n s)n( E]V[E ⇒ E[ 2 s ] = 2 σσσσ )n( s)n( V]V[V 12 1 2 2 −−−−====      σσσσ −−−− ==== ⇒ V[ 2 s ] = 1 2 4 −−−− σσσσ n Distribuição t-Student Definição: Diz-se que a variável aleatória contínua X tem distribuição t-student com k graus de liberdade, se a sua f.d.p. é dada por: ∞+<<∞−+ π      Γ +Γ = +− tse,)k/t1( k 2 k ]2/)1(k[ f(x) 2/)1(2 k Teorema 9: Sejam Z ~ N(0, 1) e 2 )(~ kV χ , Z e V são independentes. Então: (k)t~ V/k Z T = .
  • 36. 36 Propriedades: (i) E(T) = 0 e Var(T) = 2K k − , se k > 2. (ii) Se (X1, X2, … , Xn) é uma amostra aleatória independente de uma população X ~ N(µ, σ2 ), então: n x Z /σ µ− = ~ N(0, 1) e 2 2 )1( σ − = sn V ~ χχχχ2 (n-1) , logo: ns x n sn n x nV Z T / )1/( )1( / )1/( 2 2 µ− = −      σ − σ µ− = − = ~ t(n-1) (iii) A curva é simétrica entorno de 0, porém com caudas mais pesadas que a distribuição Normal. Uso da tabela:
  • 37. 37 Exemplos: (a) t(0,025 ; 10) = 2,2281 (b) t(0,05 ; 20) = 1,7247 (c) t(0,95 ; 15) = - t(0,05 , 15) = - 1,7531 (d) Encontre t(αααα ; 10) tal que : P(t > t(αααα ; 10)) = 0,05 ⇒ t(αααα ; 10) = 1,8125. 3.4 - Distribuição Amostral das Médias ( 2 σ - desconh. – n < 40) Teorema 10: Seja X uma variável aleatória normalmente distribuída com média µ (desconhecido) e variância 2 σ (também desconhecido). Suponha que (X1, X2, ... , Xn) seja uma amostra aleatória independente retirada dessa população. Então, para n suficientemente pequeno, temos a seguinte quantidade pivotal: }1{~ / − µ− = nt ns x T 3.5 - Distribuição Amostral das Médias das Diferenças ( DIFµ ) (Amostras Dependentes, Relacionadas ou Pareadas) Em estudos chamados pareados ou relacionados, temos uma amostra aleatória independente avaliada duas vezes, antes e após (ou lado direito e lado esquerdo). Neste caso, a suposição de que as amostras são independentes não é razoável. Tais situações ocorrem, por exemplo, em estudos de avaliações mensuradas antes e após um tratamento, no mesmo indivíduo (ou na mesma unidade amostral). Como esperado, as duas mensurações dentro do mesmo indivíduo, são mais prováveis de serem similares e, portanto, não podem ser consideradas estatisticamente independentes.
  • 38. 38 Assim, as observações pareadas são representadas pelas variáveis aleatórias: X11, ... , X1n : medida 1 (antes) X21, ... , X2n : medida 2 (após) e nesse caso, devemos trabalhar com as diferenças entre as medidas de cada par como, iii XXd 12 −−−−==== , i = 1, ... , n. Temos agora uma amostra aleatória independente das diferenças e assumindo que d1, ... , dn ~ N( DIF µ , 2 DIFσσσσ ), podemos usar os métodos das quais já estamos familiarizados. Neste caso, n d d n i i∑ = = 1 →→→→ Média amostral das diferenças 1 )( 1 2 2 − − = ∑ = n dd s n i i DIF → Variância amostral das diferenças 2 DIFDIF ss = → Desvio padrão amostral das diferenças Teorema 11: Seja D uma variável aleatória normalmente distribuída com média DIFµµµµ e variância 2 DIFσσσσ (conhecido). Suponha também que (d1, d2, ... , dn) seja uma amostra aleatória independente das diferenças entre as mensurações, retirada dessa população. Então, as distribuições amostrais das médias das diferenças são dadas por:         σσσσ µµµµ n ,N~d DIF DIF 2 e ),(N~ n/ d z DIF DIF DIF 10 σσσσ µµµµ−−−− ==== (caso infinito)             −−−− −−−−σσσσ µµµµ 1 2 N nN n ,N~d DIF DIF e ),(N~ N nN n d z DIF DIF DIF 10 1−−−− −−−−σσσσ µµµµ−−−− ==== (caso infinito)
  • 39. 39 3.5 - Distribuição Amostral para Diferença entre Médias de Duas Populações Independentes (a) Populações Normais e variâncias conhecidas Suponha que agora temos duas populações independentes, a primeira com média 1µµµµ e variância 2 1σσσσ e a segunda com média 2µµµµ e variância 2 2σσσσ . Seja 1x a média amostral de tamanho n1 retirada da primeira população, e seja 2x a média amostral de tamanho n2 retirada da segunda população, ambas independentemente. (i) Se as duas populações têm distribuições normais, temos que:         σσσσ ++++ σσσσ µµµµ−−−−µµµµ−−−− 2 2 2 1 2 1 2121 nn ,N~xx Assim, ),(N~ nn )()xx( Z xx 10 2 2 2 1 2 1 2121 21 σσσσ ++++ σσσσ µµµµ−−−−µµµµ−−−−−−−− ====−−−− (ii) Se as duas populações não são Normais, porém n1 e n2 são ambas suficientemente "grandes" ( ≥ 40): )n,n(quando),(N~ nn )()xx( ∞∞∞∞→→→→∞∞∞∞→→→→ σσσσ ++++ σσσσ µµµµ−−−−µµµµ−−−−−−−− 21 2 2 2 1 2 1 2121 10&
  • 40. 40 Exemplo 8: Os tubos de televisão das fábricas A e B têm as seguintes características (em anos): Tubo A Tubo B µA = 6,5 µB = 6,0 σA = 1,0 σB = 1,2 Determine a probabilidade de, uma amostra aleatória de 64 tubos da marca A ter vida média maior que a vida média de 81 tubos da marca B, em pelo menos 0.91 anos? 50656 ..BABXAX ====−−−−====−−−−====−−−− µµµ 0.0304 81 21 64 122 2 ====++++====++++====−−−− . nn B B A A BXAX σσ σ ) . .. Z(P).XX(P BA 03040 50910 910 −−−− >>>>====>>>>−−−− = 2.35)P(Z-12.35) ≤≤≤≤====>>>>Z(P = 009400.9906-1 .==== (b) Populações Normais e variâncias desconhecidas Se as variâncias são desconhecidas, mas ambas são iguais: HO: 22 2 2 1 σσσσ====σσσσ====σσσσ (Hipótese) Então, temos que: ),(N~ nn )()xx( Z 10 11 21 2121 ++++σσσσ µµµµ−−−−µµµµ−−−−−−−− ==== Temos ainda que, 2 12 2 11 1 1 )n(~ s)n( −−−−χχχχ σσσσ −−−− e 2 12 2 2 21 )n(~ s)n( −−−−χχχχ σσσσ −−−− são ambas independentes, então:
  • 41. 41 2 22 2 11 2 2 11 21 11 )nn(~ s)n(s)n( −−−−++++χχχχ σσσσ −−−− ++++ σσσσ −−−− Assim, sob a hipótese de variâncias iguais, podemos calcular uma estimativa da variância amostral ponderada, dada por: 2 11 21 2 22 2 112 −−−−++++ −−−−++++−−−− ==== nn s)n(s)n( sp Neste caso, temos que: 2 22 2 21 21 2 )nn( p ~ s)nn( −−−−++++χχχχ σσσσ ++++++++ , logo: )nn( p p t~ nn s )()xx( )nn/( s)nn( nn /)]()xx[( T 2 21 2 2121 212 2 21 21 2121 21 11 2 2 11 −−−−++++       ++++ µµµµ−−−−µµµµ−−−−−−−− ==== ++++++++         σσσσ ++++++++ ++++σσσσµµµµ−−−−µµµµ−−−−−−−− ==== (c) Populações normais, mas variâncias desconhecidas e diferentes (Ho: 2 2 2 1 σσ ≠≠≠≠ ) (Quantidade pivotal aproximado) A violação da hipótese de variâncias iguais ( 22 2 2 1 σσσσ====σσσσ====σσσσ ) induz a um sério problema teórico, uma vez que não será possível encontrar uma quantidade pivotal para a diferença entre duas médias com distribuição teórica conhecida. Mesmo assim, se o pesquisador tem interesse em estudar o parâmetro 21 µµµµ−−−−µµµµ , deve levar em conta o problema de ordem teórica na interpretação dos resultados quando existe diferença substancial entre 2 1 σ e 2 2 σ . A literatura estatística apresenta vários métodos para resolver este problema, mas nenhum deles é completamente satisfatório. Um
  • 42. 42 procedimento possível (e aproximado) consiste em utilizar a estatística pivotal: (((( )))) (((( )))) )( .aprox t~ n s n s XX t νννν ++++ µµµµ−−−−µµµµ−−−−−−−− ==== 2 2 2 1 2 1 2121 sendo )n( n s )n( n s n s n s 11 2 2 2 2 2 1 2 1 2 1 2 2 2 2 1 2 1 −−−−         ++++ −−−−                 ++++ ====νννν Distribuição F de Snedecor Definição: Diz-se que a variável aleatória contínua X tem distribuição F de Snedecor, com n1 e n2 graus de liberdade, se a sua f.d.p. é dada por: 0 12 n 2 n 2 (n f(x) 2 2 1 2 2 2 2 1 21 21 21 11 >>>>       ++++             ΓΓΓΓ      ΓΓΓΓ     ++++ ΓΓΓΓ ==== ++++ −−−− x, x n n x n n )n )nn( )n(n Teorema 12: Sejam U e V duas variáveis aleatórias independentes, cada uma com distribuição qui-quadrado, n1 e n2 graus de liberdade, respectivamente. Então, 2 1 n/V n/U F ==== tem distribuição F de Snedecor com n1 e n2 graus de liberdade.
  • 43. 43 F{0,01; 4; 9} = 6.422 F{0,05; 15; 10} = 2,845 Propriedades: (i) – E[X] = 22 2 ++++n n e V[X] = )n()n(n )nn(n 42 22 2 2 21 21 2 2 −−−−−−−− −−−−++++ (ii) – Para encontrar os valores inferiores, pois a distribuição não é simétrica, usa-se a identidade }n;n;{ }n;n;{ F F 12 21 1 1 αααα αααα−−−− ==== (iii) – Se as variáveis aleatórias 2 12 2 11 1 1 )n(~ s)n( U −−−−χχχχ σσσσ −−−− ==== e 2 12 2 22 2 1 )n(~ s)n( V −−−−χχχχ σσσσ −−−− ==== são independentes, então: )n,n(F~ /S /S )n( S)n( )n( S)n( F n V n U 11 1 1 1 1 212 2 2 2 2 1 2 1 22 2 2 22 12 1 2 11 1 1 2 1 −−−−−−−− σσσσ σσσσ ==== −−−− σσσσ −−−− −−−− σσσσ −−−− ======== −−−− −−−− Veja as demonstrações formais dos teoremas 8, 10 e 12. (Somente Leitura, mas em Cálculo de Probabilidades, deve saber demonstrar).
  • 44. 44 Teorema 13: Sejam X1, X2, ... , Xn v.as. independentes e identicamente distribuídas (iid) tendo N(µ, σ2 ). Então, V = 2 )1n( n 1i 2 i 2 2 ~ xxs)1n( −−−− ==== χχχχ      σσσσ −−−− ==== σσσσ −−−− ∑∑∑∑ Prova: 2 n 1i i 2 n 1i i )]x()xx[()x( µµµµ−−−−++++−−−−====µµµµ−−−− ∑∑∑∑∑∑∑∑ ======== = })x()x()xx(2)xx{( 2 i 2 n 1i i µµµµ−−−−++++µµµµ−−−−−−−−++++−−−−∑∑∑∑ ==== onde, ∑∑∑∑ ∑∑∑∑∑∑∑∑∑∑∑∑ ==== ============ µµµµ++++−−−−µµµµ−−−−====µµµµ++++−−−−µµµµ−−−−====µµµµ−−−−−−−− n 1i 2 n 1i ii n 1i 2 ii n 1i i xnxnxxx)xxxxx()x()xx( = xnxnxnxnx 2 µµµµ++++−−−−µµµµ−−−− = 0 nesse caso, ∑∑∑∑∑∑∑∑∑∑∑∑ ============ µµµµ−−−−++++−−−−====µµµµ−−−− n 1i 22 n 1i i 2 n 1i i )x()xx()x( e 22n 1i i 2n 1i 2n 1i i 2n 1i i n/ xxxxxxx       σσσσ µµµµ−−−− ++++      σσσσ −−−− ====      σσσσ µµµµ−−−− ++++      σσσσ −−−− ====      σσσσ µµµµ−−−− ∑∑∑∑∑∑∑∑∑∑∑∑∑∑∑∑ ================ U = V + 2 xZ Logo, ]e[E)t(M)t21()t(M )Z xx (t )Z xx ( 2/n U 2 X 2n 1i i 2 X 2n 1i i ++++∑∑∑∑       σσσσ −−−− ++++∑∑∑∑       σσσσ −−−− −−−− ==== ==== ========−−−−==== = )Z(t xx t 2 X 2n 1i i e[E].e[E ∑∑∑∑       σσσσ −−−− ==== = )t(M).t(M 2 X 2n 1i i Zxx ∑∑∑∑       σσσσ −−−− ==== = 2/1 xx )t21).(t(M 2n 1i i −−−− ∑∑∑∑       σσσσ −−−− −−−− ==== Portanto, 2 )1n( 2/12/n xx )t21()t21()t21()t(M 2n 1i i −−−− −−−− −−−− ∑∑∑∑       σσσσ −−−− −−−−====−−−−−−−−==== ==== c.q.d
  • 45. 45 Teorema 14: Seja o par (X, Y) vetor aleatório contínuo com f.d.p. conjunta fxy(x, y). Sejam Z = H1(X, Y) e W = H2(X, Y) funções de variáveis aleatórias satisfazendo as seguintes condições: (a) - As equações z = H1(x, y) e w = H2(x, y) podem ser resolvidas univocamente para x e y, em termos de z e w, isto é, existem as transformações inversas, x = H1 -1 (z, w) e y = H2 -1 (z, w) (b) - As derivadas parciais ∂x/∂z, ∂x/∂w, ∂y/∂z e ∂y/∂w existem e são contínuas. (c) – O Jacobiano da transformação inversa, J(z, w) = det       ∂∂∂∂ ∂∂∂∂ w/yz/y w/xz/x , é diferente de zero para (z, w), dentro de amplitude da transformação. Então, o vetor aleatório (Z, W) tem f.d.p. conjunta dada por: fzw(z, w) = fxy{H1 -1 (z, w), H2 -1 (z, w)}.| J(z, w) | Teorema 2: Se Z ~ N(0, 1), W ~ 2 )k(χχχχ e se Z e W são independentes, então a v.a k/W/ZT==== tem distribuição t–student com k graus de liberdade. Prova: Vejamos a distribuição conjunta de Z e W. Como Z e W são independentes, temos: fzw(z, w) = fz(z).fw(w) =               ΓΓΓΓ        ππππ −−−−−−−− −−−− 2/w1)2/k( 2/k 2 z ew 2 1 )2/k( 1 .e 2 1 2 , -∞ < z < +∞ , w > 0 Faça a transformação: t = H1(z, w) = k/W/Z y = H2(z, w) = w (variável auxiliar) z = H1 -1 (t, y) = t).k/y( w = H2 -1 (t, y) = y
  • 46. 46 O Jacobiano J(t, y) = det       ∂∂∂∂∂∂∂∂∂∂∂∂∂∂∂∂ ∂∂∂∂∂∂∂∂∂∂∂∂∂∂∂∂ y/wt/w y/zt/z = det         ∂∂∂∂ ∂∂∂∂ 10 y z k/y = k/y . A f.d.p. conjunta de (t, y) é dada por: Fty(t, y) = fty{H1 -1 (t, y), H2 -1 (t, y)}.| J(t, y) | fty(t, y) = k y ey 2 1 )2/k( 1 .e 2 1 2/y1)2/k( 2/k t k y 2 1 2               ΓΓΓΓ        ππππ −−−−−−−− −−−− , -∞ < t < +∞ , y > 0 A f.d.p. marginal de t é obtida por: fT(t) = dyey 2 1 )2/k( 1 k2 1 0 1 k t y 2 1 1 2 1k2/k 2 ∫∫∫∫ ∞∞∞∞         ++++−−−−      −−−− ++++       ΓΓΓΓππππ Fazemos mudança de variável         ++++==== 1 k t y 2 1 u 2 ⇒ 12 1 k t u2y −−−−         ++++==== ⇒ du1 k t 2dy 12 −−−−         ++++==== y = 0 → u = 0 ; y = + ∞ → u = + ∞ Assim, fT(t) = du1 k t 2e1 k t u2 2 1 )2/k( 1 k2 1 12 0 u 1 2 1k 122/k −−−−∞∞∞∞ −−−−       −−−− ++++ −−−−         ++++                 ++++      ΓΓΓΓππππ ∫∫∫∫ fT(t) = dueu1 k t 2 2 1 )2/k( 1 k2 1 0 u 1 2 1k 2 1k 2 2 1k2/k ∫∫∫∫ ∞∞∞∞ −−−−       −−−− ++++      ++++ −−−−       ++++         ++++      ΓΓΓΓππππ
  • 47. 47 fT(t) = ]2/)1k([1 k t 2 )2/k( 1 k2 1 2 1k 2 2 1 ++++ΓΓΓΓ        ++++ ΓΓΓΓππππ       ++++ −−−− , - ∞∞∞∞ < t < + ∞∞∞∞ fT(t) =       ++++         ++++ ππππΓΓΓΓ ++++ΓΓΓΓ 2 1k 2 1 k t 1 k 1 )2/k( ]2/)1k([ , - ∞∞∞∞ < t < + ∞∞∞∞ que é a f.d.p. de uma v.a. que tem distribuição t-student com k graus de liberdade. Teorema 15: Se U ~ 2 )m(χχχχ , V ~ 2 )n(χχχχ e se U e V são independentes, então a v.a. n/V m/U X ==== tem distribuição F-Snedecor com m e n graus de liberdade. Prova: Vejamos a distribuição conjunta de U e V. Como U e V são independentes, temos: fUV(U, V) = fU(u).fV(v) =                 Γ                Γ −−−− 2/1)2/( 2/ 2/1)2/( 2/ 2 1 ) 2 ( 1 . 2 1 ) 2 ( 1 vn n um m ev n eu m I{0, ∞}(u) × I{0, ∞}(v); - ∞ < U < +∞ ; -∞ < V < +∞. Faça a transformação: x = H1(u, v) = nV mU / / y = H2(u, v) = v (variável auxiliar) u = H1 -1 (x, y) = vx n m v = H2 -1 (x, y) = y O Jacobiano J(x, y) = det       ∂∂∂∂ ∂∂∂∂ yvxv yuxu // // = det         10 0v n m = v n m . A f.d.p. conjunta de (x, y) é dada por: fxy(x, y) = fxy{H1 -1 (x, y), H2 -1 (x, y)}.| J(x, y) |
  • 48. 48 fxy(x, y) = ( ) y n m eyxy n m nm yxy n m n mnm                       ΓΓ       +− − − + 2 1 1 2 1 22 2 1 )2/( 1 )2/( 1 , -∞ < t < +∞ , y > 0 = ( ) ( )                 ΓΓ             +− − + − + 1 2 1 1 2 1 2 22 2 1 )2/( 1 )2/( 1 x n m ynmm nmm eyx nmn m A f.d.p. marginal de x é obtida por: fx(x) = ( ) ( ) dyeyx nmn m x n m ynmm nmm ∫ ∞       +− − + − +       ΓΓ       0 1 2 1 1 2 1 2 22 2 1 )2/( 1 )2/( 1 Fazemos mudança de variável       += 1 2 1 x n m yz ⇒ 1 12 −       += x n m zy ⇒ dzx n m dy 1 12 −       += y = 0 → z = 0 ; y = + ∞ → z = + ∞ Assim, fx(x) = ( ) ( ) dzx n m ex n m zx nmn m z nm nmm nmm 1 0 1 21 2 1 2 22 1212 2 1 )2/( 1 )2/( 1 − ∞ −       − + − − + − + ∫       +      +      ΓΓ       = ( ) dzez x n m x n m nm z nm nm mm ∫ ∞ − − + + −       +       ΓΓ 0 1 2 2 1 22 1 )2/( 1 )2/( 1 fx(x) = ( ) ∞<<            + ΓΓ + Γ + − xpara n m x n m x nm nm m nm m 0 1 ) 2 () 2 ( ) 2 ( 2 2 1 2 que é a f.d.p. de uma v.a. que tem distribuição F com m e n graus de liberdade.