Testes de hipoteses

Testes de hipóteses
Vamos usar a informação da amostra para nos pronunciarmos sobre
armações relativas à distribuição e/ou a parâmetros desconhecidos
de uma população, i.e., para decidirmos entre opções alternativas
apresentadas acerca de parâmetros ou da forma da v.a. de interesse.
Um teste de hipótese é um procedimento estatístico que permite
decidir se uma dada hipótese é ou não suportada pela informação
fornecida pelos dados de uma amostra.
Uma hipótese estatística é uma conjectura sobre aspectos
desconhecidos da população (que podem ser parâmetros ou a forma
da distribuição).

Testes de hipóteses paramétricos
Se a hipótese diz respeito:
a um parâmetro, supondo conhecida a forma da distribuição, a
hipótese diz-se paramétrica.
à forma da distribuição ou um parâmetro, sem admitir o
conhecimento da forma da distribuição, a hipótese diz-se não
paramétrica.
De um modo geral confrontamos duas hipóteses paramétricas:
a hipótese nula, representada por H0, que especica um
conjunto de valores do parâmetro e que esperamos rejeitar (é
considerada verdadeira até haver evidência estatística para a sua
rejeição);
a hipótese alternativa, representada por H1, que especica um
conjunto de valores que se pretende que o parâmetro verique.

Chama-se espaço paramétrico ao conjunto de todos os valores
possíveis para o parâmetro desconhecido θ, que denotamos por Θ.
Às hipóteses nula e alternativa estão associados 2 subconjuntos
disjuntos de Θ:
H0 atribui ao parâmetro valores em Θ0 ⊂ Θ;
H1 atribui ao parâmetro valores em Θ1 ⊂ ΘΘ0.
Em termos formais, as hipóteses estatísticas escrevem-se:
H0 : θ ∈ Θ0 vs H1 : θ ∈ Θ1.
Nota: As hipóteses de H0 e H1 nada têm a ver com os valores da
amostra, em particular com a estimativa do parâmetro θ.

É usual que os fabricantes façam armações acerca dos seus produtos.
Exemplo: Um fabricante lança no mercado certa marca de baterias,
sobre as quais arma que
a duração das baterias tem distribuição normal
de média 1000 dias e desvio padrão 100 dias.
Um potencial cliente, que necessita de baterias de acordo com essas
especicações, assiste à reclamação por parte doutro cliente armando
que
a duração média das baterias não é a publicitada.
Problema: Neste confronto de opiniões, o cliente ca na dúvida,
deve ou não encomendar as baterias?
Com base num teste de hipótese, a Estatística ajuda-lo-á a tomar
uma decisão!!

Neste problema, a v.a. de interesse é
X = duração, em dias, de uma bateria dessa marca
tal que
X ∼ N(µ, 100), com µ ∈ R+
desconhecido.
Confronto de opiniões/hipóteses a testar (compromisso entre o
fabricante e o consumidor):
H0 : µ = 1000 vs H1 : µ = 1000
Consoante a natureza da reclamação, há outras possibilidades para a
hipótese alternativa H1:
H1 : µ 1000 (ponto de vista do consumidor)
ou
H1 : µ 1000 (ponto de vista do fabricante)

Uma hipótese paramétrica diz-se:
simples, se especica um único valor para o parâmetro;
Exemplo: H0 : µ = 1000 (Θ0 = {1000});
composta, se especica mais do que um valor para o parâmetro.
Exemplo: H1 : µ 1000 (Θ1 =]1000, +∞[).
Uma hipótese alternativa, H1 é, em geral, de um dos três tipos:
unilateral superior, se possuir um sinal de maior.
Exemplo: H0 : µ = 1000 vs H1 : µ 1000;
unilateral inferior, caso possua um sinal de menor.
Exemplo: H0 : µ = 1000 vs H1 : µ 1000;
bilateral, caso H1 tenha um sinal de diferente.
Exemplo: H0 : µ = 1000 vs H1 : µ = 1000.

As decisões a tomar num teste de hipóteses são da forma:
Rejeitar H0 - signica que os dados observados testemunham
fortemente contra H0 - neste caso será adotada a hipótese H1 ou
Não rejeitar H0 - signica que não há evidência suciente para
rejeitar H0.
O procedimento de decisão num teste de hipóteses, pressupõe que se
identique um conjunto de valores da amostra que levará a rejeição da
hipótese nula
RC = { (x1, . . . , xn) ∈ Rn
que conduzem à rejeição de H0}
denominado de região crítica ou região de rejeição de H0.
Dada a amostra (x1, . . . , xn) de X, tomar-se-á a seguinte decisão:
(x1, . . . , xn) ∈ RC =⇒ rejeitar H0
(x1, . . . , xn) /∈ RC =⇒ não rejeitar H0

Exemplo (cont.): Sendo (x1, x2, . . . , xn) uma amostra observada da
v.a. X, faz sentido decidir com base em ¯x, aceitando H0 se ¯x estiver
próxima de 1000 e rejeitando H0 se ¯x estiver longe de 1000.
1000 − a 1000 1000 + a
região crítica
rejeitar H0
região críticaregião de aceitação
rejeitar H0não rejeitar H0
Então, a região crítica de H0 será:
RC = { (x1, . . . , xn) ∈ Rn
: ¯x 1000 − a ou ¯x 1000 + a }.
Os pontos fronteira, 1000 − a e 1000 + a são chamados valores
críticos.

Aceitar uma hipótese não signica que temos 100% a certeza de que
ela é válida, pois a decisão depende dos resultados de uma amostra.
Corremos pois riscos de tomar uma decisão errada! Vejamos como:
Situação real
Decisão H0 é verdadeira H0 é falsa
Rejeitar H0 Erro do tipo I Decisão correta
Não rejeitar H0 Decisão correta Erro do tipo II
Interessa delinear o teste de hipóteses de modo a que os erros
associados sejam tão pequenos quanto possível, i.e., de modo a
minimizar as probabilidades dos erros do tipo I e II.
Estas probabilidades denem-se do seguinte modo:
α= P(Erro do tipo I) = P(Rejeitar H0/H0 é verdadeira)
β= P(Erro do tipo II) = P(Não rejeitar H0/H0 é falsa)

Exemplo (cont.): Vamos admitir que a = 95 e que se recolheu uma
amostra de dimensão 4. Nesse caso, a região crítica de H0 será:
RC = { (x1, x2, x3, x4) ∈ R4
: ¯x 905 ou ¯x 1095 }.
Como X ∼ N(µ, 100) então ¯X ∼ N µ, 100√
n
= N µ, 100√
4
= N(µ, 50).
Assim, podemos calcular a probabilidade dos erros do tipo I e II.
α = P(Rejeitar H0/H0 é verdadeira)
= P({ ¯X 905} ∪ { ¯X 1095}/µ = 1000)
905 1000 1095

α = P(Rejeitar H0/H0 é verdadeira)
= P({ ¯X 905} ∪ { ¯X 1095}/µ = 1000)
= P
X − 1000
50

905 − 1000
50
∪
X − 1000
50

1095 − 1000
50
= P ({Z −1.9} ∪ {Z 1.9}) , Z =
X − 1000
50
∼µ=1000N(0, 1)
= P (Z −1.9) + P(Z 1.9)
= 1 − P(Z 1.9) + 1 − P(Z 1.9)
= 2 × (1 − 0.9713) = 0.0574.

Nota: Se aumentamos a dimensão da amostra n, mantendo os valores
críticos, o valor de α diminui.
Se n = 10 então ¯X ∼ N (µ, 100/
√
n) = N µ, 100/
√
10 = N(µ, 31.62).
α = P({ ¯X 905} ∪ { ¯X 1095}/µ = 1000)
= P X−1000
31.62 905−1000
31.62 ∪ X−1000
31.62 1095−1000
31.62
= P (Z −3) + P(Z 3) , Z = X−1000
31.62 ∼µ=1000N(0, 1)
= 2 × (1 − P(Z 3)) = 2 × (1 − 0.9987) = 0.0026,
Quanto a β, não vamos ter um único valor mas uma função, ou seja,
para cada µ de H1 podemos calcular um valor β(µ). Por exemplo:

β(900) = P(Não rejeitar H0/µ = 900) = P(905 ¯X 1095/µ = 900)
= P 905−900
50 X−900
50 1095−900
50
= P(Z 3.9) − P(Z 0.1) = 0.4602, Z = X−900
50 ∼µ=900N(0, 1)
β(850) = P(905 ¯X 1095/µ = 850)
= P 905−850
50 X−850
50 1095−850
50
= P(Z 4.9) − P(Z 1.1) = 0.1357, Z = X−850
50 ∼µ=850N(0, 1)
905 1000850 1095
Por simetria β(900) = β(1100) e β(850) = β(1150).

905 1000850 1095
Se mudarmos a região crítica, com n xo:
se a diminuir, α aumenta e, para cada µ, β(µ) diminui;
960 1000850 1040
se a aumentar, α diminui e, para cada µ, β(µ) aumenta.
890 1000850 1110

O problema de minimização conjunta dos dois erros é impossível de
resolver quando a dimensão da amostra está xa. Como é mais fácil
controlar α do que controlar β, procede-se do seguinte modo:
Estabelece-se um limite superior para a probabilidade do erro do
tipo I, designado de nível de signicância (n.s.) do teste e
representado por α0. O teste será delineado de modo que
P(Erro do tipo I) = P(Rejeitar H0/H0 é verdadeira) ≤ α0,
sendo os valores mais comuns do n.s. do teste 0.1, 0.05 e 0.01.
Em seguida determina-se a probabilidade do erro do tipo II
correspondente, ou mais usualmente, a potência do teste.
Como controlamos α:
rejeitar H0 é uma conclusão forte.
aceitar H0 é uma conclusão fraca. Em vez de dizer aceita-se
H0 é preferível dizer não se rejeita H0, ou não há evidência
suciente para rejeitar H0.

A região crítica pode ser escrita em termos dos valores de uma v.a.,
função da a.a., cujos valores permitem decidir qual a atitude a tomar,
a designada de estatística de teste. Em geral, é obtida à custa da
v.a. fulcral Z - que usaríamos na construção de um IC para θ -
substituindo θ por θ0 na expressão de Z.
Exemplo (cont.): No caso anterior, a região crítica era:
¯X 905 ou ¯X 1095 ⇐⇒
⇐⇒ X−1000
50 905−1000
50 ou
X−1000
50 1095−1000
50
⇐⇒ T −1.9 ou T 1.9, onde T = X−1000
50 ∼H0
N(0, 1).
Logo, 1.9 e −1.9 são os valores
críticos de T e
RC = {t ∈ R :t −1.9 ou t 1.9}
=] − ∞, −1.9[∪]1.9, +∞[.
−1.9 0 1.9

A região crítica de H0 para valores de T é
RC =] − ∞, −c[∪]c, +∞[,
onde o valor crítico c é tal que
P(Rejeitar H0/H0 é verdadeira) = P(|T| c/µ = µ0) = α0
⇐⇒ P(T ≤ c) = 1 − α0/2.
−c 0 c
α0/2 α0/21 − α0
Exemplo (cont.): Como α0 = 0.05 e T ∼ N(0, 1),
P(T ≤ c) = 1−0.05/2 ⇐⇒ c = 1.96 e RC =]−∞, −1.96[∪]1.96, +∞[.

Decisão Para decidir pela rejeição ou não de H0 calculamos
t = valor observado da estatística de teste.
Devendo tomar-se uma de duas decisões:
Rejeitar H0 ao n.s. α0, se (x1, . . . , xn) conduz a um t ∈ RC;
Não rejeitar H0 ao n.s. α0, se (x1, . . . , xn) conduz a um t /∈ RC.
Exemplo (conclusão): Admita que, para a nossa amostra de dimensão
4 obtivemos uma duração média de 880 dias.
Decisão
Uma vez que o valor da estatística de teste é
t =
¯x − 1000
50
=
880 − 1000
50
= −2.4 ∈ RC =]−∞, −1.96[∪]1.96, +∞[
devemos rejeitamos H0, ao n.s. de 0.05.

Procedimento geral dos testes de hipóteses, usando o nível
de signicância:
1. Identicar a v.a. de interesse, X, a sua distribuição e o
parâmetro desconhecido a testar.
2. Especicar as hipóteses nula, H0, e alternativa, H1, apropriadas.
3. Escolher o nível de signicância, α0.
4. Escolher uma estatística de teste adequada (T) e identicar a sua
distribuição (exata ou aproximada) sob a validade de H0.
5. Obter a região crítica, RC, de H0 para valores da estatística de
teste, tendo em conta o nível de signicância e a hipótese H1.
6. Calcular o valor observado da estatística de teste, t, e decidir pela
rejeição ou não de H0, ao nível de signicância α0.

Note-se que:
Armar que H0 não foi rejeitada ao n.s. α0 não signica que
H0 seja verdadeira.
Analogamente, concluir que H0 foi rejeitada ao n.s. α0 não
signica que H0 seja falsa. Signica sim que H0 não é consistente
com os dados ao n.s. α0.
Podemos rejeitar H0 ao n.s. α0 e não rejeitar H0 a outro n.s. e
vice-versa.
Assim, a decisão de rejeitar ou não H0 depende do n.s. considerado.
Observações: Decisão a diversos níveis de signicância,
Não rejeitar H0 ao n.s. α0 =⇒ Não rejeitar H0 a qualquer n.s.
α0 ≤ α0;
Rejeitar H0 ao n.s. α0 =⇒ Rejeitar H0 a qualquer n.s. α0 ≥ α0.

Vimos que temos 3 tipos de testes: bilateral, unilateral inferior e
unilateral superior. Em qualquer um dos testes, o n.s. é α0.
Teste bilateral
H0 : θ = θ0 vs H1 : θ = θ0
Estatística de teste:
T
tem distribuição exata (ou aproximada) simétrica em relação à
reta x = 0 (isto é, se o parâmetro θ a testar é µ, µ1 − µ2, p ou
p1 − p2).
Região crítica:
RC =] − ∞, −c[∪]c, +∞[,
onde c : P(T c) = 1 − α0/2.
−c 0 c
α0/2 α0/21 − α0

Teste unilateral inferior
H0 : θ = θ0 vs H1 : θ θ0
T
reta x = 0.
Região crítica:
RC =] − ∞, −c[,
onde c : P(T c) = 1 − α0.
−c 0
α0 1 − α0

Teste unilateral superior
H0 : θ = θ0 vs H1 : θ θ0
T
reta x = 0.
Região crítica:
RC =]c, +∞[,
onde c : P(T c) = 1 − α0.
0 c
α01 − α0

Testes de hipóteses para µ com σ2
conhecida
Seja (X1, X2, . . . , Xn) uma a.a. da v.a. X, com µ = E(X) desconhecida e
σ2
= V (X) conhecida.
Teste de Hipóteses com nível de signicância α0
H0 : µ = µ0 vs H1 : µ = µ0 teste bilateral
H0 : µ = µ0 vs H1 : µ µ0 teste unilateral inferior
H0 : µ = µ0 vs H1 : µ µ0 teste unilateral superior
T =
X − µ0
σ/
√
n



∼H0 N(0, 1) se X ∼ N(µ, σ)
a
∼H0 N(0, 1) se X qualquer e n grande
Região crítica:
H1 : µ = µ0 =⇒ RC =] − ∞, −c[∪]c, +∞[, com P(T c) = 1 − α0/2
H1 : µ µ0 =⇒ RC =] − ∞, −c[, com P(T c) = 1 − α0
H1 : µ µ0 =⇒ RC =]c, +∞[, com P(T c) = 1 − α0

Testes de hipóteses para µ1 − µ2 com σ2
1 e σ2
2 conhecidas
Seja (Xi1, . . . , Xini ) a.a. da v.a. Xi, i = 1, 2, X1 e X2 independentes, com
µi = E(Xi) desconhecida e σ2
i = V (Xi) conhecida, i = 1, 2, n1, n2 grandes.
H0 : µ1 = µ2 vs H1 : µ1 = µ2 teste bilateral
H0 : µ1 = µ2 vs H1 : µ1 µ2 teste unilateral inferior
H0 : µ1 = µ2 vs H1 : µ1 µ2 teste unilateral superior
T =
X1 − X2
σ2
1
n1
+
σ2
2
n2
∼H0 N(0, 1) se X1 ∼ N(µ1, σ1), X2 ∼ N(µ2, σ2)
a
∼H0 N(0, 1) se X1, X2 quaisquer e n1, n2 grandes
Região crítica:
H1 : µ1 = µ2 =⇒ RC =] − ∞, −c[∪]c, +∞[, com P(T c) = 1 − α0/2
H1 : µ1 µ2 =⇒ RC =] − ∞, −c[, com P(T c) = 1 − α0
H1 : µ1 µ2 =⇒ RC =]c, +∞[, com P(T c) = 1 − α0

Testes de hipóteses para µ com σ2
desconhecida
Seja (X1, X2, . . . , Xn) uma a.a. da v.a. X, com µ = E(X) desconhecida e
σ2
= V (X) desconhecida.
H0 : µ = µ0 vs H1 : µ = µ0 teste bilateral
H0 : µ = µ0 vs H1 : µ µ0 teste unilateral inferior
H0 : µ = µ0 vs H1 : µ µ0 teste unilateral superior
T =
X − µ0
S/
√
n
∼H0 t(n − 1) se X ∼ N(µ, σ)
a
∼H0 N(0, 1) se X qualquer e n grande
Região crítica:
H1 : µ = µ0 =⇒ RC =] − ∞, −c[∪]c, +∞[, com P(T c) = 1 − α0/2
H1 : µ µ0 =⇒ RC =] − ∞, −c[, com P(T c) = 1 − α0
H1 : µ µ0 =⇒ RC =]c, +∞[, com P(T c) = 1 − α0

1 e σ2
2 desconhecidas
Seja (Xi1, . . . , Xini ) a.a. da v.a. Xi ∼ N(µi, σi), i = 1, 2, com X1 e X2
independentes, sendo µi e σ2
i desconhecidas, i = 1, 2 e σ2
1 = σ2
2.
T =
X1 − X2
(n1−1)S2
1 +(n2−1)S2
2
n1+n2−2
1
n1
+ 1
n2
∼H0 t(n1 + n2 − 2)
Região crítica:
H1 : µ1 = µ2 =⇒ RC =] − ∞, −c[∪]c, +∞[, com P(T c) = 1 − α0/2
H1 : µ1 µ2 =⇒ RC =] − ∞, −c[, com P(T c) = 1 − α0
H1 : µ1 µ2 =⇒ RC =]c, +∞[, com P(T c) = 1 − α0

1 e σ2
2 desconhecidas
Seja ((Xi1, . . . , Xini )) a.a. da v.a. Xi, i = 1, 2, com X1 e X2 independentes,
sendo µi = E(Xi) e σ2
i = V (Xi) desconhecidas, i = 1, 2, e n1 e n2 grandes.
T =
X1 − X2
S2
1
n1
+
S2
2
n2
a
∼H0 N(0, 1)
Região crítica:
H1 : µ1 = µ2 =⇒ RC =] − ∞, −c[∪]c, +∞[, com P(T c) = 1 − α0/2
H1 : µ1 µ2 =⇒ RC =] − ∞, −c[, com P(T c) = 1 − α0
H1 : µ1 µ2 =⇒ RC =]c, +∞[, com P(T c) = 1 − α0

Testes de hipóteses para µX − µY de amostras emparelhadas
Seja ((X1, Y1), (X2, Y2), . . . , (Xn, Yn)) uma a.a. emparelhada, com
(D1, D2, . . . , Dn) a a.a. da v.a. D (Di = Xi − Yi, i = 1, 2, . . . , n), sendo
E(D) = E(X) − E(Y ) = µX − µY e σ2
D = V (D) desconhecidos.
H0 : µX = µY vs H1 : µX = µY teste bilateral
H0 : µX = µY vs H1 : µX µY teste unilateral inferior
H0 : µX = µY vs H1 : µX µY teste unilateral superior
T =
D
SD/
√
n
∼H0 t(n − 1) se D ∼ N(µD, σD)
a
∼H0 N(0, 1) se D qualquer e n grande
Região crítica:
H1 : µX = µY =⇒ RC =] − ∞, −c[∪]c, +∞[, com P(T c) = 1 − α0/2
H1 : µX µY =⇒ RC =] − ∞, −c[, com P(T c) = 1 − α0
H1 : µX µY =⇒ RC =]c, +∞[, com P(T c) = 1 − α0

Testes de hipóteses para p
Seja (X1, X2, . . . , Xn) a.a. da v.a. X ∼ B(p), com p desconhecido e n
grande.
H0 : p = p0 vs H1 : p = p0 teste bilateral
H0 : p = p0 vs H1 : p p0 teste unilateral inferior
H0 : p = p0 vs H1 : p p0 teste unilateral superior
T =
X − p0
p0(1−p0)
n
a
∼H0 N(0, 1)
Região crítica:
H1 : p = p0 =⇒ RC =] − ∞, −c[∪]c, +∞[, com P(T c) = 1 − α0/2
H1 : p p0 =⇒ RC =] − ∞, −c[, com P(T c) = 1 − α0
H1 : p p0 =⇒ RC =]c, +∞[, com P(T c) = 1 − α0

Testes de hipóteses para p1 − p2
Seja (Xi1, . . . , Xini ) a.a. da v.a. Xi ∼ B(pi), i = 1, 2, com X1 e X2
independentes, sendo p1 e p2 desconhecidos, e n1 e n2 grandes.
H0 : p1 = p2 vs H1 : p1 = p2 teste bilateral
H0 : p1 = p2 vs H1 : p1 p2 teste unilateral inferior
H0 : p1 = p2 vs H1 : p1 p2 teste unilateral superior
T =
X1 − X2
ˆp(1 − ˆp) 1
n1
+ 1
n2
a
∼H0 N(0, 1), ˆp =
n1
¯X1 + n2
¯X2
n1 + n2
Região crítica:
H1 : p1 = p2 =⇒ RC =] − ∞, −c[∪]c, +∞[, com P(T c) = 1 − α0/2
H1 : p1 p2 =⇒ RC =] − ∞, −c[, com P(T c) = 1 − α0
H1 : p1 p2 =⇒ RC =]c, +∞[, com P(T c) = 1 − α0

Testes de hipóteses para σ2
com µ desconhecido
Seja (X1, X2, . . . , Xn) uma a.a. da v.a. X ∼ N(µ, σ), com µ e σ2
desconhecidas.
Teste de hipóteses com nível de signicância α0
H0 : σ2
= σ2
0 vs H1 : σ2
= σ2
0 teste bilateral
T =
(n − 1)S2
σ2
0
∼H0
χ2
(n − 1)
Região crítica:
RC = [0, c1[∪]c2, +∞[,
onde c1, c2 : P(T c1) = α0/2 e P(T c2) = 1 − α0/2, com
T ∼ χ2
(n − 1).
c1
0
c2
α0/2 α0/21 − α0

com µ desconhecido
H0 : σ2
= σ2
0 vs H1 : σ2
σ2
0 teste unilateral inferior
H0 : σ2
= σ2
0 vs H1 : σ2
σ2
0 teste unilateral superior
T =
(n − 1)S2
σ2
0
∼H0
χ2
(n − 1)
Região crítica:
H1 : σ2
σ2
0 =⇒ RC =]0, c1[
onde c1 : P(T c1) = α0.
c1
0
α0 1 − α0
H1 : σ2
σ2
0 =⇒ RC =]c2, +∞[
onde c2 : P(T c2) = 1 − α0.
0
c2
α01 − α0

1/σ2
2 com µ1 e µ2 desconhecidos
Seja (Xi,1, . . . , Xi,ni
) a.a. da v.a. Xi ∼ N(µi, σi), i = 1, 2, com X1 e
X2 independentes, com µi e σ2
i desconhecidas, i = 1, 2.
Teste de hipóteses com nível de signicância α0
H0 : σ2
1 = σ2
2 vs H1 : σ2
1 = σ2
2 teste bilateral
T =
S2
1
S2
2
∼H0
F(n1 − 1, n2 − 1)
Região crítica:
RC = [0, c1[∪]c2, +∞[,
onde c1, c2 : P(T c1) = 1 − α0/2 e P(T c2) = α0/2, com
T ∼ F(n1 − 1, n2 − 1).
c1
0
c2
α0/2 α0/21 − α0

1/σ2
2 com µ1 e µ2 desconhecidos
H0 : σ2
1 = σ2
2 vs H1 : σ2
1 σ2
2 teste unilateral inferior
H0 : σ2
1 = σ2
2 vs H1 : σ2
1 σ2
2 teste unilateral superior
T =
S2
1
S2
2
∼H0
F(n1 − 1, n2 − 1)
Região crítica:
H1 : σ2
1 σ2
2 =⇒ RC =]0, c1[
onde c1 : P(T c1) = 1 − α0 c1
0
α0
1 − α0
H1 : σ2
1 σ2
2 =⇒ RC =]c2, +∞[
onde c2 : P(T c2) = α0,
T ∼ F(n1 − 1, n2 − 1).
0
c2
α01 − α0

p-value
É um método alternativo de decisão em testes de hipóteses.
Em vez de xar o n.s. α0, de identicarmos a região crítica de H0,
RC, e de vericarmos se o valor da estatística de teste, t, pertence ou
não a RC, vamos proceder do seguinte modo:
tomar o valor de t
e averiguar
para que níveis de signicância se decide pela rejeição de H0 e
para que níveis de signicância se decide pela não rejeição de H0.
Exemplo: Retomemos o exemplo inicial.
X = duração, em dias, de uma bateria de certa marca
X ∼ N(µ, 100) com µ desconhecido

p-value
Exemplo (cont.):
Hipóteses em confronto
H0 : µ = 1000 vs H1 : µ = 1000
Estatística de teste e seu valor
T =
¯X − 1000
50
∼H0 N(0, 1) e t =
¯x − 1000
50
=
880 − 1000
50
= −2.4.
De modo geral, se o valor crítico que dene a região crítica de H0
fosse c = |t| então teríamos a seguinte região crítica de H0
RC =] − ∞, −|t|[∪]|t|, +∞[
com nível de signicância associado igual a
P({T −|t|} ou {T |t|}/H0 é verdadeira) = 2P(T |t|).

p-value
Exemplo:
Decisão:
Como c = |t| = 2.4 e T ∼ N(0, 1) tem-se
p − value = P({T −2.4} ou {T 2.4}/µ = 1000)
= 2(1 − P(T ≤ 2.4)) = 0.0164
Além disso, t = −2.4 /∈ RC =] − ∞, −2.4[∪]2.4, +∞[ donde
não rejeitamos H0 ao n.s. 0.0164 nem a qualquer n.s. menor que
0.0164;
rejeitamos H0 a qualquer n.s. maior que 0.0164.
0.0164 é o ponto de viragem da decisão pela rejeição ou não de H0,
o chamado p-value.

p-value
Dado o valor observado da estatística de teste o p-value ou valor de
prova é o maior nível de signicância que leva à não rejeição de H0.
Para além disso, devemos agir do seguinte modo:
não rejeitar H0 a qualquer nível de signicância α0 ≤ p-value;
rejeitar H0 a qualquer nível de signicância α0 p-value.
E quanto menor for o p-value, maior é a evidência contra H0.
O cálculo do p-value depende do aspecto da região crítica de H0, para
valores t da estatística de teste:
RC Teste p-value
] − ∞, −c[ unilateral inferior P(T ≤ t)
]c, +∞[ unilateral superior P(T t) = 1 − P(T ≤ t)
] − ∞, −c[∪]c, +∞[ bilateral e T com P(|T| |t|) = 2[1 − P(T ≤ |t|)]
distr. simétrica

Procedimento geral dos testes de hipóteses, usando o
p-value:
1. Identicar a v.a. de interesse, X, a sua distribuição e o
parâmetro desconhecido a testar.
2. Especicar as hipóteses nula, H0, e alternativa, H1, apropriadas.
3. Escolher o nível de signicância, α0.
4. Escolher uma estatística de teste adequada, T, identicar a sua
distribuição (exata ou aproximada) sob a validade de H0, e
calcular o valor observado da estatística de teste, t.
5. Calcular o p-value e decidir pela rejeição ou não de H0, consoante
o p-value ≤ α0 ou p-value α0, respetivamente.

Relação entre IC e testes bilaterais
Seja
IC(1−α0)×100%(θ) = [t1, t2]
um intervalo de conança para θ. Então, este IC leva à rejeição de
H0 : θ = θ0 ao nível de signicância α0, a favor da hipótese alternativa
bilateral H1 : θ = θ0, caso
θ0 /∈ IC(1−α0)×100%(θ).
Faz todo o sentido que caso o valor conjecturado para θ, θ0, não
pertença ao conjunto de valores razoáveis para θ associados ao grau
de conança (1 − α0) × 100%, rejeitemos H0 ao n.s. de α0.
Nota: Para invocar esta analogia, é necessário que a estatística de
teste tenha sido obtida à custa da v.a. fulcral para θ usada na
construção do IC(1−α0)×100%(θ).

Exemplo: Consideremos novamente o exemplo inicial.
Vamos construir o IC para µ ao grau de conança de 95% e averiguar
a razoabilidade de H0 : µ = 1000 versus H1 : µ = 1000 ao n.s. de
α0 = 0.05.
V.a. fulcral
Z12 =
X − µ
100/
√
4
=
X − µ
50
∼N(0, 1)
pois X∼N(µ, 100), com µ desconhecido.
Quantis de probabilidade
Como a lei N(0, 1) é simétrica, temos que a = −b. Assim,
queremos calcular o valor b tal que
P(Z b) = 0.025 ⇐⇒ b = 1.96.

Inversão da desigualdade
P(−1.96 ≤ Z ≤ 1.96) = 0.95 ⇐⇒
P X − 1.96 × 50 ≤ µ ≤ X + 1.96 × 50 = 0.95.
Concretização
O IC para µ ao grau de conança de 95% é
IC0.95(µ) = [x − 98, x + 98] = [782, 978] .
Hipóteses em confronto
H0 : µ = 1000 versus H1 : µ = 1000
Decisão
Invocando a relação entre IC e testes hipóteses, concluímos que
µ0 = 1000 /∈ IC0.95(µ) = [782, 978]
pelo que devemos rejeitar H0 ao n.s. de 5% ou a qualquer outro
n.s. maior que 5%.

Potência do teste e dimensão da amostra
Chama-se função potência do teste à probabilidade de rejeitar a
hipótese nula quando a hipótese alternativa é verdadeira,
π(θ) = P(Rejeitar H0)
=
P(Rejeitar H0/H0 é verdadeira) = α(θ), θ ∈ Θ0
P(Rejeitar H0/H0 é falsa) = 1 − β(θ), θ ∈ Θ1
Um bom teste deverá ter π(θ) ∼= 0, se θ ∈ Θ0 (probabilidade do erro
do tipo I) e π(θ) ∼= 1, se θ ∈ Θ1 (probabilidade de uma decisão
correta).
No exemplo, a potência do teste quando µ = 900 é
π(900) = 1 − β(900) = 1 − 0.4602 = 0.5398,
ou seja, se a verdadeira média for 900, a diferença em relação a 1000
será detetada 53.98% das vezes.

Potência do teste e dimensão da amostra
O gráco da função potência do teste do nosso exemplo é
700 800 900 1000 1100 1200 1300
0.20.40.60.81.0
Gráfico da função potência
µ
π(µ)
n = 4
n= 16
n = 4
n= 16
Note-se que, a função potência:
tem valores menores ou iguais α para valores de µ em H0;
aumenta quando os valores de µ se afastam dos valores em H0;
apresenta valores maiores para µ em H1, quando a dimensão de
amostra aumenta.

Hipótese nula composta
E como efetuar um teste quando a hipótese nula é uma hipótese
composta, i.e., H0 : µ ≤ µ0 ou H0 : µ ≥ µ0?
Se, por ex., queremos testar H0 : µ ≥ µ0 vs H1 : µ µ0, temos
RC =] − ∞, −c[
P(Erro do tipo I) = P(Rejeitar H0/H0 é Verdadeira)
= P(T −c/µ ≥ µ0) ≤ P(T −c/µ = µ0) = α0.
Donde, o valor crítico c é tal que
P(T ≤ c) = 1 − α0
e
P(Erro do tipo I) ≤ α0.

Hipótese nula composta
Por outro lado, se queremos testar H0 : µ ≤ µ0 vs H1 : µ µ0, então
RC =]c, +∞[
P(Erro do tipo I) = P(Rejeitar H0/H0 é Verdadeira)
= P(T c/µ ≤ µ0) ≤ P(T c/µ = µ0) = α0.
Donde, o valor crítico c é tal que
P(T c) = 1 − α0
e
P(Erro do tipo I) ≤ α0.

Testes de Hipóteses e IC no R-Commander
O R permite obter ou realizar alguns dos intervalos de conança e
testes de hipóteses paramétricos referidos, nomeadamente todos os
intervalos e testes para a média (ou diferença de médias) em
populações normais com variância (ou variâncias) desconhecida.
Exemplo 1: Num estudo que visava a procura de valores de
referência de cortisol salivar para a avaliação adrenal em crianças com
menos de três anos, recolheu-se uma amostra aleatória de 15 crianças,
para a qual se obtiveram os seguintes valores de cortisol salivar, em
nanogramas por decilitro (ng/dl):
169 165 165 170 160 168 175 166 157 175 196 175 160 187 162
Para introduzir os dados fazer no menu do R-Commander:
Data −→ Import data −→ from text le, clipboard or URL
e na caixa Enter name mudar o nome do conjunto de dados cortisol.

Testes de Hipóteses e IC para µ no R-Commander
Teste, ao n.s. de 0.05, se os dados corroboram a armação feita pelo
investigador de que o cortisol salivar médio em crianças com menos de
três anos é 160 ng/dl.
Queremos testar H0 : µ = 160 vs H1 : µ = 160, ao n.s. de 0.05. Para
tal fazemos no menu do R-Commander:
Statistics −→ Means −→ Single-sample t-test
Na caixa Variable selecionar a
variável cort, em Alternative
Hypothesis escolher o tipo da hipó-
tese H1, em Null hypothesis colo-
car o valor de µ em H0 160 e em
Confidence Level o grau de con-
ança (1-n.s.) 1-0.05. Fazer OK.

Testes de Hipóteses e IC para µ no R-Commander
Obtemos na janela do Output os seguintes valores:
One Sample t-test teste efetuado
data: cortisol$cort variável
t = 3.688, df = 14, p-value = 0.002435
valor de T, graus de liberdade, p-value
alternative hypothesis: true mean is not equal to 160
H1: µ = 160
95 percent confidence interval: intervalo de conança a 95%
164.1844 175.8156
sample estimates:
mean of x
¯x=170

Testes de Hipóteses e IC para σ2
1/σ2
2 no R-Commander
Exemplo 2: Duas marcas de comprimidos de fabrico independente,
um deles contendo aspirina, são apresentados como fazendo
desaparecer as dores de cabeça em tempo recorde. Admita que os
tempos, em minutos, que cada tipo de comprimido leva a tirar a dor
de cabeça têm distribuições normais. Para testar hipóteses sobre os
parâmetros foram feitas experiências com cada um deles, tendo os
resultados obtidos sido os seguintes:
Comp1 sem aspirina 10.6 13.2 11.7 9.6 8.5 9.7 12.3 12.4 10.8 10.8
Comp2 com aspirina 9.4 9.4 9.3 11.2 11.4 12.1 10.4 9.6 10.2 8.8 13 10.2
e na caixa Enter name mudar o nome do conjunto de dados cabeca.
(a) Verique se os dados obtidos permitem estabelecer a igualdade
das variâncias, ao n.s. 0.01.

1/σ2
2 no R-Commander
Queremos testar H0 : σ2
1 = σ2
2 vs H1 : σ2
1 = σ2
2, ao n.s. de 0.01. Para
Statistics −→ Variance −→ Two-Variance F-test
No separador Data, escolher o grupo tipo em Groups e a variável
tempo em Response Variable. No separador Options, em
Alternative Hypothesis selecionar o tipo da hipótese H1, em
Confidence Level escolher o grau de conança (1-n.s.) 1-0.01. Fazer
OK.

1/σ2
2 no R-Commander
F test to compare two variances teste efetuado
data: tempo by tipo variável
F = 1.3135, num df = 9, denom df = 11, p-value = 0.6591
valor de F, graus de liberdade do numerador e denominador, p-value
alternative hypothesis: true ratio of variances is not
equal to 1
H1: σ2
1 = σ2
2
90 percent confidence interval:
0.4535156 4.0750590 intervalo de conança a 90%
sample estimates:
ratio of variances
s2
1
s2
2
= 1.313482

Testes de Hipóteses e IC para µ1 − µ2 no R-Commander
(b) Um laboratório arma que o comprimido sem aspirina leva, em
média, mais tempo a tirar a dor de cabeça do que o comprimido com
aspirina. Será que o laboratório tem razão, ao n.s. de 0.01?
Queremos testar H0 : µ1 = µ2 vs H1 : µ1 µ2, ao n.s. de 0.01. Para
Statistics −→ Means −→ Independent Samples t-test
No separador Data, escolher o grupo tipo em Groups e a variável comp
em Response Variable. No separador Options, em Alternative
Hypothesis selecionar o tipo da hipótese H1, em Confidence Level
escolher o grau de conança (1-n.s.) 1-0.01 e em Assume equal
variances? selecionar se as variâncias são ou não iguais. Fazer OK.

Testes de Hipóteses e IC para µ1 − µ2 no R-Commander
Two Sample t-test teste efetuado
data: tempo by tipo variável
t = 0.9345, df = 20, p-value = 0.1806
alternative hypothesis: true difference in means is
greater than 0
H1: µ1 µ2
-0.2272731 Inf intervalo de conança a 90%
sample estimates:
mean in group comp1 mean in group comp2
¯x1 = 10.96000 ¯x2 = 10.41667

Testes de Hipóteses e IC para µD no R-Commander
Exemplo 3: Para testar um regime dietético, 10 indivíduos obesos
foram submetidos ao regime durante um período de 35 dias, tendo-se
registado os pesos no início e no m do período:
Início 95 110 98 104 80 86 92 91 92 86
Fim 92 109 94 100 81 80 84 88 90 79
Teste se, em média, este tipo de regime é ecaz, ao n.s. de 5%.
e na caixa Enter name mudar o nome do conjunto de dados obesos.
Queremos testar H0 : µD = 0 vs H1 : µD 0 (µD = µX − µY ), ao n.s.
de 0.05. Para tal fazemos no menu do R-Commander:
Statistics −→ Means −→ Paired t-test

No separador Data, escolher a 1
a variável inicio em First variable e
a 2
a variável m em Second variable. No separador Options, em
Confidence Level selecionar o grau de conança (1-n.s.) 0.95 e em
Alternative Hypothesis escolher o tipo da hipótese H1. Fazer OK.

Paired t-test teste efetuado
data: obesos$inicio and obesos$fim variável
t = 4.2535, df = 9, p-value = 0.001066
alternative hypothesis: true difference in means is
greater than 0
H1: µD 0
2.105438 Inf intervalo de conança a 95%
sample estimates:
mean of the differences
¯x − ¯y = 3.7

Testes de normalidade
Os testes de normalidade são testes não paramétricos de ajustamento
para averiguar se uma dada amostra pode ser considerada como sendo
proveniente da distribuição normal. Dos vários testes de normalidade
existentes, vamos falar do teste de Shapiro-Wilks.
Métodos grácos para vericar a normalidade
Na estatística descritiva vimos alguns métodos grácos para vericar
empiricamente a normalidade, dos quais destacamos: o histograma e o
qq-plot normal.
Exercício: Os tempos de sobrevivência, em dias, de 16 cobaias após
terem sido injetadas pelo bacilo da tuberculose numa experiência
médica foram registados tendo-se obtido os seguintes valores:
43 81 249 278 123 108 303 100 92 178 114 103 121 79 147 128

Histograma
Histograma
Um histograma indica concordância com a hipótese de normalidade
dos dados se for simétrico e tem a forma de sino.
O histograma não deve ser usado se a dimensão da amostra é pequena.
(a) Da análise empírica do histograma,
o tempo de sobrevivência, em dias, das
cobaias parece-lhe normalmente distri-
buído?
Sol: O histograma indica problemas
graves com a normalidade pois o gráco
não é simétrico. Como a dimensão da
amostra é pequena, o histograma não é
ável e devemos utilizar outro método
gráco.
Histograma
tempo de sobrevivência
freq.absoluta
0 50 100 150 200 250 300 350
01234567

QQ-plot normal
QQ-plot normal
É um gráco que confronta os quantis empíricos das n observações
com os quantis teóricos de n observações duma N(0, 1).
Um QQ-plot normal indica concordância com a hipótese de
normalidade da distribuição se os pontos estão próximos de uma linha
reta.
(b) Da análise empírica do qq-plot
normal, o tempo de sobrevivência, em
dias, das cobaias parece-lhe normal-
mente distribuído?
Sol: O QQ-plot normal indica pro-
blemas graves com a normalidade pois
existe um desvio sistemático da linha
reta.
−2 −1 0 1 2
50100150200250300
QQ−plot nomal do tempo
norm quantiles
tempodesobrevivência
q
q q
q
q q
q
q
q q
q
q
q
q
q
q7
4

Teste de ajustamento à normal
Testes de ajustamento à normal
Neste testes temos as seguinte hipóteses em confronto:
H0 : X tem distribuição normal
H1 : X não tem distribuição normal
O pressuposto destes testes é: a variável X é contínua.
Teste de Shapiro-Wilk
Shapiro e Wilk propuseram um teste de normalidade tem uma boa
performance para amostras de dimensão não superior a 30.
Para amostras de dimensão superior ou igual a 30 existe uma
alternativa, o teste de Kolmogorov-Smirnov com a correção de
Lilliefors, que não será lecionado.

Teste de normalidade de Shapiro-Wilk
A estatística de teste de Shapiro-Wilk é
W =
b2
n
i=1
(Xi − X)2
,
com b uma constante determinada a partir da dimensão da amostra e
com recurso a uma tabela.
A estatística de teste W toma valores no intervalo [0, 1]. Além disso,
valores pequenos de W indicam não normalidade, i.e., inconsistência
com H0. Logo, a região crítica de H0 é
RC = [0, wα[
onde o valor crítico wα está tabelado.

Teste de normalidade de Shapiro-Wilk ao n.s. α
W =
b2
n
i=1
(Xi − X)2
,
Região crítica: teste unilateral inferior
RC = [0, wα[
Decisão usando o p − value: Rejeitar H0 ao n.s. α se
p − value = P(W wcalc) α.

(c) Averígue se podemos considerar que o tempo de sobrevivência tem
uma distribuição normal.
Sol: Queremos efetuar um teste à normalidade. Como n = 16 30
podemos utilizar o teste de Shapiro-Wilk.
Para efetuar o teste de Shapiro-Wilk no R-Commander fazemos:
Statistics → Summaries → Shapiro-Wilk test of normality
Shapiro-Wilk normality test
data: sobre$tempo
W = 0.8506, p-value = 0.0139
Seja X = tempo de sobrevivência, em dias, de uma cobaia após ter
sido injetada pelo bacilo da tuberculose
Hipóteses em confronto:

Nível de signicância: α = 0.05
W =
b2
n
i=1
(Xi − X)2
Região crítica de H0:
RC = [0, wα[
Decisão usando o p − value:
Como
p − value = P(W wcalc) = P(W 0.8506) = 0.0139 0.05
então rejeitamos H0 ao n.s. de 0.05, i.e, os dados são inconsistentes
com a hipótese da distribuição do tempo de sobrevivência das cobaias
ser normal.

Testes não paramétricos
Como devemos proceder se a dimensão da amostra é pequena e não
temos a normalidade das populações?
Devemos recorrer a testes não paramétricos que não têm pressupostos
tão fortes como os testes paramétricos. Enquanto a maioria dos testes
paramétricos exige a normalidade das populações, enquanto os testes
não paramétricos aplicam-se qualquer que seja a distribuição da
população, exigindo quando muito a simetria ou a continuidade da
distribuição.
Se temos a normalidade das populações devemos utilizar um teste
paramétrico ou não paramétrico?
Se todos os pressupostos do teste paramétrico forem satisfeitos, o
teste paramétrico terá preferência a um teste não paramétrico por ser
mais potente (i.e., tem maiores valores da função potência).
Alguns dos testes não paramétricos que são alterativa aos teste
paramétricos para a média e diferença de médias são: o teste dos
sinais, o teste de Wilcoxon e o teste de Wilcoxon-Mann-Whitney.

Testes de hipoteses

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Semelhante a Testes de hipoteses

Semelhante a Testes de hipoteses (20)

Testes de hipoteses