SlideShare uma empresa Scribd logo
1 de 13
Baixar para ler offline
Estatística II
Sociologia e Sociologia e Planeamento
ISCTE
SOCIOLOGIA E SOCIOLOGIA E PLANEAMENTO
Ano Lectivo 2003/2004 (2º Semestre)
ESTATÍSTICA II
(Textos de Apoio das Aulas)
Testes de Hipóteses Para Mais de Duas Amostras
One-Way ANOVA
(ou análise de variância a um factor)
Carlos Lourenço, Dep.º Métodos Quantitativos
(carlos.lourenco@iscte.pt)
Carlos Lourenço ISCTE, 2004 1
Estatística II
Sociologia e Sociologia e Planeamento
4. TESTES PARAMÉTRICOS PARA MAIS DE 2 AMOSTRAS – ONE-WAY ANOVA1
4.1. Introdução
Nos testes de hipóteses até agora apresentados pretendíamos realizar inferência para um (teste
para uma média populacional, em grandes e em pequenas amostras) ou para dois parâmetros
(teste para a diferença de médias em amostras independentes e em amostras emparelhadas, e em
grandes e em pequenas amostras).2
Estes testes requeriam que se recolhessem uma ou, no
máximo, duas amostras independentes (ou não, caso em que seriam emparelhadas). Como
procedemos então em situações em que temos k amostras (ou grupos, ou categorias, ou…), com
?2>k
Haverá diferenças entre as médias da nota esperada consoante os 3 diferentes estados civis?
Imaginemos que pretendíamos testar se a média da nota esperada a Estatística II era ou não
significativamente diferente entre os 3 estados civis presentes na amostra recolhida junto dos
alunos de Sociologia e Sociologia e Planeamento: solteiro, casado/união de facto e outra
situação ( ). À partida, não existem razões para crer que as expectativas face à cadeira se
modifiquem consoante o estado civil do aluno. É de esperar que não se rejeite a hipótese de
igualdade das médias entre os 3 estados civis. Mas como procederíamos para operacionalizar
esta hipótese, uma vez que estamos a trabalhar com 3 amostras (aleatórias)?
3=k
Uma solução parece ser executar um teste t para cada par de estados civis (3 testes t):
- um teste para a diferença de médias entre os solteiros e os casados/uniões de facto;
- um teste para a diferença de médias entre os solteiros e outra situação;
- e um teste para a diferença de médias entre os casados/uniões de facto e outra situação.
O problema desta abordagem é perdermos o controlo do nível de significância conjunto para os
3 testes. Se em cada um deles fixássemos um nível de significância de 5%, e admitindo que os
três testes eram independentes, a probabilidade conjunta de tomar uma decisão correcta seria
dada por: [ ] ( ) ( ) 857,095,005,011correctaconjuntadecisão 33
==−=−=
k
P α .
O que é equivalente a afirmar que a probabilidade de cometer um erro Tipo I é igual a
. Parece consensual que a probabilidade conjunta de errar é
demasiadamente alta: por cada 100 julgamentos/testes realizados, estaríamos a errar em 14
deles!
( ) %3,14%100143,0857,01 =×=−
3
A solução passa então pela análise de variância (ANOVA), que na sua versão mais simples (one-
way ANOVA) corresponde a uma generalização do teste t para a igualdade de duas médias.
1
Continuaremos a utilizar um nível de significância de 5% ( 05,0=α ).
2
Apesar de não terem sido apresentados, os testes para uma proporção e a para a diferença de proporções
também são muito usuais. Para os alunos que os queiram executar, será útil rever os procedimentos para a
sua estimação, mas desta feita por meio de Intervalos de Confiança, e seguidamente consultar bibliografia
apropriada para o efeito.
3
Note-se que se estivesse em causa realizar um teste para 5 grupos (por exemplo, solteiros, casados,
união de facto, divorciados e viúvos), já teríamos: [ ] 774,095,0correctaconjuntadecisão 5
==P e,
consecutivamente, a probabilidade de errar seria de 22,6%! Esta questão da realização de testes t
simultâneos pode ainda assim ser atenuada usando a correcção de Bonferroni. Esta correcção consiste
simplesmente na divisão do nível de significância pelo número p de testes simultâneos efectuados, e só
depois usar este valor para comparar com o p-value obtido para cada um deles. Neste caso, teríamos
017,0305,0 ==pα . Parece ser óbvio que desta forma seria mais difícil rejeitar (ou dito de outra
forma, seria mais difícil encontrar diferenças estatisticamente significativas), uma vez que seria
necessário obter .
0H
017,0≤− valuesp
Carlos Lourenço ISCTE, 2004 2
Estatística II
Sociologia e Sociologia e Planeamento
4.2. – Outras ANOVA’s
Número de variáveis dependentes Número de factores independentes
Designação
em Inglês
1 factor que permite a definição de mais de 2
amostras (ou grupos, classes, categorias, etc.);
ex.: intensidade do estudo quanto ao número
de horas: baixo, médio, alto.
One-way ANOVA
2 factores; ex.: (1) intensidade do estudo e (2)
área de estudos no secundário: científico,
económico, humanidades ou artes
Two-way ANOVA
3 factores; ex.: (1) intensidade do estudo e (2)
área de estudos no secundário e (3) aprovação
a Estatística I: sim ou não
Three-way ANOVA
Apenas 1 variável dependente, Y; ex.:
nota esperada a Estatística II
+ de 3 factores Multi-way ANOVA
1 factor One-way MANOVA
2 factores Two-way MANOVA
3 factores Three-way MANOVA
+ de 1 variável dependente,
; ex.: nota obtida a
Estatística I, nota esperada a Estatística
II, assiduidade nas aulas, etc. Deste
modo, passamos a ter ANOVA’s
Multivariadas (+ de uma variável).
.,,, 321 etcYYY
+ de 3 factores Multi-way MANOVA
4.3. – Pressupostos de aplicação da One-Way ANOVA
Pressupostos Comentários Como testar
Consequências
da violação
Populações
normais
Este pressuposto já se
verificava no teste t
para comparação de
duas médias.
Teste K-S (Kolmogorov-Smirnov)4
quando ; teste de Shapiro-
Wilk quando
50>n
50≤n , dado que
nestas circunstâncias é mais potente
do que o teste K-S.
Tal como na violação de qualquer
outro pressuposto teórico que
presida a um teste paramétrico, a
probabilidade de erro Tipo I pode
não ser igual ao risco teórico fixado
(normalmente 5%);
Quando as amostras são
suficientemente grandes (T.L.C.), (e
as distribuições nas populações em
estudo são idênticas) a ANOVA é
um método bastante robusto.
Populações com a
mesma variância
Este pressuposto já se
verificava no teste t
para comparação de
duas médias.
Teste de Levene.5
Este teste é mais
robusto do que outras alternativas,
como o teste de Bartlett.
O teste de Levene é um dos mais
robustos face à violação do
pressuposto da normalidade e é um
dos mais potentes para testar a
homogeneidade de variâncias. 6
No caso de não se verificar a
homogeneidade de variâncias, esta
violação será tão mais grave quanto
mais as amostras tiverem dimensões
diferentes entre si.
Amostras
aleatórias simples e
independentes
4
Supõe-se sempre que o teste de K-S que aqui se trata é o teste com a correcção de Lilliefors. Ver a sua
justificação em Carlos Lourenço (2004) Teste Para a Diferença de Médias em Amostras Emparelhadas,
Textos de apoio das aulas, nota de rodapé n.º8, pág.6.
5
Para uma explicação detalhada de como calcular este teste ver Carlos Lourenço (2004) Testes de
Hipóteses, Textos de apoio das aulas, ANEXO.
6
Neste caso, recorde-se que no cálculo da estatística F do teste de Levene, deve usar-se a mediana
amostral e não a média amostral, dado o desvio da normalidade (In Carlos Lourenço, 2004, Testes de
Hipóteses, Textos de apoio das aulas, ANEXO, pág.17).
Carlos Lourenço ISCTE, 2004 3
Estatística II
Sociologia e Sociologia e Planeamento
4.4. – Modelo de efeitos fixos na ANOVA a um factor (One-Way ANOVA ou ANOVA tipo I)
Queremos então comparar a nota esperada a Estatística II em três grupos de alunos definidos
pelo estado civil, ou seja, queremos verificar se a nota esperada (variável dependente) está ou
não condicionada pelo factor em estudo, estado civil (variável independente) que define 3 níveis
ou grupos/amostras. As três amostras em comparação são as seguintes: amostra 1 – grupo de
alunos solteiros; amostra 2 – grupo de alunos casados/união de facto; e amostra 3 – grupo de
alunos noutra situação.
Formulação das hipóteses estatísticas
kH µµµ === K210 : 7
jia jiH µµ ≠∃ :,: (com )kjiji ,,1,; K=≠ 8
Ou, para apenas 3 populações:
3210 : µµµ ==H 9
jia jiH µµ ≠∃ :,: (com )3,2,1,; =≠ jiji
No que respeita à hipótese alternativa, a média da nota esperada a Estatística II pode ser
diferente entre os grupos solteiros e casados/união de facto, entre os solteiros e os que estão
noutra situação e ainda entre os casados/união de facto e os que estão noutra situação.
Definição da estatística de teste: o modelo da ANOVA
Para auxiliar a compreensão da especificação do modelo subjacente à ANOVA, vamos acordar
a seguinte notação:
Notação Identificação Comentário
j diz respeito aos grupos/amostras
j varia do seguinte modo: de 1 até k, ou
seja, kj ,,2,1 K=
i diz respeito aos indivíduos
i varia do seguinte modo: de 1 até ao
total do grupo/amostra j a que pertence,
ou seja, jni ,,2,1 K=
ijX
é o valor observado da variável dependente X
(ex.: “nota esperada”) para o indivíduo i
pertencente à amostra j
knnn ,,, 21 K são as dimensões de cada uma das k amostras
7
Interpretação da hipótese nula: as k médias populacionais são iguais ou, alternativamente, as k amostras
provêm de uma mesma população
8
Interpretação da hipótese alternativa: “existe pelo menos um i e um j tal que ji µµ ≠ . Ou seja, a hipótese
alternativa representa a situação em que pelo menos duas das k populações têm médias diferentes.
9
Interpretação da hipótese nula: as k médias populacionais são iguais ou, alternativamente, as k amostras
provêm de uma mesma população
Carlos Lourenço ISCTE, 2004 4
Estatística II
Sociologia e Sociologia e Planeamento
Podemos então definir o seguinte:
j
n
i
ij
j
n
X
X
j
∑=
= 1
é a média da variável dependente (ex.: “nota esperada”) em cada
grupo j
n
X
X
k
j
n
i
ij
j
∑∑= =
=
1 1
é a média global da variável dependente (ex.: “nota esperada”),
ou seja, corresponde à soma de todos os valores da variável X
para todos os indivíduos i e para todos os k grupos
∑=
=
k
i
inn
1
obviamente, o total de indivíduos da amostra é igual à soma do
número de indivíduos nos k grupos/amostras
Uma vez que as hipóteses formuladas dizem respeito às médias dos grupos, por que razão este
método se chama análise de variância (ANOVA, analysis of variance)? Porque neste teste serão
precisamente as variâncias dos grupos que irão servir para definir a estatística de teste e que
estão na base do modelo da ANOVA. Basicamente, o que a ANOVA faz é analisar a variância
entre (between) os grupos e a variância dentro (within) dos grupos. Nesse sentido, definimos
então as seguintes variações:
Definição Identificação Compreensão
( )XX j −
Variação factorial (ou
explicada) ou variação entre
os grupos/amostras
é o desvio de cada uma das médias dos k
grupos/amostras em relação à média total; resulta
da influência do factor (ou variável independente)
sobre a variável dependente em estudo
( )jij XX −
Variação residual (ou não
explicada) ou variação dentro
dos grupos
é o desvio de cada observação i do grupo j em
relação à média desse grupo j; resulta da influência
de outros factores não controlados
( )XXij − Variação total
é o desvio de cada observação em relação à média
total
Como facilmente se constatará, a variação total corresponde à soma das variações entre e dentro
dos grupos/amostras:
( ) ( ) ( )jijjij XXXXXX −+−=− 10
Se elevarmos ao quadrado cada uma das variações (para evitar ter desvios negativos e desvios
positivos) e somarmos para todos os indivíduos de todas os grupos/amostras, obtemos as somas
de quadrados:
( ) ( ) ( )∑∑∑∑∑ = === =
−+−=−
k
j
n
i
jij
k
j
jj
k
j
n
i
ij
jj
XXXXnXX
1 1
2
1
2
1 1
2
10
A soma das variações entre e dentro dos grupos pode ser simplificada:
( ) ( ) XXXXXXXXXX ijjijjjijj −=−+−=−+− , ou seja, a variação total, c.q.d.
Carlos Lourenço ISCTE, 2004 5
Estatística II
Sociologia e Sociologia e Planeamento
Esta expressão, conhecida como a equação da análise de variância, pode ser escrita, por uma
questão de aproximação com as designações anglo-saxónicas (e porque o SPSS usa as mesmas
designações), como:
SSWSSBSST +=
Sum of Squares Total = Sum of Squares Between + Sum of Squares Within11
Podemos também estabelecer uma relação idêntica para os graus de liberdade associados ao
cálculo de cada uma das somas de quadrados:
( ) ( ) ( )knkn −+−=− 11 12
Finalmente, se dividirmos cada uma das somas de quadrados pelo respectivo número de graus
de liberdade, vamos obter as somas médias de quadrados (MSS, Mean Squares):
( )1−
=
n
SST
MSST
( )1−
=
k
SSB
MSSB
( )kn
SSW
MSSW
−
=
Ora, o que a One-way ANOVA faz é comparar a variabilidade entre os grupos com a
variabilidade dentro dos grupos, depois de divididas pelos respectivos graus de liberdade (o que
dá origem às referidas somas médias de quadrados). A estatística de teste é então a seguinte:
( )
( )kn
SSW
k
SSB
F
−
−
=
1
,
a qual, sob , segue uma distribuição F de Snedcor com0H ( )knk −− ,1 graus de liberdade, ou seja,
( )
( )
( )),1
1
knkF
kn
SSW
k
SSB
F −−∩
−
−
= ,
desde que não tenham sido violados os pressupostos de que as observações dos k grupos são
amostras aleatórias independentes e de que as populações de onde se retiraram as k amostras
têm distribuições normais com variâncias iguais.
11
Em Português: a soma dos quadrados totais é igual à soma dos quadrados entre os grupos com a soma
dos quadrados dentro dos grupos.
12
Para calcular a soma de quadrados total temos n observações (total), mas precisamos de saber a média total,
perdendo então 1 grau de liberdade, e daí( )1−n ; para calcular a soma de quadrados entre os grupos temos as
médias dos k grupos, mas precisamos de saber a média total, perdendo então 1 grau de liberdade, e daí ;
para calcular a soma de quadrados dentro dos grupos temos n observações (total), mas precisamos de saber as k
médias de cada um dos k grupos, perdendo então k graus de liberdade, e daí
( )1−k
( )kn − .
Carlos Lourenço ISCTE, 2004 6
Estatística II
Sociologia e Sociologia e Planeamento
O Mecanismo da ANOVA
Quando a variabilidade entre os grupos (Between) for elevada quando comparada com a
variabilidade dentro dos grupos (Within), significa que os grupos são bastante heterogéneos
entre si e homogéneos no seu interior. Ora, o facto de serem bastante heterogéneos em
comparação com a homogeneidade que se verifica no interior de cada um deles, torna-os
bastante diferentes entre si e é de esperar que as suas médias para a variável dependente, sejam
significativamente diferentes. Nesta situação, é plausível esperar que a hipótese nula venha a ser
rejeitada.
Assim, parece ser óbvio que quanto maior for a variabilidade entre os grupos relativamente à
variabilidade dentro dos grupos, maior será a estatística de teste F, e bem assim, maior a
probabilidade de vir a rejeitar a hipótese nula (existirão médias diferentes entre os k grupos).
Ora, uma vez que a F de Snedcor é uma distribuição positiva (não assume valores negativos)
assimétrica (enviesada à esquerda), e como a rejeição da hipótese nula sucederá para valores de
F o mais elevados possível, os valores críticos devem ser identificados na tabela da F de
Snedcor para uma probabilidade associada de ( )α−1 na aba direita, isto é, . O teste
da ANOVA é, pois, e sempre, um teste unilateral à direita.
( ),1;1 knkF −−−α )
)
)
Nota Sobre a Leitura da Tabela da F de Snedcor
A caracterização da distribuição F de Snedcor faz-se com recurso a dois parâmetros, m e n,
respectivamente, os graus de liberdade do numerador e os graus de liberdade do denominador.13
Genericamente, se uma qualquer variável X segue uma F de Snedcor, escrevemos: .( )nmFX ,∩
Então, na ANOVA os ( graus de liberdade correspondem aos graus de liberdade m, e os
graus de liberdade corespondem aos graus de liberdade n.
1−k
( kn −
Aplicação com um Exemplo14
Pretendemos então testar se existem diferenças entre as médias da variável dependente “nota
esperada a Estatística II” para os 3 grupos definidos pelo factor estado civil: solteiros, casados/união
de facto e outra situação ( ). Vejamos a informação amostral de que dispomos:3=k
Case Processing Summary
123 94,6% 7 5,4% 130 100,0%
23 82,1% 5 17,9% 28 100,0%
6 100,0% 0 ,0% 6 100,0%
Estado civil
Solteiro
Casado/União de facto
Outra situação
Que nota espera vir a
ter em Estatística II?
N Percent N Percent N Percent
Valid Missing Total
Cases
13
Esta identificação grosseira da posição dos graus de liberdade é explicada pelo facto de uma variável F
quando construída como um rácio de duas outras variáveis X e Y quaisquer com distribuições do Chi-
quadrado, respectivamente, com m e n graus de liberdade, divididas pelos seus respectivos graus de
liberadade, seguir teoricamente uma distribuição F de Snedcor com m e n graus de lierdade:
( ) ( ) ( )nmnm F
nY
mX
FYX ,
22
então,eSe ∩=∩∩ χχ .
14
Se nada dito em contrário, os testes apresentados serão executados para um nível de significância de 5%
( 05,0=α ).
Carlos Lourenço ISCTE, 2004 7
Estatística II
Sociologia e Sociologia e Planeamento
Descriptives
11,47
2,255
12,57
1,996
12,83
1,602
Mean
Std. Deviation
Mean
Std. Deviation
Mean
Std. Deviation
Estado civil
Solteiro
Casado/União de facto
Outra situação
Que nota espera vir a
ter em Estatística II?
Statistic
A primeira impressão a retirar da análise dos outputs anteriores, é que estamos a lidar com
amostras cujas dimensões são bastante diferentes: 123 alunos solteiros, 23 alunos casados/união
de facto e apenas 6 alunos noutra situação, num total de 152 alunos ( 152=n ). Arredondada às
unidades, a média amostral da nota esperada dos solteiros é de 11 valores, e a média amostral da
nota esperada dos casados/união de facto e dos alunos noutra situação é de 13 valores.
Graficamente, temos
Estado civil
Outra situaçãoCasado/União de factSolteiro
MeanofQuenotaesperavirateremEstatísticaII?
13,0
12,8
12,6
12,4
12,2
12,0
11,8
11,6
11,4
11,2
Poderemos considerar estes valores como diferenças significativas? Ou ainda, será que estas
diferenças, ainda que não muito pronunciadas, serão significativas para as 3 populações em
estudo? Apliquemos então a ANOVA.
Verificação dos Pressupostos de Aplicação da ANOVA
Normalidade
Solicitando um teste K-S ao SPSS para os 3 grupos/amostras, temos
Tests of Normality
,240 123 ,000 ,811 123 ,000
,177 23 ,061 ,901 23 ,026
,267 6 ,200* ,809 6 ,070
Estado civil
Solteiro
Casado/União de facto
Outra situação
Que nota espera vir a
ter em Estatística II?
Statistic df Sig. Statistic df Sig.
Kolmogorov-Smirnov
a
Shapiro-Wilk
This is a lower bound of the true significance.*.
Lilliefors Significance Correctiona.
A normalidade da distribuição da variável nota esperada no grupo solteiros é rejeitada nos dois
testes ( ); para os outros dois grupos é aconselhável usar apenas o teste de
Shapiro-Wilk (
05,0≤− valuep
50, 32 ≤nn ), o qual rejeita a normalidade da variável nota esperada no grupo dos
casados/união de facto ( ), mas não para o grupo dos alunos noutra situação
( 0 ). Que decisão tomar?
05,0≤− valuep
5,0>− valuep
Carlos Lourenço ISCTE, 2004 8
Estatística II
Sociologia e Sociologia e Planeamento
Solteiros: podemos fazer uso conveniente do T.L.C. e, uma vez na presença de uma amostra
suficientemente grande, admitir a normalidade, porque neste caso sabemos que a violação do
pressuposto não tem consequências sérias.
Casados/união de facto: o teste de Shapiro-Wilk rejeita a normalidade para um nível de
significância de 5% ( ), mas se usarmos diminuirmos a probabilidade de erro
Tipo I admissível para 0,01, a normalidade já não é rejeitada (
05,0≤− valuep
01,0>− valuep ). Por outro lado,
curiosamente, e apesar de sabermos que o teste K-S não é tão potente quanto o de Shapiro-Wilk
em amostras menores ou iguais a 50, o teste K-S não rejeita a normalidade. Na dúvida,
admitimos que a variável tem disribuição normal também no grupo dos casados/união de facto,
principalmente porque o teste de Shapiro-Wilk não rejeita essa hipótese para um nível de
significância de 1%.
Outra situação: o teste de Shapiro-Wilk não rejeita a normalidade para um nível de significância
de 5% ( ). O pressuposto da normalidade não é violado.05,0>− valuep
Verificada a normalidade, temos agora de testar a homogeneidade de variâncias entre os 3 grupos.
Homogeneidade de Variâncias
Apenas solicitando a ANOVA é possível aplicar o teste de Levene no SPSS. Apresentamos
então o output correspondente:
Test of Homogeneity of Variances
Que nota espera vir a ter em Estatística II?
,473 2 149 ,624
Levene
Statistic df1 df2 Sig.
No teste de Levene testamos na hipótese nula a igualdade de variâncias:
2
3
2
2
2
10 : σσσ ==H
22
:,: jia jiH σσ ≠∃ (com )kji ,,1, K=
Ora, como podemos verificar no output, não se rejeita a hipótese nula ( ), ou
seja, não rejeitamos a hipótese de haver homogeneidade de variâncias na variável nota esperada
entre os 3 grupos definidos pelo estado civil. Estamos pois em condições de avançar com a
ANOVA, escrevendo de imediato as hipóteses em teste.
05,0>− valuep
Formulação das hipóteses estatísticas
3210 : µµµ ==H
jia jiH µµ ≠∃ :,: (com )3,2,1,; =≠ jiji
Escolha e cálculo da estatística de teste
Sabemos agora qual a estatística de teste a usar (a estatística F) e qual a sua distribuição teórica:
( )
( )
( )),1
1
knkF
kn
SSW
k
SSB
F −−∩
−
−
= .
Carlos Lourenço ISCTE, 2004 9
Estatística II
Sociologia e Sociologia e Planeamento
Como se compreenderá pela exposição teórica anteriormente apresentada, realizar à mão os
cálculos para chegar às somas dos quadrados entre os grupos e dentro dos grupos, seria, no
mínimo, uma tarefa fastidiosa. Por essa razão, limitamo-nos a retirar do output do SPSS os
valores necessários para comprovar o valor da estatística F que o software apresenta:
ANOVA
Que nota espera vir a ter em Estatística II?
31,156 2 15,578 3,220 ,043
720,917 149 4,838
752,073 151
Between Groups
Within Groups
Total
Sum of
Squares df Mean Square F Sig.
Comprovando o valor da estatística F, temos
( )
( )
( )
( )
220,3
838,4
578,15
149
917,720
2
156,31
3152
917,720
13
156,31
1
===
−
−
=
−
−
=
kn
SSW
k
SSB
F ,
retirando do output apenas os valores da coluna “Sum of Squares” (e usando o n e o k definidos);
ou
220,3
838,4
578,15
149
917,720
2
156,31
====
SSW
SSB
df
SSW
df
SSB
F ,
retirando do output os valores das colunas “Sum of Squares” e “df”;
ou ainda, simplesmente,
( )
( )
220,3
838,4
578,151
===
−
−
=
MSSW
MSSB
kn
SSW
k
SSB
F ,
retirando do output os valores da coluna “Mean Square”.
Determinação do valor crítico
Teremos de consultar na tabela da distribuição F de Snedcor o valor crítico associado à
probabilidade acumlada 0,95 e com ( )149,2 == nm graus de liberdade, ou seja,
.( ) ( ) 000,3149,2;95,0,1;1 ≅=−−− FF knkα
Tomada de Decisão
Como temos , rejeitamos . Ou seja, com um nível de
significância de 5%, rejeitamos a hipótese de não existirem diferenças significativas nas médias
da nota esperada a Estatística II entre as 3 populações solteiros, casados/união de facto e outra
situação. Existe, portanto, evidência estatística para afirmar que há pelo menos dois grupos que
têm médias diferentes entre si.
( ) 000,3220,3149,2;95,0 >⇔≥ FF 0H
No output do SPSS comprovamos esta mesma decisão, rejeita-se , uma vez que .0H 05,0≤− valuep
Carlos Lourenço ISCTE, 2004 10
Estatística II
Sociologia e Sociologia e Planeamento
Nota final: a necessidade de aplicação dos testes Post-Hoc
Este resultado é bastante satisfatório, uma vez que conseguimos de facto testar 3 médias, algo
que não sabíamos concretizar até agora, e mais ainda porque à partida não esperávamos que
houvesse alguma diferença entre os estados civis. Mas resta uma questão: os grupos são todos
diferentes (as 3 médias são diferentes) ou haverá apenas 2 grupos que diferem entre si? Esta
questão só terá resposta aplicando os testes post-hoc, isto é, os testes de comparações múltiplas
a posteriori.15
4.5. Testes Post-Hoc de Comparações Múltiplas
Como vimos logo no início deste capítulo, a realização de testes t em simultâneo não permite
controlar o nível de significância global, pelo que se torna nexcessário definir outros testes de
hipóteses simultâneos que permitam comparações múltiplas, isto é, identificar diferenças entre
as k médias populacionais, e controlem ao mesmo tempo o nível de significância global. Assim,
os testes de comparação múltipla a posteriori, ou post-hoc, mais conhecidos são:
Quando se assume que as variâncias entre os grupos são iguais:
- teste Least Significant Difference de Fisher (LSD no SPSS);
- teste Honestly Significant Difference de Tukey (Tukey no SPSS);
- teste de Scheffé;
- teste de Newman-Keuls (S-N-K no SPSS);
- teste de Duncan
- teste de Gabriel
- teste de Hochberg’s GT2
- teste de Bonferroni
- teste R-E-G-W Q
Quando não se assume que as variâncias entre os grupos são iguais:
- teste de Dunnett’s T3
- teste de Dunnett’s C
- teste de Games-Howell
Obviamente, as hipóteses em teste para cada um destes testes é:
jiH µµ =:0
jiaH µµ ≠: , ambas com ;kjiji ,,2,1,; K=≠
e o que cada um deles faz é usar uma estatística de teste que incorpore alguma correcção para
contornar o facto de se estarem a realizar comparações múltiplas e ao mesmo tempo controle o
nível de significância, e onde essas estatísticas ou seguem distribuições muito específicas em
que aqueles objectivos também são cumpridos, ou seguem distribuições mais comuns mas onde
os valores críticos tabelados são corrigidos.
Por exemplo, o teste HSD de Tukey usa uma estatística de teste que segue uma distribuição
, isto é, uma distribuição Studentized Range com( knkTS −, ) ( )knk −, graus de liberdade, e que
depois é comparada com o valor crítico tabelado desta distribuição e ainda assim corrigido por
15
Os testes post-hoc devem o seu nome ao facto de a sua aplicação só fazer sentido após a aplicação da
ANOVA. Uma vez rejeitada a hipótese nula é que fará sentido tentar identificar entre que pares de grupos
haverá diferenças.
Carlos Lourenço ISCTE, 2004 11
Estatística II
Sociologia e Sociologia e Planeamento
um factor de comparações múltiplas.16
Já o teste de Scheffé usa uma estatística de teste que
segue uma F de Snedcor com ( )knk −− ,1 graus de liberdade, mas igualmente corrigida por um
factor que tem em conta o facto de se estarem a comparar k médias, duas a duas.17
O teste de Tukey e o teste de Scheffé são indicados por alguns autores como sendo os mais
utilizados, granjeando o Scheffé as maior parte das preferências. Vejamos algumas das
vantagens de ambos.
Teste de Tukey
- gera intervalos de confiança com menor amplitude, portanto, mais precisos.
Teste de Scheffé
- maior simplicidade de cálculo;
- permite usar amostras com dimensões diferentes;
- é robusto a violações dos pressupostos de normalidade e de igualdade de variâncias.18
Sobre os outros testes, podemos resumir algumas instruções ad-hoc para a sua utilização:
Dimensões das amostras
iguais
Tukey
R-E-G-W Q
Dimensões ligeiramente
diferentes
GabrielVariâncias iguais
Dimensões muito
diferentes
Hochberg’s GT2
Variâncias diferentes
Dimensões muito
diferentes
Games-Howell
Como se compreenderá, não vamos exemplificar o cálculo de nenhum dos testes, preferindo
apresentar apenas um output de SPSS e proceder à sua interpretação. E, como habitualmente,
vigora a seguinte regra: ⇒≤− αvaluep rejeitar ;0H ⇒>− αvaluep não rejeitar .0H
16
A estatística do teste HSD de Tukey é dada por ( )knkT
ji
ji
S
nn
S
XX
W −∩
⎟
⎟
⎠
⎞
⎜
⎜
⎝
⎛
+
−
= ,
2'
11
2
,
onde a hipótese nula é rejeitada quando o valor absoluto da diferença entre as 2 médias em comparação é
maior ou igual do que o valor crítico multiplicado pela respectiva correcção, isto é, quando
( ) ⎟
⎟
⎠
⎞
⎜
⎜
⎝
⎛
+⋅≥− −−
ji
knkTji
nn
S
SXX
11
2
2'
,;1 α .
17
A estatística do teste de Scheffé é dada por ( ) ( )1
11
,1
2'
−⋅∩
⎟
⎟
⎠
⎞
⎜
⎜
⎝
⎛
+
−
= −− kF
nn
S
XX
W knk
ji
ji
,
onde a hipótese nula é rejeitada quando o valor absoluto da diferença entre as 2 médias em comparação é
maior ou igual do que o valor crítico multiplicado pela respectiva correcção, isto é, quando
( ) ( ) ⎟
⎟
⎠
⎞
⎜
⎜
⎝
⎛
+⋅−⋅≥− −−−
ji
knkji
nn
SkFXX
11
1 2'
,1;1 α .
18
Um teste diz-se robusto quando a sua validade não é afectada por violações dos pressupostos que lhe
estão subjacentes, isto é, os resultados são muito próximos num e noutro casos.
Carlos Lourenço ISCTE, 2004 12
Estatística II
Sociologia e Sociologia e Planeamento
Uma vez que a hipótese de igualdade das variâncias não foi rejeitada, iremos solicitar ao SPSS o
cálculo de todos os testes disponíveis nestas condições:
Multiple Comparisons
Dependent Variable: Que nota espera vir a ter em Estatística II?
-1,09 ,500 ,078 -2,27 ,09
-1,36 ,920 ,305 -3,54 ,82
1,09 ,500 ,078 -,09 2,27
-,27 1,008 ,962 -2,66 2,12
1,36 ,920 ,305 -,82 3,54
,27 1,008 ,962 -2,12 2,66
-1,09 ,500 ,096 -2,33 ,15
-1,36 ,920 ,339 -3,63 ,92
1,09 ,500 ,096 -,15 2,33
-,27 1,008 ,965 -2,76 2,23
1,36 ,920 ,339 -,92 3,63
,27 1,008 ,965 -2,23 2,76
-1,09* ,500 ,031 -2,08 -,10
-1,36 ,920 ,142 -3,18 ,46
1,09* ,500 ,031 ,10 2,08
-,27 1,008 ,791 -2,26 1,72
1,36 ,920 ,142 -,46 3,18
,27 1,008 ,791 -1,72 2,26
-1,09 ,500 ,092 -2,30 ,12
-1,36 ,920 ,425 -3,59 ,87
1,09 ,500 ,092 -,12 2,30
-,27 1,008 1,000 -2,71 2,17
1,36 ,920 ,425 -,87 3,59
,27 1,008 1,000 -2,17 2,71
-1,09 ,500 ,089 -2,30 ,12
-1,36 ,920 ,368 -3,58 ,86
1,09 ,500 ,089 -,12 2,30
-,27 1,008 ,991 -2,70 2,17
1,36 ,920 ,368 -,86 3,58
,27 1,008 ,991 -2,17 2,70
-1,09 ,500 ,059 -2,21 ,03
-1,36 ,920 ,225 -3,23 ,51
1,09 ,500 ,059 -,03 2,21
-,27 1,008 ,989 -2,58 2,05
1,36 ,920 ,225 -,51 3,23
,27 1,008 ,989 -2,05 2,58
-1,09 ,500 ,089 -2,30 ,12
-1,36 ,920 ,366 -3,58 ,86
1,09 ,500 ,089 -,12 2,30
-,27 1,008 ,991 -2,70 2,17
1,36 ,920 ,366 -,86 3,58
,27 1,008 ,991 -2,17 2,70
-1,36 ,920 ,196 -3,33 ,61
-,27 1,008 ,917 -2,43 1,89
(J) Estado civil
Casado/União de facto
Outra situação
Solteiro
Outra situação
Solteiro
Casado/União de facto
Casado/União de facto
Outra situação
Solteiro
Outra situação
Solteiro
Casado/União de facto
Casado/União de facto
Outra situação
Solteiro
Outra situação
Solteiro
Casado/União de facto
Casado/União de facto
Outra situação
Solteiro
Outra situação
Solteiro
Casado/União de facto
Casado/União de facto
Outra situação
Solteiro
Outra situação
Solteiro
Casado/União de facto
Casado/União de facto
Outra situação
Solteiro
Outra situação
Solteiro
Casado/União de facto
Casado/União de facto
Outra situação
Solteiro
Outra situação
Solteiro
Casado/União de facto
Outra situação
Outra situação
(I) Estado civil
Solteiro
Casado/União de facto
Outra situação
Solteiro
Casado/União de facto
Outra situação
Solteiro
Casado/União de facto
Outra situação
Solteiro
Casado/União de facto
Outra situação
Solteiro
Casado/União de facto
Outra situação
Solteiro
Casado/União de facto
Outra situação
Solteiro
Casado/União de facto
Outra situação
Solteiro
Casado/União de facto
Tukey HSD
Scheffe
LSD
Bonferroni
Sidak
Gabriel
Hochberg
Dunnett t (2-sided)a
Mean
Difference
(I-J) Std. Error Sig. Lower Bound Upper Bound
95% Confidence Interval
The mean difference is significant at the .05 level.*.
Dunnett t-tests treat one group as a control, and compare all other groups against it.a.
Como se pode verificar, pelos testes de Tukey e Scheffé só rejeitaremos que a diferença entre as
médias é nula se fixarmos um nível de significância de 10% ( 10,0=α ). Desse modo, é rejeitada
a igualdade de médias apenas entre os grupos solteiros e casados/união de facto
( 1 ).0,0≤− valuep 19
O teste LSD de Fisher é o único que rejeita a igualdade de médias entre os
mesmos 2 grupos para o nível de significância habitualmente usado de 5% ( ).05,0≤− valuep 20
Podemos assim concluir que existe uma diferença significativa entre as médias da nota esperada
a Estatística II nas populações alunos solteiros e alunos casados/união de facto.
19
É óbvio que esta rejeição acontece 2 vezes: quando comparamos solteiros vs. casados e quando
comparamos casados vs. solteiros.
20
Note que o SPSS dá nota desta mesma conclusão ao colocar um asterisco junto da diferença de médias
entre os 2 grupos em questão (veja a nota de rodapé do output).
Carlos Lourenço ISCTE, 2004 13

Mais conteúdo relacionado

Mais procurados

Teste de hipoteses
Teste de hipotesesTeste de hipoteses
Teste de hipoteseshenrique2016
 
Apresentação contabilometria 6
Apresentação contabilometria 6Apresentação contabilometria 6
Apresentação contabilometria 6Ingrid M
 
Estatistica cap 1 2 3 e 4
Estatistica cap 1 2 3 e 4 Estatistica cap 1 2 3 e 4
Estatistica cap 1 2 3 e 4 diegogabandrade
 
Aula distribuição amostral da média
Aula distribuição amostral da médiaAula distribuição amostral da média
Aula distribuição amostral da médiaGiselle Onuki
 
Aula parte6 distribuicao_amostral
Aula parte6 distribuicao_amostralAula parte6 distribuicao_amostral
Aula parte6 distribuicao_amostraligorjlc
 
Cálculo do tamanho de uma Amostra
Cálculo do tamanho de uma AmostraCálculo do tamanho de uma Amostra
Cálculo do tamanho de uma AmostraFlávia Salame
 
ANÁLISE ESTATÍSTICA DA RELAÇÃO ENTRE EVASÃO E AS RESPOSTAS DO QUESTIONÁRIO PA...
ANÁLISE ESTATÍSTICA DA RELAÇÃO ENTRE EVASÃO E AS RESPOSTAS DO QUESTIONÁRIO PA...ANÁLISE ESTATÍSTICA DA RELAÇÃO ENTRE EVASÃO E AS RESPOSTAS DO QUESTIONÁRIO PA...
ANÁLISE ESTATÍSTICA DA RELAÇÃO ENTRE EVASÃO E AS RESPOSTAS DO QUESTIONÁRIO PA...CRISLANIO MACEDO
 
Estatística descritiva e inferencial Cozby Revisão
Estatística descritiva e inferencial Cozby RevisãoEstatística descritiva e inferencial Cozby Revisão
Estatística descritiva e inferencial Cozby Revisãojoaopss
 
Análise discriminante, avaliação do desempenho da taxa de erro utilizando mét...
Análise discriminante, avaliação do desempenho da taxa de erro utilizando mét...Análise discriminante, avaliação do desempenho da taxa de erro utilizando mét...
Análise discriminante, avaliação do desempenho da taxa de erro utilizando mét...Universidade Federal Fluminense
 

Mais procurados (19)

Tópico 3 testes de hípoteses - 1 amostra
Tópico 3   testes de hípoteses - 1 amostraTópico 3   testes de hípoteses - 1 amostra
Tópico 3 testes de hípoteses - 1 amostra
 
Teste de hipoteses
Teste de hipotesesTeste de hipoteses
Teste de hipoteses
 
Ipaee capitulo3 2
Ipaee capitulo3 2Ipaee capitulo3 2
Ipaee capitulo3 2
 
Introd inferencia
Introd inferenciaIntrod inferencia
Introd inferencia
 
Apresentação contabilometria 6
Apresentação contabilometria 6Apresentação contabilometria 6
Apresentação contabilometria 6
 
Estatistica cap 1 2 3 e 4
Estatistica cap 1 2 3 e 4 Estatistica cap 1 2 3 e 4
Estatistica cap 1 2 3 e 4
 
Aula10 anova 000
Aula10 anova 000Aula10 anova 000
Aula10 anova 000
 
Conceitos básicos
Conceitos básicosConceitos básicos
Conceitos básicos
 
Estatística - Aula 6
Estatística - Aula 6Estatística - Aula 6
Estatística - Aula 6
 
Aula distribuição amostral da média
Aula distribuição amostral da médiaAula distribuição amostral da média
Aula distribuição amostral da média
 
Ipaee capitulo 3_slides_3
Ipaee capitulo 3_slides_3Ipaee capitulo 3_slides_3
Ipaee capitulo 3_slides_3
 
Teste t student
Teste t studentTeste t student
Teste t student
 
Aula parte6 distribuicao_amostral
Aula parte6 distribuicao_amostralAula parte6 distribuicao_amostral
Aula parte6 distribuicao_amostral
 
Princípios de Estatística Inferencial - I
Princípios de Estatística Inferencial - IPrincípios de Estatística Inferencial - I
Princípios de Estatística Inferencial - I
 
Cálculo do tamanho de uma Amostra
Cálculo do tamanho de uma AmostraCálculo do tamanho de uma Amostra
Cálculo do tamanho de uma Amostra
 
ANÁLISE ESTATÍSTICA DA RELAÇÃO ENTRE EVASÃO E AS RESPOSTAS DO QUESTIONÁRIO PA...
ANÁLISE ESTATÍSTICA DA RELAÇÃO ENTRE EVASÃO E AS RESPOSTAS DO QUESTIONÁRIO PA...ANÁLISE ESTATÍSTICA DA RELAÇÃO ENTRE EVASÃO E AS RESPOSTAS DO QUESTIONÁRIO PA...
ANÁLISE ESTATÍSTICA DA RELAÇÃO ENTRE EVASÃO E AS RESPOSTAS DO QUESTIONÁRIO PA...
 
Estatística descritiva e inferencial Cozby Revisão
Estatística descritiva e inferencial Cozby RevisãoEstatística descritiva e inferencial Cozby Revisão
Estatística descritiva e inferencial Cozby Revisão
 
Anova de 1 via
Anova de 1 viaAnova de 1 via
Anova de 1 via
 
Análise discriminante, avaliação do desempenho da taxa de erro utilizando mét...
Análise discriminante, avaliação do desempenho da taxa de erro utilizando mét...Análise discriminante, avaliação do desempenho da taxa de erro utilizando mét...
Análise discriminante, avaliação do desempenho da taxa de erro utilizando mét...
 

Semelhante a 08 testes hipoteses_anova

Apresentação Testes parametricos para aplicação cientifica.pptx
Apresentação Testes parametricos para aplicação cientifica.pptxApresentação Testes parametricos para aplicação cientifica.pptx
Apresentação Testes parametricos para aplicação cientifica.pptxEliseuGouveia2
 
ESTATÍSTICA-BÁSICA-SUMÁRIO-1a-PARTE-REVISADO-2013.pdf
ESTATÍSTICA-BÁSICA-SUMÁRIO-1a-PARTE-REVISADO-2013.pdfESTATÍSTICA-BÁSICA-SUMÁRIO-1a-PARTE-REVISADO-2013.pdf
ESTATÍSTICA-BÁSICA-SUMÁRIO-1a-PARTE-REVISADO-2013.pdfssuserac1de6
 
Curso #H4A - Módulo 5
Curso #H4A - Módulo 5Curso #H4A - Módulo 5
Curso #H4A - Módulo 5Mgfamiliar Net
 
Poder Amostral e Estatística
Poder Amostral e EstatísticaPoder Amostral e Estatística
Poder Amostral e EstatísticaSandro Esteves
 
AMD - Aula n.º 4 - Anova e Kruskal Wallis.pptx
AMD - Aula n.º 4 - Anova e Kruskal Wallis.pptxAMD - Aula n.º 4 - Anova e Kruskal Wallis.pptx
AMD - Aula n.º 4 - Anova e Kruskal Wallis.pptxNunoSilva599593
 
Testes nao parametricos_mann-whitney
Testes nao parametricos_mann-whitneyTestes nao parametricos_mann-whitney
Testes nao parametricos_mann-whitneyCeiça Correia
 
Testes nao parametricos_mann-whitney
Testes nao parametricos_mann-whitneyTestes nao parametricos_mann-whitney
Testes nao parametricos_mann-whitneyCeiça Correia
 
estatística é uma disciplina ampla e fundamental
estatística é uma disciplina ampla e fundamentalestatística é uma disciplina ampla e fundamental
estatística é uma disciplina ampla e fundamentalssuser98ac96
 
Fundamentos da bioestatística
Fundamentos da bioestatísticaFundamentos da bioestatística
Fundamentos da bioestatísticaJuliano van Melis
 
Aula 26_01_2015(exemplos_multivariados)Capítulo1
Aula 26_01_2015(exemplos_multivariados)Capítulo1Aula 26_01_2015(exemplos_multivariados)Capítulo1
Aula 26_01_2015(exemplos_multivariados)Capítulo1mjoseane
 
Análise dados lição7_8
Análise dados lição7_8Análise dados lição7_8
Análise dados lição7_8Manuel do Carmo
 
Cap4 - Parte 6 - Distribuições Discretas Exercicios Resolvidos
Cap4 - Parte 6 - Distribuições Discretas Exercicios ResolvidosCap4 - Parte 6 - Distribuições Discretas Exercicios Resolvidos
Cap4 - Parte 6 - Distribuições Discretas Exercicios ResolvidosRegis Andrade
 
Hipóteses e Estimativa do tamanho da amostra (aula 6)
Hipóteses e Estimativa do tamanho da amostra (aula 6)Hipóteses e Estimativa do tamanho da amostra (aula 6)
Hipóteses e Estimativa do tamanho da amostra (aula 6)Sandra Lago Moraes
 
Teste de hipoteses
Teste de hipotesesTeste de hipoteses
Teste de hipoteseszimbu
 

Semelhante a 08 testes hipoteses_anova (20)

Tópico 3 Testes de Hipóteses - 2 amostras
Tópico 3   Testes de Hipóteses - 2 amostrasTópico 3   Testes de Hipóteses - 2 amostras
Tópico 3 Testes de Hipóteses - 2 amostras
 
Apresentação Testes parametricos para aplicação cientifica.pptx
Apresentação Testes parametricos para aplicação cientifica.pptxApresentação Testes parametricos para aplicação cientifica.pptx
Apresentação Testes parametricos para aplicação cientifica.pptx
 
ESTATÍSTICA-BÁSICA-SUMÁRIO-1a-PARTE-REVISADO-2013.pdf
ESTATÍSTICA-BÁSICA-SUMÁRIO-1a-PARTE-REVISADO-2013.pdfESTATÍSTICA-BÁSICA-SUMÁRIO-1a-PARTE-REVISADO-2013.pdf
ESTATÍSTICA-BÁSICA-SUMÁRIO-1a-PARTE-REVISADO-2013.pdf
 
Aula19
Aula19Aula19
Aula19
 
Curso #H4A - Módulo 5
Curso #H4A - Módulo 5Curso #H4A - Módulo 5
Curso #H4A - Módulo 5
 
Poder Amostral e Estatística
Poder Amostral e EstatísticaPoder Amostral e Estatística
Poder Amostral e Estatística
 
Testes não paramétricos
Testes não paramétricosTestes não paramétricos
Testes não paramétricos
 
AMD - Aula n.º 4 - Anova e Kruskal Wallis.pptx
AMD - Aula n.º 4 - Anova e Kruskal Wallis.pptxAMD - Aula n.º 4 - Anova e Kruskal Wallis.pptx
AMD - Aula n.º 4 - Anova e Kruskal Wallis.pptx
 
Anova 2__fatores_prof._ivan (2)
Anova  2__fatores_prof._ivan (2)Anova  2__fatores_prof._ivan (2)
Anova 2__fatores_prof._ivan (2)
 
Testes nao parametricos_mann-whitney
Testes nao parametricos_mann-whitneyTestes nao parametricos_mann-whitney
Testes nao parametricos_mann-whitney
 
Testes nao parametricos_mann-whitney
Testes nao parametricos_mann-whitneyTestes nao parametricos_mann-whitney
Testes nao parametricos_mann-whitney
 
estatística é uma disciplina ampla e fundamental
estatística é uma disciplina ampla e fundamentalestatística é uma disciplina ampla e fundamental
estatística é uma disciplina ampla e fundamental
 
Fundamentos da bioestatística
Fundamentos da bioestatísticaFundamentos da bioestatística
Fundamentos da bioestatística
 
Aula 26_01_2015(exemplos_multivariados)Capítulo1
Aula 26_01_2015(exemplos_multivariados)Capítulo1Aula 26_01_2015(exemplos_multivariados)Capítulo1
Aula 26_01_2015(exemplos_multivariados)Capítulo1
 
Análise de dados com SciLab
Análise de dados com SciLabAnálise de dados com SciLab
Análise de dados com SciLab
 
Análise dados lição7_8
Análise dados lição7_8Análise dados lição7_8
Análise dados lição7_8
 
TESTE T STUDENT.pptx
TESTE T STUDENT.pptxTESTE T STUDENT.pptx
TESTE T STUDENT.pptx
 
Cap4 - Parte 6 - Distribuições Discretas Exercicios Resolvidos
Cap4 - Parte 6 - Distribuições Discretas Exercicios ResolvidosCap4 - Parte 6 - Distribuições Discretas Exercicios Resolvidos
Cap4 - Parte 6 - Distribuições Discretas Exercicios Resolvidos
 
Hipóteses e Estimativa do tamanho da amostra (aula 6)
Hipóteses e Estimativa do tamanho da amostra (aula 6)Hipóteses e Estimativa do tamanho da amostra (aula 6)
Hipóteses e Estimativa do tamanho da amostra (aula 6)
 
Teste de hipoteses
Teste de hipotesesTeste de hipoteses
Teste de hipoteses
 

08 testes hipoteses_anova

  • 1. Estatística II Sociologia e Sociologia e Planeamento ISCTE SOCIOLOGIA E SOCIOLOGIA E PLANEAMENTO Ano Lectivo 2003/2004 (2º Semestre) ESTATÍSTICA II (Textos de Apoio das Aulas) Testes de Hipóteses Para Mais de Duas Amostras One-Way ANOVA (ou análise de variância a um factor) Carlos Lourenço, Dep.º Métodos Quantitativos (carlos.lourenco@iscte.pt) Carlos Lourenço ISCTE, 2004 1
  • 2. Estatística II Sociologia e Sociologia e Planeamento 4. TESTES PARAMÉTRICOS PARA MAIS DE 2 AMOSTRAS – ONE-WAY ANOVA1 4.1. Introdução Nos testes de hipóteses até agora apresentados pretendíamos realizar inferência para um (teste para uma média populacional, em grandes e em pequenas amostras) ou para dois parâmetros (teste para a diferença de médias em amostras independentes e em amostras emparelhadas, e em grandes e em pequenas amostras).2 Estes testes requeriam que se recolhessem uma ou, no máximo, duas amostras independentes (ou não, caso em que seriam emparelhadas). Como procedemos então em situações em que temos k amostras (ou grupos, ou categorias, ou…), com ?2>k Haverá diferenças entre as médias da nota esperada consoante os 3 diferentes estados civis? Imaginemos que pretendíamos testar se a média da nota esperada a Estatística II era ou não significativamente diferente entre os 3 estados civis presentes na amostra recolhida junto dos alunos de Sociologia e Sociologia e Planeamento: solteiro, casado/união de facto e outra situação ( ). À partida, não existem razões para crer que as expectativas face à cadeira se modifiquem consoante o estado civil do aluno. É de esperar que não se rejeite a hipótese de igualdade das médias entre os 3 estados civis. Mas como procederíamos para operacionalizar esta hipótese, uma vez que estamos a trabalhar com 3 amostras (aleatórias)? 3=k Uma solução parece ser executar um teste t para cada par de estados civis (3 testes t): - um teste para a diferença de médias entre os solteiros e os casados/uniões de facto; - um teste para a diferença de médias entre os solteiros e outra situação; - e um teste para a diferença de médias entre os casados/uniões de facto e outra situação. O problema desta abordagem é perdermos o controlo do nível de significância conjunto para os 3 testes. Se em cada um deles fixássemos um nível de significância de 5%, e admitindo que os três testes eram independentes, a probabilidade conjunta de tomar uma decisão correcta seria dada por: [ ] ( ) ( ) 857,095,005,011correctaconjuntadecisão 33 ==−=−= k P α . O que é equivalente a afirmar que a probabilidade de cometer um erro Tipo I é igual a . Parece consensual que a probabilidade conjunta de errar é demasiadamente alta: por cada 100 julgamentos/testes realizados, estaríamos a errar em 14 deles! ( ) %3,14%100143,0857,01 =×=− 3 A solução passa então pela análise de variância (ANOVA), que na sua versão mais simples (one- way ANOVA) corresponde a uma generalização do teste t para a igualdade de duas médias. 1 Continuaremos a utilizar um nível de significância de 5% ( 05,0=α ). 2 Apesar de não terem sido apresentados, os testes para uma proporção e a para a diferença de proporções também são muito usuais. Para os alunos que os queiram executar, será útil rever os procedimentos para a sua estimação, mas desta feita por meio de Intervalos de Confiança, e seguidamente consultar bibliografia apropriada para o efeito. 3 Note-se que se estivesse em causa realizar um teste para 5 grupos (por exemplo, solteiros, casados, união de facto, divorciados e viúvos), já teríamos: [ ] 774,095,0correctaconjuntadecisão 5 ==P e, consecutivamente, a probabilidade de errar seria de 22,6%! Esta questão da realização de testes t simultâneos pode ainda assim ser atenuada usando a correcção de Bonferroni. Esta correcção consiste simplesmente na divisão do nível de significância pelo número p de testes simultâneos efectuados, e só depois usar este valor para comparar com o p-value obtido para cada um deles. Neste caso, teríamos 017,0305,0 ==pα . Parece ser óbvio que desta forma seria mais difícil rejeitar (ou dito de outra forma, seria mais difícil encontrar diferenças estatisticamente significativas), uma vez que seria necessário obter . 0H 017,0≤− valuesp Carlos Lourenço ISCTE, 2004 2
  • 3. Estatística II Sociologia e Sociologia e Planeamento 4.2. – Outras ANOVA’s Número de variáveis dependentes Número de factores independentes Designação em Inglês 1 factor que permite a definição de mais de 2 amostras (ou grupos, classes, categorias, etc.); ex.: intensidade do estudo quanto ao número de horas: baixo, médio, alto. One-way ANOVA 2 factores; ex.: (1) intensidade do estudo e (2) área de estudos no secundário: científico, económico, humanidades ou artes Two-way ANOVA 3 factores; ex.: (1) intensidade do estudo e (2) área de estudos no secundário e (3) aprovação a Estatística I: sim ou não Three-way ANOVA Apenas 1 variável dependente, Y; ex.: nota esperada a Estatística II + de 3 factores Multi-way ANOVA 1 factor One-way MANOVA 2 factores Two-way MANOVA 3 factores Three-way MANOVA + de 1 variável dependente, ; ex.: nota obtida a Estatística I, nota esperada a Estatística II, assiduidade nas aulas, etc. Deste modo, passamos a ter ANOVA’s Multivariadas (+ de uma variável). .,,, 321 etcYYY + de 3 factores Multi-way MANOVA 4.3. – Pressupostos de aplicação da One-Way ANOVA Pressupostos Comentários Como testar Consequências da violação Populações normais Este pressuposto já se verificava no teste t para comparação de duas médias. Teste K-S (Kolmogorov-Smirnov)4 quando ; teste de Shapiro- Wilk quando 50>n 50≤n , dado que nestas circunstâncias é mais potente do que o teste K-S. Tal como na violação de qualquer outro pressuposto teórico que presida a um teste paramétrico, a probabilidade de erro Tipo I pode não ser igual ao risco teórico fixado (normalmente 5%); Quando as amostras são suficientemente grandes (T.L.C.), (e as distribuições nas populações em estudo são idênticas) a ANOVA é um método bastante robusto. Populações com a mesma variância Este pressuposto já se verificava no teste t para comparação de duas médias. Teste de Levene.5 Este teste é mais robusto do que outras alternativas, como o teste de Bartlett. O teste de Levene é um dos mais robustos face à violação do pressuposto da normalidade e é um dos mais potentes para testar a homogeneidade de variâncias. 6 No caso de não se verificar a homogeneidade de variâncias, esta violação será tão mais grave quanto mais as amostras tiverem dimensões diferentes entre si. Amostras aleatórias simples e independentes 4 Supõe-se sempre que o teste de K-S que aqui se trata é o teste com a correcção de Lilliefors. Ver a sua justificação em Carlos Lourenço (2004) Teste Para a Diferença de Médias em Amostras Emparelhadas, Textos de apoio das aulas, nota de rodapé n.º8, pág.6. 5 Para uma explicação detalhada de como calcular este teste ver Carlos Lourenço (2004) Testes de Hipóteses, Textos de apoio das aulas, ANEXO. 6 Neste caso, recorde-se que no cálculo da estatística F do teste de Levene, deve usar-se a mediana amostral e não a média amostral, dado o desvio da normalidade (In Carlos Lourenço, 2004, Testes de Hipóteses, Textos de apoio das aulas, ANEXO, pág.17). Carlos Lourenço ISCTE, 2004 3
  • 4. Estatística II Sociologia e Sociologia e Planeamento 4.4. – Modelo de efeitos fixos na ANOVA a um factor (One-Way ANOVA ou ANOVA tipo I) Queremos então comparar a nota esperada a Estatística II em três grupos de alunos definidos pelo estado civil, ou seja, queremos verificar se a nota esperada (variável dependente) está ou não condicionada pelo factor em estudo, estado civil (variável independente) que define 3 níveis ou grupos/amostras. As três amostras em comparação são as seguintes: amostra 1 – grupo de alunos solteiros; amostra 2 – grupo de alunos casados/união de facto; e amostra 3 – grupo de alunos noutra situação. Formulação das hipóteses estatísticas kH µµµ === K210 : 7 jia jiH µµ ≠∃ :,: (com )kjiji ,,1,; K=≠ 8 Ou, para apenas 3 populações: 3210 : µµµ ==H 9 jia jiH µµ ≠∃ :,: (com )3,2,1,; =≠ jiji No que respeita à hipótese alternativa, a média da nota esperada a Estatística II pode ser diferente entre os grupos solteiros e casados/união de facto, entre os solteiros e os que estão noutra situação e ainda entre os casados/união de facto e os que estão noutra situação. Definição da estatística de teste: o modelo da ANOVA Para auxiliar a compreensão da especificação do modelo subjacente à ANOVA, vamos acordar a seguinte notação: Notação Identificação Comentário j diz respeito aos grupos/amostras j varia do seguinte modo: de 1 até k, ou seja, kj ,,2,1 K= i diz respeito aos indivíduos i varia do seguinte modo: de 1 até ao total do grupo/amostra j a que pertence, ou seja, jni ,,2,1 K= ijX é o valor observado da variável dependente X (ex.: “nota esperada”) para o indivíduo i pertencente à amostra j knnn ,,, 21 K são as dimensões de cada uma das k amostras 7 Interpretação da hipótese nula: as k médias populacionais são iguais ou, alternativamente, as k amostras provêm de uma mesma população 8 Interpretação da hipótese alternativa: “existe pelo menos um i e um j tal que ji µµ ≠ . Ou seja, a hipótese alternativa representa a situação em que pelo menos duas das k populações têm médias diferentes. 9 Interpretação da hipótese nula: as k médias populacionais são iguais ou, alternativamente, as k amostras provêm de uma mesma população Carlos Lourenço ISCTE, 2004 4
  • 5. Estatística II Sociologia e Sociologia e Planeamento Podemos então definir o seguinte: j n i ij j n X X j ∑= = 1 é a média da variável dependente (ex.: “nota esperada”) em cada grupo j n X X k j n i ij j ∑∑= = = 1 1 é a média global da variável dependente (ex.: “nota esperada”), ou seja, corresponde à soma de todos os valores da variável X para todos os indivíduos i e para todos os k grupos ∑= = k i inn 1 obviamente, o total de indivíduos da amostra é igual à soma do número de indivíduos nos k grupos/amostras Uma vez que as hipóteses formuladas dizem respeito às médias dos grupos, por que razão este método se chama análise de variância (ANOVA, analysis of variance)? Porque neste teste serão precisamente as variâncias dos grupos que irão servir para definir a estatística de teste e que estão na base do modelo da ANOVA. Basicamente, o que a ANOVA faz é analisar a variância entre (between) os grupos e a variância dentro (within) dos grupos. Nesse sentido, definimos então as seguintes variações: Definição Identificação Compreensão ( )XX j − Variação factorial (ou explicada) ou variação entre os grupos/amostras é o desvio de cada uma das médias dos k grupos/amostras em relação à média total; resulta da influência do factor (ou variável independente) sobre a variável dependente em estudo ( )jij XX − Variação residual (ou não explicada) ou variação dentro dos grupos é o desvio de cada observação i do grupo j em relação à média desse grupo j; resulta da influência de outros factores não controlados ( )XXij − Variação total é o desvio de cada observação em relação à média total Como facilmente se constatará, a variação total corresponde à soma das variações entre e dentro dos grupos/amostras: ( ) ( ) ( )jijjij XXXXXX −+−=− 10 Se elevarmos ao quadrado cada uma das variações (para evitar ter desvios negativos e desvios positivos) e somarmos para todos os indivíduos de todas os grupos/amostras, obtemos as somas de quadrados: ( ) ( ) ( )∑∑∑∑∑ = === = −+−=− k j n i jij k j jj k j n i ij jj XXXXnXX 1 1 2 1 2 1 1 2 10 A soma das variações entre e dentro dos grupos pode ser simplificada: ( ) ( ) XXXXXXXXXX ijjijjjijj −=−+−=−+− , ou seja, a variação total, c.q.d. Carlos Lourenço ISCTE, 2004 5
  • 6. Estatística II Sociologia e Sociologia e Planeamento Esta expressão, conhecida como a equação da análise de variância, pode ser escrita, por uma questão de aproximação com as designações anglo-saxónicas (e porque o SPSS usa as mesmas designações), como: SSWSSBSST += Sum of Squares Total = Sum of Squares Between + Sum of Squares Within11 Podemos também estabelecer uma relação idêntica para os graus de liberdade associados ao cálculo de cada uma das somas de quadrados: ( ) ( ) ( )knkn −+−=− 11 12 Finalmente, se dividirmos cada uma das somas de quadrados pelo respectivo número de graus de liberdade, vamos obter as somas médias de quadrados (MSS, Mean Squares): ( )1− = n SST MSST ( )1− = k SSB MSSB ( )kn SSW MSSW − = Ora, o que a One-way ANOVA faz é comparar a variabilidade entre os grupos com a variabilidade dentro dos grupos, depois de divididas pelos respectivos graus de liberdade (o que dá origem às referidas somas médias de quadrados). A estatística de teste é então a seguinte: ( ) ( )kn SSW k SSB F − − = 1 , a qual, sob , segue uma distribuição F de Snedcor com0H ( )knk −− ,1 graus de liberdade, ou seja, ( ) ( ) ( )),1 1 knkF kn SSW k SSB F −−∩ − − = , desde que não tenham sido violados os pressupostos de que as observações dos k grupos são amostras aleatórias independentes e de que as populações de onde se retiraram as k amostras têm distribuições normais com variâncias iguais. 11 Em Português: a soma dos quadrados totais é igual à soma dos quadrados entre os grupos com a soma dos quadrados dentro dos grupos. 12 Para calcular a soma de quadrados total temos n observações (total), mas precisamos de saber a média total, perdendo então 1 grau de liberdade, e daí( )1−n ; para calcular a soma de quadrados entre os grupos temos as médias dos k grupos, mas precisamos de saber a média total, perdendo então 1 grau de liberdade, e daí ; para calcular a soma de quadrados dentro dos grupos temos n observações (total), mas precisamos de saber as k médias de cada um dos k grupos, perdendo então k graus de liberdade, e daí ( )1−k ( )kn − . Carlos Lourenço ISCTE, 2004 6
  • 7. Estatística II Sociologia e Sociologia e Planeamento O Mecanismo da ANOVA Quando a variabilidade entre os grupos (Between) for elevada quando comparada com a variabilidade dentro dos grupos (Within), significa que os grupos são bastante heterogéneos entre si e homogéneos no seu interior. Ora, o facto de serem bastante heterogéneos em comparação com a homogeneidade que se verifica no interior de cada um deles, torna-os bastante diferentes entre si e é de esperar que as suas médias para a variável dependente, sejam significativamente diferentes. Nesta situação, é plausível esperar que a hipótese nula venha a ser rejeitada. Assim, parece ser óbvio que quanto maior for a variabilidade entre os grupos relativamente à variabilidade dentro dos grupos, maior será a estatística de teste F, e bem assim, maior a probabilidade de vir a rejeitar a hipótese nula (existirão médias diferentes entre os k grupos). Ora, uma vez que a F de Snedcor é uma distribuição positiva (não assume valores negativos) assimétrica (enviesada à esquerda), e como a rejeição da hipótese nula sucederá para valores de F o mais elevados possível, os valores críticos devem ser identificados na tabela da F de Snedcor para uma probabilidade associada de ( )α−1 na aba direita, isto é, . O teste da ANOVA é, pois, e sempre, um teste unilateral à direita. ( ),1;1 knkF −−−α ) ) ) Nota Sobre a Leitura da Tabela da F de Snedcor A caracterização da distribuição F de Snedcor faz-se com recurso a dois parâmetros, m e n, respectivamente, os graus de liberdade do numerador e os graus de liberdade do denominador.13 Genericamente, se uma qualquer variável X segue uma F de Snedcor, escrevemos: .( )nmFX ,∩ Então, na ANOVA os ( graus de liberdade correspondem aos graus de liberdade m, e os graus de liberdade corespondem aos graus de liberdade n. 1−k ( kn − Aplicação com um Exemplo14 Pretendemos então testar se existem diferenças entre as médias da variável dependente “nota esperada a Estatística II” para os 3 grupos definidos pelo factor estado civil: solteiros, casados/união de facto e outra situação ( ). Vejamos a informação amostral de que dispomos:3=k Case Processing Summary 123 94,6% 7 5,4% 130 100,0% 23 82,1% 5 17,9% 28 100,0% 6 100,0% 0 ,0% 6 100,0% Estado civil Solteiro Casado/União de facto Outra situação Que nota espera vir a ter em Estatística II? N Percent N Percent N Percent Valid Missing Total Cases 13 Esta identificação grosseira da posição dos graus de liberdade é explicada pelo facto de uma variável F quando construída como um rácio de duas outras variáveis X e Y quaisquer com distribuições do Chi- quadrado, respectivamente, com m e n graus de liberdade, divididas pelos seus respectivos graus de liberadade, seguir teoricamente uma distribuição F de Snedcor com m e n graus de lierdade: ( ) ( ) ( )nmnm F nY mX FYX , 22 então,eSe ∩=∩∩ χχ . 14 Se nada dito em contrário, os testes apresentados serão executados para um nível de significância de 5% ( 05,0=α ). Carlos Lourenço ISCTE, 2004 7
  • 8. Estatística II Sociologia e Sociologia e Planeamento Descriptives 11,47 2,255 12,57 1,996 12,83 1,602 Mean Std. Deviation Mean Std. Deviation Mean Std. Deviation Estado civil Solteiro Casado/União de facto Outra situação Que nota espera vir a ter em Estatística II? Statistic A primeira impressão a retirar da análise dos outputs anteriores, é que estamos a lidar com amostras cujas dimensões são bastante diferentes: 123 alunos solteiros, 23 alunos casados/união de facto e apenas 6 alunos noutra situação, num total de 152 alunos ( 152=n ). Arredondada às unidades, a média amostral da nota esperada dos solteiros é de 11 valores, e a média amostral da nota esperada dos casados/união de facto e dos alunos noutra situação é de 13 valores. Graficamente, temos Estado civil Outra situaçãoCasado/União de factSolteiro MeanofQuenotaesperavirateremEstatísticaII? 13,0 12,8 12,6 12,4 12,2 12,0 11,8 11,6 11,4 11,2 Poderemos considerar estes valores como diferenças significativas? Ou ainda, será que estas diferenças, ainda que não muito pronunciadas, serão significativas para as 3 populações em estudo? Apliquemos então a ANOVA. Verificação dos Pressupostos de Aplicação da ANOVA Normalidade Solicitando um teste K-S ao SPSS para os 3 grupos/amostras, temos Tests of Normality ,240 123 ,000 ,811 123 ,000 ,177 23 ,061 ,901 23 ,026 ,267 6 ,200* ,809 6 ,070 Estado civil Solteiro Casado/União de facto Outra situação Que nota espera vir a ter em Estatística II? Statistic df Sig. Statistic df Sig. Kolmogorov-Smirnov a Shapiro-Wilk This is a lower bound of the true significance.*. Lilliefors Significance Correctiona. A normalidade da distribuição da variável nota esperada no grupo solteiros é rejeitada nos dois testes ( ); para os outros dois grupos é aconselhável usar apenas o teste de Shapiro-Wilk ( 05,0≤− valuep 50, 32 ≤nn ), o qual rejeita a normalidade da variável nota esperada no grupo dos casados/união de facto ( ), mas não para o grupo dos alunos noutra situação ( 0 ). Que decisão tomar? 05,0≤− valuep 5,0>− valuep Carlos Lourenço ISCTE, 2004 8
  • 9. Estatística II Sociologia e Sociologia e Planeamento Solteiros: podemos fazer uso conveniente do T.L.C. e, uma vez na presença de uma amostra suficientemente grande, admitir a normalidade, porque neste caso sabemos que a violação do pressuposto não tem consequências sérias. Casados/união de facto: o teste de Shapiro-Wilk rejeita a normalidade para um nível de significância de 5% ( ), mas se usarmos diminuirmos a probabilidade de erro Tipo I admissível para 0,01, a normalidade já não é rejeitada ( 05,0≤− valuep 01,0>− valuep ). Por outro lado, curiosamente, e apesar de sabermos que o teste K-S não é tão potente quanto o de Shapiro-Wilk em amostras menores ou iguais a 50, o teste K-S não rejeita a normalidade. Na dúvida, admitimos que a variável tem disribuição normal também no grupo dos casados/união de facto, principalmente porque o teste de Shapiro-Wilk não rejeita essa hipótese para um nível de significância de 1%. Outra situação: o teste de Shapiro-Wilk não rejeita a normalidade para um nível de significância de 5% ( ). O pressuposto da normalidade não é violado.05,0>− valuep Verificada a normalidade, temos agora de testar a homogeneidade de variâncias entre os 3 grupos. Homogeneidade de Variâncias Apenas solicitando a ANOVA é possível aplicar o teste de Levene no SPSS. Apresentamos então o output correspondente: Test of Homogeneity of Variances Que nota espera vir a ter em Estatística II? ,473 2 149 ,624 Levene Statistic df1 df2 Sig. No teste de Levene testamos na hipótese nula a igualdade de variâncias: 2 3 2 2 2 10 : σσσ ==H 22 :,: jia jiH σσ ≠∃ (com )kji ,,1, K= Ora, como podemos verificar no output, não se rejeita a hipótese nula ( ), ou seja, não rejeitamos a hipótese de haver homogeneidade de variâncias na variável nota esperada entre os 3 grupos definidos pelo estado civil. Estamos pois em condições de avançar com a ANOVA, escrevendo de imediato as hipóteses em teste. 05,0>− valuep Formulação das hipóteses estatísticas 3210 : µµµ ==H jia jiH µµ ≠∃ :,: (com )3,2,1,; =≠ jiji Escolha e cálculo da estatística de teste Sabemos agora qual a estatística de teste a usar (a estatística F) e qual a sua distribuição teórica: ( ) ( ) ( )),1 1 knkF kn SSW k SSB F −−∩ − − = . Carlos Lourenço ISCTE, 2004 9
  • 10. Estatística II Sociologia e Sociologia e Planeamento Como se compreenderá pela exposição teórica anteriormente apresentada, realizar à mão os cálculos para chegar às somas dos quadrados entre os grupos e dentro dos grupos, seria, no mínimo, uma tarefa fastidiosa. Por essa razão, limitamo-nos a retirar do output do SPSS os valores necessários para comprovar o valor da estatística F que o software apresenta: ANOVA Que nota espera vir a ter em Estatística II? 31,156 2 15,578 3,220 ,043 720,917 149 4,838 752,073 151 Between Groups Within Groups Total Sum of Squares df Mean Square F Sig. Comprovando o valor da estatística F, temos ( ) ( ) ( ) ( ) 220,3 838,4 578,15 149 917,720 2 156,31 3152 917,720 13 156,31 1 === − − = − − = kn SSW k SSB F , retirando do output apenas os valores da coluna “Sum of Squares” (e usando o n e o k definidos); ou 220,3 838,4 578,15 149 917,720 2 156,31 ==== SSW SSB df SSW df SSB F , retirando do output os valores das colunas “Sum of Squares” e “df”; ou ainda, simplesmente, ( ) ( ) 220,3 838,4 578,151 === − − = MSSW MSSB kn SSW k SSB F , retirando do output os valores da coluna “Mean Square”. Determinação do valor crítico Teremos de consultar na tabela da distribuição F de Snedcor o valor crítico associado à probabilidade acumlada 0,95 e com ( )149,2 == nm graus de liberdade, ou seja, .( ) ( ) 000,3149,2;95,0,1;1 ≅=−−− FF knkα Tomada de Decisão Como temos , rejeitamos . Ou seja, com um nível de significância de 5%, rejeitamos a hipótese de não existirem diferenças significativas nas médias da nota esperada a Estatística II entre as 3 populações solteiros, casados/união de facto e outra situação. Existe, portanto, evidência estatística para afirmar que há pelo menos dois grupos que têm médias diferentes entre si. ( ) 000,3220,3149,2;95,0 >⇔≥ FF 0H No output do SPSS comprovamos esta mesma decisão, rejeita-se , uma vez que .0H 05,0≤− valuep Carlos Lourenço ISCTE, 2004 10
  • 11. Estatística II Sociologia e Sociologia e Planeamento Nota final: a necessidade de aplicação dos testes Post-Hoc Este resultado é bastante satisfatório, uma vez que conseguimos de facto testar 3 médias, algo que não sabíamos concretizar até agora, e mais ainda porque à partida não esperávamos que houvesse alguma diferença entre os estados civis. Mas resta uma questão: os grupos são todos diferentes (as 3 médias são diferentes) ou haverá apenas 2 grupos que diferem entre si? Esta questão só terá resposta aplicando os testes post-hoc, isto é, os testes de comparações múltiplas a posteriori.15 4.5. Testes Post-Hoc de Comparações Múltiplas Como vimos logo no início deste capítulo, a realização de testes t em simultâneo não permite controlar o nível de significância global, pelo que se torna nexcessário definir outros testes de hipóteses simultâneos que permitam comparações múltiplas, isto é, identificar diferenças entre as k médias populacionais, e controlem ao mesmo tempo o nível de significância global. Assim, os testes de comparação múltipla a posteriori, ou post-hoc, mais conhecidos são: Quando se assume que as variâncias entre os grupos são iguais: - teste Least Significant Difference de Fisher (LSD no SPSS); - teste Honestly Significant Difference de Tukey (Tukey no SPSS); - teste de Scheffé; - teste de Newman-Keuls (S-N-K no SPSS); - teste de Duncan - teste de Gabriel - teste de Hochberg’s GT2 - teste de Bonferroni - teste R-E-G-W Q Quando não se assume que as variâncias entre os grupos são iguais: - teste de Dunnett’s T3 - teste de Dunnett’s C - teste de Games-Howell Obviamente, as hipóteses em teste para cada um destes testes é: jiH µµ =:0 jiaH µµ ≠: , ambas com ;kjiji ,,2,1,; K=≠ e o que cada um deles faz é usar uma estatística de teste que incorpore alguma correcção para contornar o facto de se estarem a realizar comparações múltiplas e ao mesmo tempo controle o nível de significância, e onde essas estatísticas ou seguem distribuições muito específicas em que aqueles objectivos também são cumpridos, ou seguem distribuições mais comuns mas onde os valores críticos tabelados são corrigidos. Por exemplo, o teste HSD de Tukey usa uma estatística de teste que segue uma distribuição , isto é, uma distribuição Studentized Range com( knkTS −, ) ( )knk −, graus de liberdade, e que depois é comparada com o valor crítico tabelado desta distribuição e ainda assim corrigido por 15 Os testes post-hoc devem o seu nome ao facto de a sua aplicação só fazer sentido após a aplicação da ANOVA. Uma vez rejeitada a hipótese nula é que fará sentido tentar identificar entre que pares de grupos haverá diferenças. Carlos Lourenço ISCTE, 2004 11
  • 12. Estatística II Sociologia e Sociologia e Planeamento um factor de comparações múltiplas.16 Já o teste de Scheffé usa uma estatística de teste que segue uma F de Snedcor com ( )knk −− ,1 graus de liberdade, mas igualmente corrigida por um factor que tem em conta o facto de se estarem a comparar k médias, duas a duas.17 O teste de Tukey e o teste de Scheffé são indicados por alguns autores como sendo os mais utilizados, granjeando o Scheffé as maior parte das preferências. Vejamos algumas das vantagens de ambos. Teste de Tukey - gera intervalos de confiança com menor amplitude, portanto, mais precisos. Teste de Scheffé - maior simplicidade de cálculo; - permite usar amostras com dimensões diferentes; - é robusto a violações dos pressupostos de normalidade e de igualdade de variâncias.18 Sobre os outros testes, podemos resumir algumas instruções ad-hoc para a sua utilização: Dimensões das amostras iguais Tukey R-E-G-W Q Dimensões ligeiramente diferentes GabrielVariâncias iguais Dimensões muito diferentes Hochberg’s GT2 Variâncias diferentes Dimensões muito diferentes Games-Howell Como se compreenderá, não vamos exemplificar o cálculo de nenhum dos testes, preferindo apresentar apenas um output de SPSS e proceder à sua interpretação. E, como habitualmente, vigora a seguinte regra: ⇒≤− αvaluep rejeitar ;0H ⇒>− αvaluep não rejeitar .0H 16 A estatística do teste HSD de Tukey é dada por ( )knkT ji ji S nn S XX W −∩ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎝ ⎛ + − = , 2' 11 2 , onde a hipótese nula é rejeitada quando o valor absoluto da diferença entre as 2 médias em comparação é maior ou igual do que o valor crítico multiplicado pela respectiva correcção, isto é, quando ( ) ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎝ ⎛ +⋅≥− −− ji knkTji nn S SXX 11 2 2' ,;1 α . 17 A estatística do teste de Scheffé é dada por ( ) ( )1 11 ,1 2' −⋅∩ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎝ ⎛ + − = −− kF nn S XX W knk ji ji , onde a hipótese nula é rejeitada quando o valor absoluto da diferença entre as 2 médias em comparação é maior ou igual do que o valor crítico multiplicado pela respectiva correcção, isto é, quando ( ) ( ) ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎝ ⎛ +⋅−⋅≥− −−− ji knkji nn SkFXX 11 1 2' ,1;1 α . 18 Um teste diz-se robusto quando a sua validade não é afectada por violações dos pressupostos que lhe estão subjacentes, isto é, os resultados são muito próximos num e noutro casos. Carlos Lourenço ISCTE, 2004 12
  • 13. Estatística II Sociologia e Sociologia e Planeamento Uma vez que a hipótese de igualdade das variâncias não foi rejeitada, iremos solicitar ao SPSS o cálculo de todos os testes disponíveis nestas condições: Multiple Comparisons Dependent Variable: Que nota espera vir a ter em Estatística II? -1,09 ,500 ,078 -2,27 ,09 -1,36 ,920 ,305 -3,54 ,82 1,09 ,500 ,078 -,09 2,27 -,27 1,008 ,962 -2,66 2,12 1,36 ,920 ,305 -,82 3,54 ,27 1,008 ,962 -2,12 2,66 -1,09 ,500 ,096 -2,33 ,15 -1,36 ,920 ,339 -3,63 ,92 1,09 ,500 ,096 -,15 2,33 -,27 1,008 ,965 -2,76 2,23 1,36 ,920 ,339 -,92 3,63 ,27 1,008 ,965 -2,23 2,76 -1,09* ,500 ,031 -2,08 -,10 -1,36 ,920 ,142 -3,18 ,46 1,09* ,500 ,031 ,10 2,08 -,27 1,008 ,791 -2,26 1,72 1,36 ,920 ,142 -,46 3,18 ,27 1,008 ,791 -1,72 2,26 -1,09 ,500 ,092 -2,30 ,12 -1,36 ,920 ,425 -3,59 ,87 1,09 ,500 ,092 -,12 2,30 -,27 1,008 1,000 -2,71 2,17 1,36 ,920 ,425 -,87 3,59 ,27 1,008 1,000 -2,17 2,71 -1,09 ,500 ,089 -2,30 ,12 -1,36 ,920 ,368 -3,58 ,86 1,09 ,500 ,089 -,12 2,30 -,27 1,008 ,991 -2,70 2,17 1,36 ,920 ,368 -,86 3,58 ,27 1,008 ,991 -2,17 2,70 -1,09 ,500 ,059 -2,21 ,03 -1,36 ,920 ,225 -3,23 ,51 1,09 ,500 ,059 -,03 2,21 -,27 1,008 ,989 -2,58 2,05 1,36 ,920 ,225 -,51 3,23 ,27 1,008 ,989 -2,05 2,58 -1,09 ,500 ,089 -2,30 ,12 -1,36 ,920 ,366 -3,58 ,86 1,09 ,500 ,089 -,12 2,30 -,27 1,008 ,991 -2,70 2,17 1,36 ,920 ,366 -,86 3,58 ,27 1,008 ,991 -2,17 2,70 -1,36 ,920 ,196 -3,33 ,61 -,27 1,008 ,917 -2,43 1,89 (J) Estado civil Casado/União de facto Outra situação Solteiro Outra situação Solteiro Casado/União de facto Casado/União de facto Outra situação Solteiro Outra situação Solteiro Casado/União de facto Casado/União de facto Outra situação Solteiro Outra situação Solteiro Casado/União de facto Casado/União de facto Outra situação Solteiro Outra situação Solteiro Casado/União de facto Casado/União de facto Outra situação Solteiro Outra situação Solteiro Casado/União de facto Casado/União de facto Outra situação Solteiro Outra situação Solteiro Casado/União de facto Casado/União de facto Outra situação Solteiro Outra situação Solteiro Casado/União de facto Outra situação Outra situação (I) Estado civil Solteiro Casado/União de facto Outra situação Solteiro Casado/União de facto Outra situação Solteiro Casado/União de facto Outra situação Solteiro Casado/União de facto Outra situação Solteiro Casado/União de facto Outra situação Solteiro Casado/União de facto Outra situação Solteiro Casado/União de facto Outra situação Solteiro Casado/União de facto Tukey HSD Scheffe LSD Bonferroni Sidak Gabriel Hochberg Dunnett t (2-sided)a Mean Difference (I-J) Std. Error Sig. Lower Bound Upper Bound 95% Confidence Interval The mean difference is significant at the .05 level.*. Dunnett t-tests treat one group as a control, and compare all other groups against it.a. Como se pode verificar, pelos testes de Tukey e Scheffé só rejeitaremos que a diferença entre as médias é nula se fixarmos um nível de significância de 10% ( 10,0=α ). Desse modo, é rejeitada a igualdade de médias apenas entre os grupos solteiros e casados/união de facto ( 1 ).0,0≤− valuep 19 O teste LSD de Fisher é o único que rejeita a igualdade de médias entre os mesmos 2 grupos para o nível de significância habitualmente usado de 5% ( ).05,0≤− valuep 20 Podemos assim concluir que existe uma diferença significativa entre as médias da nota esperada a Estatística II nas populações alunos solteiros e alunos casados/união de facto. 19 É óbvio que esta rejeição acontece 2 vezes: quando comparamos solteiros vs. casados e quando comparamos casados vs. solteiros. 20 Note que o SPSS dá nota desta mesma conclusão ao colocar um asterisco junto da diferença de médias entre os 2 grupos em questão (veja a nota de rodapé do output). Carlos Lourenço ISCTE, 2004 13