SlideShare uma empresa Scribd logo
1 de 17
ANÁLISE MULTIVARIADA
DE DADOS
DOCENTE: CARLA OLIVEIRA SILVA
Teste Paramétrico / Parametric Test Teste Não Paramétrico
Teste T uma amostra / One sample T test
1 variável quantitativa
H0: =a ou ≤a ou ≥a
H1: ≠a ou >a ou <a
Wilcoxon (h=0,95)
1 variável quantitativa ou 1 var. qualitativa
ordinal
H0: mediana=a ou mediana≤a ou mediana≥a
H1: mediana≠a ou mediana>a ou mediana<a
Teste T amostras Indep / 2 indep. Samples
1 var quantit + 1 var qualit. nom
H0: 1=2 ou 1≤2 ou 1≥2
H1: 1≠2 ou 1>2 ou 1<2
Mann Whitney (h=0,95)
1 var quantit. /qual. ordin + 1 var qualit. nom
H0: med1=med2 ou med1≤med2 ou
med1≥med2
H1: med1≠med2 ou med1>med2 ou
med1<med2
Teste T amostras empar / 2 pair samples
2 var quantitativas
H0: d=0 ou d≤0 ou d≥0
H1: d≠0 ou d>0 ou d<0
Wilcoxon (h=0,95) / Signals (h=0,63)
2 quant ou 2 qualit ordin.
H0: medd=0 ou medd≤0 ou medd≥0
H1: medd≠0 ou medd>0 ou medd<0
ANOVA Analysis of Variance
1 var quantit + 1 var qualit. nom
H0: 1=2=3
H1: pelo menos uma  é ≠
Kruskal-Wallis (h=0,95)
1 var quantit. /qual. ordin + 1 var qualit. nom
H0: med1=med2=med3
H1: pelo menos uma mediana é ≠
Dizer que um teste tem uma eficiência de 0,95 ou de 95% significa que só em
95% dos casos em que um teste T rejeitaria H0 é que o seu equivalente não
paramétrico a rejeita.
COMPARAÇÃO DE 3 OU MAIS MÉDIAS
COMPARING 3 OR MORE MEANS
Comparação de 3 ou mais
médias
Comparing 3 or more means
Shapiro Wilk or
Kolmogorov Smirnov
F(x)=N(,s)?
Variâncias homogéneas?
Homogeneous
variances?
Anova
F de Welch (Fw) or F de
Brown & Forsythe (FBF)
Kruskal Wallis
Não / No
Sim / Yes
Não / No
Sim / Yes
ANÁLISE DA VARIÂNCIA
ANALYSIS OF VARIANCE
ANOVA
é um método para testar a igualdade de
três ou mais médias populacionais
através da análise das variâncias
amostrais
Usa a distribuição F, que é:
contínua
assimétrica à direita
Tem valores 0 ou positivos (jamais
negativos)
existe uma distribuição F diferente para
cada par de graus de liberdade
(dFnumerador, dFdenominador.)
Homenagem a /
Tribute to
Ronald Aylmer
Fisher &
George Waddel
Snedecor
A distribuição F mede a razão
entre 2 distribuições qui-
quadrado.
F distribution measures the rate
between 2 Qui-square
distributions
ANOVA
Is a method to test the equality of 3 or
more population means, trough the
analysis of variances.
Uses F distribution, which is:
continuous
asymmetrical on the right
values of F are 0 or positive (never
negative)
there is a different F distribution for each
pair of degrees of freedom (dFfactor dFerror)
Teste Anova
Compara duas estimativas distintas da
variância comum de duas populações
diferentes:
Variância entre amostras
Variância dentro das amostras
Anova a um fator
Permite verificar qual o efeito de uma
variável independente, de natureza
qualitativa (fator), numa variável
dependente ou de resposta, cuja
natureza é quantitativa.
Fator ou tratamento é uma propriedade
ou característica que nos permite
distinguir as diferentes populações umas
das outras
H0: 1=2=3
H1: 1≠2 ou 2≠3 ou 1≠3 ou 1≠2≠3
O teste Anova permite verificar a
igualdade de três ou mais médias
Anova allows to compare 3 or more
means
Em alternativa: alternatively
H1: pelo menos uma média é diferente / at
least one mean is different
ANOVA = ANALYSIS OF VARIANCE
Test Anova
Compares two distinct estimates of the
common variance of two different
populations:
Variance between samples
Variance within the samples
One Way Anova
It allows to test the effect of an
independent variable, of qualitative
nature (factor), in a dependent or
response variable, whose nature is
quantitative.
Factor is a property or characteristic that
allows us to distinguish different
populations from one another
Requisitos:
Todas as populações têm distribuições
que são aproximadamente normais –
exigência leve
As populações têm variâncias
homogéneas* (homocedasticidade) –
exigência leve (se os tamanhos amostrais
forem idênticos, a maior variância pode
ser até 9x superior à menor.
As amostras são aleatórias simples
As amostras são independentes
As diferentes amostras são categorizadas
por um único fator.
* Quando a variável dependente tem
distribuição normal e as variâncias são
heterogéneas existem duas estatísticas
alternativas: F de Welch ou Fw e F de
Brown & Forsythe ou FBF.
* When the dependent variable has a
normal distribution and the variances
are heterogeneous, one of two
alternative statistics must be used: F de
Welch (Fw) ou F de Brown Forsythe
(FBF).
Requirements:
All populations have distributions that
are approximately normal - light
requirement
Populations have homogeneous
variances * (homoscedasticity) - light
requirement (if sample sizes are
identical, the largest variance can be
up to 9x higher than the lowest.
Samples are randomly selected
Samples are independent
The different samples are categorized
by a single factor.
ANOVA
H0: 1=2=….=m
H1: pelo menos uma das médias é ≠ / at least one mean is ≠
SSf – Squares Sumfactor – soma dos quadrados do fator:
variação entre as amostras
Sse –Squares Sumerror – soma dos quadrados do erro:
variação dentro das amostras
SSt –Squares Sumtotal – soma dos quadrados total em
torno de 𝑥 em todos os dados amostrais combinados
ONE-WAY ANOVA
2
2
2
2
2
1
1 )
(
...
)
(
)
( x
x
n
x
x
n
x
x
n
SS k
k
f 






2
2
2
2
2
1
1 )
1
(
...
)
1
(
)
1
( k
k
e s
n
s
n
s
n
SS 






e
f
t SS
SS
SS 

H0: 12=…=k
H1: pelo menos uma das médias é distinta / at least one mean is
different.
ANOVA A UM FATOR / ONE-WAY ANOVA
MSfactor – Mean Squarefactor – variância entre amostras
MSerror – Mean Squareerror – variância dentro da amostra
MStotal – Mean Squaretotal– variância total
error
factor
MS
MS
F 
factor
factor
factor
dF
SS
MS 
error
erro
error
dF
SS
MS 
total
total
total
dF
SS
MS 
Estatística do Teste:
Test statistic:
Comparação
de médias
Comparing
means
Qual o valor de F?
Which is the F
statistic?
F pequeno / small
F grande / big
P-valor é grande. Não se rejeita
H0.
P-value is big. Don't reject H0.
P-valor é pequeno. Rejeita-se H0.
P-value is small. Reject H0.
dFfactor=k-1
dFerror=N-k
dFtotal=N-1
ONE-WAY ANOVA:
Group 1 Group 2 Group 3
7 6 4
3 5 7
6 5 6
7 6 7
6 8 8
n1=5 n2=5 n3=5
Média1=5,8 Média2=6,0 Média3=6,4
S1
2=2,7 S2
2=1,5 S3
2=2,3
Variância dentro das amostras
Variance inside samples
p-valor=1-cdf.F(0.215,2,12)=0,809
215
,
0
167
,
2
467
,
0



error
factor
MS
MS
F
𝑆𝑆𝑓𝑎𝑐𝑡𝑜𝑟 = 𝑛1(𝑥1 − 𝑥)2
+ 𝑛2(𝑥2 − 𝑥)2
+ 𝑛3(𝑥3 − 𝑥)2
= 5 × 5,8 − 6,07 2
+ 5 × 6,0 − 6,07 2
+
+5 × 6,4 − 6,07 2
= 0,933
26
3
,
2
)
1
5
(
5
,
1
)
1
5
(
7
,
2
)
1
5
(
)
1
(
)
1
(
)
1
( 2
3
3
2
2
2
2
1
1















 s
n
s
n
s
n
SSerror
467
,
0
2
933
,
0



factor
factor
factor
dF
SS
MS 167
,
2
12
26



error
error
error
dF
SS
MS
Soma de Quadrados entre amostras:
Square sum between samples:
Média das Médias Amostrais
Mean of samples means:
Gl entre amostras: dF / betweeen samples:
Variância entre amostras
variance between samples:
Soma de Quadrados dentro das amostras:
Square sum of inside samples:
GL dentro amostras / dF freedom inside samples
Não se rejeita H0!
𝑑𝐹𝑓𝑎𝑐𝑡𝑜𝑟 = 𝑘 − 1 = 3 − 1 = 2
dFerror=N-k=15-3=12
𝑥 = 𝑥1 + 𝑥2 + 𝑥3 =
5,8 + 6,0 + 6,4
3
= 6,07
ONE-WAY ANOVA
ANOVA UM FATOR Tal como no caso de
duas amostras
independentes, é
testada a
homogeneidade
das variâncias,
através do Teste de
Levene
Analisar
Analize
Comparar
Médias
Compare
Means
Análise da
variância
unidirecional
Ane-way Anova
SSTotal=SSFactor+SSError=(N-1)xS’2
Soma dos Quadrados Totais:
As in the case of
two independent
samples, the
variances
homogeneity is
tested through
Levene test
ONE WAY ANOVA
985
,
70
167
,
2
8
,
153



error
factor
MS
MS
F
     
6
,
307
4
,
9
4
,
6
4
4
,
9
0
,
6
4
4
,
9
8
,
15
5
)
(
)
(
)
(
2
2
2
2
3
3
2
2
2
2
1
1















 x
x
n
x
x
n
x
x
n
SSfactor
26
3
,
2
)
1
5
(
5
,
1
)
1
5
(
7
,
2
)
1
5
(
)
1
(
)
1
(
)
1
( 2
3
3
2
2
2
2
1
1















 s
n
s
n
s
n
SSerror
8
,
153
2
6
,
307



factor
factor
factor
dF
SS
MS
167
,
2
12
26



error
error
error
dF
SS
MS
Rejeita-se H0!
p-valor=1-cdf.F(70.985,2,12)=0,000
Group 1 Group 2 Group 3
17 6 4
13 5 7
16 5 6
17 6 7
16 8 8
n1=5 n2=5 n3=5
Média1=15,8 Média2=6,0 Média3=6,4
S1
2=2,7 S2
2=1,5 S3
2=2,3
Example 2:
𝑑𝐹𝑓𝑎𝑐𝑡𝑜𝑟 = 𝑘 − 1 = 3 − 1 = 2
dFerror=N-k=15-3=12
Média das Médias Amostrais
Mean of samples means:
GL entre amostras /dF between samples:
Soma de Quadrados entre amostras:
Square sum between samples:
Variância entre amostras
variance between samples:
Graus de liberdade dentro das amostras:
Degrees of freedom inside samples
Soma de Quadrados dentro das amostras:
Square sum of inside samples:
Variância dentro das amostras
Variance inside samples
𝑥 = 𝑥1 + 𝑥2 + 𝑥3 =
15,8 + 6,0 + 6,4
3
= 9,4
ANOVA A UM FATOR /
ONE WAY ANOVA
Analisar
Analize
Comparar Médias
Compare Means
Anova
Soma dos Quadrados Totais:
SSTotal=SSFactor+SSError=
(N-1)xS’2
Para o 2.º conjunto de dados os
resultados da Anova são:
COMPARAÇÕES À POSTERIORI
POST HOC MULTIPLE COMPARISONS
Quando se rejeita H0 na Anova é
necessário identificar a ou as
populações com média distinta.
Para o efeito usam-se as
comparações múltiplas à
posteriori.
When H0 is rejected in an Anova
Test, the populations with different
means must be identified. To do so
we use Post Hoc Multiple
Comparisons
Muito embora não haja consenso sobre o
teste mais apropriado, o teste de Tukey é
um dos mais robustos para desvios à
normalidade quando há homogeneidade
das variâncias e o Bonferroni um dos mais
potentes para amostras pequenas.
Although there is no consensus on the
most appropriate test, the Tukey test is
one of the most robust for deviations to
normality and homogeneous variances
and Bonferroni is one of the most
TESTES ROBUSTOS DE IGUALDADE DAS MÉDIAS
ROBUST TESTS OF EQUALITY OF MEANS
Testes incluídos nas opções da Anova
Tests included in Anova options
O teste de Welch tem melhor performance.
Welch test has a better performance
Quando as variâncias são heterogéneas
devem-se usar as opções das estatísticas de
Brown & Forstythe, ou a estatística de Welch.
When the variances are heterogeneous
Brown & Forstythe statistic or Welch
statistic must be used.
KRUSKAL WALLIS TEST
Requisitos:
três ou mais amostras independentes
selecionadas aleatoriamente
n≥5 em todos os grupos
Notação:
n: número total de observações em todas as
amostras combinadas
k: número de grupos
Rj: ordenações da categoria j
ti: n.º de empates de cada categoria i
Teste não paramétrico aplicável:
. variáveis ordinais
. variáveis quantitativas, alternativa à Anova
Utiliza ordens de dados amostrais de três ou mais
populações independentes. É usado para testar a H0
de que as amostras independentes provêm de
populações com a mesma mediana.
H0: med1=med2=…=medk
H1: pelo menos uma mediana é diferente
Non parametric test used to:
. ordinal variables
. quantitative variables, alternative to Anova
Uses data orders of three or more independent
populations. Is used to test H0 the equality of three
or more medians.
H0: med1=med2=…=medk
H1: at least one median is different
Requirements:
three or more randomly selected independent
samples
n≥5 in all groups
Notation:
n: total number of observations in all samples
combined
k: number of groups
Rj: orders of category j
ti: number of tied observations of each
KRUSKAL-WALLIS
Group 1 Group 2 Group 3
Value Ranking Value Ranking Value Ranking
7 11,5 6 7 4 2
3 1 5 3,5 7 11,5
6 7 5 3,5 6 7
7 11,5 6 7 7 11,5
6 7 8 14,5 8 14,5
n1=5 n2=5 n3=5
Mean ranking =
6,0
Mean ranking =
6,375
Mean ranking =
7,125
R1=38 R2=35,5 R3=46,5
R1
2=1444 R2
2=1260,25 R3
2=2162,25
2 empates duplos
1 empate quádruplo
1 empate quíntuplo
)
1
(
3
)
1
(
12
3
2
3
2
2
2
1
2
1














 n
n
R
n
R
n
R
n
n
H
665
,
0
16
3
5
25
,
2162
5
25
,
1260
5
1444
16
15
12














H
705
,
0
15
15
)
5
5
(
)
4
4
(
)
2
2
(
2
1
665
,
0
)
(
1
3
3
3
3
3
3















n
n
t
t
H
H k
i
i
i
E
Sem correção para empates!
No tie corrected
Com correção para
empates!
Tie corrected
2 double ties
1 quadruple tie
1 quintuple tie
P-valor=1-Cdf.Chisq(0.705,2)=0,703
TESTE DE KRUSKAL-WALLIS
Analisar
Analyse
Testes Não Paramétricos
Nonparametric Tests
amostras independentes
independent samples
P-valor=1-Cdf.Chisq(0.705,2)=0,703

Mais conteúdo relacionado

Semelhante a Análise Multivariada com Testes Paramétricos e Não Paramétricos

Estatística na educação
Estatística na educação Estatística na educação
Estatística na educação UFMA e UEMA
 
Ap5 - Critérios de validação dos testes sorológicos
Ap5 - Critérios de validação dos testes sorológicosAp5 - Critérios de validação dos testes sorológicos
Ap5 - Critérios de validação dos testes sorológicosLABIMUNO UFBA
 
AMD - Aula n.º 6 - McNemar, Cochran e Friedman.pptx
AMD - Aula n.º 6 - McNemar, Cochran e Friedman.pptxAMD - Aula n.º 6 - McNemar, Cochran e Friedman.pptx
AMD - Aula n.º 6 - McNemar, Cochran e Friedman.pptxNunoSilva599593
 
Medidas de Posição e Dispersão
Medidas de Posição e DispersãoMedidas de Posição e Dispersão
Medidas de Posição e DispersãoLucasCoimbra24
 
Outros testes não-paramétricos
Outros testes não-paramétricosOutros testes não-paramétricos
Outros testes não-paramétricosguest422f98
 
Apresentação Testes parametricos para aplicação cientifica.pptx
Apresentação Testes parametricos para aplicação cientifica.pptxApresentação Testes parametricos para aplicação cientifica.pptx
Apresentação Testes parametricos para aplicação cientifica.pptxEliseuGouveia2
 
Fundamentos da bioestatística
Fundamentos da bioestatísticaFundamentos da bioestatística
Fundamentos da bioestatísticaJuliano van Melis
 
AMD - Aula n.º 5 - binominal e qui-quadrado.pptx
AMD - Aula n.º 5 - binominal e qui-quadrado.pptxAMD - Aula n.º 5 - binominal e qui-quadrado.pptx
AMD - Aula n.º 5 - binominal e qui-quadrado.pptxNunoSilva599593
 
Aula 3 Estatística descritiva (Medidas de Tendencia Central).pdf
Aula 3 Estatística descritiva (Medidas de Tendencia Central).pdfAula 3 Estatística descritiva (Medidas de Tendencia Central).pdf
Aula 3 Estatística descritiva (Medidas de Tendencia Central).pdfJeremiasFontinele
 
Cap10 - Parte 2 - Anova Um Caminho De Classificação
Cap10 - Parte 2 - Anova Um Caminho De ClassificaçãoCap10 - Parte 2 - Anova Um Caminho De Classificação
Cap10 - Parte 2 - Anova Um Caminho De ClassificaçãoRegis Andrade
 

Semelhante a Análise Multivariada com Testes Paramétricos e Não Paramétricos (20)

Aula10 anova 000
Aula10 anova 000Aula10 anova 000
Aula10 anova 000
 
Aula19
Aula19Aula19
Aula19
 
08 testes hipoteses_anova
08 testes hipoteses_anova08 testes hipoteses_anova
08 testes hipoteses_anova
 
Estatística na educação
Estatística na educação Estatística na educação
Estatística na educação
 
Ap5 - Critérios de validação dos testes sorológicos
Ap5 - Critérios de validação dos testes sorológicosAp5 - Critérios de validação dos testes sorológicos
Ap5 - Critérios de validação dos testes sorológicos
 
Amostragem
AmostragemAmostragem
Amostragem
 
Amostragem
AmostragemAmostragem
Amostragem
 
Aula7
Aula7Aula7
Aula7
 
AMD - Aula n.º 6 - McNemar, Cochran e Friedman.pptx
AMD - Aula n.º 6 - McNemar, Cochran e Friedman.pptxAMD - Aula n.º 6 - McNemar, Cochran e Friedman.pptx
AMD - Aula n.º 6 - McNemar, Cochran e Friedman.pptx
 
Medidas de Posição e Dispersão
Medidas de Posição e DispersãoMedidas de Posição e Dispersão
Medidas de Posição e Dispersão
 
Outros testes não-paramétricos
Outros testes não-paramétricosOutros testes não-paramétricos
Outros testes não-paramétricos
 
Apresentação Testes parametricos para aplicação cientifica.pptx
Apresentação Testes parametricos para aplicação cientifica.pptxApresentação Testes parametricos para aplicação cientifica.pptx
Apresentação Testes parametricos para aplicação cientifica.pptx
 
Fundamentos da bioestatística
Fundamentos da bioestatísticaFundamentos da bioestatística
Fundamentos da bioestatística
 
AMD - Aula n.º 5 - binominal e qui-quadrado.pptx
AMD - Aula n.º 5 - binominal e qui-quadrado.pptxAMD - Aula n.º 5 - binominal e qui-quadrado.pptx
AMD - Aula n.º 5 - binominal e qui-quadrado.pptx
 
Conceitos básicos
Conceitos básicosConceitos básicos
Conceitos básicos
 
TESTE T STUDENT.pptx
TESTE T STUDENT.pptxTESTE T STUDENT.pptx
TESTE T STUDENT.pptx
 
Aula 3 Estatística descritiva (Medidas de Tendencia Central).pdf
Aula 3 Estatística descritiva (Medidas de Tendencia Central).pdfAula 3 Estatística descritiva (Medidas de Tendencia Central).pdf
Aula 3 Estatística descritiva (Medidas de Tendencia Central).pdf
 
Bioestatística
BioestatísticaBioestatística
Bioestatística
 
Cap10 - Parte 2 - Anova Um Caminho De Classificação
Cap10 - Parte 2 - Anova Um Caminho De ClassificaçãoCap10 - Parte 2 - Anova Um Caminho De Classificação
Cap10 - Parte 2 - Anova Um Caminho De Classificação
 
Tópico 3 Testes de Hipóteses - 2 amostras
Tópico 3   Testes de Hipóteses - 2 amostrasTópico 3   Testes de Hipóteses - 2 amostras
Tópico 3 Testes de Hipóteses - 2 amostras
 

Análise Multivariada com Testes Paramétricos e Não Paramétricos

  • 2. Teste Paramétrico / Parametric Test Teste Não Paramétrico Teste T uma amostra / One sample T test 1 variável quantitativa H0: =a ou ≤a ou ≥a H1: ≠a ou >a ou <a Wilcoxon (h=0,95) 1 variável quantitativa ou 1 var. qualitativa ordinal H0: mediana=a ou mediana≤a ou mediana≥a H1: mediana≠a ou mediana>a ou mediana<a Teste T amostras Indep / 2 indep. Samples 1 var quantit + 1 var qualit. nom H0: 1=2 ou 1≤2 ou 1≥2 H1: 1≠2 ou 1>2 ou 1<2 Mann Whitney (h=0,95) 1 var quantit. /qual. ordin + 1 var qualit. nom H0: med1=med2 ou med1≤med2 ou med1≥med2 H1: med1≠med2 ou med1>med2 ou med1<med2 Teste T amostras empar / 2 pair samples 2 var quantitativas H0: d=0 ou d≤0 ou d≥0 H1: d≠0 ou d>0 ou d<0 Wilcoxon (h=0,95) / Signals (h=0,63) 2 quant ou 2 qualit ordin. H0: medd=0 ou medd≤0 ou medd≥0 H1: medd≠0 ou medd>0 ou medd<0 ANOVA Analysis of Variance 1 var quantit + 1 var qualit. nom H0: 1=2=3 H1: pelo menos uma  é ≠ Kruskal-Wallis (h=0,95) 1 var quantit. /qual. ordin + 1 var qualit. nom H0: med1=med2=med3 H1: pelo menos uma mediana é ≠ Dizer que um teste tem uma eficiência de 0,95 ou de 95% significa que só em 95% dos casos em que um teste T rejeitaria H0 é que o seu equivalente não paramétrico a rejeita.
  • 3. COMPARAÇÃO DE 3 OU MAIS MÉDIAS COMPARING 3 OR MORE MEANS Comparação de 3 ou mais médias Comparing 3 or more means Shapiro Wilk or Kolmogorov Smirnov F(x)=N(,s)? Variâncias homogéneas? Homogeneous variances? Anova F de Welch (Fw) or F de Brown & Forsythe (FBF) Kruskal Wallis Não / No Sim / Yes Não / No Sim / Yes
  • 4. ANÁLISE DA VARIÂNCIA ANALYSIS OF VARIANCE ANOVA é um método para testar a igualdade de três ou mais médias populacionais através da análise das variâncias amostrais Usa a distribuição F, que é: contínua assimétrica à direita Tem valores 0 ou positivos (jamais negativos) existe uma distribuição F diferente para cada par de graus de liberdade (dFnumerador, dFdenominador.) Homenagem a / Tribute to Ronald Aylmer Fisher & George Waddel Snedecor A distribuição F mede a razão entre 2 distribuições qui- quadrado. F distribution measures the rate between 2 Qui-square distributions ANOVA Is a method to test the equality of 3 or more population means, trough the analysis of variances. Uses F distribution, which is: continuous asymmetrical on the right values of F are 0 or positive (never negative) there is a different F distribution for each pair of degrees of freedom (dFfactor dFerror)
  • 5. Teste Anova Compara duas estimativas distintas da variância comum de duas populações diferentes: Variância entre amostras Variância dentro das amostras Anova a um fator Permite verificar qual o efeito de uma variável independente, de natureza qualitativa (fator), numa variável dependente ou de resposta, cuja natureza é quantitativa. Fator ou tratamento é uma propriedade ou característica que nos permite distinguir as diferentes populações umas das outras H0: 1=2=3 H1: 1≠2 ou 2≠3 ou 1≠3 ou 1≠2≠3 O teste Anova permite verificar a igualdade de três ou mais médias Anova allows to compare 3 or more means Em alternativa: alternatively H1: pelo menos uma média é diferente / at least one mean is different ANOVA = ANALYSIS OF VARIANCE Test Anova Compares two distinct estimates of the common variance of two different populations: Variance between samples Variance within the samples One Way Anova It allows to test the effect of an independent variable, of qualitative nature (factor), in a dependent or response variable, whose nature is quantitative. Factor is a property or characteristic that allows us to distinguish different populations from one another
  • 6. Requisitos: Todas as populações têm distribuições que são aproximadamente normais – exigência leve As populações têm variâncias homogéneas* (homocedasticidade) – exigência leve (se os tamanhos amostrais forem idênticos, a maior variância pode ser até 9x superior à menor. As amostras são aleatórias simples As amostras são independentes As diferentes amostras são categorizadas por um único fator. * Quando a variável dependente tem distribuição normal e as variâncias são heterogéneas existem duas estatísticas alternativas: F de Welch ou Fw e F de Brown & Forsythe ou FBF. * When the dependent variable has a normal distribution and the variances are heterogeneous, one of two alternative statistics must be used: F de Welch (Fw) ou F de Brown Forsythe (FBF). Requirements: All populations have distributions that are approximately normal - light requirement Populations have homogeneous variances * (homoscedasticity) - light requirement (if sample sizes are identical, the largest variance can be up to 9x higher than the lowest. Samples are randomly selected Samples are independent The different samples are categorized by a single factor. ANOVA H0: 1=2=….=m H1: pelo menos uma das médias é ≠ / at least one mean is ≠
  • 7. SSf – Squares Sumfactor – soma dos quadrados do fator: variação entre as amostras Sse –Squares Sumerror – soma dos quadrados do erro: variação dentro das amostras SSt –Squares Sumtotal – soma dos quadrados total em torno de 𝑥 em todos os dados amostrais combinados ONE-WAY ANOVA 2 2 2 2 2 1 1 ) ( ... ) ( ) ( x x n x x n x x n SS k k f        2 2 2 2 2 1 1 ) 1 ( ... ) 1 ( ) 1 ( k k e s n s n s n SS        e f t SS SS SS   H0: 12=…=k H1: pelo menos uma das médias é distinta / at least one mean is different.
  • 8. ANOVA A UM FATOR / ONE-WAY ANOVA MSfactor – Mean Squarefactor – variância entre amostras MSerror – Mean Squareerror – variância dentro da amostra MStotal – Mean Squaretotal– variância total error factor MS MS F  factor factor factor dF SS MS  error erro error dF SS MS  total total total dF SS MS  Estatística do Teste: Test statistic: Comparação de médias Comparing means Qual o valor de F? Which is the F statistic? F pequeno / small F grande / big P-valor é grande. Não se rejeita H0. P-value is big. Don't reject H0. P-valor é pequeno. Rejeita-se H0. P-value is small. Reject H0. dFfactor=k-1 dFerror=N-k dFtotal=N-1
  • 9. ONE-WAY ANOVA: Group 1 Group 2 Group 3 7 6 4 3 5 7 6 5 6 7 6 7 6 8 8 n1=5 n2=5 n3=5 Média1=5,8 Média2=6,0 Média3=6,4 S1 2=2,7 S2 2=1,5 S3 2=2,3 Variância dentro das amostras Variance inside samples p-valor=1-cdf.F(0.215,2,12)=0,809 215 , 0 167 , 2 467 , 0    error factor MS MS F 𝑆𝑆𝑓𝑎𝑐𝑡𝑜𝑟 = 𝑛1(𝑥1 − 𝑥)2 + 𝑛2(𝑥2 − 𝑥)2 + 𝑛3(𝑥3 − 𝑥)2 = 5 × 5,8 − 6,07 2 + 5 × 6,0 − 6,07 2 + +5 × 6,4 − 6,07 2 = 0,933 26 3 , 2 ) 1 5 ( 5 , 1 ) 1 5 ( 7 , 2 ) 1 5 ( ) 1 ( ) 1 ( ) 1 ( 2 3 3 2 2 2 2 1 1                 s n s n s n SSerror 467 , 0 2 933 , 0    factor factor factor dF SS MS 167 , 2 12 26    error error error dF SS MS Soma de Quadrados entre amostras: Square sum between samples: Média das Médias Amostrais Mean of samples means: Gl entre amostras: dF / betweeen samples: Variância entre amostras variance between samples: Soma de Quadrados dentro das amostras: Square sum of inside samples: GL dentro amostras / dF freedom inside samples Não se rejeita H0! 𝑑𝐹𝑓𝑎𝑐𝑡𝑜𝑟 = 𝑘 − 1 = 3 − 1 = 2 dFerror=N-k=15-3=12 𝑥 = 𝑥1 + 𝑥2 + 𝑥3 = 5,8 + 6,0 + 6,4 3 = 6,07
  • 10. ONE-WAY ANOVA ANOVA UM FATOR Tal como no caso de duas amostras independentes, é testada a homogeneidade das variâncias, através do Teste de Levene Analisar Analize Comparar Médias Compare Means Análise da variância unidirecional Ane-way Anova SSTotal=SSFactor+SSError=(N-1)xS’2 Soma dos Quadrados Totais: As in the case of two independent samples, the variances homogeneity is tested through Levene test
  • 11. ONE WAY ANOVA 985 , 70 167 , 2 8 , 153    error factor MS MS F       6 , 307 4 , 9 4 , 6 4 4 , 9 0 , 6 4 4 , 9 8 , 15 5 ) ( ) ( ) ( 2 2 2 2 3 3 2 2 2 2 1 1                 x x n x x n x x n SSfactor 26 3 , 2 ) 1 5 ( 5 , 1 ) 1 5 ( 7 , 2 ) 1 5 ( ) 1 ( ) 1 ( ) 1 ( 2 3 3 2 2 2 2 1 1                 s n s n s n SSerror 8 , 153 2 6 , 307    factor factor factor dF SS MS 167 , 2 12 26    error error error dF SS MS Rejeita-se H0! p-valor=1-cdf.F(70.985,2,12)=0,000 Group 1 Group 2 Group 3 17 6 4 13 5 7 16 5 6 17 6 7 16 8 8 n1=5 n2=5 n3=5 Média1=15,8 Média2=6,0 Média3=6,4 S1 2=2,7 S2 2=1,5 S3 2=2,3 Example 2: 𝑑𝐹𝑓𝑎𝑐𝑡𝑜𝑟 = 𝑘 − 1 = 3 − 1 = 2 dFerror=N-k=15-3=12 Média das Médias Amostrais Mean of samples means: GL entre amostras /dF between samples: Soma de Quadrados entre amostras: Square sum between samples: Variância entre amostras variance between samples: Graus de liberdade dentro das amostras: Degrees of freedom inside samples Soma de Quadrados dentro das amostras: Square sum of inside samples: Variância dentro das amostras Variance inside samples 𝑥 = 𝑥1 + 𝑥2 + 𝑥3 = 15,8 + 6,0 + 6,4 3 = 9,4
  • 12. ANOVA A UM FATOR / ONE WAY ANOVA Analisar Analize Comparar Médias Compare Means Anova Soma dos Quadrados Totais: SSTotal=SSFactor+SSError= (N-1)xS’2 Para o 2.º conjunto de dados os resultados da Anova são:
  • 13. COMPARAÇÕES À POSTERIORI POST HOC MULTIPLE COMPARISONS Quando se rejeita H0 na Anova é necessário identificar a ou as populações com média distinta. Para o efeito usam-se as comparações múltiplas à posteriori. When H0 is rejected in an Anova Test, the populations with different means must be identified. To do so we use Post Hoc Multiple Comparisons Muito embora não haja consenso sobre o teste mais apropriado, o teste de Tukey é um dos mais robustos para desvios à normalidade quando há homogeneidade das variâncias e o Bonferroni um dos mais potentes para amostras pequenas. Although there is no consensus on the most appropriate test, the Tukey test is one of the most robust for deviations to normality and homogeneous variances and Bonferroni is one of the most
  • 14. TESTES ROBUSTOS DE IGUALDADE DAS MÉDIAS ROBUST TESTS OF EQUALITY OF MEANS Testes incluídos nas opções da Anova Tests included in Anova options O teste de Welch tem melhor performance. Welch test has a better performance Quando as variâncias são heterogéneas devem-se usar as opções das estatísticas de Brown & Forstythe, ou a estatística de Welch. When the variances are heterogeneous Brown & Forstythe statistic or Welch statistic must be used.
  • 15. KRUSKAL WALLIS TEST Requisitos: três ou mais amostras independentes selecionadas aleatoriamente n≥5 em todos os grupos Notação: n: número total de observações em todas as amostras combinadas k: número de grupos Rj: ordenações da categoria j ti: n.º de empates de cada categoria i Teste não paramétrico aplicável: . variáveis ordinais . variáveis quantitativas, alternativa à Anova Utiliza ordens de dados amostrais de três ou mais populações independentes. É usado para testar a H0 de que as amostras independentes provêm de populações com a mesma mediana. H0: med1=med2=…=medk H1: pelo menos uma mediana é diferente Non parametric test used to: . ordinal variables . quantitative variables, alternative to Anova Uses data orders of three or more independent populations. Is used to test H0 the equality of three or more medians. H0: med1=med2=…=medk H1: at least one median is different Requirements: three or more randomly selected independent samples n≥5 in all groups Notation: n: total number of observations in all samples combined k: number of groups Rj: orders of category j ti: number of tied observations of each
  • 16. KRUSKAL-WALLIS Group 1 Group 2 Group 3 Value Ranking Value Ranking Value Ranking 7 11,5 6 7 4 2 3 1 5 3,5 7 11,5 6 7 5 3,5 6 7 7 11,5 6 7 7 11,5 6 7 8 14,5 8 14,5 n1=5 n2=5 n3=5 Mean ranking = 6,0 Mean ranking = 6,375 Mean ranking = 7,125 R1=38 R2=35,5 R3=46,5 R1 2=1444 R2 2=1260,25 R3 2=2162,25 2 empates duplos 1 empate quádruplo 1 empate quíntuplo ) 1 ( 3 ) 1 ( 12 3 2 3 2 2 2 1 2 1                n n R n R n R n n H 665 , 0 16 3 5 25 , 2162 5 25 , 1260 5 1444 16 15 12               H 705 , 0 15 15 ) 5 5 ( ) 4 4 ( ) 2 2 ( 2 1 665 , 0 ) ( 1 3 3 3 3 3 3                n n t t H H k i i i E Sem correção para empates! No tie corrected Com correção para empates! Tie corrected 2 double ties 1 quadruple tie 1 quintuple tie P-valor=1-Cdf.Chisq(0.705,2)=0,703
  • 17. TESTE DE KRUSKAL-WALLIS Analisar Analyse Testes Não Paramétricos Nonparametric Tests amostras independentes independent samples P-valor=1-Cdf.Chisq(0.705,2)=0,703