SlideShare uma empresa Scribd logo
1 de 19
ANÁLISE MULTIVARIADA
DE DADOS
DOCENTE: CARLA OLIVEIRA SILVA
Teste Paramétrico / Parametric Test Teste Não Paramétrico
Teste T uma amostra / One sample T test
1 variável quantitativa
H0: =a ou ≤a ou ≥a
H1: ≠a ou >a ou <a
Wilcoxon (h=0,95)
1 variável quantitativa ou 1 var. qualitativa
ordinal
H0: mediana=a ou mediana≤a ou mediana≥a
H1: mediana≠a ou mediana>a ou mediana<a
Teste T amostras Indep / 2 indep. Samples
1 var quantit + 1 var qualit. nom
H0: 1=2 ou 1≤2 ou 1≥2
H1: 1≠2 ou 1>2 ou 1<2
Mann Whitney (h=0,95)
1 var quantit. /qual. ordin + 1 var qualit. nom
H0: med1=med2 ou med1≤med2 ou
med1≥med2
H1: med1≠med2 ou med1>med2 ou
med1<med2
Teste T amostras empar / 2 pair samples
2 var quantitativas
H0: d=0 ou d≤0 ou d≥0
H1: d≠0 ou d>0 ou d<0
Wilcoxon (h=0,95) / Signals (h=0,63)
2 quant ou 2 qualit ordin.
H0: medd=0 ou medd≤0 ou medd≥0
H1: medd≠0 ou medd>0 ou medd<0
ANOVA Analysis of Variance
1 var quantit + 1 var qualit. nom
H0: 1=2=3
H1: pelo menos uma  é ≠
Kruskal-Wallis (h=0,95)
1 var quantit. /qual. ordin + 1 var qualit. nom
H0: med1=med2=med3
H1: pelo menos uma mediana é ≠
Dizer que um teste tem uma eficiência de 0,95 ou de 95% significa que só em 95% dos
casos em que um teste T rejeitaria H0 é que o seu equivalente não paramétrico a rejeita.
TESTE T AMOSTRAS INDEPENDENTES
INDEPENDENT SAMPLES T-TEST
Duas amostras independentes
Two independent samples
N>30
Levene
s1
2=s2
2?
Não / No
Sim/Yes
Não/No
Sim/Yes
Teste T amostras
independentes variâncias
iguais
Independent samples T test
Teste de
Mann Whitney
Mann Whitney test
Teste T amostras independentes
variâncias diferentes
Independent samples T-test equal
variances not assumed
Shapiro Wilk
F(x)=N(,s)?
Não/No
Sim/Yes
Teste T amostras independentes
Independent Samples T- Test
TESTES T AMOSTRAS INDEPENDENTES
INDEPENDENT SAMPLES T-TEST
No teste t para duas amostras
independentes compara-se a média
de uma variável num grupo com a
média da mesma variável noutro
grupo.
Ex: comparação dos rendimentos dos
homens e das mulheres:
H0: Homens = Mulheres
H1: Homens ≠ Mulheres
A distribuição amostral T para a
comparação de duas médias em
amostras independentes, pode ter
duas expressões diferentes,
consoante:
s1
2≠s2
2 ou s1
2=s2
2
The independent samples t test
compares the mean of one variable in
a group with the mean of the same
variable in another group.
Ex: comparison of the incomes of
men and women:
H0: Homens = Mulheres
H1: Homens ≠ Mulheres
The sample distribution T for the
comparison of two means in
independent samples can have two
different expressions, depending on:
s1
2≠s2
2 or s1
2=s2
2
TESTE T AMOSTRAS INDEPENDENTES
INDEPENDENT SAMPLES T-TEST
s1 e s2 são desconhecidos e assume-se
que s1 ≠ s2
s1 e s2 are unknown and we assume
that s1 ≠ s2
2
2
2
1
2
1
2
1
2
1 )
(
)
(
n
s
n
s
x
x
t




=


)
1
(
:
)
1
(
:
1
2
2
2
2
1
2
1
2
2
2
1
2
2
2
1
2
1
2
1





























=
n
n
s
n
s
n
s
n
n
s
n
s
n
s
dF
s1
2≠s2
2 s1
2=s2
2
s1 e s2 não são conhecidos e assume-se
que s1 = s2
s1 e s2 are unknown and we assume
that s1 = s2
2
2
1
2
2
1
2
1 )
(
)
(
n
s
n
s
x
x
t
p
p




=


)
1
(
)
1
(
)
1
(
)
1
(
2
1
2
2
2
2
1
1
2






=
n
n
s
n
s
n
sp
Variância
Combinada
Pooled
variance
2
2
1 

= n
n
dF
INTERVALO DE CONFIANÇA: DIFERENÇA ENTRE MÉDIAS
CONFIDENCE INTERVAL: DIFFERENCE BETWEEN MEANS
Intervalo de Confiança
(confidence interval)
2
2
1
2
2
/
n
s
n
s
t
E
p
p

= 
2
2
1 

= n
n
dF
E
x
x
E
x
x 





 )
(
)
(
)
( 2
1
2
1
2
1 

Como o teste de hipótese, quando bilateral, e o intervalo de confiança, usam a mesma distribuição t-
Student e o mesmo erro padrão, desde que  seja idêntico, levam a conclusões semelhantes.
Consequentemente a hipótese nula pode ser testada verificando-se se o intervalo de confiança
contem o valor ZERO.
Since the hypothesis test, when two tailed, and the confidence interval, use the same t-Student
distribution and the same standard error, provided that  is identical, lead to similar conclusions.
Consequently, the null hypothesis can be tested by checking whether the confidence interval contains
the ZERO value.
s2
1=s2
2
s2
1≠s2
2
2
2
2
1
2
1
2
/
n
s
n
s
t
E 
= 
)
1
(
:
)
1
(
:
1
2
2
2
2
1
2
1
2
2
2
1
2
2
2
1
2
1
2
1





























=
n
n
s
n
s
n
s
n
n
s
n
s
n
s
dF
E
x
x
E
x
x 





 )
(
)
(
)
( 2
1
2
1
2
1 

EXEMPLO
EXAMPLE
Um produto pode ser exposto em dois locais distintos A e B, de um supermercado. Pretende-se saber se o
local de exposição influencia as vendas, ou não. Em vários dias, o produto foi exposto no local A, e noutros,
no local B. Observaram-se, as vendas, em 8 dos dias de exposição em A e 9 dos da exposição em B. Os
resultados obtidos foram:
A product can be displayed in two distinct A and B locations in a supermarket. It is intended to know
whether the location of exposure influences sales, or not. On several days the product was exposed at site
A and elsewhere at site B. The sales were observed on 8 days of exposure in A and 9 days of exposure in B.
The results were:
Local / location A: 10 12 15 16 13 15 11 17
Local / location B: 6 9 11 14 13 12 14 13 12
Teste a afirmação de que as vendas são idênticas nos dois locais, para um nível de significância de 0,05.
Test the claim: the mean sales are equal to both places, to a =0,05.
Teste T para amostras independentes, caso os dados provenham de população com
distribuição normal.
If we do not reject the H0 in a Shapiro Wilk test, we can use the Independent sample T-test.
TESTE À NORMALIDADE
NORMALITY TEST
Analisar
Analyse
Estatísticas Descritivas
Descriptive Statistics
Explorar
Explore
Como p-valor é maior do que  para os dois locais, não se rejeita a
hipótese nula dos dados provirem de populações com distribuição
normal, sendo aplicáveis testes paramétricos às duas amostras.
p-valor A = 0,709 p-valor B = 0,092
H0: F(x) = N(, s)
H1: F(x) ≠ N(, s)
TESTE T PARA COMPARAÇÃO DAS MÉDIAS:
AMOSTRAS INDEPENDENTES
Hipóteses:
H0: A = B (afirmação inicial)
H1: A ≠ B
O teste é bilateral pois a hipótese alternativa apresenta o sinal de ≠.
A inferência da relação observada na amostra sobre as médias é feita através do teste t.
A inferência da relação observada na amostra sobre as variâncias é realizada através do Teste
de Levene.
Hipóteses:
H0: s2
A = s2
B
H1: s2
A ≠ s2
B
Teste de Levene é usado para testar se as amostras k têm
variâncias iguais. Variâncias iguais entre amostras é chamada de
homogeneidade de variância.
TESTE DE LEVENE
 Dada uma variável Y com amostra de tamanho N k dividida em subgrupos, onde N i é
o tamanho da amostra do i-ésimo subgrupo, a estatística do teste de Levene é
definido como:
 onde Z ij pode ter uma das seguintes definições:
 média do subgrupo
 mediana do subgrupo
 média aparada a 10% do subgrupo.
 são o grupo através do Z e ij é a média geral do ij Z.
O teste de Levene está associado à distribuição F, com graus de liberdade (dF) k−1 and W−k.
Verifica-se que a média amostral é ligeiramente
superior no caso no local A. O desvio padrão amostral
é superior para o local B.
Analisar
Analyse
Comparar Médias
Compare means
Teste T amostras
independentes
Independent sample
t-teste
Como p-valor ( 0,771) >  (0,05), não se rejeita H0,
logo admite-se que as variâncias são idênticas
As p-value ( 0,771) >  (0,05), we do not reject H0,.
Consequently we assume equal variances
TESTE DE LEVENE NO TESTE T AMOSTRAS
INDEPENDENTES
LEVENE TEST ON INDEPENDENT SAMPLES T TEST
TESTE T AMOSTRAS INDEPENDENTES
INDEPENDENT SAMPLES T-TEST
Assumindo que s1
2=s2
2,
calcula-se dF e a
variância combinada
𝑡 =
(𝑥1 − 𝑥2) − (𝜇1 − 𝜇2)
𝑠𝑝
2
𝑛1
+
𝑠𝑝
2
𝑛2
=
13,63 − 11,56 − 0
6,54
8
+
6,54
9
=
2,07
1,243
= 1,665
𝑠𝑝
2
=
(𝑛1−1)𝑠1
2+(𝑛2−1)𝑠2
2
(𝑛1−1)+(𝑛2−1)
=
8−1 ∗6,27+ 9−1 ∗6,776
8−1 +(9−1)
=
98,098
15
= 6,54
𝑑𝐹 = 𝑛1 + 𝑛2 − 2 = 8 + 9 − 2 = 15
𝑝 − 𝑣𝑎𝑙𝑜𝑟 = 2 ∗ (1 − 𝑐𝑑𝑓. 𝑇(1.665, 15))=0,117
TESTE T AMOSTRAS INDEPENDENTES
INDEPENDENT SAMPLES T-TEST
Decisão: Como p-valor (0,117) >  (0,05),
não se rejeita H0.
Conclusão: não há evidência para
garantir a rejeição da afirmação inicial.
Decision: as p-value (0,117) >  (0,05),
we do not reject H0.
Conclusion: there is no evidence to reject
the original claim.
INTERVALO DE CONFIANÇA: DIFERENÇA ENTRE MÉDIAS
CONFIDENCE INTERVAL: DIFFERENCE BETWEEN MEANS
𝐸 = 𝑡𝛼/2
𝑠𝑝
2
𝑛1
+
𝑠𝑝
2
𝑛2
= 2.1314 ∗
6,54
8
+
6,54
9
=2,647
(𝑥1 − 𝑥2) − 𝐸 < (𝜇1 − 𝜇2) < (𝑥1 − 𝑥2) + 𝐸
Assumindo que s1
2=s2
2, calcula-se t/2, para dF=15, =0.05
𝑡𝛼/2 =idf.T(0.025, 15)=-2.1314
13,63 − 11,56 − 2,65 < 𝜇1 − 𝜇2 < 13,63 − 11,56 + 2,65
−0,58 < 𝜇1 − 𝜇2 < 4,72
Teste Paramétrico / Parametric Test Teste Não Paramétrico
Teste T uma amostra / One sample T test
1 variável quantitativa
H0: =a ou ≤a ou ≥a
H1: ≠a ou >a ou <a
Wilcoxon (h=0,95)
1 variável quantitativa ou 1 var. qualitativa
ordinal
H0: mediana=a ou mediana≤a ou mediana≥a
H1: mediana≠a ou mediana>a ou mediana<a
Teste T amostras Indep / 2 indep. Samples
1 var quantit + 1 var qualit. nom
H0: 1=2 ou 1≤2 ou 1≥2
H1: 1≠2 ou 1>2 ou 1<2
Mann Whitney (h=0,95)
1 var quantit. /qual. ordin + 1 var qualit. nom
H0: med1=med2 ou med1≤med2 ou
med1≥med2
H1: med1≠med2 ou med1>med2 ou
med1<med2
Teste T amostras empar / 2 pair samples
2 var quantitativas
H0: d=0 ou d≤0 ou d≥0
H1: d≠0 ou d>0 ou d<0
•Wilcoxon(h=0,95) / Signals (h=0,63)
•2 quant ou 2 qualit ordin.
H0: medd=0 ou medd≤0 ou medd≥0
H1: medd≠0 ou medd>0 ou medd<0
Análise da variância ANOVA Analysis of
Variance
1 var quantit + 1 var qualit. nom
H0: 1=2=3
H1: pelo menos uma  é ≠
Kruskal-Wallis (h=0,95)
1 var quantit. /qual. ordin + 1 var qualit. nom
H0: med1=med2=med3
H1: pelo menos uma mediana é ≠
Dizer que um teste tem uma eficiência de 0,95 ou de 95% significa que só em 95% dos
casos em que um teste T rejeitaria H0 é que o seu equivalente não paramétrico a rejeita.
TESTE DE MANN-WHITNEY
MANN WHITNEY TEST
Compara o centro de localização das
duas amostras, como forma de
detectar diferenças entre as duas
populações correspondentes.
Deve ser utilizado quando:
 n≤30
 F(x)≠N(,s)
 as variáveis são de escala ordinal.
H0: mediana A = mediana B (afirmação inicial)
H1: mediana A ≠ mediana B
Analisar
Analyze
Testes não paramétricos
Nonparametric Tests
amostras independentes
Independent Samples
It compares the location center of the
two samples as a way to detect
differences between the two
corresponding populations.
Should be used when:
• there is a violation of normality
• n≤30
• the variables are of ordinal scale.
MANN-WHITNEY
Requisitos
Há duas amostras independentes de dados
seleccionados aleatoriamente
Cada uma das duas amostrais tem mais de
10 valores (bibliografia específica)
Não há qualquer exigência de que as duas
populações tenham uma distribuição normal
ou qualquer outra distribuição particular
Notação:
n1 = dimensão da menor amostra
n2 = dimensão da maior amostras
R1 = soma das ordenações da menor
amostra
Estatística do Teste
U = mín (U1; U2) 𝑈1 = 𝑛1 × 𝑛2 +
𝑛1(𝑛1 + 1)
2
− 𝑅1
𝑈2 = 𝑛1 × 𝑛2 − 𝑈1
U
U
U
n
n
U
U
z
s
s
 2
2
1 

=

=
12
)
1
(
2
1 

=
n
n
n
U
s







 





=  12
12
)
1
(
3
3
2
1 j
j
U
t
t
n
n
n
n
n
n
s
Sem empates
No ties
Correção de empates
Ties correction
tj=n.º obs empatadas em cada
grupo / nr of ties in each group
REQUIREMENTS:
There are two independent samples of
randomly selected data
Each of the two samples has more than 10
values (specific bibliography)
There is no requirement that the two
populations have a normal distribution or
any other particular distribution
Notation
n1 = smallest sample size
n2 = largest sample size
R1 = sum of orders from the smallest sample
size
TESTE DE MANN WHITNEY
Vendas Local Ordem
6 Local B 1
9 Local B 2
10 Local A 3
11 Local A 4,5
11 Local B 4,5
12 Local A 7
12 Local B 7
12 Local B 7
13 Local A 10
13 Local B 10
13 Local B 10
14 Local B 12,5
14 Local B 12,5
15 Local A 14,5
15 Local A 14,5
16 Local A 16
17 Local A 17
Local A 86,5
Local B 66,5
Soma ordem R1
3 empates duplos!
2 empates triplos!
TESTE DE MANN-WHITNEY
5
,
50
5
,
66
2
)
1
9
(
9
8
9
2
)
1
(
1
1
1
2
1
1 =





=




= R
n
n
n
n
U
5
,
21
0
,
50
8
9
1
2
1
2 =


=


= U
n
n
U
405
,
1
322
,
10
2
8
9
5
,
21
2
2
1

=


=


=

=
U
U
U
n
n
U
U
z
s
s

322
,
10
12
)
3
3
(
2
)
2
2
(
3
12
17
17
)
1
17
(
17
8
9
12
12
)
1
(
3
3
3
3
3
2
1
=







 









=







 





=  j
j
U
t
t
n
n
n
n
n
n
s
Nota:
tj=n.º empates em cada
grupo / nr
draws in each group
Empate duplo: t=2
Empate triplo: t=3
Empate quádruplo: t=4
U = mín (50,5; 21,5)=21,5
𝑝 − 𝑣𝑎𝑙𝑜𝑟 = 2 ∗ 𝑐𝑑𝑓. 𝑁𝑜𝑟𝑚𝑎𝑙(−1.405, 0, 1) = 0,160

Mais conteúdo relacionado

Semelhante a AMD - Aula n.º 2 - testes amostras independentes.pptx

Aula 5 - Educação física
Aula 5 - Educação físicaAula 5 - Educação física
Aula 5 - Educação físicaCaroline Godoy
 
Aula6-TestesdeHipoteses2 (1).pptx
Aula6-TestesdeHipoteses2 (1).pptxAula6-TestesdeHipoteses2 (1).pptx
Aula6-TestesdeHipoteses2 (1).pptxDealthCraft
 
estatística é uma disciplina ampla e fundamental
estatística é uma disciplina ampla e fundamentalestatística é uma disciplina ampla e fundamental
estatística é uma disciplina ampla e fundamentalssuser98ac96
 
ESTATÍSTICA-BÁSICA-SUMÁRIO-1a-PARTE-REVISADO-2013.pdf
ESTATÍSTICA-BÁSICA-SUMÁRIO-1a-PARTE-REVISADO-2013.pdfESTATÍSTICA-BÁSICA-SUMÁRIO-1a-PARTE-REVISADO-2013.pdf
ESTATÍSTICA-BÁSICA-SUMÁRIO-1a-PARTE-REVISADO-2013.pdfssuserac1de6
 
AMD - Aula n.º 1 - testes 1 amostra (1).pptx
AMD - Aula n.º 1 - testes 1 amostra (1).pptxAMD - Aula n.º 1 - testes 1 amostra (1).pptx
AMD - Aula n.º 1 - testes 1 amostra (1).pptxNunoSilva599593
 
Inferencia Estatistica ISG
Inferencia Estatistica ISGInferencia Estatistica ISG
Inferencia Estatistica ISGMargarida Nunes
 
Outros testes não-paramétricos
Outros testes não-paramétricosOutros testes não-paramétricos
Outros testes não-paramétricosguest422f98
 
Teste de hipóteses - paramétricos
Teste de hipóteses - paramétricosTeste de hipóteses - paramétricos
Teste de hipóteses - paramétricosRodrigo Rodrigues
 
Aula 7 - Sistemas de informação
Aula 7 - Sistemas de informaçãoAula 7 - Sistemas de informação
Aula 7 - Sistemas de informaçãoCaroline Godoy
 
Ap5 - Critérios de validação dos testes sorológicos
Ap5 - Critérios de validação dos testes sorológicosAp5 - Critérios de validação dos testes sorológicos
Ap5 - Critérios de validação dos testes sorológicosLABIMUNO UFBA
 
Aula 2 - Sistemas de informação
Aula 2 - Sistemas de informaçãoAula 2 - Sistemas de informação
Aula 2 - Sistemas de informaçãoCaroline Godoy
 
Aula 5 - Sistemas de informação
Aula 5 - Sistemas de informaçãoAula 5 - Sistemas de informação
Aula 5 - Sistemas de informaçãoCaroline Godoy
 
Teste do sinal - Estatística Não Paramétrica
Teste do sinal - Estatística Não ParamétricaTeste do sinal - Estatística Não Paramétrica
Teste do sinal - Estatística Não ParamétricaAnselmo Alves de Sousa
 

Semelhante a AMD - Aula n.º 2 - testes amostras independentes.pptx (20)

Aula 5 - Educação física
Aula 5 - Educação físicaAula 5 - Educação física
Aula 5 - Educação física
 
Estatistica para instrumental b
Estatistica para instrumental bEstatistica para instrumental b
Estatistica para instrumental b
 
Aula19
Aula19Aula19
Aula19
 
distribuição-t-student
distribuição-t-studentdistribuição-t-student
distribuição-t-student
 
Aula6-TestesdeHipoteses2 (1).pptx
Aula6-TestesdeHipoteses2 (1).pptxAula6-TestesdeHipoteses2 (1).pptx
Aula6-TestesdeHipoteses2 (1).pptx
 
estatística é uma disciplina ampla e fundamental
estatística é uma disciplina ampla e fundamentalestatística é uma disciplina ampla e fundamental
estatística é uma disciplina ampla e fundamental
 
ESTATÍSTICA-BÁSICA-SUMÁRIO-1a-PARTE-REVISADO-2013.pdf
ESTATÍSTICA-BÁSICA-SUMÁRIO-1a-PARTE-REVISADO-2013.pdfESTATÍSTICA-BÁSICA-SUMÁRIO-1a-PARTE-REVISADO-2013.pdf
ESTATÍSTICA-BÁSICA-SUMÁRIO-1a-PARTE-REVISADO-2013.pdf
 
AMD - Aula n.º 1 - testes 1 amostra (1).pptx
AMD - Aula n.º 1 - testes 1 amostra (1).pptxAMD - Aula n.º 1 - testes 1 amostra (1).pptx
AMD - Aula n.º 1 - testes 1 amostra (1).pptx
 
Princípios de Estatística Inferencial - I
Princípios de Estatística Inferencial - IPrincípios de Estatística Inferencial - I
Princípios de Estatística Inferencial - I
 
Inferencia Estatistica ISG
Inferencia Estatistica ISGInferencia Estatistica ISG
Inferencia Estatistica ISG
 
Aula 13 teste de hipóteses
Aula 13   teste de hipótesesAula 13   teste de hipóteses
Aula 13 teste de hipóteses
 
Tutorial03 - Teste de Duas Médias
Tutorial03 - Teste de Duas MédiasTutorial03 - Teste de Duas Médias
Tutorial03 - Teste de Duas Médias
 
Outros testes não-paramétricos
Outros testes não-paramétricosOutros testes não-paramétricos
Outros testes não-paramétricos
 
Teste de hipóteses - paramétricos
Teste de hipóteses - paramétricosTeste de hipóteses - paramétricos
Teste de hipóteses - paramétricos
 
Aula 7 - Sistemas de informação
Aula 7 - Sistemas de informaçãoAula 7 - Sistemas de informação
Aula 7 - Sistemas de informação
 
Teste Friedman
Teste FriedmanTeste Friedman
Teste Friedman
 
Ap5 - Critérios de validação dos testes sorológicos
Ap5 - Critérios de validação dos testes sorológicosAp5 - Critérios de validação dos testes sorológicos
Ap5 - Critérios de validação dos testes sorológicos
 
Aula 2 - Sistemas de informação
Aula 2 - Sistemas de informaçãoAula 2 - Sistemas de informação
Aula 2 - Sistemas de informação
 
Aula 5 - Sistemas de informação
Aula 5 - Sistemas de informaçãoAula 5 - Sistemas de informação
Aula 5 - Sistemas de informação
 
Teste do sinal - Estatística Não Paramétrica
Teste do sinal - Estatística Não ParamétricaTeste do sinal - Estatística Não Paramétrica
Teste do sinal - Estatística Não Paramétrica
 

AMD - Aula n.º 2 - testes amostras independentes.pptx

  • 2. Teste Paramétrico / Parametric Test Teste Não Paramétrico Teste T uma amostra / One sample T test 1 variável quantitativa H0: =a ou ≤a ou ≥a H1: ≠a ou >a ou <a Wilcoxon (h=0,95) 1 variável quantitativa ou 1 var. qualitativa ordinal H0: mediana=a ou mediana≤a ou mediana≥a H1: mediana≠a ou mediana>a ou mediana<a Teste T amostras Indep / 2 indep. Samples 1 var quantit + 1 var qualit. nom H0: 1=2 ou 1≤2 ou 1≥2 H1: 1≠2 ou 1>2 ou 1<2 Mann Whitney (h=0,95) 1 var quantit. /qual. ordin + 1 var qualit. nom H0: med1=med2 ou med1≤med2 ou med1≥med2 H1: med1≠med2 ou med1>med2 ou med1<med2 Teste T amostras empar / 2 pair samples 2 var quantitativas H0: d=0 ou d≤0 ou d≥0 H1: d≠0 ou d>0 ou d<0 Wilcoxon (h=0,95) / Signals (h=0,63) 2 quant ou 2 qualit ordin. H0: medd=0 ou medd≤0 ou medd≥0 H1: medd≠0 ou medd>0 ou medd<0 ANOVA Analysis of Variance 1 var quantit + 1 var qualit. nom H0: 1=2=3 H1: pelo menos uma  é ≠ Kruskal-Wallis (h=0,95) 1 var quantit. /qual. ordin + 1 var qualit. nom H0: med1=med2=med3 H1: pelo menos uma mediana é ≠ Dizer que um teste tem uma eficiência de 0,95 ou de 95% significa que só em 95% dos casos em que um teste T rejeitaria H0 é que o seu equivalente não paramétrico a rejeita.
  • 3. TESTE T AMOSTRAS INDEPENDENTES INDEPENDENT SAMPLES T-TEST Duas amostras independentes Two independent samples N>30 Levene s1 2=s2 2? Não / No Sim/Yes Não/No Sim/Yes Teste T amostras independentes variâncias iguais Independent samples T test Teste de Mann Whitney Mann Whitney test Teste T amostras independentes variâncias diferentes Independent samples T-test equal variances not assumed Shapiro Wilk F(x)=N(,s)? Não/No Sim/Yes Teste T amostras independentes Independent Samples T- Test
  • 4. TESTES T AMOSTRAS INDEPENDENTES INDEPENDENT SAMPLES T-TEST No teste t para duas amostras independentes compara-se a média de uma variável num grupo com a média da mesma variável noutro grupo. Ex: comparação dos rendimentos dos homens e das mulheres: H0: Homens = Mulheres H1: Homens ≠ Mulheres A distribuição amostral T para a comparação de duas médias em amostras independentes, pode ter duas expressões diferentes, consoante: s1 2≠s2 2 ou s1 2=s2 2 The independent samples t test compares the mean of one variable in a group with the mean of the same variable in another group. Ex: comparison of the incomes of men and women: H0: Homens = Mulheres H1: Homens ≠ Mulheres The sample distribution T for the comparison of two means in independent samples can have two different expressions, depending on: s1 2≠s2 2 or s1 2=s2 2
  • 5. TESTE T AMOSTRAS INDEPENDENTES INDEPENDENT SAMPLES T-TEST s1 e s2 são desconhecidos e assume-se que s1 ≠ s2 s1 e s2 are unknown and we assume that s1 ≠ s2 2 2 2 1 2 1 2 1 2 1 ) ( ) ( n s n s x x t     =   ) 1 ( : ) 1 ( : 1 2 2 2 2 1 2 1 2 2 2 1 2 2 2 1 2 1 2 1                              = n n s n s n s n n s n s n s dF s1 2≠s2 2 s1 2=s2 2 s1 e s2 não são conhecidos e assume-se que s1 = s2 s1 e s2 are unknown and we assume that s1 = s2 2 2 1 2 2 1 2 1 ) ( ) ( n s n s x x t p p     =   ) 1 ( ) 1 ( ) 1 ( ) 1 ( 2 1 2 2 2 2 1 1 2       = n n s n s n sp Variância Combinada Pooled variance 2 2 1   = n n dF
  • 6. INTERVALO DE CONFIANÇA: DIFERENÇA ENTRE MÉDIAS CONFIDENCE INTERVAL: DIFFERENCE BETWEEN MEANS Intervalo de Confiança (confidence interval) 2 2 1 2 2 / n s n s t E p p  =  2 2 1   = n n dF E x x E x x        ) ( ) ( ) ( 2 1 2 1 2 1   Como o teste de hipótese, quando bilateral, e o intervalo de confiança, usam a mesma distribuição t- Student e o mesmo erro padrão, desde que  seja idêntico, levam a conclusões semelhantes. Consequentemente a hipótese nula pode ser testada verificando-se se o intervalo de confiança contem o valor ZERO. Since the hypothesis test, when two tailed, and the confidence interval, use the same t-Student distribution and the same standard error, provided that  is identical, lead to similar conclusions. Consequently, the null hypothesis can be tested by checking whether the confidence interval contains the ZERO value. s2 1=s2 2 s2 1≠s2 2 2 2 2 1 2 1 2 / n s n s t E  =  ) 1 ( : ) 1 ( : 1 2 2 2 2 1 2 1 2 2 2 1 2 2 2 1 2 1 2 1                              = n n s n s n s n n s n s n s dF E x x E x x        ) ( ) ( ) ( 2 1 2 1 2 1  
  • 7. EXEMPLO EXAMPLE Um produto pode ser exposto em dois locais distintos A e B, de um supermercado. Pretende-se saber se o local de exposição influencia as vendas, ou não. Em vários dias, o produto foi exposto no local A, e noutros, no local B. Observaram-se, as vendas, em 8 dos dias de exposição em A e 9 dos da exposição em B. Os resultados obtidos foram: A product can be displayed in two distinct A and B locations in a supermarket. It is intended to know whether the location of exposure influences sales, or not. On several days the product was exposed at site A and elsewhere at site B. The sales were observed on 8 days of exposure in A and 9 days of exposure in B. The results were: Local / location A: 10 12 15 16 13 15 11 17 Local / location B: 6 9 11 14 13 12 14 13 12 Teste a afirmação de que as vendas são idênticas nos dois locais, para um nível de significância de 0,05. Test the claim: the mean sales are equal to both places, to a =0,05. Teste T para amostras independentes, caso os dados provenham de população com distribuição normal. If we do not reject the H0 in a Shapiro Wilk test, we can use the Independent sample T-test.
  • 8. TESTE À NORMALIDADE NORMALITY TEST Analisar Analyse Estatísticas Descritivas Descriptive Statistics Explorar Explore Como p-valor é maior do que  para os dois locais, não se rejeita a hipótese nula dos dados provirem de populações com distribuição normal, sendo aplicáveis testes paramétricos às duas amostras. p-valor A = 0,709 p-valor B = 0,092 H0: F(x) = N(, s) H1: F(x) ≠ N(, s)
  • 9. TESTE T PARA COMPARAÇÃO DAS MÉDIAS: AMOSTRAS INDEPENDENTES Hipóteses: H0: A = B (afirmação inicial) H1: A ≠ B O teste é bilateral pois a hipótese alternativa apresenta o sinal de ≠. A inferência da relação observada na amostra sobre as médias é feita através do teste t. A inferência da relação observada na amostra sobre as variâncias é realizada através do Teste de Levene. Hipóteses: H0: s2 A = s2 B H1: s2 A ≠ s2 B Teste de Levene é usado para testar se as amostras k têm variâncias iguais. Variâncias iguais entre amostras é chamada de homogeneidade de variância.
  • 10. TESTE DE LEVENE  Dada uma variável Y com amostra de tamanho N k dividida em subgrupos, onde N i é o tamanho da amostra do i-ésimo subgrupo, a estatística do teste de Levene é definido como:  onde Z ij pode ter uma das seguintes definições:  média do subgrupo  mediana do subgrupo  média aparada a 10% do subgrupo.  são o grupo através do Z e ij é a média geral do ij Z. O teste de Levene está associado à distribuição F, com graus de liberdade (dF) k−1 and W−k.
  • 11. Verifica-se que a média amostral é ligeiramente superior no caso no local A. O desvio padrão amostral é superior para o local B. Analisar Analyse Comparar Médias Compare means Teste T amostras independentes Independent sample t-teste Como p-valor ( 0,771) >  (0,05), não se rejeita H0, logo admite-se que as variâncias são idênticas As p-value ( 0,771) >  (0,05), we do not reject H0,. Consequently we assume equal variances TESTE DE LEVENE NO TESTE T AMOSTRAS INDEPENDENTES LEVENE TEST ON INDEPENDENT SAMPLES T TEST
  • 12. TESTE T AMOSTRAS INDEPENDENTES INDEPENDENT SAMPLES T-TEST Assumindo que s1 2=s2 2, calcula-se dF e a variância combinada 𝑡 = (𝑥1 − 𝑥2) − (𝜇1 − 𝜇2) 𝑠𝑝 2 𝑛1 + 𝑠𝑝 2 𝑛2 = 13,63 − 11,56 − 0 6,54 8 + 6,54 9 = 2,07 1,243 = 1,665 𝑠𝑝 2 = (𝑛1−1)𝑠1 2+(𝑛2−1)𝑠2 2 (𝑛1−1)+(𝑛2−1) = 8−1 ∗6,27+ 9−1 ∗6,776 8−1 +(9−1) = 98,098 15 = 6,54 𝑑𝐹 = 𝑛1 + 𝑛2 − 2 = 8 + 9 − 2 = 15 𝑝 − 𝑣𝑎𝑙𝑜𝑟 = 2 ∗ (1 − 𝑐𝑑𝑓. 𝑇(1.665, 15))=0,117
  • 13. TESTE T AMOSTRAS INDEPENDENTES INDEPENDENT SAMPLES T-TEST Decisão: Como p-valor (0,117) >  (0,05), não se rejeita H0. Conclusão: não há evidência para garantir a rejeição da afirmação inicial. Decision: as p-value (0,117) >  (0,05), we do not reject H0. Conclusion: there is no evidence to reject the original claim.
  • 14. INTERVALO DE CONFIANÇA: DIFERENÇA ENTRE MÉDIAS CONFIDENCE INTERVAL: DIFFERENCE BETWEEN MEANS 𝐸 = 𝑡𝛼/2 𝑠𝑝 2 𝑛1 + 𝑠𝑝 2 𝑛2 = 2.1314 ∗ 6,54 8 + 6,54 9 =2,647 (𝑥1 − 𝑥2) − 𝐸 < (𝜇1 − 𝜇2) < (𝑥1 − 𝑥2) + 𝐸 Assumindo que s1 2=s2 2, calcula-se t/2, para dF=15, =0.05 𝑡𝛼/2 =idf.T(0.025, 15)=-2.1314 13,63 − 11,56 − 2,65 < 𝜇1 − 𝜇2 < 13,63 − 11,56 + 2,65 −0,58 < 𝜇1 − 𝜇2 < 4,72
  • 15. Teste Paramétrico / Parametric Test Teste Não Paramétrico Teste T uma amostra / One sample T test 1 variável quantitativa H0: =a ou ≤a ou ≥a H1: ≠a ou >a ou <a Wilcoxon (h=0,95) 1 variável quantitativa ou 1 var. qualitativa ordinal H0: mediana=a ou mediana≤a ou mediana≥a H1: mediana≠a ou mediana>a ou mediana<a Teste T amostras Indep / 2 indep. Samples 1 var quantit + 1 var qualit. nom H0: 1=2 ou 1≤2 ou 1≥2 H1: 1≠2 ou 1>2 ou 1<2 Mann Whitney (h=0,95) 1 var quantit. /qual. ordin + 1 var qualit. nom H0: med1=med2 ou med1≤med2 ou med1≥med2 H1: med1≠med2 ou med1>med2 ou med1<med2 Teste T amostras empar / 2 pair samples 2 var quantitativas H0: d=0 ou d≤0 ou d≥0 H1: d≠0 ou d>0 ou d<0 •Wilcoxon(h=0,95) / Signals (h=0,63) •2 quant ou 2 qualit ordin. H0: medd=0 ou medd≤0 ou medd≥0 H1: medd≠0 ou medd>0 ou medd<0 Análise da variância ANOVA Analysis of Variance 1 var quantit + 1 var qualit. nom H0: 1=2=3 H1: pelo menos uma  é ≠ Kruskal-Wallis (h=0,95) 1 var quantit. /qual. ordin + 1 var qualit. nom H0: med1=med2=med3 H1: pelo menos uma mediana é ≠ Dizer que um teste tem uma eficiência de 0,95 ou de 95% significa que só em 95% dos casos em que um teste T rejeitaria H0 é que o seu equivalente não paramétrico a rejeita.
  • 16. TESTE DE MANN-WHITNEY MANN WHITNEY TEST Compara o centro de localização das duas amostras, como forma de detectar diferenças entre as duas populações correspondentes. Deve ser utilizado quando:  n≤30  F(x)≠N(,s)  as variáveis são de escala ordinal. H0: mediana A = mediana B (afirmação inicial) H1: mediana A ≠ mediana B Analisar Analyze Testes não paramétricos Nonparametric Tests amostras independentes Independent Samples It compares the location center of the two samples as a way to detect differences between the two corresponding populations. Should be used when: • there is a violation of normality • n≤30 • the variables are of ordinal scale.
  • 17. MANN-WHITNEY Requisitos Há duas amostras independentes de dados seleccionados aleatoriamente Cada uma das duas amostrais tem mais de 10 valores (bibliografia específica) Não há qualquer exigência de que as duas populações tenham uma distribuição normal ou qualquer outra distribuição particular Notação: n1 = dimensão da menor amostra n2 = dimensão da maior amostras R1 = soma das ordenações da menor amostra Estatística do Teste U = mín (U1; U2) 𝑈1 = 𝑛1 × 𝑛2 + 𝑛1(𝑛1 + 1) 2 − 𝑅1 𝑈2 = 𝑛1 × 𝑛2 − 𝑈1 U U U n n U U z s s  2 2 1   =  = 12 ) 1 ( 2 1   = n n n U s               =  12 12 ) 1 ( 3 3 2 1 j j U t t n n n n n n s Sem empates No ties Correção de empates Ties correction tj=n.º obs empatadas em cada grupo / nr of ties in each group REQUIREMENTS: There are two independent samples of randomly selected data Each of the two samples has more than 10 values (specific bibliography) There is no requirement that the two populations have a normal distribution or any other particular distribution Notation n1 = smallest sample size n2 = largest sample size R1 = sum of orders from the smallest sample size
  • 18. TESTE DE MANN WHITNEY Vendas Local Ordem 6 Local B 1 9 Local B 2 10 Local A 3 11 Local A 4,5 11 Local B 4,5 12 Local A 7 12 Local B 7 12 Local B 7 13 Local A 10 13 Local B 10 13 Local B 10 14 Local B 12,5 14 Local B 12,5 15 Local A 14,5 15 Local A 14,5 16 Local A 16 17 Local A 17 Local A 86,5 Local B 66,5 Soma ordem R1 3 empates duplos! 2 empates triplos!
  • 19. TESTE DE MANN-WHITNEY 5 , 50 5 , 66 2 ) 1 9 ( 9 8 9 2 ) 1 ( 1 1 1 2 1 1 =      =     = R n n n n U 5 , 21 0 , 50 8 9 1 2 1 2 =   =   = U n n U 405 , 1 322 , 10 2 8 9 5 , 21 2 2 1  =   =   =  = U U U n n U U z s s  322 , 10 12 ) 3 3 ( 2 ) 2 2 ( 3 12 17 17 ) 1 17 ( 17 8 9 12 12 ) 1 ( 3 3 3 3 3 2 1 =                   =               =  j j U t t n n n n n n s Nota: tj=n.º empates em cada grupo / nr draws in each group Empate duplo: t=2 Empate triplo: t=3 Empate quádruplo: t=4 U = mín (50,5; 21,5)=21,5 𝑝 − 𝑣𝑎𝑙𝑜𝑟 = 2 ∗ 𝑐𝑑𝑓. 𝑁𝑜𝑟𝑚𝑎𝑙(−1.405, 0, 1) = 0,160