AMD - Aula n.º 2 - testes amostras independentes.pptx

ANÁLISE MULTIVARIADA
DE DADOS
DOCENTE: CARLA OLIVEIRA SILVA

Teste Paramétrico / Parametric Test Teste Não Paramétrico
Teste T uma amostra / One sample T test
1 variável quantitativa
H0: =a ou ≤a ou ≥a
H1: ≠a ou >a ou <a
Wilcoxon (h=0,95)
1 variável quantitativa ou 1 var. qualitativa
ordinal
H0: mediana=a ou mediana≤a ou mediana≥a
H1: mediana≠a ou mediana>a ou mediana<a
Teste T amostras Indep / 2 indep. Samples
1 var quantit + 1 var qualit. nom
H0: 1=2 ou 1≤2 ou 1≥2
H1: 1≠2 ou 1>2 ou 1<2
Mann Whitney (h=0,95)
1 var quantit. /qual. ordin + 1 var qualit. nom
H0: med1=med2 ou med1≤med2 ou
med1≥med2
H1: med1≠med2 ou med1>med2 ou
med1<med2
Teste T amostras empar / 2 pair samples
2 var quantitativas
H0: d=0 ou d≤0 ou d≥0
H1: d≠0 ou d>0 ou d<0
Wilcoxon (h=0,95) / Signals (h=0,63)
2 quant ou 2 qualit ordin.
H0: medd=0 ou medd≤0 ou medd≥0
H1: medd≠0 ou medd>0 ou medd<0
ANOVA Analysis of Variance
H0: 1=2=3
H1: pelo menos uma  é ≠
Kruskal-Wallis (h=0,95)
H0: med1=med2=med3
H1: pelo menos uma mediana é ≠
Dizer que um teste tem uma eficiência de 0,95 ou de 95% significa que só em 95% dos
casos em que um teste T rejeitaria H0 é que o seu equivalente não paramétrico a rejeita.

TESTE T AMOSTRAS INDEPENDENTES
INDEPENDENT SAMPLES T-TEST
Duas amostras independentes
Two independent samples
N>30
Levene
s1
2=s2
2?
Não / No
Sim/Yes
Não/No
Sim/Yes
Teste T amostras
independentes variâncias
iguais
Independent samples T test
Teste de
Mann Whitney
Mann Whitney test
Teste T amostras independentes
variâncias diferentes
Independent samples T-test equal
variances not assumed
Shapiro Wilk
F(x)=N(,s)?
Não/No
Sim/Yes
Teste T amostras independentes
Independent Samples T- Test

TESTES T AMOSTRAS INDEPENDENTES
No teste t para duas amostras
independentes compara-se a média
de uma variável num grupo com a
média da mesma variável noutro
grupo.
Ex: comparação dos rendimentos dos
homens e das mulheres:
H0: Homens = Mulheres
H1: Homens ≠ Mulheres
A distribuição amostral T para a
comparação de duas médias em
amostras independentes, pode ter
duas expressões diferentes,
consoante:
s1
2≠s2
2 ou s1
2=s2
2
The independent samples t test
compares the mean of one variable in
a group with the mean of the same
variable in another group.
Ex: comparison of the incomes of
men and women:
H0: Homens = Mulheres
H1: Homens ≠ Mulheres
The sample distribution T for the
comparison of two means in
independent samples can have two
different expressions, depending on:
s1
2≠s2
2 or s1
2=s2
2

s1 e s2 são desconhecidos e assume-se
que s1 ≠ s2
s1 e s2 are unknown and we assume
that s1 ≠ s2
2
2
2
1
2
1
2
1
2
1 )
(
)
(
n
s
n
s
x
x
t




=


)
1
(
:
)
1
(
:
1
2
2
2
2
1
2
1
2
2
2
1
2
2
2
1
2
1
2
1





























=
n
n
s
n
s
n
s
n
n
s
n
s
n
s
dF
s1
2≠s2
2 s1
2=s2
2
s1 e s2 não são conhecidos e assume-se
que s1 = s2
s1 e s2 are unknown and we assume
that s1 = s2
2
2
1
2
2
1
2
1 )
(
)
(
n
s
n
s
x
x
t
p
p




=


)
1
(
)
1
(
)
1
(
)
1
(
2
1
2
2
2
2
1
1
2






=
n
n
s
n
s
n
sp
Variância
Combinada
Pooled
variance
2
2
1 

= n
n
dF

INTERVALO DE CONFIANÇA: DIFERENÇA ENTRE MÉDIAS
CONFIDENCE INTERVAL: DIFFERENCE BETWEEN MEANS
Intervalo de Confiança
(confidence interval)
2
2
1
2
2
/
n
s
n
s
t
E
p
p

= 
2
2
1 

= n
n
dF
E
x
x
E
x
x 





 )
(
)
(
)
( 2
1
2
1
2
1 

Como o teste de hipótese, quando bilateral, e o intervalo de confiança, usam a mesma distribuição t-
Student e o mesmo erro padrão, desde que  seja idêntico, levam a conclusões semelhantes.
Consequentemente a hipótese nula pode ser testada verificando-se se o intervalo de confiança
contem o valor ZERO.
Since the hypothesis test, when two tailed, and the confidence interval, use the same t-Student
distribution and the same standard error, provided that  is identical, lead to similar conclusions.
Consequently, the null hypothesis can be tested by checking whether the confidence interval contains
the ZERO value.
s2
1=s2
2
s2
1≠s2
2
2
2
2
1
2
1
2
/
n
s
n
s
t
E 
= 
)
1
(
:
)
1
(
:
1
2
2
2
2
1
2
1
2
2
2
1
2
2
2
1
2
1
2
1





























=
n
n
s
n
s
n
s
n
n
s
n
s
n
s
dF
E
x
x
E
x
x 





 )
(
)
(
)
( 2
1
2
1
2
1 


EXEMPLO
EXAMPLE
Um produto pode ser exposto em dois locais distintos A e B, de um supermercado. Pretende-se saber se o
local de exposição influencia as vendas, ou não. Em vários dias, o produto foi exposto no local A, e noutros,
no local B. Observaram-se, as vendas, em 8 dos dias de exposição em A e 9 dos da exposição em B. Os
resultados obtidos foram:
A product can be displayed in two distinct A and B locations in a supermarket. It is intended to know
whether the location of exposure influences sales, or not. On several days the product was exposed at site
A and elsewhere at site B. The sales were observed on 8 days of exposure in A and 9 days of exposure in B.
The results were:
Local / location A: 10 12 15 16 13 15 11 17
Local / location B: 6 9 11 14 13 12 14 13 12
Teste a afirmação de que as vendas são idênticas nos dois locais, para um nível de significância de 0,05.
Test the claim: the mean sales are equal to both places, to a =0,05.
Teste T para amostras independentes, caso os dados provenham de população com
distribuição normal.
If we do not reject the H0 in a Shapiro Wilk test, we can use the Independent sample T-test.

TESTE À NORMALIDADE
NORMALITY TEST
Analisar
Analyse
Estatísticas Descritivas
Descriptive Statistics
Explorar
Explore
Como p-valor é maior do que  para os dois locais, não se rejeita a
hipótese nula dos dados provirem de populações com distribuição
normal, sendo aplicáveis testes paramétricos às duas amostras.
p-valor A = 0,709 p-valor B = 0,092
H0: F(x) = N(, s)
H1: F(x) ≠ N(, s)

TESTE T PARA COMPARAÇÃO DAS MÉDIAS:
AMOSTRAS INDEPENDENTES
Hipóteses:
H0: A = B (afirmação inicial)
H1: A ≠ B
O teste é bilateral pois a hipótese alternativa apresenta o sinal de ≠.
A inferência da relação observada na amostra sobre as médias é feita através do teste t.
A inferência da relação observada na amostra sobre as variâncias é realizada através do Teste
de Levene.
Hipóteses:
H0: s2
A = s2
B
H1: s2
A ≠ s2
B
Teste de Levene é usado para testar se as amostras k têm
variâncias iguais. Variâncias iguais entre amostras é chamada de
homogeneidade de variância.

TESTE DE LEVENE
 Dada uma variável Y com amostra de tamanho N k dividida em subgrupos, onde N i é
o tamanho da amostra do i-ésimo subgrupo, a estatística do teste de Levene é
definido como:
 onde Z ij pode ter uma das seguintes definições:
 média do subgrupo
 mediana do subgrupo
 média aparada a 10% do subgrupo.
 são o grupo através do Z e ij é a média geral do ij Z.
O teste de Levene está associado à distribuição F, com graus de liberdade (dF) k−1 and W−k.

Verifica-se que a média amostral é ligeiramente
superior no caso no local A. O desvio padrão amostral
é superior para o local B.
Analisar
Analyse
Comparar Médias
Compare means
Teste T amostras
independentes
Independent sample
t-teste
Como p-valor ( 0,771) >  (0,05), não se rejeita H0,
logo admite-se que as variâncias são idênticas
As p-value ( 0,771) >  (0,05), we do not reject H0,.
Consequently we assume equal variances
TESTE DE LEVENE NO TESTE T AMOSTRAS
INDEPENDENTES
LEVENE TEST ON INDEPENDENT SAMPLES T TEST

Assumindo que s1
2=s2
2,
calcula-se dF e a
variância combinada
𝑡 =
(𝑥1 − 𝑥2) − (𝜇1 − 𝜇2)
𝑠𝑝
2
𝑛1
+
𝑠𝑝
2
𝑛2
=
13,63 − 11,56 − 0
6,54
8
+
6,54
9
=
2,07
1,243
= 1,665
𝑠𝑝
2
=
(𝑛1−1)𝑠1
2+(𝑛2−1)𝑠2
2
(𝑛1−1)+(𝑛2−1)
=
8−1 ∗6,27+ 9−1 ∗6,776
8−1 +(9−1)
=
98,098
15
= 6,54
𝑑𝐹 = 𝑛1 + 𝑛2 − 2 = 8 + 9 − 2 = 15
𝑝 − 𝑣𝑎𝑙𝑜𝑟 = 2 ∗ (1 − 𝑐𝑑𝑓. 𝑇(1.665, 15))=0,117

Decisão: Como p-valor (0,117) >  (0,05),
não se rejeita H0.
Conclusão: não há evidência para
garantir a rejeição da afirmação inicial.
Decision: as p-value (0,117) >  (0,05),
we do not reject H0.
Conclusion: there is no evidence to reject
the original claim.

INTERVALO DE CONFIANÇA: DIFERENÇA ENTRE MÉDIAS
CONFIDENCE INTERVAL: DIFFERENCE BETWEEN MEANS
𝐸 = 𝑡𝛼/2
𝑠𝑝
2
𝑛1
+
𝑠𝑝
2
𝑛2
= 2.1314 ∗
6,54
8
+
6,54
9
=2,647
(𝑥1 − 𝑥2) − 𝐸 < (𝜇1 − 𝜇2) < (𝑥1 − 𝑥2) + 𝐸
Assumindo que s1
2=s2
2, calcula-se t/2, para dF=15, =0.05
𝑡𝛼/2 =idf.T(0.025, 15)=-2.1314
13,63 − 11,56 − 2,65 < 𝜇1 − 𝜇2 < 13,63 − 11,56 + 2,65
−0,58 < 𝜇1 − 𝜇2 < 4,72

Teste Paramétrico / Parametric Test Teste Não Paramétrico
Teste T uma amostra / One sample T test
1 variável quantitativa
H0: =a ou ≤a ou ≥a
H1: ≠a ou >a ou <a
Wilcoxon (h=0,95)
1 variável quantitativa ou 1 var. qualitativa
ordinal
H0: mediana=a ou mediana≤a ou mediana≥a
H1: mediana≠a ou mediana>a ou mediana<a
Teste T amostras Indep / 2 indep. Samples
H0: 1=2 ou 1≤2 ou 1≥2
H1: 1≠2 ou 1>2 ou 1<2
Mann Whitney (h=0,95)
H0: med1=med2 ou med1≤med2 ou
med1≥med2
H1: med1≠med2 ou med1>med2 ou
med1<med2
Teste T amostras empar / 2 pair samples
2 var quantitativas
H0: d=0 ou d≤0 ou d≥0
H1: d≠0 ou d>0 ou d<0
•Wilcoxon(h=0,95) / Signals (h=0,63)
•2 quant ou 2 qualit ordin.
H0: medd=0 ou medd≤0 ou medd≥0
H1: medd≠0 ou medd>0 ou medd<0
Análise da variância ANOVA Analysis of
Variance
H0: 1=2=3
H1: pelo menos uma  é ≠
Kruskal-Wallis (h=0,95)
H0: med1=med2=med3
H1: pelo menos uma mediana é ≠
Dizer que um teste tem uma eficiência de 0,95 ou de 95% significa que só em 95% dos
casos em que um teste T rejeitaria H0 é que o seu equivalente não paramétrico a rejeita.

TESTE DE MANN-WHITNEY
MANN WHITNEY TEST
Compara o centro de localização das
duas amostras, como forma de
detectar diferenças entre as duas
populações correspondentes.
Deve ser utilizado quando:
 n≤30
 F(x)≠N(,s)
 as variáveis são de escala ordinal.
H0: mediana A = mediana B (afirmação inicial)
H1: mediana A ≠ mediana B
Analisar
Analyze
Testes não paramétricos
Nonparametric Tests
amostras independentes
Independent Samples
It compares the location center of the
two samples as a way to detect
differences between the two
corresponding populations.
Should be used when:
• there is a violation of normality
• n≤30
• the variables are of ordinal scale.

MANN-WHITNEY
Requisitos
Há duas amostras independentes de dados
seleccionados aleatoriamente
Cada uma das duas amostrais tem mais de
10 valores (bibliografia específica)
Não há qualquer exigência de que as duas
populações tenham uma distribuição normal
ou qualquer outra distribuição particular
Notação:
n1 = dimensão da menor amostra
n2 = dimensão da maior amostras
R1 = soma das ordenações da menor
amostra
Estatística do Teste
U = mín (U1; U2) 𝑈1 = 𝑛1 × 𝑛2 +
𝑛1(𝑛1 + 1)
2
− 𝑅1
𝑈2 = 𝑛1 × 𝑛2 − 𝑈1
U
U
U
n
n
U
U
z
s
s
 2
2
1 

=

=
12
)
1
(
2
1 

=
n
n
n
U
s







 





=  12
12
)
1
(
3
3
2
1 j
j
U
t
t
n
n
n
n
n
n
s
Sem empates
No ties
Correção de empates
Ties correction
tj=n.º obs empatadas em cada
grupo / nr of ties in each group
REQUIREMENTS:
There are two independent samples of
randomly selected data
Each of the two samples has more than 10
values (specific bibliography)
There is no requirement that the two
populations have a normal distribution or
any other particular distribution
Notation
n1 = smallest sample size
n2 = largest sample size
R1 = sum of orders from the smallest sample
size

TESTE DE MANN WHITNEY
Vendas Local Ordem
6 Local B 1
9 Local B 2
10 Local A 3
11 Local A 4,5
11 Local B 4,5
12 Local A 7
12 Local B 7
12 Local B 7
13 Local A 10
13 Local B 10
13 Local B 10
14 Local B 12,5
14 Local B 12,5
15 Local A 14,5
15 Local A 14,5
16 Local A 16
17 Local A 17
Local A 86,5
Local B 66,5
Soma ordem R1
3 empates duplos!
2 empates triplos!

TESTE DE MANN-WHITNEY
5
,
50
5
,
66
2
)
1
9
(
9
8
9
2
)
1
(
1
1
1
2
1
1 =





=




= R
n
n
n
n
U
5
,
21
0
,
50
8
9
1
2
1
2 =


=


= U
n
n
U
405
,
1
322
,
10
2
8
9
5
,
21
2
2
1

=


=


=

=
U
U
U
n
n
U
U
z
s
s

322
,
10
12
)
3
3
(
2
)
2
2
(
3
12
17
17
)
1
17
(
17
8
9
12
12
)
1
(
3
3
3
3
3
2
1
=







 









=







 





=  j
j
U
t
t
n
n
n
n
n
n
s
Nota:
tj=n.º empates em cada
grupo / nr
draws in each group
Empate duplo: t=2
Empate triplo: t=3
Empate quádruplo: t=4
U = mín (50,5; 21,5)=21,5
𝑝 − 𝑣𝑎𝑙𝑜𝑟 = 2 ∗ 𝑐𝑑𝑓. 𝑁𝑜𝑟𝑚𝑎𝑙(−1.405, 0, 1) = 0,160

AMD - Aula n.º 2 - testes amostras independentes.pptx

Recomendados

Recomendados

Mais conteúdo relacionado

Semelhante a AMD - Aula n.º 2 - testes amostras independentes.pptx

Semelhante a AMD - Aula n.º 2 - testes amostras independentes.pptx (20)

AMD - Aula n.º 2 - testes amostras independentes.pptx