1) O documento apresenta os testes estatísticos paramétricos e não paramétricos para análise de dados emparelhadas, incluindo o teste t para amostras emparelhadas, o teste de Wilcoxon e o teste dos sinais.
2) É realizado um exemplo prático utilizando o teste t para amostras emparelhadas para analisar o impacto de uma promoção nas vendas de 12 lojas, concluindo que a promoção teve resultados positivos.
3) Os testes de Wilcoxon e dos sinais
2. DUAS AMOSTRAS EMPARELHADAS
TWO PAIRED SAMPLES
2 amostras emparelhadas
2 paired samples
Shapiro Wilk:
F(x)=N(m,s)?
Teste T amostras emparelhadas
Paired samples T-test
A variável diferença é
simétrica?
The variable “difference” is
symmetric?
Teste de Wilcoxon
Wilcoxon Test
Teste dos Sinais
Signals test
Não / No
N>30?
Sim / Yes
Sim / Yes
Sim / Yes
Não / No
Não / No
3. TESTES T PARA AMOSTRAS EMPARELHADAS
PAIRED SAMPLES T-TEST
Teste t para amostras emparelhadas
Permite inferir sobre a igualdade de médias
de duas amostras emparelhadas.
Frequentemente cada caso é analisado duas
vezes, antes e depois de um tratamento ou
intervenção, fazendo pares de observações,
cujas diferenças são testadas para ver se o
resultado é, ou não, ZERO.
Requisitos:
Os dados estão emparelhados.
Ambas as amostras são aleatórias simples
Uma ou ambas as condições são satisfeitas
O n.º de pares de dados é grande (n>30)
Os pares de dados têm diferenças que são
provenientes de uma população com
distribuição aproximadamente normal.
Paired Samples T-test
Allows to infer on the equality of means of
two paired samples.
Frequently each case is analyzed twice,
before and after a treatment or
intervention, making pairs of observations,
whose differences are tested to see if the
result is or is not ZERO.
Requirements:
Data is paired.
Both samples are random simple
One or both conditions are met
The number of pairs of data is large (n>
30)
Data pairs have differences that come
from a population with approximately
normal distribution.
4. TESTES T PARA AMOSTRAS EMPARELHADAS
PAIRED SAMPLES T-TEST
n
s
d
t
d
d
m
n
d
d i
1
)
( 2
1
2
n
d
d
sd
No teste t para duas amostras
emparelhadas é encontrada a diferença
entre cada par de dados e utiliza-se o
conjunto das diferenças amostrais para
testar afirmações sobre a diferença
populacional.
Ex: comparação dos resultados obtidos
para um conjunto de indivíduos, antes e
depois de sujeitos a uma determinada
formação:
H0: md = 0
H1: md ≠ 0
Notação:
d – diferença entre cada par de dados
md – média das diferenças d para a população de
dados
𝑑 − médias das diferenças d para a amostra de
dados
sd – desvio padrão das diferenças d para a amostra
No teste t para duas amostras
emparelhadas é encontrada a diferença
entre cada par de dados e utiliza-se o
conjunto das diferenças amostrais para
testar afirmações sobre a diferença
populacional.
Ex: comparação dos resultados obtidos
para um conjunto de indivíduos, antes e
depois de sujeitos a uma determinada
formação:
H0: md = 0
H1: md ≠ 0
Notation:
d – difference between each pair of data
md – mean of differences d for the population of
data𝑑 − means of the differences d for the data
sample
sd – standard deviation of the differences d for the
samplen – number of data pairs
5. TESTES T AMOSTRAS EMPARELHADAS
PAIRED SAMPLES T-TEST
Vendas antes da
Promoção
Sales before promotion
(xi)
Vendas após Promoção
Sales during promotion (yi)
14 19
21 21
33 41
29 26
34 40
26 33
21 28
15 27
16 24
20 25
29 27
18 26
Exemplo:
Seleciona-se uma
amostra aleatória de 12
lojas. Teste a afirmação: a
promoção favorece as
vendas a produto.
Example:
we select a sample of 12
stores. Test the claim: the
promotion increases the
sales
d = yi – xi
5
0
8
-3
6
7
7
12
8
5
-2
8
08
,
5
d 501
,
4
d
s
912
,
3
12
501
,
4
0
08
,
5
n
s
d
t
d
d
m
P-valor=1-cdf.T(3.912, 11)=0.00121
6. Analisar
Analyse
Comparar Médias
Compare Means
Teste T de amostras em
Paired Samples t-test
Conclui-se que a diferença 5,083 é significativamente distinta de zero, o que indica que a promoção teve resultados
positivos pois originou uma melhoria das vendas em 75% das lojas (=9/12 x 100). Como a=0,05, p-valor < a, rejeita-
se H0 da média das diferenças ser zero.
Por outro lado o intervalo de confiança de 95% para a média das diferenças é [2,223; 7,944] pelo que, não fazendo o
zero parte do intervalo, mais uma vez está de acordo com a rejeição de H0.
p-valor
It is concluded that the 5.083 difference is significantly different from zero, which indicates that the promotion had
positive results because it resulted in an improvement of sales in 75% of stores (= 9/12 x 100). As a=0,05, p-value <
a, we reject H0 of the mean of the differences to be zero.
On the other hand the 95% confidence interval for the mean of the differences is [2,223; 7,944] so that, by not doing
the zero part of the interval, again it is in agreement with the rejection of H0.
7. COMO SABER SE DUAS AMOSTRAS SÃO EMPARELHADAS?
HOW TO KNOW IF TWO SAMPLES CAN BE ASSUMED AS PAIRED?
Avalia-se a correlação entre as variáveis para
confirmar a possibilidade de emparelhamento:
As hipóteses são / the hypothesis are:
H0: r=0 (sem correlação / no correlation)
H1: r≠0 (com correlação / correlation)
p-valor
Se não existir correlação significa que o
emparelhamento não é útil, devendo então
utilizar-se o teste t para amostras
independentes, que possui um maior n.º de
If there is no correlation, pairing is not useful.
In this case the independent samples T-test
must be used because has a higher number
of degrees of freedom.
The correlation between the variables is
evaluated to confirm the possibility of
pairing:
O coeficiente de correlação linear de
Pearson é elevado: r=0,786.
Como p-valor =0,002 < a,(para a = 0,05)
rejeita-se H0: r=0, logo existe correlação
entre as variáveis, e os dados podem e
devem ser tratados como emparelhados.
The Linear coefficient of Pearson is high:
r=0,786.
As p-value =0,002 < a,(to a = 0,05) we
reject H0: r=0, therefore we can assume a
correlation between the variables. Data are
treated as paired.
8. Teste Paramétrico / Parametric Test Teste Não Paramétrico
Teste T uma amostra / One sample T test
1 variável quantitativa
H0: m=a ou m≤a ou m≥a
H1: m≠a ou m>a ou m<a
Wilcoxon (h=0,95)
1 variável quantitativa ou 1 var. qualitativa
ordinal
H0: mediana=a ou mediana≤a ou
mediana≥a
H1: mediana≠a ou mediana>a ou
mediana<a
Teste T amostras Indep / 2 indep. Samples
1 var quantit + 1 var qualit. nom
H0: m1=m2 ou m1≤m2 ou m1≥m2
H1: m1≠m2 ou m1>m2 ou m1<m2
Mann Whitney (h=0,95)
1 var quantit. /qual. ordin + 1 var qualit. nom
H0: med1=med2 ou med1≤med2 ou
med1≥med2
H1: med1≠med2 ou med1>med2 ou
med1<med2
Teste T amostras empar / 2 pair samples
2 var quantitativas
H0: md=0 ou md≤0 ou md≥0
H1: md≠0 ou md>0 ou md<0
Wilcoxon (h=0,95) / Signals (h=0,63)
2 quant ou 2 qualit ordin.
H0: medd=0 ou medd≤0 ou medd≥0
H1: medd≠0 ou medd>0 ou medd<0
ANOVA Analysis of Variance
1 var quantit + 1 var qualit. nom
H0: m1=m2=m3
H1: pelo menos uma m é ≠
Kruskal-Wallis (h=0,95)
1 var quantit. /qual. ordin + 1 var qualit. nom
H0: med1=med2=med3
H1: pelo menos uma mediana é ≠
Dizer que um teste tem uma eficiência de 0,95 ou de 95% significa que só
em 95% dos casos em que um teste T rejeitaria H0 é que o seu equivalente
não paramétrico a rejeita.
9. TESTES - DADOS EMPARELHADOS
PAIRED SAMPLES TESTS
Teste T
Permite inferir sobre a igualdade
de médias de duas amostras
emparelhadas.
Uma ou ambas as condições são
satisfeitas:
- N.º de pares de dados é grande
(n>30)
- Distribuição das diferenças
aproximadamente normal.
Allows to infer on the equality of
means of two paired samples.
One or both conditions are met:
- Number of pairs of data is large
(n> 30)
- Distribution of differences
approximately normal.
Teste dos Sinais
Aplica-se para analisar diferenças
pré teste / pró teste de um
mesmo grupo de sujeitos
É menos eficiente do que o
Wilcoxon
Não necessita simetria na
distribuição das diferenças dos
pares de dados.
Applies to analyze pretest / pro-
test differences of the same
group of subjects
It is less efficient than the
Wilcoxon
It does not need symmetry in the
distribution of the differences of
the data pairs.
Teste de Wilcoxon
Permite analisar diferenças pré
teste / pró teste de um mesmo
grupo de sujeitos
Distribuição das diferenças
simétrica
Ligeiramente menos eficiente do
que o paramétrico t
Allows to analyze pretest / pro-
test differences of the same
group of subjects
Distribution of symmetric
differences
Slightly less efficient than the
parametric t
10. TESTES DE WILCOXON
WILCOXON TEST
É um teste não paramétrico que usa as
ordens das diferenças entre os pares de
dados.
É usado para testar a hipótese nula de
que as diferenças populacionais dos
pares de dados têm uma mediana nula.
Pode também ser utilizado para testar a
afirmação que uma amostra provém de
uma população com uma mediana
especificada.
REQUISITOS:
Os dados consistem em pares de dados
seleccionados aleatoriamente
A população “diferença” (encontradas a partir
dos pares de dados) tem uma distribuição que
é aproximadamente simétrica.
H0: medd = 0
H1: medd ≠ 0
REQUIREMENTS
Uses randomly selected data pairs
The “difference” population (found from the
data pairs) has a symmetric distribution.
It is a nonparametric test that uses the
orders of the differences between the
data pairs.
It is used to test the null hypothesis
that the population differences of the
data pairs have a null median.
It can also be used to test the assertion
that a sample comes from a population
with a specified median.
11. TESTES DE WILCOXON
WILCOXON TEST
Notação
O procedimento para a estatística do teste
é: T = menor das duas somas seguintes
A soma dos valores absolutos das ordens
negativas das diferenças d não-nulas
A soma das ordens positivas das diferenças
d não-nulas
Estatística do Teste
Para n ≤ 30: T - Valores críticos na
tabela A8
Para n > 30: z
Valores críticos na distribuição normal
padronizada
24
)
1
2
)(
1
(
4
)
1
(
n
n
n
n
n
T
z
Notation
The procedure for test statistic is:
T = less than the following two sums
The sum of the absolute values of the
negative orders of the non-zero
differences d
The sum of the positive orders of the
non-zero differences d
Test Statistics
For n ≤ 30: T - Critical values in table A8
For n> 30: z
Critical values in standardized normal
distribution
12. 667
,
2
24
)
1
22
)(
1
11
(
11
4
)
1
11
(
11
3
24
)
1
2
)(
1
(
4
)
1
(
n
n
n
n
n
T
z
TESTES DE WILCOXON
WILCOXON TEST Antes
Before
Depois
After
14 19
21 21
33 41
29 26
34 40
26 33
21 28
15 27
16 24
20 25
29 27
18 26
Considere o exemplo
anterior:
Consider the last example.:
Dif (d)
Ordem
Order
Ordem c/ Sinal
Order with signal
5 3,5 3,5
0 -
8 9 9
-3 2 -2
6 5 5
7 6,5 6,5
7 6,5 6,5
12 11 11
8 9 9
5 3,5 3,5
-2 1 -1
8 9 9
n=11
Σ Ordens (-) = 3
Σ Ordens (+) = 63
H0: medd = 0
H1: medd ≠ 0
Seja a diferença = depois – antes
Difference = after - before
P-valor=2*cdf.Normal(-2.675, 0, 1)=0,00747
13. TESTE DE WILCOXON
WILCOXON TEST
Analisar
Analyse
Testes não
paramétricos
Nonparametric
Amostras
relacionadas
Paired samples
Configurações
Settings
14. TESTE DOS SINAIS
SIGNALS TEST
Usa os sais + e – para testar afirmações
diferentes:
que envolvem pares combinados de dados
amostrais
que envolvem dados nominais
sobre a média de uma única população
Requisitos
Dados amostrais selecionados aleatoriamente
Sem qualquer exigência de que os dados
amostrais provenham de uma população com
uma distribuição particular.
Uses signals + – the test the claims:
involving matched pairs of sample data
involving nominal data
alternative to one sample T-test
Requirements
Data randomly selected.
No special requirements
2
)
2
(
n
n
T
z
x = n.º de vezes que o sinal menos frequente ocorreu
n = n.º total de sinais positivos e negativos
combinados
Estatística do Teste
Para n ≤ 20: T - n.º de vezes que o sinal menos
frequente ocorre
A distribuição do teste é binomial
Para n > 20: z
Valores críticos na distribuição normal padronizada
x = number of times the least frequent signal
occurred
n = total number of combined positive and
negative signals
Test Statistics
For n ≤ 20: T - number of times the least frequent
signal occurs
The distribution of the test is binomial
For n> 20: z
Critical values in standardized normal distribution
15. TESTES DOS SINAIS
SIGNALS TEST Antes
Before
Depois
After
14 19
21 21
33 41
29 26
34 40
26 33
21 28
15 27
16 24
20 25
29 27
18 26
Considere os dados das vendas do exemplo
anterior: vendas de um produção numa amostra
aleatória de 12 lojas, antes e depois de uma
promoção.
Consider data from the previous example: sales of a
production in a random sample of 12 stores, before
and during a promotion.
Diferença
Difference
+
0
+
-
+
+
+
+
+
+
-
+
Subtração do valor da 2.ª variável ao da 1.ª.
Excluem-se empates.
Subtraction of the value of the 2nd variable
from the 1st. Ties are excluded.
Se dois conjuntos de dados têm medianas iguais, o
n.º de sinais positivos deve ser aproximadamente
igual ao n.º de sinais negativos.
H0: medd ≤ 0
H1: medd > 0
n=11
Sinais (-) = 2
Sinais (+) = 9
If two sets of data have equal medians, the number
of positive and negative signals should be
approximately equal.
16. TESTES DOS SINAIS
SIGNALS TEST
Analisar
Analyse
Testes não
Nonparametric Tests
Diálogos anteriores
Legacy Dialog
2 amostras
2 Related Samples
P-valor=Cdf.Binom(2, 11,
0.5)=0,0654/2=0,0327