SlideShare uma empresa Scribd logo
1 de 37
Comparação de duas
médias amostrais
Tratamento Paramétrico
Aula de hoje
Diferenças entre testes
paramétricos e não-paramétricos
 Testes paramétricos:
 Baseados em parâmetros da amostra (média e
desvio-padrão).
 Fazem pressupostos sobre a distribuição dos
dados (distribuição normal)
 Testes não-paramétricos:
 Baseiam-se em postos (ranks) dos dados.
 Pouco influenciados por valores extremos
 Não fazem pressupostos sobre a distribuição dos
dados
Transformação
 E quando houver uma clara discrepância dos
dados em relação à distribuição Normal?
 Duas saídas possíveis:
 Transformar os dados (ex. calculando o logaritmo ou
a raiz quadrada) em uma tentativa de obter uma
distribuição aproximadamente Normal;
 Desvantagem: a interpretação dos resultados fica mais
complexa.
 Utilizar um teste não-paramétrico adequado. Os
testes não-paramétricos não fazem suposições sobre
a distribuição dos dados.
Implicações do tamanho da
amostra
 Amostras muito pequenas (< 6 observações):
Testes de normalidade e variância se tornam
pouco confiáveis nessas situações,
comprometendo a validação das premissas,
e portanto sugere-se utilizar testes não-
paramétricos.
Teste t para 2 amostras
Hipóteses do teste:
 Hipótese nula: média das duas populações são
iguais.
 Hipótese alternativa: média das duas populações
são diferentes.
2
1
1
2
1
0
:
:






H
H
0
:
0
:
2
1
1
2
1
0








H
H
ou
 Variâncias iguais:
 Variâncias diferentes:
Funcionamento do teste t para
2 amostras independentes
s: desvio padrão conjugado
2
2
2
1
2
1
2
1
n
s
n
s
x
x
t



liberdade
de
graus
2
com
1
1
2
1
2
1
2
2
1













n
n
n
n
s
x
x
t
2
)
1
(
)
1
(
2
1
2
2
2
2
1
1
2






n
n
s
n
s
n
s
Cálculo do valor de p e
distribuição t de student
 O valor de p é a probabilidade de obter uma
dada diferença entre as médias
dado que H0 é verdadeira.
2
1 x
x 
Teste t para 2 amostras independentes (e
variâncias iguais)
 O teste t para 2 amostras independentes também é
conhecido como teste t não-pareado
 Comparação de médias de 2 grupos
independentes de observações usando amostras
representativas.
 Premissas (suposições):
 indivíduos sorteados aleatoriamente da população
 duas amostras devem ser independentes
 a variável de interesse deve se distribuir de forma Normal
em cada uma das populações (das quais as amostras
foram colhidas)
 Deve-se saber se as variâncias são aproximadamente
iguais ou não
Premissas
 Distribuição normal: Adequado a dados com
distribuição simétrica, o que levou à
simplificação de que o teste é mais
adequado para dados com distribuição
normal.
 Variâncias iguais (homocedasticidade) ou
variâncias diferentes (heterocedasticidade):
Necessário saber se as variâncias das
populações estudadas são iguais ou
diferentes entre si
Exemplo (Teste t – 2 amostras
independentes)
 Comparação do peso médio de um grupo de
24 ovelhas que passou por um processo de
flushing (recebeu nutrição altamente calórica
algumas semanas antes do acasalamento)
com um grupo-controle de 30 ovelhas.
Teste t para 2 amostras independentes
(para variâncias iguais)
1) Estabelecer as hipóteses do teste
 Hipótese nula: os pesos médios dos dois
grupos são iguais.
 Hipótese alternativa: os pesos médios
são diferentes.
flushing
controle
flushing
controle
H
H






:
:
1
0
0
:
0
:
1
0




flushing
controle
flushing
controle
H
H




ou
controle flushing
60
62
64
66
68
70
72
grupo
peso
corporal
(kg)
2) Observar gráficos referentes a cada uma das
amostras. Verificar visualmente se a suposição
de distribuição Normal é adequada.
Verifique também se as variâncias são
aproximadamente iguais.
Checando as premissas
 Normalidade
 Variâncias
71
69
67
65
63
61
95% Confidence Interval for Mu
67
66
65
95% Confidence Interval for Median
Variable: todas
64.8686
1.9888
64.8409
Maximum
3rd Quartile
Median
1st Quartile
Minimum
N
Kurtosis
Skewness
Variance
StDev
Mean
P-Value:
A-Squared:
66.9543
3.3570
66.7058
71.1000
67.4250
65.6500
63.8250
61.1000
30
-5.0E-01
0.118183
6.23582
2.4972
65.7733
0.972
0.139
95% Confidence Interval for Median
95% Confidence Interval for Sigma
95% Confidence Interval for Mu
Anderson-Darling Normality Test
grupo: controle
Descriptive Statistics
Neste caso, através da
observação dos histogramas e
boxplots, pode-se assumir que os
dados sigam a distribuição
Normal.
No entanto, podemos
confirmar utilizando um teste de
Normalidade (como o teste de
Anderson-Darling feito pelo
Minitab) para confirmar a hipótese
de Normalidade.
Hipóteses do teste de Normalidade:
H0: Distribuição é Normal
H1: Distribuição não é Normal
71
69
67
65
63
61
95% Confidence Interval for Mu
68
67
66
95% Confidence Interval for Median
Variable: todas
66.1827
1.7507
66.4155
Maximum
3rd Quartile
Median
1st Quartile
Minimum
N
Kurtosis
Skewness
Variance
StDev
Mean
P-Value:
A-Squared:
68.4079
3.1597
68.3178
71.8000
69.4000
67.3500
66.0250
62.7000
24
-3.9E-01
-9.5E-02
5.07362
2.2525
67.3667
0.894
0.187
95% Confidence Interval for Median
95% Confidence Interval for Sigma
95% Confidence Interval for Mu
Anderson-Darling Normality Test
grupo: flushing
Descriptive Statistics
p=0,894
p=0,972
p >> 0,05 → podemos
assumir que os dados
sigam a distribuição
Normal
Teste F para variâncias
 O teste F, também
conhecido como teste
da razão de variâncias,
pode ser utilizado para
testar se dois conjuntos
de dados apresentam a
mesma variância.
 A estatística do teste é
1
:
r
denominado
do
liberdade
de
graus
1
:
numerador
do
liberdade
de
graus
grupos
2
dos
s
variância
as
são
e
onde
,
,
2
1
2
2
2
1
2
2
2
1
2
2
2
1




n
n
s
s
s
s
s
s
F
2
2
2
1
1
2
2
2
1
0
:
:






H
H
Ainda o Teste F
 No caso do nosso exemplo, os resultados
obtidos no Minitab são:
Test for Equal Variances
Level1 controle
Level2 dieta
ConfLvl 95,0000
F-Test (normal distribution)
Test Statistic: 1,229
P-Value : 0,617
Levene's Test (any continuous distribution)
Test Statistic: 0,238
P-Value : 0,628
Para um nível de significância
a = 0,05:
Como p>0,05, não há
evidência de desigualdade
entre as variâncias e a
hipótese de igualdade das
variâncias permanece válida.
Voltando ao nosso exemplo...
3) Calcular a estatística (fórmula) do teste t.
Nesse caso: t=2,43
liberdade
de
graus
2
com
1
1
2
1
2
1
2
2
1













n
n
n
n
s
x
x
t
2
)
1
(
)
1
(
2
1
2
2
2
2
1
1
2






n
n
s
n
s
n
s
4) Obter o valor de p: p=0,018
Há uma chance de 1,8% de obter uma
diferença entre os pesos médios de 1,59 kg
ou superior, se a hipótese nula for verdadeira.
s: desvio padrão conjugado
Two-Sample T-Test and CI: dieta; controle
Two-sample T for dieta vs controle
N Mean StDev SE Mean
dieta 24 67,37 2,25 0,46
controle 30 65,77 2,50 0,46
Difference = mu dieta - mu controle
Estimate for difference: 1,593
95% CI for difference: (0,279; 2,908)
T-Test of difference = 0 (vs not =): T-Value = 2,43 P-Value = 0,018
DF = 52
Both use Pooled StDev = 2,39
5) Decidir se rejeita ou não H0:
É pouco provável que a hipótese nula – que é a hipótese de que
não há diferença entre os pesos – seja verdadeira. Assim,
rejeitamos a hipótese nula em favor da hipótese alternativa,
de que há diferença entre os pesos médios. Além disso, o
peso das ovelhas que passaram pelo processo de flushing é,
em média, 1,59kg superior ao das ovelhas do grupo-controle.
6) Intervalo de confiança de 95% para a diferença entre as
médias:
IC 95% para a diferença: (0,279; 2,908)
IC 95% não inclui o valor 0 (zero). Portanto, a diferença entre
as médias não é compatível com 0, o que confirma a rejeição
da hipótese nula.
Teste t para 2 amostras independentes
(variâncias desiguais)
 Nesse caso, utiliza-se um
teste t modificado, com a
seguinte estatística:
 Como esse teste não segue
uma distribuição t, o cálculo
do valor de p não é direto.
No entanto, os pacotes
estatísticos (como o
Minitab) incluem essa
opção de teste, e fazem a
estimativa de p.
2
2
2
1
2
1
2
1
n
s
n
s
x
x
t



30
25
20
15
40
30
20
10
0
Período de pré-muda (dias)
Freqüência
absoluta
25 oC
23 oC
Período de pré-muda
de ninfa de carrapatos
(Dados hipotéticos)
30
25
20
15
40
30
20
10
0
Período de pré-muda (dias)
Freqüência
absoluta
Histogramas
Exemplo – Teste t para amostras
independentes (variâncias desiguais)
 Exemplo: Comparar os tempos médios
de pré-muda (em dias) de ninfa do
carrapato Amblyomma cajennense, em
laboratório, nas temperaturas de 23°C e
25°C.
1) Hipóteses:
:
:
2
1
1
2
1
0






H
H
Descriptive Statistics: t25; t23
Variable N Mean Median TrMean StDev SE Mean
t25 100 18,766 18,771 18,742 0,889 0,089
t23 100 24,996 25,036 24,943 2,016 0,202
Variable Minimum Maximum Q1 Q3
t25 16,912 21,241 18,057 19,335
t23 20,376 30,891 23,863 26,253
17,25 18,00 18,75 19,50 20,25 21,00
95% Confidence Interval for Mu
18,55 18,65 18,75 18,85 18,95 19,05
95% Confidence Interval for Median
Variable: t25
A-Squared:
P-Value:
Mean
StDev
Variance
Skewness
Kurtosis
N
Minimum
1st Quartile
Median
3rd Quartile
Maximum
18,5898
0,7803
18,5884
0,319
0,530
18,7662
0,8887
0,789843
0,262128
4,28E-02
100
16,9122
18,0572
18,7714
19,3347
21,2411
18,9425
1,0324
19,0322
Anderson-Darling Normality Test
95% Confidence Interval for Mu
95% Confidence Interval for Sigma
95% Confidence Interval for Median
Descriptive Statistics
Confirmando a
Normalidade dos
dados
20 22 24 26 28 30
95% Confidence Interval for Mu
24,6 24,8 25,0 25,2 25,4
95% Confidence Interval for Median
Variable: t23
A-Squared:
P-Value:
Mean
StDev
Variance
Skewness
Kurtosis
N
Minimum
1st Quartile
Median
3rd Quartile
Maximum
24,5955
1,7701
24,6352
0,480
0,229
24,9955
2,0161
4,06458
0,333140
0,633287
100
20,3755
23,8634
25,0360
26,2531
30,8911
25,3956
2,3420
25,3205
Anderson-Darling Normality Test
95% Confidence Interval for Mu
95% Confidence Interval for Sigma
95% Confidence Interval for Median
Descriptive Statistics
p=0,229
p=0,530
2) Verificando se as variâncias são iguais (teste F)
2,5
2,0
1,5
1,0
95% Confidence Intervals for Sigmas
t23
t25
30
25
20
Boxplots of Raw Data
P-Value : 0,000
Test Statistic: 33,050
Levene's Test
P-Value : 0,000
Test Statistic: 5,146
F-Test
Factor Levels
t25
t23
Test for Equal Variances
p < 0,001  variâncias desiguais
3) Resultados do teste t para 2 médias amostrais
considerando variâncias desiguais
Two-Sample T-Test and CI: t23; t25
Two-sample T for t23 vs t25
N Mean StDev SE Mean
t23 100 25,00 2,02 0,20
t25 100 18,766 0,889 0,089
Difference = mu t23 - mu t25
Estimate for difference: 6,229
95% CI for difference: (5,794; 6,665)
T-Test of difference = 0 (vs not =): T-Value = 28,27 P-Value = 0,000 DF = 136
4) Decidir se rejeita ou não a hipótese nula:
O valor de p é muito pequeno (p<0,001), e, portanto,
rejeitamos a hipótese nula de igualdade. Ou seja, os
tempos médios de pré-muda para as temperaturas de
23°C e 25 °C são significativamente diferentes, com base
nas informações dessas amostras.
t25
t23
30
25
20
Boxplots of t23 and t25
(means are indicated by solid circles)
Teste t pareado
 O teste t pareado é utilizado quando selecionamos duas
amostras com observações dependentes ou pareadas.
 auto-pareamento: cada animal selecionado da população é seu
próprio controle;
 pareamento natural (filhotes da mesma ninhada, gêmeos);
 pareamento de animais idênticos.
 É baseado na hipótese de que diferenças entre pares de
observações se distribuem de forma aproximadamente Normal,
embora as observações originais nos grupos possam não
apresentar distribuição Normal.
 Porém, nos casos em que se suspeita que as diferenças não
sigam a Normal, podem ser utilizados: transformação dos dados;
teste não-paramétrico.
 Para validar esta premissa, é possível testar a normalidade das
amostras separadamente, ao invés de testar as diferenças
Exemplo (teste t pareado)
 Um grupo de pesquisadores (Nelson et al., 1998)
fez uma comparação de duas diferentes dietas em
11 cães diabéticos, medindo o nível sérico de
glicose como uma variável indicadora da qualidade
do controle de diabetes. As dietas ou continham
fibra pouco insolúvel (LF) ou fibra altamente
insolúvel (HF). Os cães foram alocados de modo
aleatório para receber uma das dietas primeiro.
 Esse tipo de delineamento é conhecido como
“cross-over” (randomized cross-over trial).
1) Estabelecer as hipóteses do teste
 Hipótese nula: a diferença média do nível
de glicose (em mmol/l) entre as duas dietas
é zero
 Hipótese alternativa: a diferença média
não é zero
0
ou
:
0
ou
:
2
1
1
2
1
0




d
dieta
dieta
d
dieta
dieta
H
H






onde o índice d significa diferença
2) Observar um gráfico (por exemplo, diagrama de
pontos) dos dois grupos que estão sendo comparados.
0
5
10
15
20
25
Tipo de dieta
Nível
de
glicose
(mmol/l)
LF HF
10
8
6
4
2
0
-2
glicose
sérica
(mmol/l)
Diferença
(LF-HF)
de
Boxplot da diferença de nível de glicose nas
duas dietas
Checando a premissa
 Teste de normalidade das diferenças:
P = 0,928
Checando a premissa
 Alternativamente, e mais simples, teste de
normalidade de cada amostra:
P = 0,262
P = 0,390
Ambas amostras possuem distribuição normal
3) Calcular a estatística do teste:
diferenças
das
padrão
desvio
o
é
diferenças
das
média
a
é
/
d
d
s
d
n
s
d
t 
Paired T-Test and CI: LF; HF
Paired T for LF - HF
N Mean StDev SE Mean
LF 11 13,47 5,30 1,60
HF 11 9,66 4,13 1,24
Difference 11 3,808 2,892 0,872
95% CI for mean difference: (1,866; 5,751)
T-Test of mean difference = 0 (vs not = 0): T-Value = 4,37 P-Value = 0,001
t = 4,37
4) Obter o valor de p: p = 0,001
5) Decidir se rejeita ou não H0:
Se a hipótese nula for verdadeira, há uma chance de apenas
0,1% (p=0,001) de observarmos uma diferença média tão
grande quanto 3,81 mmol/l. Como a diferença média é
significativamente diferente de zero, rejeitamos H0. A dieta
com fibra altamente insolúvel reduz de modo significativo o
nível de glicose em relação à dieta com fibra pouco insolúvel.
6) Intervalo de confiança de 95% para a diferença média:
IC 95% para a diferença: (1,866; 5,751)
IC 95% não inclui o 0 (zero), o que confirma a rejeição de H0.
9
8
7
6
5
4
3
2
1
0
Differences
Dotplot of Differences
(with Ho and 95% t-confidence interval for the mean)
[ ]
X
_
Ho

Mais conteúdo relacionado

Semelhante a estatística é uma disciplina ampla e fundamental

AMD - Aula n.º 3 - duas amostras emparelhadas.pptx
AMD - Aula n.º 3 - duas amostras emparelhadas.pptxAMD - Aula n.º 3 - duas amostras emparelhadas.pptx
AMD - Aula n.º 3 - duas amostras emparelhadas.pptxNunoSilva599593
 
Curso_de_Estatística_Aplicada_Usando_o_R.ppt
Curso_de_Estatística_Aplicada_Usando_o_R.pptCurso_de_Estatística_Aplicada_Usando_o_R.ppt
Curso_de_Estatística_Aplicada_Usando_o_R.pptssuser2b53fe
 
Apresentação contabilometria 6
Apresentação contabilometria 6Apresentação contabilometria 6
Apresentação contabilometria 6Ingrid M
 
Delineamentos estatísticos
Delineamentos estatísticosDelineamentos estatísticos
Delineamentos estatísticosUERGS
 
ESTATÍSTICA-BÁSICA-SUMÁRIO-1a-PARTE-REVISADO-2013.pdf
ESTATÍSTICA-BÁSICA-SUMÁRIO-1a-PARTE-REVISADO-2013.pdfESTATÍSTICA-BÁSICA-SUMÁRIO-1a-PARTE-REVISADO-2013.pdf
ESTATÍSTICA-BÁSICA-SUMÁRIO-1a-PARTE-REVISADO-2013.pdfssuserac1de6
 
Teste de hipoteses
Teste de hipotesesTeste de hipoteses
Teste de hipoteseszimbu
 
Teste de hipoteses
Teste de hipotesesTeste de hipoteses
Teste de hipoteseshenrique2016
 
Estatística Aplicada à Administração - Aula 17: Testes de Hipóteses
Estatística Aplicada à Administração - Aula 17: Testes de HipótesesEstatística Aplicada à Administração - Aula 17: Testes de Hipóteses
Estatística Aplicada à Administração - Aula 17: Testes de HipótesesMarcus Araújo
 
Testes de especificação, diagnóstico e interpretação de Modelo OLS (Ordinary ...
Testes de especificação, diagnóstico e interpretação de Modelo OLS (Ordinary ...Testes de especificação, diagnóstico e interpretação de Modelo OLS (Ordinary ...
Testes de especificação, diagnóstico e interpretação de Modelo OLS (Ordinary ...Kleverton Saath
 
7 distribição t e comparação de medias
7   distribição t e comparação de medias7   distribição t e comparação de medias
7 distribição t e comparação de mediasFernando Lucas
 
Métodos Quantitativos em Ciência da Computação: Comparando Sistemas Experimen...
Métodos Quantitativos em Ciência da Computação: Comparando Sistemas Experimen...Métodos Quantitativos em Ciência da Computação: Comparando Sistemas Experimen...
Métodos Quantitativos em Ciência da Computação: Comparando Sistemas Experimen...Alexandre Duarte
 
Cap10 - Parte 2 - Anova Um Caminho De Classificação
Cap10 - Parte 2 - Anova Um Caminho De ClassificaçãoCap10 - Parte 2 - Anova Um Caminho De Classificação
Cap10 - Parte 2 - Anova Um Caminho De ClassificaçãoRegis Andrade
 
Aula 5 - Educação física
Aula 5 - Educação físicaAula 5 - Educação física
Aula 5 - Educação físicaCaroline Godoy
 
Curso_de_Estatística_Aplicada_Usando_o_R.ppt
Curso_de_Estatística_Aplicada_Usando_o_R.pptCurso_de_Estatística_Aplicada_Usando_o_R.ppt
Curso_de_Estatística_Aplicada_Usando_o_R.pptssuser2b53fe
 

Semelhante a estatística é uma disciplina ampla e fundamental (20)

Tópico 3 Testes de Hipóteses - 2 amostras
Tópico 3   Testes de Hipóteses - 2 amostrasTópico 3   Testes de Hipóteses - 2 amostras
Tópico 3 Testes de Hipóteses - 2 amostras
 
Regressao linear
Regressao linearRegressao linear
Regressao linear
 
AMD - Aula n.º 3 - duas amostras emparelhadas.pptx
AMD - Aula n.º 3 - duas amostras emparelhadas.pptxAMD - Aula n.º 3 - duas amostras emparelhadas.pptx
AMD - Aula n.º 3 - duas amostras emparelhadas.pptx
 
Curso_de_Estatística_Aplicada_Usando_o_R.ppt
Curso_de_Estatística_Aplicada_Usando_o_R.pptCurso_de_Estatística_Aplicada_Usando_o_R.ppt
Curso_de_Estatística_Aplicada_Usando_o_R.ppt
 
Apresentação contabilometria 6
Apresentação contabilometria 6Apresentação contabilometria 6
Apresentação contabilometria 6
 
Aula19
Aula19Aula19
Aula19
 
Delineamentos estatísticos
Delineamentos estatísticosDelineamentos estatísticos
Delineamentos estatísticos
 
ESTATÍSTICA-BÁSICA-SUMÁRIO-1a-PARTE-REVISADO-2013.pdf
ESTATÍSTICA-BÁSICA-SUMÁRIO-1a-PARTE-REVISADO-2013.pdfESTATÍSTICA-BÁSICA-SUMÁRIO-1a-PARTE-REVISADO-2013.pdf
ESTATÍSTICA-BÁSICA-SUMÁRIO-1a-PARTE-REVISADO-2013.pdf
 
Teste de hipoteses
Teste de hipotesesTeste de hipoteses
Teste de hipoteses
 
Teste de hipoteses
Teste de hipotesesTeste de hipoteses
Teste de hipoteses
 
Tópico 4 regressão linear simples 02
Tópico 4   regressão linear simples 02Tópico 4   regressão linear simples 02
Tópico 4 regressão linear simples 02
 
02 tópico 1 - regressão linear simples 02 - Econometria - Graduação - UFPA
02   tópico 1 - regressão linear simples 02 - Econometria - Graduação - UFPA02   tópico 1 - regressão linear simples 02 - Econometria - Graduação - UFPA
02 tópico 1 - regressão linear simples 02 - Econometria - Graduação - UFPA
 
Estatística Aplicada à Administração - Aula 17: Testes de Hipóteses
Estatística Aplicada à Administração - Aula 17: Testes de HipótesesEstatística Aplicada à Administração - Aula 17: Testes de Hipóteses
Estatística Aplicada à Administração - Aula 17: Testes de Hipóteses
 
Testes de especificação, diagnóstico e interpretação de Modelo OLS (Ordinary ...
Testes de especificação, diagnóstico e interpretação de Modelo OLS (Ordinary ...Testes de especificação, diagnóstico e interpretação de Modelo OLS (Ordinary ...
Testes de especificação, diagnóstico e interpretação de Modelo OLS (Ordinary ...
 
08 testes hipoteses_anova
08 testes hipoteses_anova08 testes hipoteses_anova
08 testes hipoteses_anova
 
7 distribição t e comparação de medias
7   distribição t e comparação de medias7   distribição t e comparação de medias
7 distribição t e comparação de medias
 
Métodos Quantitativos em Ciência da Computação: Comparando Sistemas Experimen...
Métodos Quantitativos em Ciência da Computação: Comparando Sistemas Experimen...Métodos Quantitativos em Ciência da Computação: Comparando Sistemas Experimen...
Métodos Quantitativos em Ciência da Computação: Comparando Sistemas Experimen...
 
Cap10 - Parte 2 - Anova Um Caminho De Classificação
Cap10 - Parte 2 - Anova Um Caminho De ClassificaçãoCap10 - Parte 2 - Anova Um Caminho De Classificação
Cap10 - Parte 2 - Anova Um Caminho De Classificação
 
Aula 5 - Educação física
Aula 5 - Educação físicaAula 5 - Educação física
Aula 5 - Educação física
 
Curso_de_Estatística_Aplicada_Usando_o_R.ppt
Curso_de_Estatística_Aplicada_Usando_o_R.pptCurso_de_Estatística_Aplicada_Usando_o_R.ppt
Curso_de_Estatística_Aplicada_Usando_o_R.ppt
 

estatística é uma disciplina ampla e fundamental

  • 1. Comparação de duas médias amostrais Tratamento Paramétrico
  • 3.
  • 4. Diferenças entre testes paramétricos e não-paramétricos  Testes paramétricos:  Baseados em parâmetros da amostra (média e desvio-padrão).  Fazem pressupostos sobre a distribuição dos dados (distribuição normal)  Testes não-paramétricos:  Baseiam-se em postos (ranks) dos dados.  Pouco influenciados por valores extremos  Não fazem pressupostos sobre a distribuição dos dados
  • 5. Transformação  E quando houver uma clara discrepância dos dados em relação à distribuição Normal?  Duas saídas possíveis:  Transformar os dados (ex. calculando o logaritmo ou a raiz quadrada) em uma tentativa de obter uma distribuição aproximadamente Normal;  Desvantagem: a interpretação dos resultados fica mais complexa.  Utilizar um teste não-paramétrico adequado. Os testes não-paramétricos não fazem suposições sobre a distribuição dos dados.
  • 6. Implicações do tamanho da amostra  Amostras muito pequenas (< 6 observações): Testes de normalidade e variância se tornam pouco confiáveis nessas situações, comprometendo a validação das premissas, e portanto sugere-se utilizar testes não- paramétricos.
  • 7. Teste t para 2 amostras Hipóteses do teste:  Hipótese nula: média das duas populações são iguais.  Hipótese alternativa: média das duas populações são diferentes. 2 1 1 2 1 0 : :       H H 0 : 0 : 2 1 1 2 1 0         H H ou
  • 8.  Variâncias iguais:  Variâncias diferentes: Funcionamento do teste t para 2 amostras independentes s: desvio padrão conjugado 2 2 2 1 2 1 2 1 n s n s x x t    liberdade de graus 2 com 1 1 2 1 2 1 2 2 1              n n n n s x x t 2 ) 1 ( ) 1 ( 2 1 2 2 2 2 1 1 2       n n s n s n s
  • 9. Cálculo do valor de p e distribuição t de student  O valor de p é a probabilidade de obter uma dada diferença entre as médias dado que H0 é verdadeira. 2 1 x x 
  • 10. Teste t para 2 amostras independentes (e variâncias iguais)  O teste t para 2 amostras independentes também é conhecido como teste t não-pareado  Comparação de médias de 2 grupos independentes de observações usando amostras representativas.  Premissas (suposições):  indivíduos sorteados aleatoriamente da população  duas amostras devem ser independentes  a variável de interesse deve se distribuir de forma Normal em cada uma das populações (das quais as amostras foram colhidas)  Deve-se saber se as variâncias são aproximadamente iguais ou não
  • 11. Premissas  Distribuição normal: Adequado a dados com distribuição simétrica, o que levou à simplificação de que o teste é mais adequado para dados com distribuição normal.  Variâncias iguais (homocedasticidade) ou variâncias diferentes (heterocedasticidade): Necessário saber se as variâncias das populações estudadas são iguais ou diferentes entre si
  • 12. Exemplo (Teste t – 2 amostras independentes)  Comparação do peso médio de um grupo de 24 ovelhas que passou por um processo de flushing (recebeu nutrição altamente calórica algumas semanas antes do acasalamento) com um grupo-controle de 30 ovelhas.
  • 13. Teste t para 2 amostras independentes (para variâncias iguais) 1) Estabelecer as hipóteses do teste  Hipótese nula: os pesos médios dos dois grupos são iguais.  Hipótese alternativa: os pesos médios são diferentes. flushing controle flushing controle H H       : : 1 0 0 : 0 : 1 0     flushing controle flushing controle H H     ou
  • 14. controle flushing 60 62 64 66 68 70 72 grupo peso corporal (kg) 2) Observar gráficos referentes a cada uma das amostras. Verificar visualmente se a suposição de distribuição Normal é adequada. Verifique também se as variâncias são aproximadamente iguais.
  • 15. Checando as premissas  Normalidade  Variâncias
  • 16. 71 69 67 65 63 61 95% Confidence Interval for Mu 67 66 65 95% Confidence Interval for Median Variable: todas 64.8686 1.9888 64.8409 Maximum 3rd Quartile Median 1st Quartile Minimum N Kurtosis Skewness Variance StDev Mean P-Value: A-Squared: 66.9543 3.3570 66.7058 71.1000 67.4250 65.6500 63.8250 61.1000 30 -5.0E-01 0.118183 6.23582 2.4972 65.7733 0.972 0.139 95% Confidence Interval for Median 95% Confidence Interval for Sigma 95% Confidence Interval for Mu Anderson-Darling Normality Test grupo: controle Descriptive Statistics Neste caso, através da observação dos histogramas e boxplots, pode-se assumir que os dados sigam a distribuição Normal. No entanto, podemos confirmar utilizando um teste de Normalidade (como o teste de Anderson-Darling feito pelo Minitab) para confirmar a hipótese de Normalidade. Hipóteses do teste de Normalidade: H0: Distribuição é Normal H1: Distribuição não é Normal 71 69 67 65 63 61 95% Confidence Interval for Mu 68 67 66 95% Confidence Interval for Median Variable: todas 66.1827 1.7507 66.4155 Maximum 3rd Quartile Median 1st Quartile Minimum N Kurtosis Skewness Variance StDev Mean P-Value: A-Squared: 68.4079 3.1597 68.3178 71.8000 69.4000 67.3500 66.0250 62.7000 24 -3.9E-01 -9.5E-02 5.07362 2.2525 67.3667 0.894 0.187 95% Confidence Interval for Median 95% Confidence Interval for Sigma 95% Confidence Interval for Mu Anderson-Darling Normality Test grupo: flushing Descriptive Statistics p=0,894 p=0,972 p >> 0,05 → podemos assumir que os dados sigam a distribuição Normal
  • 17. Teste F para variâncias  O teste F, também conhecido como teste da razão de variâncias, pode ser utilizado para testar se dois conjuntos de dados apresentam a mesma variância.  A estatística do teste é 1 : r denominado do liberdade de graus 1 : numerador do liberdade de graus grupos 2 dos s variância as são e onde , , 2 1 2 2 2 1 2 2 2 1 2 2 2 1     n n s s s s s s F 2 2 2 1 1 2 2 2 1 0 : :       H H
  • 18. Ainda o Teste F  No caso do nosso exemplo, os resultados obtidos no Minitab são: Test for Equal Variances Level1 controle Level2 dieta ConfLvl 95,0000 F-Test (normal distribution) Test Statistic: 1,229 P-Value : 0,617 Levene's Test (any continuous distribution) Test Statistic: 0,238 P-Value : 0,628 Para um nível de significância a = 0,05: Como p>0,05, não há evidência de desigualdade entre as variâncias e a hipótese de igualdade das variâncias permanece válida.
  • 19. Voltando ao nosso exemplo... 3) Calcular a estatística (fórmula) do teste t. Nesse caso: t=2,43 liberdade de graus 2 com 1 1 2 1 2 1 2 2 1              n n n n s x x t 2 ) 1 ( ) 1 ( 2 1 2 2 2 2 1 1 2       n n s n s n s 4) Obter o valor de p: p=0,018 Há uma chance de 1,8% de obter uma diferença entre os pesos médios de 1,59 kg ou superior, se a hipótese nula for verdadeira. s: desvio padrão conjugado
  • 20. Two-Sample T-Test and CI: dieta; controle Two-sample T for dieta vs controle N Mean StDev SE Mean dieta 24 67,37 2,25 0,46 controle 30 65,77 2,50 0,46 Difference = mu dieta - mu controle Estimate for difference: 1,593 95% CI for difference: (0,279; 2,908) T-Test of difference = 0 (vs not =): T-Value = 2,43 P-Value = 0,018 DF = 52 Both use Pooled StDev = 2,39
  • 21. 5) Decidir se rejeita ou não H0: É pouco provável que a hipótese nula – que é a hipótese de que não há diferença entre os pesos – seja verdadeira. Assim, rejeitamos a hipótese nula em favor da hipótese alternativa, de que há diferença entre os pesos médios. Além disso, o peso das ovelhas que passaram pelo processo de flushing é, em média, 1,59kg superior ao das ovelhas do grupo-controle. 6) Intervalo de confiança de 95% para a diferença entre as médias: IC 95% para a diferença: (0,279; 2,908) IC 95% não inclui o valor 0 (zero). Portanto, a diferença entre as médias não é compatível com 0, o que confirma a rejeição da hipótese nula.
  • 22. Teste t para 2 amostras independentes (variâncias desiguais)  Nesse caso, utiliza-se um teste t modificado, com a seguinte estatística:  Como esse teste não segue uma distribuição t, o cálculo do valor de p não é direto. No entanto, os pacotes estatísticos (como o Minitab) incluem essa opção de teste, e fazem a estimativa de p. 2 2 2 1 2 1 2 1 n s n s x x t   
  • 23. 30 25 20 15 40 30 20 10 0 Período de pré-muda (dias) Freqüência absoluta 25 oC 23 oC Período de pré-muda de ninfa de carrapatos (Dados hipotéticos) 30 25 20 15 40 30 20 10 0 Período de pré-muda (dias) Freqüência absoluta Histogramas
  • 24. Exemplo – Teste t para amostras independentes (variâncias desiguais)  Exemplo: Comparar os tempos médios de pré-muda (em dias) de ninfa do carrapato Amblyomma cajennense, em laboratório, nas temperaturas de 23°C e 25°C. 1) Hipóteses: : : 2 1 1 2 1 0       H H Descriptive Statistics: t25; t23 Variable N Mean Median TrMean StDev SE Mean t25 100 18,766 18,771 18,742 0,889 0,089 t23 100 24,996 25,036 24,943 2,016 0,202 Variable Minimum Maximum Q1 Q3 t25 16,912 21,241 18,057 19,335 t23 20,376 30,891 23,863 26,253
  • 25. 17,25 18,00 18,75 19,50 20,25 21,00 95% Confidence Interval for Mu 18,55 18,65 18,75 18,85 18,95 19,05 95% Confidence Interval for Median Variable: t25 A-Squared: P-Value: Mean StDev Variance Skewness Kurtosis N Minimum 1st Quartile Median 3rd Quartile Maximum 18,5898 0,7803 18,5884 0,319 0,530 18,7662 0,8887 0,789843 0,262128 4,28E-02 100 16,9122 18,0572 18,7714 19,3347 21,2411 18,9425 1,0324 19,0322 Anderson-Darling Normality Test 95% Confidence Interval for Mu 95% Confidence Interval for Sigma 95% Confidence Interval for Median Descriptive Statistics Confirmando a Normalidade dos dados 20 22 24 26 28 30 95% Confidence Interval for Mu 24,6 24,8 25,0 25,2 25,4 95% Confidence Interval for Median Variable: t23 A-Squared: P-Value: Mean StDev Variance Skewness Kurtosis N Minimum 1st Quartile Median 3rd Quartile Maximum 24,5955 1,7701 24,6352 0,480 0,229 24,9955 2,0161 4,06458 0,333140 0,633287 100 20,3755 23,8634 25,0360 26,2531 30,8911 25,3956 2,3420 25,3205 Anderson-Darling Normality Test 95% Confidence Interval for Mu 95% Confidence Interval for Sigma 95% Confidence Interval for Median Descriptive Statistics p=0,229 p=0,530
  • 26. 2) Verificando se as variâncias são iguais (teste F) 2,5 2,0 1,5 1,0 95% Confidence Intervals for Sigmas t23 t25 30 25 20 Boxplots of Raw Data P-Value : 0,000 Test Statistic: 33,050 Levene's Test P-Value : 0,000 Test Statistic: 5,146 F-Test Factor Levels t25 t23 Test for Equal Variances p < 0,001  variâncias desiguais
  • 27. 3) Resultados do teste t para 2 médias amostrais considerando variâncias desiguais Two-Sample T-Test and CI: t23; t25 Two-sample T for t23 vs t25 N Mean StDev SE Mean t23 100 25,00 2,02 0,20 t25 100 18,766 0,889 0,089 Difference = mu t23 - mu t25 Estimate for difference: 6,229 95% CI for difference: (5,794; 6,665) T-Test of difference = 0 (vs not =): T-Value = 28,27 P-Value = 0,000 DF = 136
  • 28. 4) Decidir se rejeita ou não a hipótese nula: O valor de p é muito pequeno (p<0,001), e, portanto, rejeitamos a hipótese nula de igualdade. Ou seja, os tempos médios de pré-muda para as temperaturas de 23°C e 25 °C são significativamente diferentes, com base nas informações dessas amostras. t25 t23 30 25 20 Boxplots of t23 and t25 (means are indicated by solid circles)
  • 29. Teste t pareado  O teste t pareado é utilizado quando selecionamos duas amostras com observações dependentes ou pareadas.  auto-pareamento: cada animal selecionado da população é seu próprio controle;  pareamento natural (filhotes da mesma ninhada, gêmeos);  pareamento de animais idênticos.  É baseado na hipótese de que diferenças entre pares de observações se distribuem de forma aproximadamente Normal, embora as observações originais nos grupos possam não apresentar distribuição Normal.  Porém, nos casos em que se suspeita que as diferenças não sigam a Normal, podem ser utilizados: transformação dos dados; teste não-paramétrico.  Para validar esta premissa, é possível testar a normalidade das amostras separadamente, ao invés de testar as diferenças
  • 30. Exemplo (teste t pareado)  Um grupo de pesquisadores (Nelson et al., 1998) fez uma comparação de duas diferentes dietas em 11 cães diabéticos, medindo o nível sérico de glicose como uma variável indicadora da qualidade do controle de diabetes. As dietas ou continham fibra pouco insolúvel (LF) ou fibra altamente insolúvel (HF). Os cães foram alocados de modo aleatório para receber uma das dietas primeiro.  Esse tipo de delineamento é conhecido como “cross-over” (randomized cross-over trial).
  • 31. 1) Estabelecer as hipóteses do teste  Hipótese nula: a diferença média do nível de glicose (em mmol/l) entre as duas dietas é zero  Hipótese alternativa: a diferença média não é zero 0 ou : 0 ou : 2 1 1 2 1 0     d dieta dieta d dieta dieta H H       onde o índice d significa diferença
  • 32. 2) Observar um gráfico (por exemplo, diagrama de pontos) dos dois grupos que estão sendo comparados. 0 5 10 15 20 25 Tipo de dieta Nível de glicose (mmol/l) LF HF
  • 34. Checando a premissa  Teste de normalidade das diferenças: P = 0,928
  • 35. Checando a premissa  Alternativamente, e mais simples, teste de normalidade de cada amostra: P = 0,262 P = 0,390 Ambas amostras possuem distribuição normal
  • 36. 3) Calcular a estatística do teste: diferenças das padrão desvio o é diferenças das média a é / d d s d n s d t  Paired T-Test and CI: LF; HF Paired T for LF - HF N Mean StDev SE Mean LF 11 13,47 5,30 1,60 HF 11 9,66 4,13 1,24 Difference 11 3,808 2,892 0,872 95% CI for mean difference: (1,866; 5,751) T-Test of mean difference = 0 (vs not = 0): T-Value = 4,37 P-Value = 0,001 t = 4,37 4) Obter o valor de p: p = 0,001
  • 37. 5) Decidir se rejeita ou não H0: Se a hipótese nula for verdadeira, há uma chance de apenas 0,1% (p=0,001) de observarmos uma diferença média tão grande quanto 3,81 mmol/l. Como a diferença média é significativamente diferente de zero, rejeitamos H0. A dieta com fibra altamente insolúvel reduz de modo significativo o nível de glicose em relação à dieta com fibra pouco insolúvel. 6) Intervalo de confiança de 95% para a diferença média: IC 95% para a diferença: (1,866; 5,751) IC 95% não inclui o 0 (zero), o que confirma a rejeição de H0. 9 8 7 6 5 4 3 2 1 0 Differences Dotplot of Differences (with Ho and 95% t-confidence interval for the mean) [ ] X _ Ho