SlideShare uma empresa Scribd logo
1 de 31
ANÁLISE MULTIVARIADA
DE DADOS
MULTIVARIATE ANALYSIS
DOCENTE: CARLA OLIVEIRA SILVA
ANÁLISE MULTIVARIADA DE DADOS
Data Conteúdos Programáticos
16 fev
Apresentação. Testes de Hipóteses – conceitos gerais. Testes: à normalidade, T uma amostra e
Wilcoxon.
23 fev Teste T amostras independentes e Mann Whitney.
3 mar Testes de hipóteses para duas amostras emparelhadas: T, Wilcoxon e Sinais.
9 mar Testes de hipóteses para 3 ou mais médias / medianas: ANOVA e Kruskal Wallis
16 mar Teste da binomial e testes qui quadrado (homogeneidade, independência, ajustamento)
23 mar Teste de McNemar, teste de Cochran e teste Anova de Friedman. Revisões.
30 mar 1.º momento de avaliação contínua – teste
13 abr Modelo de regressão linear univariada: estimação e inferência
20 abr Validação dos pressupostos do modelo de regressão linear: resíduos e multicolinearidade.
27 abr Modelo de regressão linear multivariado. Variáveis dummy.
4 mai Análise de componentes principais.
18 mai Análise factorial
25 mai Revisões
1 jun 2º momento de avaliação contínua - teste
15 jun 3.º momento de avaliação contínua - defesa dos trabalhos de grupo.
ESTATÍSTICA / STATISTICS
CRITÉRIOS DE AVALIAÇÃO /
ASSESSMENT CRITERIA:
Avaliação Contínua /
Continuous Assessment
o 1.º Teste escrito / 1st
written test – 40 %
o 2.º Teste escrito / 2nd
written test – 40 %
o Trabalho de grupo / Team
work - 20 %
Avaliação Final / Final
Assessment
o Exame final / exam – 100
%
BIBLIOGRAFIA / BIBLIOGRAPHY
o Marôco, J. (2021), Análise Estatística com
o SPSS Statistics, 8.ª Ed, ReportNumber,
Lda
o Cumming, Geoff; Calin-Jageman, Robert
(2017), Introduction to the new statistics:
estimation, open science & beyond, 1st
Ed, Routledge
o Laureano, R. M. S., Botelho, M. C. (2017),
SPSS Statistics - O Meu Manual de
Consulta Rápida, 3.ª Ed, Edições Sílabo
INSTRUÇÕES PARA O TRABALHO DE GRUPO
Recurso de bases de dados de
empresas.
N.º máximo de elementos do grupo: 4.
Tratamento dos dados em SPSS.
Apresentação dos resultados em
powerpoint ou prezi.
Número máximo de diapositivos: 20
Entrega online: na véspera da defesa
do trabalho
Conteúdos:
• Objetivo do trabalho
• Síntese da caracterização
da amostra
• Hipóteses formuladas com
base nas conclusões do 1.º
trabalho
• Tratamento dos resultados:
testes de hipóteses,
regressões, etc.
• Conclusão (listagem de
todas as conclusões de
todos os testes de
hipóteses)
• Bibliografia
Nota: o plágio de qualquer trabalho ou parte deste resulta na exclusão, dos alunos
em causa, do regime de avaliação contínua.
TESTES DE HIPÓTESES / HYPOTHESIS TESTS
Regra do
Acontecimento
Raro
HIPÓTESE
É uma afirmação sobre uma propriedade de
uma população
TESTE DE HIPÓTESE
É um procedimento padrão para se testar
uma afirmação sobre uma propriedade da
população
HIPÓTESES
As canetas da XPTO apresentam uma taxa
de defeitos de 0,05
A marca Y afirma que o modelo de carros Z
faz consumos médios de 4,7 l/100km em
cidade
Rare Event Rule
Se, sob uma determinada suposição, a probabilidade de um
acontecimento observado particular é excecionalmente
pequena, concluímos que a suposição, provavelmente não é
correta.
If the probability of a event is exceptionally small, we
suppose that the claim is not correct
HYPOTHESES:
is a claim about a population
characteristic.
HYPOTHESES TEST:
is a standard procedure to test a claim
about a population characteristic)
HYPOTHESES:
XPTO pen’s shows a rate of defects of
0,05
Brand Y claims that Z model of X cars
spends 4,7 l/100 km.
TESTE DE HIPÓTESES / HYPOTHESIS TEST
 Hipótese Nula / null hypothesis – H0:
É uma afirmação de que o valor de um parâmetro populacional (como proporção,
média ou desvio padrão) é igual a algum valor especificado. Is a claim which
associates a parameter to a specified value.
H0: p=0,05 H0: p>0,05 H0: p<0,05
H0: m=4,7 H1: m>4,7 H1: m<4,7
H0: s=2,3 H1: s>2,3 H1: s<2,3
Testa-se a hipótese nula partindo do princípio que ela é verdadeira e avalia-se se se
deve rejeitar ou não a hipótese nula. The null hypothesis is tested assuming that it is
true, and then it is analysed if it must or must not be rejected.
 Hipótese Alternativa / alternative hypothesis - H1:
É a afirmação de que o parâmetro difere da hipótese nula / is the reverse claim of H0.
H1: p≠0,05 H1: p<0,05 H1: p>0,05
H1: m ≠4,7 H1: m<4,7 H1: m>4,7
H1: s ≠2,3 H1: s<2,3 H1: s>2,3
COMPONENTES DE UM TESTE DE HIPÓTESE
COMPONENTS OF A HYPOTHESIS TEST
 Considere o seguinte exemplo: um
arguido é levado a julgamento.
Presume-se que é inocente até prova
em contrário.
 Testa-se a hipótese nula (H0) partindo
do princípio que é verdadeira: inicia-
se o julgamento admitindo a
inocência do arguido.
 H0: arguido = inocente
 Verifica-se se se deve ou não rejeitar
a hipótese nula: durante o julgamento
deverá ser feita prova de culpa para
se rejeitar a H0.
 H1: arguido ≠ inocente
 A defendant is taken to court. It is
assumed that he is innocent until
proven guilty.
 Null hypothesis is tested supposing
that is true.
 H0: arguido (defendant) =
inocente (innocent)
 Check whether or not to reject the
null hypothesis: during the trial,
proof of guilt must be provided to
reject the null hypothesis, or to
assume the alternative hypothesis
to be true
 H1: defendant ≠ innocent
TIPOS DE ERRO NOS TESTES DE HIPÓTESE
ERRORS IN HYPOTHESIS
Situação Real / Real situation
H0 é VERDADEIRA –
o arguido é inocente
H0 is true - the
defendant is innocent
H0 é FALSA - o arguido
é culpado
H0 is false – the
defendant is guilty
Decisão /
Decision
Rejeita-se H0
H0 is rejected.
H0: arguido (defendant) =
inocente (innocent)
ERRO TIPO I (foi
culpado um inocente)
a (error type I – an
innocent has been
considered guilty)
Decisão Correta
Correct decision
Não se rejeita H0.
H0 is not rejected.
H0: arguido (defendant) =
inocente
Decisão Correta
Correct decision
ERRO TIPO II (foi
ilibado um culpado) b
(a guilty person was
considered not guilty)
Nota importante: quando se decide não rejeitar a hipótese nula não significa que se prove que o
arguido (defendant) é inocente, significa antes que não foi feita prova de que o arguido
(defendant) era culpado. Por essa razão não se pode utilizar o termo “aceitar a hipótese
nula” (it never can be said that the null hypothesis is accepted, but rather that is rejected
CONTROLO DOS ERROS
ERROR CONTROL
Erro Tipo I - rejeitar uma H0 verdadeira
a - probabilidade de cometer um erro
tipo I
Erro Tipo II – não rejeitar uma H0 falsa
b - probabilidade de cometer um erro
tipo II
Situação ideal: reduzir ambos os erros
a ZERO!
a, b e o tamanho da amostra, n, estão
inter-relacionados de tal modo que
definindo dois deles o terceiro fica
automaticamente determinado.
a, b and sample size, n, are inter-
related so defining two of them the
third is automatically determined.
Type I Error –to reject a true H0
a - probability of making an Type I
Error
Type II Error–not to reject a false H0
b - probability of making and Type II
Error
The ideal scenario was to eliminate
both errors!
CONTROLO DE ERROS
ERRORS CONTROL
Para a fixo, um aumento do tamanho
da amostra n provoca uma redução
do b.
Uma amostra maior reduz a
probabilidade de não rejeitar a
hipótese nula falsa.
Para um tamanho de amostra, n, fixo,
uma diminuição de a acarreta um
aumento de b. Um aumento de a
acarreta uma diminuição de b.
Para reduzir a e b deve-se aumentar o
tamanho da amostra.
Para a definição da dimensão da
amostra, n, há que ter em conta os
custos associados e o tempo
To a fixed a, the increase of sample
size results in a decrease of b.
A larger sample reduces the
likelihood of not to reject a false H0.
To a specified n, decreasing a an
increase of b. The increase of a
reduces b.
To reduce both a and b the sample
size must be increased.
To define sample size n, is
necessary to evaluate costs and
time spent.
TESTES DE HIPÓTESES
HYPOTHESIS TESTS
Existem dois grandes tipos de testes de
hipóteses
Paramétricos: uma média e duas
médias (amostras independentes e
emparelhadas), variância
Não Paramétricos Mediana,
proporções
Um teste de hipóteses requer
• Afirmação inicial
• H0 (hipótese nula
• H1 (hipótese alternativa
• Nível de significância a - erro máximo
admissível do tipo I
• Estatística do teste e respetivo p-valor
• Decisão
• Conclusão
There are two kinds of hypothesis
tests:
Parametric – one and two means
(independent and paired samples),
variance
Non parametric – median,
proportions
An hypothesis test will requires:
• Original claim
• H0 null hypothesis
• H1 alternative hypothesis
• Significance level a – maximum type I
error allowed)
• Test statistic and respective p-value
• Decision
• Conclusion
Is the value that comes from sample
and that allows to make a decision
about null hypothesis.
Ex proportion:
Ex mean:
Ex variance:
ESTATÍSTICA DO TESTE
TEST STATISTIC
É um valor que se obtém a partir dos
dados amostrais e que permite tomar
a decisão de rejeitar ou não a hipótese
nula.
Ex para a proporção:
Ex para a média:
Ex para a variância:
𝑧 =
𝑝 − 𝑝
𝑝𝑞
𝑛
𝑡 =
𝑥 − 𝜇
𝑠
𝑛
2
2
2 )
1
(
s
s
n 


A estatística do teste permite calcular o p-valor.
The test statistic allows to calculate p-value.
TESTES DE HIPÓTESES: CONCEITOS
Região Crítica (ou de rejeição)
É o conjunto de todos os valores de
estatística do teste que nos fazem rejeitar a
H0.
Valor Crítico
É o valor que separa a região crítica da não
crítica.
Nível de significância (a)
É a probabilidade da estatística do teste cair
na região crítica quando a hipótese nula for
realmente verdadeira
Se a estatística do teste cair na região crítica
rejeita-se a hipótese nula
Se a estatística do teste não cair na região
crítica, não se rejeita a hipótese nula.
Teste Bilateral
Two sided test
Teste Unilateral Esquerdo
Left sided test
Teste Unilateral Direito
Right sided test
Critical area
Is the area in which the test statistic must be
rejected.
Critical Value
Is the value which splits critical and non
critical region
Significance level (a)
is the probability of having the test statistic
at the critical region, when H0 is really true.
If test statistics is at the critical region, H0
must be rejected.
If test statistics is not at the critical region,
H0 must not be rejected.
P-valor: é a probabilidade associada a uma estatística do teste
P-value: is the probability associated to a test statistic.
Compara-se o p-valor com o a (nível de
significância).
Quando p-valor é maior do que a não se rejeita
H0.
Se p-valor é menor ou igual a a, rejeita-se H0.
We compare p-value and a (significance level).
When p-value is bigger than a, H0 is not
rejected.
When p-value is smaller or equal to a, H0 is
rejected.
Teste Paramétrico / Parametric Test Teste Não Paramétrico
Teste T uma amostra / One sample T test
1 variável quantitativa
H0: m=a ou m≤a ou m≥a
H1: m≠a ou m>a ou m<a
Wilcoxon (h=0,95)
1 variável quantitativa ou 1 var. qualitativa
ordinal
H0: mediana=a ou mediana≤a ou mediana≥a
H1: mediana≠a ou mediana>a ou mediana<a
Teste T amostras Indep / 2 indep. Samples
1 var quantit + 1 var qualit. nom
H0: m1=m2 ou m1≤m2 ou m1≥m2
H1: m1≠m2 ou m1>m2 ou m1<m2
Mann Whitney (h=0,95)
1 var quantit. /qual. ordin + 1 var qualit. nom
H0: med1=med2 ou med1≤med2 ou
med1≥med2
H1: med1≠med2 ou med1>med2 ou
med1<med2
Teste T amostras empar / 2 pair samples
2 var quantitativas
H0: md=0 ou md≤0 ou md≥0
H1: md≠0 ou md>0 ou md<0
Wilcoxon (h=0,95) / Signals (h=0,63)
2 quant ou 2 qualit ordin.
H0: medd=0 ou medd≤0 ou medd≥0
H1: medd≠0 ou medd>0 ou medd<0
ANOVA Analysis of Variance
1 var quantit + 1 var qualit. nom
H0: m1=m2=m3
H1: pelo menos uma m é ≠
Kruskal-Wallis (h=0,95)
1 var quantit. /qual. ordin + 1 var qualit. nom
H0: med1=med2=med3
H1: pelo menos uma mediana é ≠
Dizer que um teste tem uma eficiência de 0,95 ou de 95% significa que só em 95% dos
casos em que um teste T rejeitaria H0 é que o seu equivalente não paramétrico a rejeita.
FLUXOGRAMA PARA TESTE DE UMA MÉDIA:
ONE SAMPLE T TEST FLOWCHART:
Uma amostra - média
One sample - mean
N>30?
Shapiro Wilk
F(x)=N(m,s)?
Sim / Yes
Não / No
Teste Wilcoxon
Wilcoxon test
Sim / Yes
P-valor>a
Não / No
P-valor<a
Teste T uma média
One Sample T-Test
Considere os seguintes dados relativos ao
número de passageiros por voo:
Teste a afirmação: o número médio de
passageiros é 150 (a=0,05).
• H0: m=150 (afirmação inicial)
• H1: m≠150
• Valores críticos (ta/2): -2,0345 e 2,0345
Analisar
Analize
Comparar Médias
Compare Means
Teste T uma amostra
One sample t-test
Consider the following data on the number
of passengers per flight.
Test the claim: the mean of passengers per
flght is 150 (a=0,05).
• H0: m=150 (original claim)
• H1: m≠150
• Critical values (ta/2): -2,0345 e 2,0345
112 118 132 129 121 135 148 148 136 119 104 118 115 126 141 135 162
125 149 170 170 158 133 114 140 145 150 178 163 172 178 199 199 184
𝑡 =
𝑥 − 𝜇
𝑠
𝑛
=
(144,88 − 150)
25,432
34
= −1,1738
Test Statistic
TESTE T PARA UMA AMOSTRA
ONE SAMPLE T-TEST
TESTE T PARA UMA AMOSTRA
ONE SAMPLE T-TEST
Decisão: como p-valor > a, não se rejeita
H0.
Conclusão: não há evidência para garantir
a rejeição da afirmação inicial.
𝑡 =
𝑥 − 𝜇
𝑠
𝑛
=
(144,88 − 150)
25,432
34
= −1,1738
Decision: as p-value > a, we do not reject
H0.
Conclusion: there is no evidence to reject
the original claim.
𝑝 − 𝑣𝑎𝑙𝑜𝑟 = 2 ∗ 𝑐𝑑𝑓. 𝑇 −1.1738,33 = 0,249
TESTE À NORMALIDADE DE SHAPIRO-WILK
NORMALITY TEST– SHAPIRO WILK





 n
i i
n
i i
i
x
x
x
a
W
1
2
2
1
)
(
)
( Valores pequenos de W indicam que a
distribuição não é normal!
Small values of W indicate that the
distribution is not normal
Para garantir as condições de aplicação
de um modelo paramétrico é
necessário testar a normalidade!
The Shapiro Wilk Test is used to verify if the
sample comes from a population with normal
distribution.
Assuming that F0(x) is the distribution function ,
the hypothesis are:
H0: F(x) = N(m, s) H1: F(x) ≠ N(m, s)
To guarantee the conditions of application
of a parametric model it is necessary to test
the normality!
O teste à normalidade é usado para decidir se a
distribuição sob estudo F(x) numa determinado
amostra provém de uma população com uma
distribuição específica F0(x).
Sendo F0(x) a função distribuição em teste (neste
caso a normal) as hipóteses são:
H0: F(x) = N(m, s) H1: F(x) ≠ N(m, s)
Exercício: considere os dados seguintes relativos a preços de um mesmo produto.
1,03 0,94 1,36 0,97 1,43 1,07 1,47 1,13 1,44 1,39 0,88 0,87 0,93 0,99 1,25 1,23 1,12 1,24
1,08 1,17
Teste a afirmação / test the claim: m<1,20 € (a=0,05)
Analisar
Analyse
Estatísticas
Descriptive Statistics
Explorar
Explore
Teste de Shapiro Wilk
H0: F(x) = N(m, s)
H1: F(x) ≠ N(m, s)
Como n ≤ 30 é necessário testar
previamente a normalidade.
As n≤30 it is necessary to test
the normality beforehand.
TESTE T PARA UMA AMOSTRA
ONE SAMPLE T-TEST
Teste de Shapiro Wilk
H0: F(x) = N(m, s)
H1: F(x) ≠ N(m, s)
P-valor=0,242
Decisão: não se rejeita H0.
O teste T para uma
amostra é aplicável.
One sample T-test can
be used.
TESTE À NORMALIDADE NORMALITY TEST
VERIFICAÇÃO DA NORMALIDADE
NORMALITY CHECK
Para a distribuição ser normal, o
histograma deve ter uma forma
aproximadamente normal.
For the distribution to be
normal, the histogram must have
an approximately normal shape.
No boxplot não poderá
existir mais do que 1 único
outlier. The boxplot
cannot have more than 1
outlier.
VERIFICAÇÃO DA NORMALIDADE
NORMALITY CHECK
O gráfico dos quantis normais ou de
probabilidade normal é um gráfico de
dispersão (x,y) em que cada valor de x
corresponde ao conjunto original dos
dados e y ao seu respetivo escore.
The normal quantile or normal
probability plot is a scatter plot (x,y)
where each value of x corresponds to
the original set of data and y to its
respective score.
s
m


x
z
Se a distribuição dos
pontos não se afastar
muito da reta a
distribuição será normal.
If the distribution of the
values does not deviate
too much from the
straight line the
distribution is normal.
Exercício: considere os dados seguintes.
Based on the following data:
1,03 0,94 1,36 0,97 1,43
1,07 1,47 1,13 1,44 1,39
0,88 0,87 0,93 0,99 1,25
1,23 1,12 1,24 1,08 1,17
Teste a afirmação / Test the claim: m<1,20 €
a=0,05)
Analisar
Analize
Comparar Médias
Compare Means
Teste T uma amostra
One simple t-test
160
,
1
20
19471
,
0
)
20
,
1
1495
,
1
(






n
s
x
t
m
SPSS
P-value=cdf.T(-1.160,19)=0.130
H0: m≥1.20
H1: m<1.20 (AI)
Decisão: não rejeita
H0.
Conclusão: não há
evidência para
corroborar a
afirmação inicial
Decision: does
not reject H0.
Conclusion:
there is no
evidence to
corroborate the
original claim
TESTE T PARA UMA AMOSTRA
ONE SAMPLE T-TEST
TIPOS DE TESTES DE HIPÓTESES
TYPES OF TESTS
Paramétricos
Parametrics
Possuem uma
distribuição amostral
conhecida.
They have specific
sampling distributions
Não paramétricos
Non parametrics
São testes livres de
distribuição.
They are free from
distributions
MÉTODOS NÃO PARAMÉTRICOS
NON PARAMETRIC TESTS
Aplicam-se a uma grande variedade de
situações porque não impõe exigências
rígidas como os paramétricos
Podem, em geral, ser aplicados a dados
categóricos (qualitativos nominais)
Envolvem cálculos simples, sendo mais
facilmente entendidos e aplicados
They apply to a wide variety of cases
because it does not impose rigid
requirements such as parametric
They can, in general, be applied to
categorical data (nominal qualitative)
They involve simple calculations, which is
easily understood and applied
Perdem informação, porque os dados
numéricos são convertidos em dados
ordinais.
Não são tão eficientes como os testes
paramétricos, logo necessitam de uma
evidência mais forte (amostras maiores
ou diferenças maiores) para rejeitar a
hipótese nula.
They lose information, because the
numerical data are reduced to ordinal
data.
They are not as efficient as parametric
tests, so they need stronger evidence
(larger samples or larger differences) to
reject the null hypothesis.
MÉTODOS NÃO PARAMÉTRICOS
NON PARAMETRIC METHODS
Os dados são ordenados por ordem crescente
Uma ordem ou posição é um n.º atribuído a um
item amostral individual de acordo com a sua
posição na lista ordenada.
Em caso de empate calcula-se a posição média
dos elementos envolvidos, atribuindo-se essa
ordem a todos os itens empatados.
Rankings:
The data is sorted from lowest to highest or best
for worst.
An order or position is a number assigned to an
individual sample item according to its position
in the sorted list.
In case of a tie in the orders the average position
of the elements involved is found, being
attributed this position to all the items tied.
Dados
Data
Ordens Preliminares
Preliminary ranking
Ranking
4 1 1
5 2 3
5 3 3
5 4 3
10 5 5
11 6 6
12 7 7,5
12 8 7,5
A base de cálculo dos testes não
paramétricos reside nas ordens ou
posições dos valores amostrais.
The basis for calculating non-parametric
tests lies in the orders or positions of
the sample values.
Média 3
Média 7,5
É um teste não paramétrico que usa as
ordens das diferenças entre os pares de
dados.
É usado para testar a hipótese nula de
que as diferenças populacionais dos
pares de dados têm uma mediana nula.
Pode também ser utilizado para testar a
afirmação que uma amostra provém de
uma população com uma mediana
especificada.
REQUISITOS:
Usa pares de dados seleccionados
aleatoriamente
A população “diferença” (encontradas a partir
dos pares de dados) tem uma distribuição
H0: med = a
H1: med ≠ a
REQUIREMENTS
Uses randomly selected data pairs
The “difference” population (found from
the data pairs) has a symmetric
distribution.
It is a nonparametric test that uses the
orders of the differences between the
data pairs.
It is used to test the null hypothesis that
the population differences of the data
pairs have a null median.
It can also be used to test the assertion
that a sample comes from a population
with a specified median.
H0: med ≤ a
H1: med > a
H0: med ≥ a
H1: med < a
TESTES DE WILCOXON
WILCOXON TEST
TESTES DE WILCOXON
WILCOXON TEST
Considere o exemplo
anterior:
Consider the last example:
n=20
Σ Ranking (-) = 135,5
Σ Ranking (+) = 74,5
𝑧 =
𝑇 −
𝑛(𝑛 + 1)
4
𝑛(𝑛 + 1)(2𝑛 + 1)
24
=
74,5 −
20(20 + 1)
4
20(20 + 1)(40 + 1)
24
= −1,139
H0: median ≤ 0
H1: median > 0
Seja a diferença = dados –
mediana
Difference = data-median
Data Median
1,03 1,2
1,07 1,2
0,88 1,2
1,23 1,2
0,94 1,2
1,47 1,2
0,87 1,2
1,12 1,2
1,36 1,2
1,13 1,2
0,93 1,2
1,24 1,2
0,97 1,2
1,44 1,2
0,99 1,2
1,08 1,2
1,43 1,2
1,39 1,2
1,25 1,2
1,17 1,2
Difference Ranking Ranking Signal
-0,17 10 -10
-0,13 8 -8
-0,32 19 -19
0,03 1,5 1,5
-0,26 16 -16
0,27 17,5 17,5
-0,33 20 -20
-0,08 6 -6
0,16 9 9
-0,07 5 -5
-0,27 17,5 -17,5
0,04 3 3
-0,23 13,5 -13,5
0,24 15 15
-0,21 12 -12
-0,12 7 -7
0,23 13,5 13,5
0,19 11 11
0,05 4 4
-0,03 1,5 -1,5
TESTE DE WILCOXON / WILCOXON TEST
Analisar
Analyse
Testes não paramétricos
Nonparametric Tests
Uma amostra
One Sample
Original claim: H1: m<1.20
H0: median≥1.20
H1: median<1.20
Decisão: não rejeita H0.
Conclusão: não há evidência para
corroborar a afirmação inicial
P-value=cdf.Normal(-1.139, 0, 1)=0,1275
Decision: not reject the null hypothesis.
Conclusion: there’s no evidence to
corroborate the original claim

Mais conteúdo relacionado

Semelhante a Análise multivariada de dados

Análise de variância.pptx
Análise de variância.pptxAnálise de variância.pptx
Análise de variância.pptxAndre142201
 
Curso #H4A - Módulo 5
Curso #H4A - Módulo 5Curso #H4A - Módulo 5
Curso #H4A - Módulo 5Mgfamiliar Net
 
Hipóteses e Estimativa do tamanho da amostra (aula 6)
Hipóteses e Estimativa do tamanho da amostra (aula 6)Hipóteses e Estimativa do tamanho da amostra (aula 6)
Hipóteses e Estimativa do tamanho da amostra (aula 6)Sandra Lago Moraes
 
Aula 3 testes de hipóteses e anova
Aula 3   testes de hipóteses e anovaAula 3   testes de hipóteses e anova
Aula 3 testes de hipóteses e anovaRodrigo Rodrigues
 
Monograf01estat nparamt bom amanha
Monograf01estat nparamt bom amanhaMonograf01estat nparamt bom amanha
Monograf01estat nparamt bom amanhaDionisio Ussaca
 
Análise dados lição7_8
Análise dados lição7_8Análise dados lição7_8
Análise dados lição7_8Manuel do Carmo
 
ESTATÍSTICA-BÁSICA-SUMÁRIO-1a-PARTE-REVISADO-2013.pdf
ESTATÍSTICA-BÁSICA-SUMÁRIO-1a-PARTE-REVISADO-2013.pdfESTATÍSTICA-BÁSICA-SUMÁRIO-1a-PARTE-REVISADO-2013.pdf
ESTATÍSTICA-BÁSICA-SUMÁRIO-1a-PARTE-REVISADO-2013.pdfssuserac1de6
 
A escolha do método estatístico profa. dra. lívia maria andaló tenuta (unic...
A escolha do método estatístico   profa. dra. lívia maria andaló tenuta (unic...A escolha do método estatístico   profa. dra. lívia maria andaló tenuta (unic...
A escolha do método estatístico profa. dra. lívia maria andaló tenuta (unic...Jose Carlos Carlos Melo
 
Aula6-TestesdeHipoteses2 (1).pptx
Aula6-TestesdeHipoteses2 (1).pptxAula6-TestesdeHipoteses2 (1).pptx
Aula6-TestesdeHipoteses2 (1).pptxDealthCraft
 
AMD - Aula n.º 3 - duas amostras emparelhadas.pptx
AMD - Aula n.º 3 - duas amostras emparelhadas.pptxAMD - Aula n.º 3 - duas amostras emparelhadas.pptx
AMD - Aula n.º 3 - duas amostras emparelhadas.pptxNunoSilva599593
 

Semelhante a Análise multivariada de dados (20)

Análise de variância.pptx
Análise de variância.pptxAnálise de variância.pptx
Análise de variância.pptx
 
Curso #H4A - Módulo 5
Curso #H4A - Módulo 5Curso #H4A - Módulo 5
Curso #H4A - Módulo 5
 
Teste hipot 2017
Teste hipot 2017Teste hipot 2017
Teste hipot 2017
 
Hipóteses e Estimativa do tamanho da amostra (aula 6)
Hipóteses e Estimativa do tamanho da amostra (aula 6)Hipóteses e Estimativa do tamanho da amostra (aula 6)
Hipóteses e Estimativa do tamanho da amostra (aula 6)
 
Aula 3 testes de hipóteses e anova
Aula 3   testes de hipóteses e anovaAula 3   testes de hipóteses e anova
Aula 3 testes de hipóteses e anova
 
Aula inferencia
Aula inferenciaAula inferencia
Aula inferencia
 
Ipaee capitulo 3_slides_3
Ipaee capitulo 3_slides_3Ipaee capitulo 3_slides_3
Ipaee capitulo 3_slides_3
 
Testes de hipoteses
Testes de hipotesesTestes de hipoteses
Testes de hipoteses
 
Testes de hipóteses
Testes de hipótesesTestes de hipóteses
Testes de hipóteses
 
Monograf01estat nparamt bom amanha
Monograf01estat nparamt bom amanhaMonograf01estat nparamt bom amanha
Monograf01estat nparamt bom amanha
 
Aula 30 testes de hipóteses
Aula 30   testes de hipótesesAula 30   testes de hipóteses
Aula 30 testes de hipóteses
 
Estatística - Aula 6
Estatística - Aula 6Estatística - Aula 6
Estatística - Aula 6
 
Análise dados lição7_8
Análise dados lição7_8Análise dados lição7_8
Análise dados lição7_8
 
ESTATÍSTICA-BÁSICA-SUMÁRIO-1a-PARTE-REVISADO-2013.pdf
ESTATÍSTICA-BÁSICA-SUMÁRIO-1a-PARTE-REVISADO-2013.pdfESTATÍSTICA-BÁSICA-SUMÁRIO-1a-PARTE-REVISADO-2013.pdf
ESTATÍSTICA-BÁSICA-SUMÁRIO-1a-PARTE-REVISADO-2013.pdf
 
Teste hip facil
Teste hip facilTeste hip facil
Teste hip facil
 
Tópico 3 testes de hípoteses - 1 amostra
Tópico 3   testes de hípoteses - 1 amostraTópico 3   testes de hípoteses - 1 amostra
Tópico 3 testes de hípoteses - 1 amostra
 
aula estatistica.ppt
aula estatistica.pptaula estatistica.ppt
aula estatistica.ppt
 
A escolha do método estatístico profa. dra. lívia maria andaló tenuta (unic...
A escolha do método estatístico   profa. dra. lívia maria andaló tenuta (unic...A escolha do método estatístico   profa. dra. lívia maria andaló tenuta (unic...
A escolha do método estatístico profa. dra. lívia maria andaló tenuta (unic...
 
Aula6-TestesdeHipoteses2 (1).pptx
Aula6-TestesdeHipoteses2 (1).pptxAula6-TestesdeHipoteses2 (1).pptx
Aula6-TestesdeHipoteses2 (1).pptx
 
AMD - Aula n.º 3 - duas amostras emparelhadas.pptx
AMD - Aula n.º 3 - duas amostras emparelhadas.pptxAMD - Aula n.º 3 - duas amostras emparelhadas.pptx
AMD - Aula n.º 3 - duas amostras emparelhadas.pptx
 

Mais de NunoSilva599593

AMD - Aula n.º 6 - McNemar, Cochran e Friedman.pptx
AMD - Aula n.º 6 - McNemar, Cochran e Friedman.pptxAMD - Aula n.º 6 - McNemar, Cochran e Friedman.pptx
AMD - Aula n.º 6 - McNemar, Cochran e Friedman.pptxNunoSilva599593
 
AMD - Aula n.º 9 - regressão linear múltipla.pptx
AMD - Aula n.º 9 - regressão linear múltipla.pptxAMD - Aula n.º 9 - regressão linear múltipla.pptx
AMD - Aula n.º 9 - regressão linear múltipla.pptxNunoSilva599593
 
AMD - Aula n.º 10 - reg linear múlt - dummy.pptx
AMD - Aula n.º 10 - reg linear múlt - dummy.pptxAMD - Aula n.º 10 - reg linear múlt - dummy.pptx
AMD - Aula n.º 10 - reg linear múlt - dummy.pptxNunoSilva599593
 
AMD - Aula n.º 8 - regressão linear simples.pptx
AMD - Aula n.º 8 - regressão linear simples.pptxAMD - Aula n.º 8 - regressão linear simples.pptx
AMD - Aula n.º 8 - regressão linear simples.pptxNunoSilva599593
 
AMD - Aula n.º 2 - testes amostras independentes.pptx
AMD - Aula n.º 2 - testes amostras independentes.pptxAMD - Aula n.º 2 - testes amostras independentes.pptx
AMD - Aula n.º 2 - testes amostras independentes.pptxNunoSilva599593
 
AMD - Aula n.º 11 - análise de componentes principais.pptx
AMD - Aula n.º 11 - análise de componentes principais.pptxAMD - Aula n.º 11 - análise de componentes principais.pptx
AMD - Aula n.º 11 - análise de componentes principais.pptxNunoSilva599593
 
AMD - Aula n.º 4 - Anova e Kruskal Wallis.pptx
AMD - Aula n.º 4 - Anova e Kruskal Wallis.pptxAMD - Aula n.º 4 - Anova e Kruskal Wallis.pptx
AMD - Aula n.º 4 - Anova e Kruskal Wallis.pptxNunoSilva599593
 

Mais de NunoSilva599593 (7)

AMD - Aula n.º 6 - McNemar, Cochran e Friedman.pptx
AMD - Aula n.º 6 - McNemar, Cochran e Friedman.pptxAMD - Aula n.º 6 - McNemar, Cochran e Friedman.pptx
AMD - Aula n.º 6 - McNemar, Cochran e Friedman.pptx
 
AMD - Aula n.º 9 - regressão linear múltipla.pptx
AMD - Aula n.º 9 - regressão linear múltipla.pptxAMD - Aula n.º 9 - regressão linear múltipla.pptx
AMD - Aula n.º 9 - regressão linear múltipla.pptx
 
AMD - Aula n.º 10 - reg linear múlt - dummy.pptx
AMD - Aula n.º 10 - reg linear múlt - dummy.pptxAMD - Aula n.º 10 - reg linear múlt - dummy.pptx
AMD - Aula n.º 10 - reg linear múlt - dummy.pptx
 
AMD - Aula n.º 8 - regressão linear simples.pptx
AMD - Aula n.º 8 - regressão linear simples.pptxAMD - Aula n.º 8 - regressão linear simples.pptx
AMD - Aula n.º 8 - regressão linear simples.pptx
 
AMD - Aula n.º 2 - testes amostras independentes.pptx
AMD - Aula n.º 2 - testes amostras independentes.pptxAMD - Aula n.º 2 - testes amostras independentes.pptx
AMD - Aula n.º 2 - testes amostras independentes.pptx
 
AMD - Aula n.º 11 - análise de componentes principais.pptx
AMD - Aula n.º 11 - análise de componentes principais.pptxAMD - Aula n.º 11 - análise de componentes principais.pptx
AMD - Aula n.º 11 - análise de componentes principais.pptx
 
AMD - Aula n.º 4 - Anova e Kruskal Wallis.pptx
AMD - Aula n.º 4 - Anova e Kruskal Wallis.pptxAMD - Aula n.º 4 - Anova e Kruskal Wallis.pptx
AMD - Aula n.º 4 - Anova e Kruskal Wallis.pptx
 

Análise multivariada de dados

  • 1. ANÁLISE MULTIVARIADA DE DADOS MULTIVARIATE ANALYSIS DOCENTE: CARLA OLIVEIRA SILVA
  • 2. ANÁLISE MULTIVARIADA DE DADOS Data Conteúdos Programáticos 16 fev Apresentação. Testes de Hipóteses – conceitos gerais. Testes: à normalidade, T uma amostra e Wilcoxon. 23 fev Teste T amostras independentes e Mann Whitney. 3 mar Testes de hipóteses para duas amostras emparelhadas: T, Wilcoxon e Sinais. 9 mar Testes de hipóteses para 3 ou mais médias / medianas: ANOVA e Kruskal Wallis 16 mar Teste da binomial e testes qui quadrado (homogeneidade, independência, ajustamento) 23 mar Teste de McNemar, teste de Cochran e teste Anova de Friedman. Revisões. 30 mar 1.º momento de avaliação contínua – teste 13 abr Modelo de regressão linear univariada: estimação e inferência 20 abr Validação dos pressupostos do modelo de regressão linear: resíduos e multicolinearidade. 27 abr Modelo de regressão linear multivariado. Variáveis dummy. 4 mai Análise de componentes principais. 18 mai Análise factorial 25 mai Revisões 1 jun 2º momento de avaliação contínua - teste 15 jun 3.º momento de avaliação contínua - defesa dos trabalhos de grupo.
  • 3. ESTATÍSTICA / STATISTICS CRITÉRIOS DE AVALIAÇÃO / ASSESSMENT CRITERIA: Avaliação Contínua / Continuous Assessment o 1.º Teste escrito / 1st written test – 40 % o 2.º Teste escrito / 2nd written test – 40 % o Trabalho de grupo / Team work - 20 % Avaliação Final / Final Assessment o Exame final / exam – 100 % BIBLIOGRAFIA / BIBLIOGRAPHY o Marôco, J. (2021), Análise Estatística com o SPSS Statistics, 8.ª Ed, ReportNumber, Lda o Cumming, Geoff; Calin-Jageman, Robert (2017), Introduction to the new statistics: estimation, open science & beyond, 1st Ed, Routledge o Laureano, R. M. S., Botelho, M. C. (2017), SPSS Statistics - O Meu Manual de Consulta Rápida, 3.ª Ed, Edições Sílabo
  • 4. INSTRUÇÕES PARA O TRABALHO DE GRUPO Recurso de bases de dados de empresas. N.º máximo de elementos do grupo: 4. Tratamento dos dados em SPSS. Apresentação dos resultados em powerpoint ou prezi. Número máximo de diapositivos: 20 Entrega online: na véspera da defesa do trabalho Conteúdos: • Objetivo do trabalho • Síntese da caracterização da amostra • Hipóteses formuladas com base nas conclusões do 1.º trabalho • Tratamento dos resultados: testes de hipóteses, regressões, etc. • Conclusão (listagem de todas as conclusões de todos os testes de hipóteses) • Bibliografia Nota: o plágio de qualquer trabalho ou parte deste resulta na exclusão, dos alunos em causa, do regime de avaliação contínua.
  • 5. TESTES DE HIPÓTESES / HYPOTHESIS TESTS Regra do Acontecimento Raro HIPÓTESE É uma afirmação sobre uma propriedade de uma população TESTE DE HIPÓTESE É um procedimento padrão para se testar uma afirmação sobre uma propriedade da população HIPÓTESES As canetas da XPTO apresentam uma taxa de defeitos de 0,05 A marca Y afirma que o modelo de carros Z faz consumos médios de 4,7 l/100km em cidade Rare Event Rule Se, sob uma determinada suposição, a probabilidade de um acontecimento observado particular é excecionalmente pequena, concluímos que a suposição, provavelmente não é correta. If the probability of a event is exceptionally small, we suppose that the claim is not correct HYPOTHESES: is a claim about a population characteristic. HYPOTHESES TEST: is a standard procedure to test a claim about a population characteristic) HYPOTHESES: XPTO pen’s shows a rate of defects of 0,05 Brand Y claims that Z model of X cars spends 4,7 l/100 km.
  • 6. TESTE DE HIPÓTESES / HYPOTHESIS TEST  Hipótese Nula / null hypothesis – H0: É uma afirmação de que o valor de um parâmetro populacional (como proporção, média ou desvio padrão) é igual a algum valor especificado. Is a claim which associates a parameter to a specified value. H0: p=0,05 H0: p>0,05 H0: p<0,05 H0: m=4,7 H1: m>4,7 H1: m<4,7 H0: s=2,3 H1: s>2,3 H1: s<2,3 Testa-se a hipótese nula partindo do princípio que ela é verdadeira e avalia-se se se deve rejeitar ou não a hipótese nula. The null hypothesis is tested assuming that it is true, and then it is analysed if it must or must not be rejected.  Hipótese Alternativa / alternative hypothesis - H1: É a afirmação de que o parâmetro difere da hipótese nula / is the reverse claim of H0. H1: p≠0,05 H1: p<0,05 H1: p>0,05 H1: m ≠4,7 H1: m<4,7 H1: m>4,7 H1: s ≠2,3 H1: s<2,3 H1: s>2,3
  • 7. COMPONENTES DE UM TESTE DE HIPÓTESE COMPONENTS OF A HYPOTHESIS TEST  Considere o seguinte exemplo: um arguido é levado a julgamento. Presume-se que é inocente até prova em contrário.  Testa-se a hipótese nula (H0) partindo do princípio que é verdadeira: inicia- se o julgamento admitindo a inocência do arguido.  H0: arguido = inocente  Verifica-se se se deve ou não rejeitar a hipótese nula: durante o julgamento deverá ser feita prova de culpa para se rejeitar a H0.  H1: arguido ≠ inocente  A defendant is taken to court. It is assumed that he is innocent until proven guilty.  Null hypothesis is tested supposing that is true.  H0: arguido (defendant) = inocente (innocent)  Check whether or not to reject the null hypothesis: during the trial, proof of guilt must be provided to reject the null hypothesis, or to assume the alternative hypothesis to be true  H1: defendant ≠ innocent
  • 8. TIPOS DE ERRO NOS TESTES DE HIPÓTESE ERRORS IN HYPOTHESIS Situação Real / Real situation H0 é VERDADEIRA – o arguido é inocente H0 is true - the defendant is innocent H0 é FALSA - o arguido é culpado H0 is false – the defendant is guilty Decisão / Decision Rejeita-se H0 H0 is rejected. H0: arguido (defendant) = inocente (innocent) ERRO TIPO I (foi culpado um inocente) a (error type I – an innocent has been considered guilty) Decisão Correta Correct decision Não se rejeita H0. H0 is not rejected. H0: arguido (defendant) = inocente Decisão Correta Correct decision ERRO TIPO II (foi ilibado um culpado) b (a guilty person was considered not guilty) Nota importante: quando se decide não rejeitar a hipótese nula não significa que se prove que o arguido (defendant) é inocente, significa antes que não foi feita prova de que o arguido (defendant) era culpado. Por essa razão não se pode utilizar o termo “aceitar a hipótese nula” (it never can be said that the null hypothesis is accepted, but rather that is rejected
  • 9. CONTROLO DOS ERROS ERROR CONTROL Erro Tipo I - rejeitar uma H0 verdadeira a - probabilidade de cometer um erro tipo I Erro Tipo II – não rejeitar uma H0 falsa b - probabilidade de cometer um erro tipo II Situação ideal: reduzir ambos os erros a ZERO! a, b e o tamanho da amostra, n, estão inter-relacionados de tal modo que definindo dois deles o terceiro fica automaticamente determinado. a, b and sample size, n, are inter- related so defining two of them the third is automatically determined. Type I Error –to reject a true H0 a - probability of making an Type I Error Type II Error–not to reject a false H0 b - probability of making and Type II Error The ideal scenario was to eliminate both errors!
  • 10. CONTROLO DE ERROS ERRORS CONTROL Para a fixo, um aumento do tamanho da amostra n provoca uma redução do b. Uma amostra maior reduz a probabilidade de não rejeitar a hipótese nula falsa. Para um tamanho de amostra, n, fixo, uma diminuição de a acarreta um aumento de b. Um aumento de a acarreta uma diminuição de b. Para reduzir a e b deve-se aumentar o tamanho da amostra. Para a definição da dimensão da amostra, n, há que ter em conta os custos associados e o tempo To a fixed a, the increase of sample size results in a decrease of b. A larger sample reduces the likelihood of not to reject a false H0. To a specified n, decreasing a an increase of b. The increase of a reduces b. To reduce both a and b the sample size must be increased. To define sample size n, is necessary to evaluate costs and time spent.
  • 11. TESTES DE HIPÓTESES HYPOTHESIS TESTS Existem dois grandes tipos de testes de hipóteses Paramétricos: uma média e duas médias (amostras independentes e emparelhadas), variância Não Paramétricos Mediana, proporções Um teste de hipóteses requer • Afirmação inicial • H0 (hipótese nula • H1 (hipótese alternativa • Nível de significância a - erro máximo admissível do tipo I • Estatística do teste e respetivo p-valor • Decisão • Conclusão There are two kinds of hypothesis tests: Parametric – one and two means (independent and paired samples), variance Non parametric – median, proportions An hypothesis test will requires: • Original claim • H0 null hypothesis • H1 alternative hypothesis • Significance level a – maximum type I error allowed) • Test statistic and respective p-value • Decision • Conclusion
  • 12. Is the value that comes from sample and that allows to make a decision about null hypothesis. Ex proportion: Ex mean: Ex variance: ESTATÍSTICA DO TESTE TEST STATISTIC É um valor que se obtém a partir dos dados amostrais e que permite tomar a decisão de rejeitar ou não a hipótese nula. Ex para a proporção: Ex para a média: Ex para a variância: 𝑧 = 𝑝 − 𝑝 𝑝𝑞 𝑛 𝑡 = 𝑥 − 𝜇 𝑠 𝑛 2 2 2 ) 1 ( s s n    A estatística do teste permite calcular o p-valor. The test statistic allows to calculate p-value.
  • 13. TESTES DE HIPÓTESES: CONCEITOS Região Crítica (ou de rejeição) É o conjunto de todos os valores de estatística do teste que nos fazem rejeitar a H0. Valor Crítico É o valor que separa a região crítica da não crítica. Nível de significância (a) É a probabilidade da estatística do teste cair na região crítica quando a hipótese nula for realmente verdadeira Se a estatística do teste cair na região crítica rejeita-se a hipótese nula Se a estatística do teste não cair na região crítica, não se rejeita a hipótese nula. Teste Bilateral Two sided test Teste Unilateral Esquerdo Left sided test Teste Unilateral Direito Right sided test Critical area Is the area in which the test statistic must be rejected. Critical Value Is the value which splits critical and non critical region Significance level (a) is the probability of having the test statistic at the critical region, when H0 is really true. If test statistics is at the critical region, H0 must be rejected. If test statistics is not at the critical region, H0 must not be rejected.
  • 14. P-valor: é a probabilidade associada a uma estatística do teste P-value: is the probability associated to a test statistic.
  • 15. Compara-se o p-valor com o a (nível de significância). Quando p-valor é maior do que a não se rejeita H0. Se p-valor é menor ou igual a a, rejeita-se H0. We compare p-value and a (significance level). When p-value is bigger than a, H0 is not rejected. When p-value is smaller or equal to a, H0 is rejected.
  • 16. Teste Paramétrico / Parametric Test Teste Não Paramétrico Teste T uma amostra / One sample T test 1 variável quantitativa H0: m=a ou m≤a ou m≥a H1: m≠a ou m>a ou m<a Wilcoxon (h=0,95) 1 variável quantitativa ou 1 var. qualitativa ordinal H0: mediana=a ou mediana≤a ou mediana≥a H1: mediana≠a ou mediana>a ou mediana<a Teste T amostras Indep / 2 indep. Samples 1 var quantit + 1 var qualit. nom H0: m1=m2 ou m1≤m2 ou m1≥m2 H1: m1≠m2 ou m1>m2 ou m1<m2 Mann Whitney (h=0,95) 1 var quantit. /qual. ordin + 1 var qualit. nom H0: med1=med2 ou med1≤med2 ou med1≥med2 H1: med1≠med2 ou med1>med2 ou med1<med2 Teste T amostras empar / 2 pair samples 2 var quantitativas H0: md=0 ou md≤0 ou md≥0 H1: md≠0 ou md>0 ou md<0 Wilcoxon (h=0,95) / Signals (h=0,63) 2 quant ou 2 qualit ordin. H0: medd=0 ou medd≤0 ou medd≥0 H1: medd≠0 ou medd>0 ou medd<0 ANOVA Analysis of Variance 1 var quantit + 1 var qualit. nom H0: m1=m2=m3 H1: pelo menos uma m é ≠ Kruskal-Wallis (h=0,95) 1 var quantit. /qual. ordin + 1 var qualit. nom H0: med1=med2=med3 H1: pelo menos uma mediana é ≠ Dizer que um teste tem uma eficiência de 0,95 ou de 95% significa que só em 95% dos casos em que um teste T rejeitaria H0 é que o seu equivalente não paramétrico a rejeita.
  • 17. FLUXOGRAMA PARA TESTE DE UMA MÉDIA: ONE SAMPLE T TEST FLOWCHART: Uma amostra - média One sample - mean N>30? Shapiro Wilk F(x)=N(m,s)? Sim / Yes Não / No Teste Wilcoxon Wilcoxon test Sim / Yes P-valor>a Não / No P-valor<a Teste T uma média One Sample T-Test
  • 18. Considere os seguintes dados relativos ao número de passageiros por voo: Teste a afirmação: o número médio de passageiros é 150 (a=0,05). • H0: m=150 (afirmação inicial) • H1: m≠150 • Valores críticos (ta/2): -2,0345 e 2,0345 Analisar Analize Comparar Médias Compare Means Teste T uma amostra One sample t-test Consider the following data on the number of passengers per flight. Test the claim: the mean of passengers per flght is 150 (a=0,05). • H0: m=150 (original claim) • H1: m≠150 • Critical values (ta/2): -2,0345 e 2,0345 112 118 132 129 121 135 148 148 136 119 104 118 115 126 141 135 162 125 149 170 170 158 133 114 140 145 150 178 163 172 178 199 199 184 𝑡 = 𝑥 − 𝜇 𝑠 𝑛 = (144,88 − 150) 25,432 34 = −1,1738 Test Statistic TESTE T PARA UMA AMOSTRA ONE SAMPLE T-TEST
  • 19. TESTE T PARA UMA AMOSTRA ONE SAMPLE T-TEST Decisão: como p-valor > a, não se rejeita H0. Conclusão: não há evidência para garantir a rejeição da afirmação inicial. 𝑡 = 𝑥 − 𝜇 𝑠 𝑛 = (144,88 − 150) 25,432 34 = −1,1738 Decision: as p-value > a, we do not reject H0. Conclusion: there is no evidence to reject the original claim. 𝑝 − 𝑣𝑎𝑙𝑜𝑟 = 2 ∗ 𝑐𝑑𝑓. 𝑇 −1.1738,33 = 0,249
  • 20. TESTE À NORMALIDADE DE SHAPIRO-WILK NORMALITY TEST– SHAPIRO WILK       n i i n i i i x x x a W 1 2 2 1 ) ( ) ( Valores pequenos de W indicam que a distribuição não é normal! Small values of W indicate that the distribution is not normal Para garantir as condições de aplicação de um modelo paramétrico é necessário testar a normalidade! The Shapiro Wilk Test is used to verify if the sample comes from a population with normal distribution. Assuming that F0(x) is the distribution function , the hypothesis are: H0: F(x) = N(m, s) H1: F(x) ≠ N(m, s) To guarantee the conditions of application of a parametric model it is necessary to test the normality! O teste à normalidade é usado para decidir se a distribuição sob estudo F(x) numa determinado amostra provém de uma população com uma distribuição específica F0(x). Sendo F0(x) a função distribuição em teste (neste caso a normal) as hipóteses são: H0: F(x) = N(m, s) H1: F(x) ≠ N(m, s)
  • 21. Exercício: considere os dados seguintes relativos a preços de um mesmo produto. 1,03 0,94 1,36 0,97 1,43 1,07 1,47 1,13 1,44 1,39 0,88 0,87 0,93 0,99 1,25 1,23 1,12 1,24 1,08 1,17 Teste a afirmação / test the claim: m<1,20 € (a=0,05) Analisar Analyse Estatísticas Descriptive Statistics Explorar Explore Teste de Shapiro Wilk H0: F(x) = N(m, s) H1: F(x) ≠ N(m, s) Como n ≤ 30 é necessário testar previamente a normalidade. As n≤30 it is necessary to test the normality beforehand. TESTE T PARA UMA AMOSTRA ONE SAMPLE T-TEST
  • 22. Teste de Shapiro Wilk H0: F(x) = N(m, s) H1: F(x) ≠ N(m, s) P-valor=0,242 Decisão: não se rejeita H0. O teste T para uma amostra é aplicável. One sample T-test can be used. TESTE À NORMALIDADE NORMALITY TEST
  • 23. VERIFICAÇÃO DA NORMALIDADE NORMALITY CHECK Para a distribuição ser normal, o histograma deve ter uma forma aproximadamente normal. For the distribution to be normal, the histogram must have an approximately normal shape. No boxplot não poderá existir mais do que 1 único outlier. The boxplot cannot have more than 1 outlier.
  • 24. VERIFICAÇÃO DA NORMALIDADE NORMALITY CHECK O gráfico dos quantis normais ou de probabilidade normal é um gráfico de dispersão (x,y) em que cada valor de x corresponde ao conjunto original dos dados e y ao seu respetivo escore. The normal quantile or normal probability plot is a scatter plot (x,y) where each value of x corresponds to the original set of data and y to its respective score. s m   x z Se a distribuição dos pontos não se afastar muito da reta a distribuição será normal. If the distribution of the values does not deviate too much from the straight line the distribution is normal.
  • 25. Exercício: considere os dados seguintes. Based on the following data: 1,03 0,94 1,36 0,97 1,43 1,07 1,47 1,13 1,44 1,39 0,88 0,87 0,93 0,99 1,25 1,23 1,12 1,24 1,08 1,17 Teste a afirmação / Test the claim: m<1,20 € a=0,05) Analisar Analize Comparar Médias Compare Means Teste T uma amostra One simple t-test 160 , 1 20 19471 , 0 ) 20 , 1 1495 , 1 (       n s x t m SPSS P-value=cdf.T(-1.160,19)=0.130 H0: m≥1.20 H1: m<1.20 (AI) Decisão: não rejeita H0. Conclusão: não há evidência para corroborar a afirmação inicial Decision: does not reject H0. Conclusion: there is no evidence to corroborate the original claim TESTE T PARA UMA AMOSTRA ONE SAMPLE T-TEST
  • 26. TIPOS DE TESTES DE HIPÓTESES TYPES OF TESTS Paramétricos Parametrics Possuem uma distribuição amostral conhecida. They have specific sampling distributions Não paramétricos Non parametrics São testes livres de distribuição. They are free from distributions
  • 27. MÉTODOS NÃO PARAMÉTRICOS NON PARAMETRIC TESTS Aplicam-se a uma grande variedade de situações porque não impõe exigências rígidas como os paramétricos Podem, em geral, ser aplicados a dados categóricos (qualitativos nominais) Envolvem cálculos simples, sendo mais facilmente entendidos e aplicados They apply to a wide variety of cases because it does not impose rigid requirements such as parametric They can, in general, be applied to categorical data (nominal qualitative) They involve simple calculations, which is easily understood and applied Perdem informação, porque os dados numéricos são convertidos em dados ordinais. Não são tão eficientes como os testes paramétricos, logo necessitam de uma evidência mais forte (amostras maiores ou diferenças maiores) para rejeitar a hipótese nula. They lose information, because the numerical data are reduced to ordinal data. They are not as efficient as parametric tests, so they need stronger evidence (larger samples or larger differences) to reject the null hypothesis.
  • 28. MÉTODOS NÃO PARAMÉTRICOS NON PARAMETRIC METHODS Os dados são ordenados por ordem crescente Uma ordem ou posição é um n.º atribuído a um item amostral individual de acordo com a sua posição na lista ordenada. Em caso de empate calcula-se a posição média dos elementos envolvidos, atribuindo-se essa ordem a todos os itens empatados. Rankings: The data is sorted from lowest to highest or best for worst. An order or position is a number assigned to an individual sample item according to its position in the sorted list. In case of a tie in the orders the average position of the elements involved is found, being attributed this position to all the items tied. Dados Data Ordens Preliminares Preliminary ranking Ranking 4 1 1 5 2 3 5 3 3 5 4 3 10 5 5 11 6 6 12 7 7,5 12 8 7,5 A base de cálculo dos testes não paramétricos reside nas ordens ou posições dos valores amostrais. The basis for calculating non-parametric tests lies in the orders or positions of the sample values. Média 3 Média 7,5
  • 29. É um teste não paramétrico que usa as ordens das diferenças entre os pares de dados. É usado para testar a hipótese nula de que as diferenças populacionais dos pares de dados têm uma mediana nula. Pode também ser utilizado para testar a afirmação que uma amostra provém de uma população com uma mediana especificada. REQUISITOS: Usa pares de dados seleccionados aleatoriamente A população “diferença” (encontradas a partir dos pares de dados) tem uma distribuição H0: med = a H1: med ≠ a REQUIREMENTS Uses randomly selected data pairs The “difference” population (found from the data pairs) has a symmetric distribution. It is a nonparametric test that uses the orders of the differences between the data pairs. It is used to test the null hypothesis that the population differences of the data pairs have a null median. It can also be used to test the assertion that a sample comes from a population with a specified median. H0: med ≤ a H1: med > a H0: med ≥ a H1: med < a TESTES DE WILCOXON WILCOXON TEST
  • 30. TESTES DE WILCOXON WILCOXON TEST Considere o exemplo anterior: Consider the last example: n=20 Σ Ranking (-) = 135,5 Σ Ranking (+) = 74,5 𝑧 = 𝑇 − 𝑛(𝑛 + 1) 4 𝑛(𝑛 + 1)(2𝑛 + 1) 24 = 74,5 − 20(20 + 1) 4 20(20 + 1)(40 + 1) 24 = −1,139 H0: median ≤ 0 H1: median > 0 Seja a diferença = dados – mediana Difference = data-median Data Median 1,03 1,2 1,07 1,2 0,88 1,2 1,23 1,2 0,94 1,2 1,47 1,2 0,87 1,2 1,12 1,2 1,36 1,2 1,13 1,2 0,93 1,2 1,24 1,2 0,97 1,2 1,44 1,2 0,99 1,2 1,08 1,2 1,43 1,2 1,39 1,2 1,25 1,2 1,17 1,2 Difference Ranking Ranking Signal -0,17 10 -10 -0,13 8 -8 -0,32 19 -19 0,03 1,5 1,5 -0,26 16 -16 0,27 17,5 17,5 -0,33 20 -20 -0,08 6 -6 0,16 9 9 -0,07 5 -5 -0,27 17,5 -17,5 0,04 3 3 -0,23 13,5 -13,5 0,24 15 15 -0,21 12 -12 -0,12 7 -7 0,23 13,5 13,5 0,19 11 11 0,05 4 4 -0,03 1,5 -1,5
  • 31. TESTE DE WILCOXON / WILCOXON TEST Analisar Analyse Testes não paramétricos Nonparametric Tests Uma amostra One Sample Original claim: H1: m<1.20 H0: median≥1.20 H1: median<1.20 Decisão: não rejeita H0. Conclusão: não há evidência para corroborar a afirmação inicial P-value=cdf.Normal(-1.139, 0, 1)=0,1275 Decision: not reject the null hypothesis. Conclusion: there’s no evidence to corroborate the original claim