2. ANÁLISE MULTIVARIADA DE DADOS
Data Conteúdos Programáticos
16 fev
Apresentação. Testes de Hipóteses – conceitos gerais. Testes: à normalidade, T uma amostra e
Wilcoxon.
23 fev Teste T amostras independentes e Mann Whitney.
3 mar Testes de hipóteses para duas amostras emparelhadas: T, Wilcoxon e Sinais.
9 mar Testes de hipóteses para 3 ou mais médias / medianas: ANOVA e Kruskal Wallis
16 mar Teste da binomial e testes qui quadrado (homogeneidade, independência, ajustamento)
23 mar Teste de McNemar, teste de Cochran e teste Anova de Friedman. Revisões.
30 mar 1.º momento de avaliação contínua – teste
13 abr Modelo de regressão linear univariada: estimação e inferência
20 abr Validação dos pressupostos do modelo de regressão linear: resíduos e multicolinearidade.
27 abr Modelo de regressão linear multivariado. Variáveis dummy.
4 mai Análise de componentes principais.
18 mai Análise factorial
25 mai Revisões
1 jun 2º momento de avaliação contínua - teste
15 jun 3.º momento de avaliação contínua - defesa dos trabalhos de grupo.
3. ESTATÍSTICA / STATISTICS
CRITÉRIOS DE AVALIAÇÃO /
ASSESSMENT CRITERIA:
Avaliação Contínua /
Continuous Assessment
o 1.º Teste escrito / 1st
written test – 40 %
o 2.º Teste escrito / 2nd
written test – 40 %
o Trabalho de grupo / Team
work - 20 %
Avaliação Final / Final
Assessment
o Exame final / exam – 100
%
BIBLIOGRAFIA / BIBLIOGRAPHY
o Marôco, J. (2021), Análise Estatística com
o SPSS Statistics, 8.ª Ed, ReportNumber,
Lda
o Cumming, Geoff; Calin-Jageman, Robert
(2017), Introduction to the new statistics:
estimation, open science & beyond, 1st
Ed, Routledge
o Laureano, R. M. S., Botelho, M. C. (2017),
SPSS Statistics - O Meu Manual de
Consulta Rápida, 3.ª Ed, Edições Sílabo
4. INSTRUÇÕES PARA O TRABALHO DE GRUPO
Recurso de bases de dados de
empresas.
N.º máximo de elementos do grupo: 4.
Tratamento dos dados em SPSS.
Apresentação dos resultados em
powerpoint ou prezi.
Número máximo de diapositivos: 20
Entrega online: na véspera da defesa
do trabalho
Conteúdos:
• Objetivo do trabalho
• Síntese da caracterização
da amostra
• Hipóteses formuladas com
base nas conclusões do 1.º
trabalho
• Tratamento dos resultados:
testes de hipóteses,
regressões, etc.
• Conclusão (listagem de
todas as conclusões de
todos os testes de
hipóteses)
• Bibliografia
Nota: o plágio de qualquer trabalho ou parte deste resulta na exclusão, dos alunos
em causa, do regime de avaliação contínua.
5. TESTES DE HIPÓTESES / HYPOTHESIS TESTS
Regra do
Acontecimento
Raro
HIPÓTESE
É uma afirmação sobre uma propriedade de
uma população
TESTE DE HIPÓTESE
É um procedimento padrão para se testar
uma afirmação sobre uma propriedade da
população
HIPÓTESES
As canetas da XPTO apresentam uma taxa
de defeitos de 0,05
A marca Y afirma que o modelo de carros Z
faz consumos médios de 4,7 l/100km em
cidade
Rare Event Rule
Se, sob uma determinada suposição, a probabilidade de um
acontecimento observado particular é excecionalmente
pequena, concluímos que a suposição, provavelmente não é
correta.
If the probability of a event is exceptionally small, we
suppose that the claim is not correct
HYPOTHESES:
is a claim about a population
characteristic.
HYPOTHESES TEST:
is a standard procedure to test a claim
about a population characteristic)
HYPOTHESES:
XPTO pen’s shows a rate of defects of
0,05
Brand Y claims that Z model of X cars
spends 4,7 l/100 km.
6. TESTE DE HIPÓTESES / HYPOTHESIS TEST
Hipótese Nula / null hypothesis – H0:
É uma afirmação de que o valor de um parâmetro populacional (como proporção,
média ou desvio padrão) é igual a algum valor especificado. Is a claim which
associates a parameter to a specified value.
H0: p=0,05 H0: p>0,05 H0: p<0,05
H0: m=4,7 H1: m>4,7 H1: m<4,7
H0: s=2,3 H1: s>2,3 H1: s<2,3
Testa-se a hipótese nula partindo do princípio que ela é verdadeira e avalia-se se se
deve rejeitar ou não a hipótese nula. The null hypothesis is tested assuming that it is
true, and then it is analysed if it must or must not be rejected.
Hipótese Alternativa / alternative hypothesis - H1:
É a afirmação de que o parâmetro difere da hipótese nula / is the reverse claim of H0.
H1: p≠0,05 H1: p<0,05 H1: p>0,05
H1: m ≠4,7 H1: m<4,7 H1: m>4,7
H1: s ≠2,3 H1: s<2,3 H1: s>2,3
7. COMPONENTES DE UM TESTE DE HIPÓTESE
COMPONENTS OF A HYPOTHESIS TEST
Considere o seguinte exemplo: um
arguido é levado a julgamento.
Presume-se que é inocente até prova
em contrário.
Testa-se a hipótese nula (H0) partindo
do princípio que é verdadeira: inicia-
se o julgamento admitindo a
inocência do arguido.
H0: arguido = inocente
Verifica-se se se deve ou não rejeitar
a hipótese nula: durante o julgamento
deverá ser feita prova de culpa para
se rejeitar a H0.
H1: arguido ≠ inocente
A defendant is taken to court. It is
assumed that he is innocent until
proven guilty.
Null hypothesis is tested supposing
that is true.
H0: arguido (defendant) =
inocente (innocent)
Check whether or not to reject the
null hypothesis: during the trial,
proof of guilt must be provided to
reject the null hypothesis, or to
assume the alternative hypothesis
to be true
H1: defendant ≠ innocent
8. TIPOS DE ERRO NOS TESTES DE HIPÓTESE
ERRORS IN HYPOTHESIS
Situação Real / Real situation
H0 é VERDADEIRA –
o arguido é inocente
H0 is true - the
defendant is innocent
H0 é FALSA - o arguido
é culpado
H0 is false – the
defendant is guilty
Decisão /
Decision
Rejeita-se H0
H0 is rejected.
H0: arguido (defendant) =
inocente (innocent)
ERRO TIPO I (foi
culpado um inocente)
a (error type I – an
innocent has been
considered guilty)
Decisão Correta
Correct decision
Não se rejeita H0.
H0 is not rejected.
H0: arguido (defendant) =
inocente
Decisão Correta
Correct decision
ERRO TIPO II (foi
ilibado um culpado) b
(a guilty person was
considered not guilty)
Nota importante: quando se decide não rejeitar a hipótese nula não significa que se prove que o
arguido (defendant) é inocente, significa antes que não foi feita prova de que o arguido
(defendant) era culpado. Por essa razão não se pode utilizar o termo “aceitar a hipótese
nula” (it never can be said that the null hypothesis is accepted, but rather that is rejected
9. CONTROLO DOS ERROS
ERROR CONTROL
Erro Tipo I - rejeitar uma H0 verdadeira
a - probabilidade de cometer um erro
tipo I
Erro Tipo II – não rejeitar uma H0 falsa
b - probabilidade de cometer um erro
tipo II
Situação ideal: reduzir ambos os erros
a ZERO!
a, b e o tamanho da amostra, n, estão
inter-relacionados de tal modo que
definindo dois deles o terceiro fica
automaticamente determinado.
a, b and sample size, n, are inter-
related so defining two of them the
third is automatically determined.
Type I Error –to reject a true H0
a - probability of making an Type I
Error
Type II Error–not to reject a false H0
b - probability of making and Type II
Error
The ideal scenario was to eliminate
both errors!
10. CONTROLO DE ERROS
ERRORS CONTROL
Para a fixo, um aumento do tamanho
da amostra n provoca uma redução
do b.
Uma amostra maior reduz a
probabilidade de não rejeitar a
hipótese nula falsa.
Para um tamanho de amostra, n, fixo,
uma diminuição de a acarreta um
aumento de b. Um aumento de a
acarreta uma diminuição de b.
Para reduzir a e b deve-se aumentar o
tamanho da amostra.
Para a definição da dimensão da
amostra, n, há que ter em conta os
custos associados e o tempo
To a fixed a, the increase of sample
size results in a decrease of b.
A larger sample reduces the
likelihood of not to reject a false H0.
To a specified n, decreasing a an
increase of b. The increase of a
reduces b.
To reduce both a and b the sample
size must be increased.
To define sample size n, is
necessary to evaluate costs and
time spent.
11. TESTES DE HIPÓTESES
HYPOTHESIS TESTS
Existem dois grandes tipos de testes de
hipóteses
Paramétricos: uma média e duas
médias (amostras independentes e
emparelhadas), variância
Não Paramétricos Mediana,
proporções
Um teste de hipóteses requer
• Afirmação inicial
• H0 (hipótese nula
• H1 (hipótese alternativa
• Nível de significância a - erro máximo
admissível do tipo I
• Estatística do teste e respetivo p-valor
• Decisão
• Conclusão
There are two kinds of hypothesis
tests:
Parametric – one and two means
(independent and paired samples),
variance
Non parametric – median,
proportions
An hypothesis test will requires:
• Original claim
• H0 null hypothesis
• H1 alternative hypothesis
• Significance level a – maximum type I
error allowed)
• Test statistic and respective p-value
• Decision
• Conclusion
12. Is the value that comes from sample
and that allows to make a decision
about null hypothesis.
Ex proportion:
Ex mean:
Ex variance:
ESTATÍSTICA DO TESTE
TEST STATISTIC
É um valor que se obtém a partir dos
dados amostrais e que permite tomar
a decisão de rejeitar ou não a hipótese
nula.
Ex para a proporção:
Ex para a média:
Ex para a variância:
𝑧 =
𝑝 − 𝑝
𝑝𝑞
𝑛
𝑡 =
𝑥 − 𝜇
𝑠
𝑛
2
2
2 )
1
(
s
s
n
A estatística do teste permite calcular o p-valor.
The test statistic allows to calculate p-value.
13. TESTES DE HIPÓTESES: CONCEITOS
Região Crítica (ou de rejeição)
É o conjunto de todos os valores de
estatística do teste que nos fazem rejeitar a
H0.
Valor Crítico
É o valor que separa a região crítica da não
crítica.
Nível de significância (a)
É a probabilidade da estatística do teste cair
na região crítica quando a hipótese nula for
realmente verdadeira
Se a estatística do teste cair na região crítica
rejeita-se a hipótese nula
Se a estatística do teste não cair na região
crítica, não se rejeita a hipótese nula.
Teste Bilateral
Two sided test
Teste Unilateral Esquerdo
Left sided test
Teste Unilateral Direito
Right sided test
Critical area
Is the area in which the test statistic must be
rejected.
Critical Value
Is the value which splits critical and non
critical region
Significance level (a)
is the probability of having the test statistic
at the critical region, when H0 is really true.
If test statistics is at the critical region, H0
must be rejected.
If test statistics is not at the critical region,
H0 must not be rejected.
14. P-valor: é a probabilidade associada a uma estatística do teste
P-value: is the probability associated to a test statistic.
15. Compara-se o p-valor com o a (nível de
significância).
Quando p-valor é maior do que a não se rejeita
H0.
Se p-valor é menor ou igual a a, rejeita-se H0.
We compare p-value and a (significance level).
When p-value is bigger than a, H0 is not
rejected.
When p-value is smaller or equal to a, H0 is
rejected.
16. Teste Paramétrico / Parametric Test Teste Não Paramétrico
Teste T uma amostra / One sample T test
1 variável quantitativa
H0: m=a ou m≤a ou m≥a
H1: m≠a ou m>a ou m<a
Wilcoxon (h=0,95)
1 variável quantitativa ou 1 var. qualitativa
ordinal
H0: mediana=a ou mediana≤a ou mediana≥a
H1: mediana≠a ou mediana>a ou mediana<a
Teste T amostras Indep / 2 indep. Samples
1 var quantit + 1 var qualit. nom
H0: m1=m2 ou m1≤m2 ou m1≥m2
H1: m1≠m2 ou m1>m2 ou m1<m2
Mann Whitney (h=0,95)
1 var quantit. /qual. ordin + 1 var qualit. nom
H0: med1=med2 ou med1≤med2 ou
med1≥med2
H1: med1≠med2 ou med1>med2 ou
med1<med2
Teste T amostras empar / 2 pair samples
2 var quantitativas
H0: md=0 ou md≤0 ou md≥0
H1: md≠0 ou md>0 ou md<0
Wilcoxon (h=0,95) / Signals (h=0,63)
2 quant ou 2 qualit ordin.
H0: medd=0 ou medd≤0 ou medd≥0
H1: medd≠0 ou medd>0 ou medd<0
ANOVA Analysis of Variance
1 var quantit + 1 var qualit. nom
H0: m1=m2=m3
H1: pelo menos uma m é ≠
Kruskal-Wallis (h=0,95)
1 var quantit. /qual. ordin + 1 var qualit. nom
H0: med1=med2=med3
H1: pelo menos uma mediana é ≠
Dizer que um teste tem uma eficiência de 0,95 ou de 95% significa que só em 95% dos
casos em que um teste T rejeitaria H0 é que o seu equivalente não paramétrico a rejeita.
17. FLUXOGRAMA PARA TESTE DE UMA MÉDIA:
ONE SAMPLE T TEST FLOWCHART:
Uma amostra - média
One sample - mean
N>30?
Shapiro Wilk
F(x)=N(m,s)?
Sim / Yes
Não / No
Teste Wilcoxon
Wilcoxon test
Sim / Yes
P-valor>a
Não / No
P-valor<a
Teste T uma média
One Sample T-Test
18. Considere os seguintes dados relativos ao
número de passageiros por voo:
Teste a afirmação: o número médio de
passageiros é 150 (a=0,05).
• H0: m=150 (afirmação inicial)
• H1: m≠150
• Valores críticos (ta/2): -2,0345 e 2,0345
Analisar
Analize
Comparar Médias
Compare Means
Teste T uma amostra
One sample t-test
Consider the following data on the number
of passengers per flight.
Test the claim: the mean of passengers per
flght is 150 (a=0,05).
• H0: m=150 (original claim)
• H1: m≠150
• Critical values (ta/2): -2,0345 e 2,0345
112 118 132 129 121 135 148 148 136 119 104 118 115 126 141 135 162
125 149 170 170 158 133 114 140 145 150 178 163 172 178 199 199 184
𝑡 =
𝑥 − 𝜇
𝑠
𝑛
=
(144,88 − 150)
25,432
34
= −1,1738
Test Statistic
TESTE T PARA UMA AMOSTRA
ONE SAMPLE T-TEST
19. TESTE T PARA UMA AMOSTRA
ONE SAMPLE T-TEST
Decisão: como p-valor > a, não se rejeita
H0.
Conclusão: não há evidência para garantir
a rejeição da afirmação inicial.
𝑡 =
𝑥 − 𝜇
𝑠
𝑛
=
(144,88 − 150)
25,432
34
= −1,1738
Decision: as p-value > a, we do not reject
H0.
Conclusion: there is no evidence to reject
the original claim.
𝑝 − 𝑣𝑎𝑙𝑜𝑟 = 2 ∗ 𝑐𝑑𝑓. 𝑇 −1.1738,33 = 0,249
20. TESTE À NORMALIDADE DE SHAPIRO-WILK
NORMALITY TEST– SHAPIRO WILK
n
i i
n
i i
i
x
x
x
a
W
1
2
2
1
)
(
)
( Valores pequenos de W indicam que a
distribuição não é normal!
Small values of W indicate that the
distribution is not normal
Para garantir as condições de aplicação
de um modelo paramétrico é
necessário testar a normalidade!
The Shapiro Wilk Test is used to verify if the
sample comes from a population with normal
distribution.
Assuming that F0(x) is the distribution function ,
the hypothesis are:
H0: F(x) = N(m, s) H1: F(x) ≠ N(m, s)
To guarantee the conditions of application
of a parametric model it is necessary to test
the normality!
O teste à normalidade é usado para decidir se a
distribuição sob estudo F(x) numa determinado
amostra provém de uma população com uma
distribuição específica F0(x).
Sendo F0(x) a função distribuição em teste (neste
caso a normal) as hipóteses são:
H0: F(x) = N(m, s) H1: F(x) ≠ N(m, s)
21. Exercício: considere os dados seguintes relativos a preços de um mesmo produto.
1,03 0,94 1,36 0,97 1,43 1,07 1,47 1,13 1,44 1,39 0,88 0,87 0,93 0,99 1,25 1,23 1,12 1,24
1,08 1,17
Teste a afirmação / test the claim: m<1,20 € (a=0,05)
Analisar
Analyse
Estatísticas
Descriptive Statistics
Explorar
Explore
Teste de Shapiro Wilk
H0: F(x) = N(m, s)
H1: F(x) ≠ N(m, s)
Como n ≤ 30 é necessário testar
previamente a normalidade.
As n≤30 it is necessary to test
the normality beforehand.
TESTE T PARA UMA AMOSTRA
ONE SAMPLE T-TEST
22. Teste de Shapiro Wilk
H0: F(x) = N(m, s)
H1: F(x) ≠ N(m, s)
P-valor=0,242
Decisão: não se rejeita H0.
O teste T para uma
amostra é aplicável.
One sample T-test can
be used.
TESTE À NORMALIDADE NORMALITY TEST
23. VERIFICAÇÃO DA NORMALIDADE
NORMALITY CHECK
Para a distribuição ser normal, o
histograma deve ter uma forma
aproximadamente normal.
For the distribution to be
normal, the histogram must have
an approximately normal shape.
No boxplot não poderá
existir mais do que 1 único
outlier. The boxplot
cannot have more than 1
outlier.
24. VERIFICAÇÃO DA NORMALIDADE
NORMALITY CHECK
O gráfico dos quantis normais ou de
probabilidade normal é um gráfico de
dispersão (x,y) em que cada valor de x
corresponde ao conjunto original dos
dados e y ao seu respetivo escore.
The normal quantile or normal
probability plot is a scatter plot (x,y)
where each value of x corresponds to
the original set of data and y to its
respective score.
s
m
x
z
Se a distribuição dos
pontos não se afastar
muito da reta a
distribuição será normal.
If the distribution of the
values does not deviate
too much from the
straight line the
distribution is normal.
25. Exercício: considere os dados seguintes.
Based on the following data:
1,03 0,94 1,36 0,97 1,43
1,07 1,47 1,13 1,44 1,39
0,88 0,87 0,93 0,99 1,25
1,23 1,12 1,24 1,08 1,17
Teste a afirmação / Test the claim: m<1,20 €
a=0,05)
Analisar
Analize
Comparar Médias
Compare Means
Teste T uma amostra
One simple t-test
160
,
1
20
19471
,
0
)
20
,
1
1495
,
1
(
n
s
x
t
m
SPSS
P-value=cdf.T(-1.160,19)=0.130
H0: m≥1.20
H1: m<1.20 (AI)
Decisão: não rejeita
H0.
Conclusão: não há
evidência para
corroborar a
afirmação inicial
Decision: does
not reject H0.
Conclusion:
there is no
evidence to
corroborate the
original claim
TESTE T PARA UMA AMOSTRA
ONE SAMPLE T-TEST
26. TIPOS DE TESTES DE HIPÓTESES
TYPES OF TESTS
Paramétricos
Parametrics
Possuem uma
distribuição amostral
conhecida.
They have specific
sampling distributions
Não paramétricos
Non parametrics
São testes livres de
distribuição.
They are free from
distributions
27. MÉTODOS NÃO PARAMÉTRICOS
NON PARAMETRIC TESTS
Aplicam-se a uma grande variedade de
situações porque não impõe exigências
rígidas como os paramétricos
Podem, em geral, ser aplicados a dados
categóricos (qualitativos nominais)
Envolvem cálculos simples, sendo mais
facilmente entendidos e aplicados
They apply to a wide variety of cases
because it does not impose rigid
requirements such as parametric
They can, in general, be applied to
categorical data (nominal qualitative)
They involve simple calculations, which is
easily understood and applied
Perdem informação, porque os dados
numéricos são convertidos em dados
ordinais.
Não são tão eficientes como os testes
paramétricos, logo necessitam de uma
evidência mais forte (amostras maiores
ou diferenças maiores) para rejeitar a
hipótese nula.
They lose information, because the
numerical data are reduced to ordinal
data.
They are not as efficient as parametric
tests, so they need stronger evidence
(larger samples or larger differences) to
reject the null hypothesis.
28. MÉTODOS NÃO PARAMÉTRICOS
NON PARAMETRIC METHODS
Os dados são ordenados por ordem crescente
Uma ordem ou posição é um n.º atribuído a um
item amostral individual de acordo com a sua
posição na lista ordenada.
Em caso de empate calcula-se a posição média
dos elementos envolvidos, atribuindo-se essa
ordem a todos os itens empatados.
Rankings:
The data is sorted from lowest to highest or best
for worst.
An order or position is a number assigned to an
individual sample item according to its position
in the sorted list.
In case of a tie in the orders the average position
of the elements involved is found, being
attributed this position to all the items tied.
Dados
Data
Ordens Preliminares
Preliminary ranking
Ranking
4 1 1
5 2 3
5 3 3
5 4 3
10 5 5
11 6 6
12 7 7,5
12 8 7,5
A base de cálculo dos testes não
paramétricos reside nas ordens ou
posições dos valores amostrais.
The basis for calculating non-parametric
tests lies in the orders or positions of
the sample values.
Média 3
Média 7,5
29. É um teste não paramétrico que usa as
ordens das diferenças entre os pares de
dados.
É usado para testar a hipótese nula de
que as diferenças populacionais dos
pares de dados têm uma mediana nula.
Pode também ser utilizado para testar a
afirmação que uma amostra provém de
uma população com uma mediana
especificada.
REQUISITOS:
Usa pares de dados seleccionados
aleatoriamente
A população “diferença” (encontradas a partir
dos pares de dados) tem uma distribuição
H0: med = a
H1: med ≠ a
REQUIREMENTS
Uses randomly selected data pairs
The “difference” population (found from
the data pairs) has a symmetric
distribution.
It is a nonparametric test that uses the
orders of the differences between the
data pairs.
It is used to test the null hypothesis that
the population differences of the data
pairs have a null median.
It can also be used to test the assertion
that a sample comes from a population
with a specified median.
H0: med ≤ a
H1: med > a
H0: med ≥ a
H1: med < a
TESTES DE WILCOXON
WILCOXON TEST
31. TESTE DE WILCOXON / WILCOXON TEST
Analisar
Analyse
Testes não paramétricos
Nonparametric Tests
Uma amostra
One Sample
Original claim: H1: m<1.20
H0: median≥1.20
H1: median<1.20
Decisão: não rejeita H0.
Conclusão: não há evidência para
corroborar a afirmação inicial
P-value=cdf.Normal(-1.139, 0, 1)=0,1275
Decision: not reject the null hypothesis.
Conclusion: there’s no evidence to
corroborate the original claim