SlideShare uma empresa Scribd logo
1 de 28
Baixar para ler offline
Dep. Matemática
Escola Superior de
Tecnologia de Viseu
OUTLIERS
Conceitos básicos
Tratamento Estatístico de Dados
1
Outliers: O que são?
• As observações que apresentam um grande afastamento das restantes ou
são inconsistentes com elas são habitualmente designadas por outliers.
• Estas observações são também designadas por observações “anormais”,
contaminantes, estranhas, extremas ou aberrantes.
Dep. Matemática
Escola Superior de
Tecnologia de Viseu
OUTLIERS
Conceitos básicos
Tratamento Estatístico de Dados
2
Outliers: O que fazer com este tipo de observações?
• A preocupação com observações outliers é antiga e data das primeiras
tentativas de analisar um conjunto de dados. Inicialmente pensava-se que a
melhor forma de lidar com este tipo de observações seria através da sua
eliminação da análise.
• As opiniões não eram unânimes: uns defendiam a rejeição das observações
“inconsistentes com as restantes”, enquanto outros afirmavam que as
observações nunca deveriam ser rejeitadas simplesmente por parecerem
inconsistentes com os restantes dados e que todas as observações deviam
contribuir com igual peso para o resultado final.
Dep. Matemática
Escola Superior de
Tecnologia de Viseu
OUTLIERS
Conceitos básicos
Tratamento Estatístico de Dados
3
Outliers: Causas do seu aparecimento.
Antes de decidir o que deverá ser feito às observações outliers é conveniente
ter conhecimento das causas que levam ao seu aparecimento. Em muitos
casos as razões da sua existência determinam as formas como devem ser
tratadas. Assim, as principais causas que levam ao aparecimento de outliers
são:
• Erros de medição;
• Erros de execução;
• Variabilidade inerente dos elementos da população.
Dep. Matemática
Escola Superior de
Tecnologia de Viseu
OUTLIERS
Conceitos básicos
Tratamento Estatístico de Dados
4
Outliers: Aplicação Práticas.
• Detecção de fraudes.
• Comportamento de gastos de consumidores.
• Em análises médicas (resultados não esperados de tratamentos).
• Pesquisa farmacêutica.
• Marketing.
• Etc.
Dep. Matemática
Escola Superior de
Tecnologia de Viseu
OUTLIERS
Conceitos básicos
Tratamento Estatístico de Dados
5
Outliers: Estudo.
O estudo de outliers, independentemente da(s) sua(s) causa(s), pode ser
realizado em várias fases:
• A fase inicial é a da identificação das observações que são potencialmente
aberrantes. A identificação de outliers consiste na detecção, com métodos
subjectivos, das observações surpreendentes. A identificação é feita,
geralmente, por análise gráfica ou, no caso de um número de dados ser
pequeno, por observação directa dos mesmos. São assim identificadas as
observações que têm fortes possibilidades de virem a ser designadas por
outliers.
Dep. Matemática
Escola Superior de
Tecnologia de Viseu
OUTLIERS
Conceitos básicos
Tratamento Estatístico de Dados
6
• Na segunda fase, tem-se como objectivo a eliminação da subjectividade
inerente à fase anterior. Pretende-se saber se as observações identificadas
como outliers potenciais o são, efectivamente. São efectuados testes à ou
às observações “preocupantes”. Devem ser escolhidos os testes mais
adequados para a situação em estudo. As observações suspeitas são
testadas quanto à sua discordância. Se for aceite a hipótese de algumas
observações serem outliers, elas podem ser designadas como
discordantes. Uma observação diz-se discordante se puder considerar-se
inconsistente com os restantes valores depois da aplicação de um critério
estatístico objectivo. Muitas vezes o termo discordante é usado como
sinónimo de outlier.
Dep. Matemática
Escola Superior de
Tecnologia de Viseu
OUTLIERS
Conceitos básicos
Tratamento Estatístico de Dados
7
• Na última fase é necessário decidir o que fazer com as observações
discordantes. A maneira mais simples de lidar com essas observações é
eliminá-las. Como já foi dito, esta abordagem, apesar de ser muito utilizada,
não é aconselhável. Ela só se justifica no caso de os outliers serem devidos
a erros cuja correcção é inviável. Caso contrário, as observações
consideradas como outliers devem ser tratadas cuidadosamente pois
contêm informação relevante sobre características subjacentes aos dados e
poderão ser decisivas no conhecimento da população à qual pertence a
amostra em estudo.
Dep. Matemática
Escola Superior de
Tecnologia de Viseu
OUTLIERS
Conceitos básicos
Tratamento Estatístico de Dados
8
Outliers: Métodos de identificação.
• Gráfico de Box
• Modelos de discordância
• Teste de Dixon
• Teste de Grubbs
• Z-scores
• etc
Dep. Matemática
Escola Superior de
Tecnologia de Viseu
OUTLIERS
Conceitos básicos
Tratamento Estatístico de Dados
9
Gráfico de Box-Plot
O gráfico de Box é construído da seguinte forma:
• Calcula-se a mediana, o quartil inferior (Q1) e o quartil superior (Q3);
• Subtrai-se o quartil superior do quartil inferior = (L)
• Os valores que estiverem no intervalo de Q3+1,5L e Q3+3L e no intervalo
Q1-1,5L e Q1-3L, serão considerados outliers podendo, portanto ser aceitos
na população com alguma suspeita;
• Os valores que forem maiores que Q3+3L e menores que Q1-3L devem ser
considerados suspeitos de pertencer à população, devendo ser investigada
a origem da dispersão. Estes pontos são chamados de extremos.
Dep. Matemática
Escola Superior de
Tecnologia de Viseu
OUTLIERS
Conceitos básicos
Tratamento Estatístico de Dados
10
Moroco, J. (2003), Análise Estatística de dados – com utilização do SPSS, Edições Sílabo, Lisboa, pág. 36
Dep. Matemática
Escola Superior de
Tecnologia de Viseu
OUTLIERS
Conceitos básicos
Tratamento Estatístico de Dados
11
Modelos de discordância:
Num modelo de discordância considera-se que num dado conjunto de dados,
se existirem observações aberrantes elas têm distribuição diferente das
restantes observações ou distribuições idênticas mas com parâmetros
diferentes.
H0: a amostra foi retirada de uma população com distribuição específica que
pode ou não ser conhecida e ser especificada completamente ou não, e onde
não existem observações “anormais”
H1: todas as observações ou apenas as “anormais” têm distribuição diferente
da da hipótese nula.
Dep. Matemática
Escola Superior de
Tecnologia de Viseu
OUTLIERS
Conceitos básicos
Tratamento Estatístico de Dados
12
A hipótese nula será rejeitada a favor da hipótese alternativa se existirem
observações aberrantes.
Para decidir pela aceitação ou rejeição da hipótese nula, da não existência de
outliers é necessário utilizar testes de discordância que tenham distribuição
desconhecida ou valores críticos tabelados. Na utilização de testes formais de
outliers deve ter-se em conta que eles dividem-se em duas classes:
• aqueles em que as observações discordantes da amostra são identificadas
como sendo outliers, e
• aqueles que testam a presença de outliers mas não identificam
Dep. Matemática
Escola Superior de
Tecnologia de Viseu
OUTLIERS
Conceitos básicos
Tratamento Estatístico de Dados
13
observações particulares.
Dep. Matemática
Escola Superior de
Tecnologia de Viseu
OUTLIERS
Conceitos básicos
Tratamento Estatístico de Dados
14
Teste de Dixon
• Distribuição normal; teste bilateral.
• Ordenar os valores de forma crescente de “1” a “H”.
• Supor a hipótese de que o menor valor, 1, ou o maior valor, H, são
suspeitos como valores outliers.
Dep. Matemática
Escola Superior de
Tecnologia de Viseu
OUTLIERS
Conceitos básicos
Tratamento Estatístico de Dados
15
• Critérios :
Extremo Inferior Extremo superior
- n=3 a 7
- n=8 a 12
- n > 13
( ) ( )
( ) ( )
2 1
1
z z
D
z H z
−
=
−
( ) ( )
( ) ( )
1
1
z H z H
D
z H z
− −
=
−
( ) ( )
( ) ( )
2 1
1 1
z z
Q
z H z
−
=
− −
( ) ( )
( ) ( )
1
2
z H z H
D
z H z
− −
=
−
( ) ( )
( ) ( )
3 1
2 1
z z
D
z H z
−
=
− −
( ) ( )
( ) ( )
2
3
z H z H
D
z H z
− −
=
−
Dep. Matemática
Escola Superior de
Tecnologia de Viseu
OUTLIERS
Conceitos básicos
Tratamento Estatístico de Dados
16
• Se D > valor crítico, temos a presença de um outlier.
n Valor crítico de D para P=0,05
3 0,970
4 0,829
5 0,710
6 0,628
7 0,569
8 0,608
9 0,504
10 0,530
11 0,502
12 0,479
13 0,611
14 0,589
Dep. Matemática
Escola Superior de
Tecnologia de Viseu
OUTLIERS
Conceitos básicos
Tratamento Estatístico de Dados
17
Teste de Grubbs
• Distribuição normal;
• Calcular desvio di de cada ponto em relação à média
• Calcular o desvio-padrão s
• Calcular G=di/s
• Um valor é considerado como outlier quando G é maior do que o valor
crítico correspondente na tabela.
x xiG
s
−
=
d x xi i= −
Dep. Matemática
Escola Superior de
Tecnologia de Viseu
OUTLIERS
Conceitos básicos
Tratamento Estatístico de Dados
18
n Gcrit 95 %
3 1,154
4 1,481
5 1,715
6 1,887
7 2,020
8 2,127
9 2,215
10 2,290
11 2,355
12 2,412
14 2,507
16 2,586
18 2,652
20 2,708
50 3,128
Dep. Matemática
Escola Superior de
Tecnologia de Viseu
OUTLIERS
Conceitos básicos
Tratamento Estatístico de Dados
19
Z-Scores
• Calcular os z-scores, isto é, os valores z-standardizados dos dados.
• Se o conjunto dos dados é pequeno (inferior a 50), valores que tenham z-
scores inferiores a -2.5 ou superiores a 2.5 devem ser considerados
outliers.
• Se o conjunto dos dados é grande, valores que tenham z-socres inferiores a
-3.3 ou superiores a 3.3 são tipicamente considerados outliers.
• Se o conjunto dos dados é muito grande (1000 ou mais), também valores
mais extremos do que +-3.3 podem ser considerados dados normais e não
outliers.
Dep. Matemática
Escola Superior de
Tecnologia de Viseu
OUTLIERS
Conceitos básicos
Tratamento Estatístico de Dados
20
Exemplo:
Olhemos para este conjunto de 10 observações:
Observação X Y
1 111 68
2 92 46
3 90 50
4 107 59
5 98 50
6 150 66
7 118 54
8 110 51
9 117 59
10 94 97
Dep. Matemática
Escola Superior de
Tecnologia de Viseu
OUTLIERS
Conceitos básicos
Tratamento Estatístico de Dados
21
Utilizando a técnica dos Z – Scores a observação 5 da variável X é um outlier, o
mesmo acontece para a observação 10 da variável Y.
Observação z-score de X z-score de Y
1 0.129702456075883 0.5388159060803247
2 -0.9417526158553188 -0.9429278356405683
3 -1.05453736026913 -0.6735198826004059
4 -0.09586703275173845 -0.06735198826004059
5 -0.6033983826138867 -0.6735198826004059
6 2.329004972145192 0.4041119295602435
7 0.5244490615242204 -0.4041119295602435
8 0.0733100838689776 -0.6061678943403653
9 0.4680566893173151 -0.06735198826004059
10 -0.8289678714415081 2.492023565621502
Dep. Matemática
Escola Superior de
Tecnologia de Viseu
OUTLIERS
Conceitos básicos
Tratamento Estatístico de Dados
22
É possível detectar os outliers usando histogramas e box-plots:
Histograma de X
Dep. Matemática
Escola Superior de
Tecnologia de Viseu
OUTLIERS
Conceitos básicos
Tratamento Estatístico de Dados
23
Box – Plot de Y
Dep. Matemática
Escola Superior de
Tecnologia de Viseu
OUTLIERS
Conceitos básicos
Tratamento Estatístico de Dados
24
Para aplicar o Teste de Dixon à variável X é necessário ordenar os valores por
ordem crescente: 90, 92, 94, 98, 107, 110, 111, 117, 118, 150. O último valor é
suspeito com outlier. Como temos n=10 observações, calculemos
D = (150-118) / (150 – 92) = 0.5517
Da tabela apresentada anteriormente para o teste de Dixon, para uma amostra
de tamanho 10, o valor crítico de D é igual a 0.530 (para p=0.05). Como o valor
de D excede esse valor, a observação suspeita é efectivamente um outlier.
Dep. Matemática
Escola Superior de
Tecnologia de Viseu
OUTLIERS
Conceitos básicos
Tratamento Estatístico de Dados
25
Da tabela apresentada anteriormente para o teste de Grubbs, para uma
amostra de tamanho 10, o valor crítico de G é igual a 2.290 (para p=0.05).
Como o valor de G, para a observação 97, excede esse valor, a observação é
um outlier.
Yi di G
68 8 0,54
46 14 0,94
50 10 0,67
59 1 0,07
50 10 0,67
66 6 0,4
54 6 0,4
51 9 0,61
59 1 0,07 Média = 60
97 37 2,49 Desvio padrão = 14.8474
Dep. Matemática
Escola Superior de
Tecnologia de Viseu
OUTLIERS
Conceitos básicos
Tratamento Estatístico de Dados
26
Exercícios:
1.Os valores seguintes referem-se às concentrações de nitrito numa amostra
de água de um rio: 0.403, 0.410, 0.401 e 0.380. A última observação é
suspeita: deverá ser considerada um outlier?
2. Os dados que se seguem referem-se à precipitação (em mm) caída num
determinada cidade durante 5 meses: 53.5, 61.5, 62.3, 64.9, 40.6. Algum
dos valores referidos anteriormente pode ser considerado um outlier?
3. Os valores seguintes referem-se à produção de trigo: 12.0, 12.4, 13.0, 11.8,
14.0, 12.8, 14.0, 13.5, 12.6, 13.0, 12.6, 12.7. Algum dos valores referidos
anteriormente pode ser considerado um outlier?
Dep. Matemática
Escola Superior de
Tecnologia de Viseu
OUTLIERS
Conceitos básicos
Tratamento Estatístico de Dados
27
4. Considere os seguintes tempos de hemodiálise (em meses) em 14 doentes
transplantados: 51, 24, 55, 75, 24, 27, 22, 23, 48, 18, 96, 24, 26 e 35.
Verifique se alguma destas observações pode ser considerada um outlier.
Dep. Matemática
Escola Superior de
Tecnologia de Viseu
OUTLIERS
Conceitos básicos
Tratamento Estatístico de Dados
28
Bibliografia
• Figueira, M.M.C, Identificação de Outliers, MILLENIUM nº12 – Outubro de
1998.
• Morel P., Validação e Incerteza na Medição Analítica, Ministério da Saúde,
ANVISA / GGLAS
http://www.anvisa.gov.br/reblas/cursos_gglas/validacao_incertezas_pierre_2.pdf
• Andrade, E.A. e Robin J., Seminário - Mineração de Exceções
www.cin.ufpe.br/~compint/aulas-IAS/kdd-012/Outliers.ppt
• Miler, J.C. e Miler, J.N. (1988), Statistics for Analytical Chemistry – second
edition, John Wiley & Sons, New York, Chichester, Brisbane, Toronto.

Mais conteúdo relacionado

Mais procurados

Aula 6 probabilidade condicional
Aula 6   probabilidade condicionalAula 6   probabilidade condicional
Aula 6 probabilidade condicionalAriel Rennó Chaves
 
Estatística fácil #1 - Classificação de Variáveis
Estatística fácil #1 - Classificação de VariáveisEstatística fácil #1 - Classificação de Variáveis
Estatística fácil #1 - Classificação de VariáveisAnselmo Alves de Sousa
 
Equações do 1º grau ppt
Equações do 1º grau pptEquações do 1º grau ppt
Equações do 1º grau pptktorz
 
Relações Métricas no Triângulo Retângulo
Relações Métricas no Triângulo Retângulo Relações Métricas no Triângulo Retângulo
Relações Métricas no Triângulo Retângulo Gabriela Maretti
 
Resolução comentada de exercícios de química analítica.docx
Resolução comentada de exercícios de química analítica.docxResolução comentada de exercícios de química analítica.docx
Resolução comentada de exercícios de química analítica.docxRômulo Alexandrino Silva
 
Curvas de nível
Curvas de nívelCurvas de nível
Curvas de nívelfernando-tn
 
Função do 2º grau
Função do 2º grauFunção do 2º grau
Função do 2º grauleilamaluf
 

Mais procurados (20)

Conjuntos numéricos
Conjuntos numéricosConjuntos numéricos
Conjuntos numéricos
 
Equações
EquaçõesEquações
Equações
 
Aula 6 probabilidade condicional
Aula 6   probabilidade condicionalAula 6   probabilidade condicional
Aula 6 probabilidade condicional
 
Relatório ii calor de neutralização
Relatório ii calor de neutralizaçãoRelatório ii calor de neutralização
Relatório ii calor de neutralização
 
Estatística fácil #1 - Classificação de Variáveis
Estatística fácil #1 - Classificação de VariáveisEstatística fácil #1 - Classificação de Variáveis
Estatística fácil #1 - Classificação de Variáveis
 
Slide de termoquímica
Slide de termoquímicaSlide de termoquímica
Slide de termoquímica
 
Equações do 1º grau ppt
Equações do 1º grau pptEquações do 1º grau ppt
Equações do 1º grau ppt
 
Aei parte-1-_matematica_financeira
Aei  parte-1-_matematica_financeiraAei  parte-1-_matematica_financeira
Aei parte-1-_matematica_financeira
 
Sistemas lineares
Sistemas linearesSistemas lineares
Sistemas lineares
 
Teste chama 2014
Teste chama 2014Teste chama 2014
Teste chama 2014
 
Slides de estatística aplicada
Slides de estatística aplicadaSlides de estatística aplicada
Slides de estatística aplicada
 
Relações Métricas no Triângulo Retângulo
Relações Métricas no Triângulo Retângulo Relações Métricas no Triângulo Retângulo
Relações Métricas no Triângulo Retângulo
 
Testes de hipóteses
Testes de hipótesesTestes de hipóteses
Testes de hipóteses
 
Probabilidade
ProbabilidadeProbabilidade
Probabilidade
 
Aula 1 Probabilidade Introdução
Aula 1 Probabilidade IntroduçãoAula 1 Probabilidade Introdução
Aula 1 Probabilidade Introdução
 
Exercicios resolvidos
Exercicios resolvidosExercicios resolvidos
Exercicios resolvidos
 
Resolução comentada de exercícios de química analítica.docx
Resolução comentada de exercícios de química analítica.docxResolução comentada de exercícios de química analítica.docx
Resolução comentada de exercícios de química analítica.docx
 
Curvas de nível
Curvas de nívelCurvas de nível
Curvas de nível
 
Aula 05 derivadas - conceitos iniciais
Aula 05   derivadas - conceitos iniciaisAula 05   derivadas - conceitos iniciais
Aula 05 derivadas - conceitos iniciais
 
Função do 2º grau
Função do 2º grauFunção do 2º grau
Função do 2º grau
 

Semelhante a Análise de outliers

Estatística - Manoel Fonseca Costa.ppt
Estatística - Manoel Fonseca Costa.pptEstatística - Manoel Fonseca Costa.ppt
Estatística - Manoel Fonseca Costa.pptAngeloRicardo16
 
Fundamentos da bioestatística
Fundamentos da bioestatísticaFundamentos da bioestatística
Fundamentos da bioestatísticaJuliano van Melis
 
Pesquisa Quantitativa: aspectos teóricos e computacionais
Pesquisa Quantitativa: aspectos teóricos e computacionaisPesquisa Quantitativa: aspectos teóricos e computacionais
Pesquisa Quantitativa: aspectos teóricos e computacionaisRodrigo Rodrigues
 
Estatística e Probabilidade 9 - Distribuição Normal e Outliers
Estatística e Probabilidade 9 - Distribuição Normal e OutliersEstatística e Probabilidade 9 - Distribuição Normal e Outliers
Estatística e Probabilidade 9 - Distribuição Normal e OutliersRanilson Paiva
 
Estatística completa
Estatística completaEstatística completa
Estatística completaRonne Seles
 
Estatística aplicada à gestão de recursos humanos
Estatística aplicada  à gestão de recursos humanosEstatística aplicada  à gestão de recursos humanos
Estatística aplicada à gestão de recursos humanosaurelio2machado
 
Medidas de dispersão AULA 1 EXPERIMENTACAO.pptx
Medidas de dispersão AULA 1 EXPERIMENTACAO.pptxMedidas de dispersão AULA 1 EXPERIMENTACAO.pptx
Medidas de dispersão AULA 1 EXPERIMENTACAO.pptxPatriciaFerreiradaSi9
 
Método quantitativo-finalizado- slides
Método quantitativo-finalizado- slidesMétodo quantitativo-finalizado- slides
Método quantitativo-finalizado- slidesEmanuele Chaia
 
Análise de variância.pptx
Análise de variância.pptxAnálise de variância.pptx
Análise de variância.pptxAndre142201
 
Hipóteses e Estimativa do tamanho da amostra (aula 6)
Hipóteses e Estimativa do tamanho da amostra (aula 6)Hipóteses e Estimativa do tamanho da amostra (aula 6)
Hipóteses e Estimativa do tamanho da amostra (aula 6)Sandra Lago Moraes
 
Teste de hipóteses - paramétricos
Teste de hipóteses - paramétricosTeste de hipóteses - paramétricos
Teste de hipóteses - paramétricosRodrigo Rodrigues
 
Aula 3 testes de hipóteses e anova
Aula 3   testes de hipóteses e anovaAula 3   testes de hipóteses e anova
Aula 3 testes de hipóteses e anovaRodrigo Rodrigues
 
Teste de hipoteses
Teste de hipotesesTeste de hipoteses
Teste de hipoteseshenrique2016
 
Apostila estatística psicologia vol 1 2007
Apostila estatística psicologia vol 1 2007Apostila estatística psicologia vol 1 2007
Apostila estatística psicologia vol 1 2007smpgiacobbo
 
Apostila estatística psicologia vol 1 2007
Apostila estatística psicologia vol 1 2007Apostila estatística psicologia vol 1 2007
Apostila estatística psicologia vol 1 2007smpgiacobbo
 

Semelhante a Análise de outliers (20)

Estatística - Manoel Fonseca Costa.ppt
Estatística - Manoel Fonseca Costa.pptEstatística - Manoel Fonseca Costa.ppt
Estatística - Manoel Fonseca Costa.ppt
 
MetQuantI_Aula1.pptx
MetQuantI_Aula1.pptxMetQuantI_Aula1.pptx
MetQuantI_Aula1.pptx
 
MetQuantI_Aula1 (1).pptx
MetQuantI_Aula1 (1).pptxMetQuantI_Aula1 (1).pptx
MetQuantI_Aula1 (1).pptx
 
Fundamentos da bioestatística
Fundamentos da bioestatísticaFundamentos da bioestatística
Fundamentos da bioestatística
 
Pesquisa Quantitativa: aspectos teóricos e computacionais
Pesquisa Quantitativa: aspectos teóricos e computacionaisPesquisa Quantitativa: aspectos teóricos e computacionais
Pesquisa Quantitativa: aspectos teóricos e computacionais
 
Bioestatística
BioestatísticaBioestatística
Bioestatística
 
Estatística e Probabilidade 9 - Distribuição Normal e Outliers
Estatística e Probabilidade 9 - Distribuição Normal e OutliersEstatística e Probabilidade 9 - Distribuição Normal e Outliers
Estatística e Probabilidade 9 - Distribuição Normal e Outliers
 
Apostila estatistica-ufmg
Apostila estatistica-ufmgApostila estatistica-ufmg
Apostila estatistica-ufmg
 
Estatística completa
Estatística completaEstatística completa
Estatística completa
 
Estatística aplicada à gestão de recursos humanos
Estatística aplicada  à gestão de recursos humanosEstatística aplicada  à gestão de recursos humanos
Estatística aplicada à gestão de recursos humanos
 
Medidas de dispersão AULA 1 EXPERIMENTACAO.pptx
Medidas de dispersão AULA 1 EXPERIMENTACAO.pptxMedidas de dispersão AULA 1 EXPERIMENTACAO.pptx
Medidas de dispersão AULA 1 EXPERIMENTACAO.pptx
 
Método quantitativo-finalizado- slides
Método quantitativo-finalizado- slidesMétodo quantitativo-finalizado- slides
Método quantitativo-finalizado- slides
 
Análise de variância.pptx
Análise de variância.pptxAnálise de variância.pptx
Análise de variância.pptx
 
Estatistica1
Estatistica1Estatistica1
Estatistica1
 
Hipóteses e Estimativa do tamanho da amostra (aula 6)
Hipóteses e Estimativa do tamanho da amostra (aula 6)Hipóteses e Estimativa do tamanho da amostra (aula 6)
Hipóteses e Estimativa do tamanho da amostra (aula 6)
 
Teste de hipóteses - paramétricos
Teste de hipóteses - paramétricosTeste de hipóteses - paramétricos
Teste de hipóteses - paramétricos
 
Aula 3 testes de hipóteses e anova
Aula 3   testes de hipóteses e anovaAula 3   testes de hipóteses e anova
Aula 3 testes de hipóteses e anova
 
Teste de hipoteses
Teste de hipotesesTeste de hipoteses
Teste de hipoteses
 
Apostila estatística psicologia vol 1 2007
Apostila estatística psicologia vol 1 2007Apostila estatística psicologia vol 1 2007
Apostila estatística psicologia vol 1 2007
 
Apostila estatística psicologia vol 1 2007
Apostila estatística psicologia vol 1 2007Apostila estatística psicologia vol 1 2007
Apostila estatística psicologia vol 1 2007
 

Análise de outliers

  • 1. Dep. Matemática Escola Superior de Tecnologia de Viseu OUTLIERS Conceitos básicos Tratamento Estatístico de Dados 1 Outliers: O que são? • As observações que apresentam um grande afastamento das restantes ou são inconsistentes com elas são habitualmente designadas por outliers. • Estas observações são também designadas por observações “anormais”, contaminantes, estranhas, extremas ou aberrantes.
  • 2. Dep. Matemática Escola Superior de Tecnologia de Viseu OUTLIERS Conceitos básicos Tratamento Estatístico de Dados 2 Outliers: O que fazer com este tipo de observações? • A preocupação com observações outliers é antiga e data das primeiras tentativas de analisar um conjunto de dados. Inicialmente pensava-se que a melhor forma de lidar com este tipo de observações seria através da sua eliminação da análise. • As opiniões não eram unânimes: uns defendiam a rejeição das observações “inconsistentes com as restantes”, enquanto outros afirmavam que as observações nunca deveriam ser rejeitadas simplesmente por parecerem inconsistentes com os restantes dados e que todas as observações deviam contribuir com igual peso para o resultado final.
  • 3. Dep. Matemática Escola Superior de Tecnologia de Viseu OUTLIERS Conceitos básicos Tratamento Estatístico de Dados 3 Outliers: Causas do seu aparecimento. Antes de decidir o que deverá ser feito às observações outliers é conveniente ter conhecimento das causas que levam ao seu aparecimento. Em muitos casos as razões da sua existência determinam as formas como devem ser tratadas. Assim, as principais causas que levam ao aparecimento de outliers são: • Erros de medição; • Erros de execução; • Variabilidade inerente dos elementos da população.
  • 4. Dep. Matemática Escola Superior de Tecnologia de Viseu OUTLIERS Conceitos básicos Tratamento Estatístico de Dados 4 Outliers: Aplicação Práticas. • Detecção de fraudes. • Comportamento de gastos de consumidores. • Em análises médicas (resultados não esperados de tratamentos). • Pesquisa farmacêutica. • Marketing. • Etc.
  • 5. Dep. Matemática Escola Superior de Tecnologia de Viseu OUTLIERS Conceitos básicos Tratamento Estatístico de Dados 5 Outliers: Estudo. O estudo de outliers, independentemente da(s) sua(s) causa(s), pode ser realizado em várias fases: • A fase inicial é a da identificação das observações que são potencialmente aberrantes. A identificação de outliers consiste na detecção, com métodos subjectivos, das observações surpreendentes. A identificação é feita, geralmente, por análise gráfica ou, no caso de um número de dados ser pequeno, por observação directa dos mesmos. São assim identificadas as observações que têm fortes possibilidades de virem a ser designadas por outliers.
  • 6. Dep. Matemática Escola Superior de Tecnologia de Viseu OUTLIERS Conceitos básicos Tratamento Estatístico de Dados 6 • Na segunda fase, tem-se como objectivo a eliminação da subjectividade inerente à fase anterior. Pretende-se saber se as observações identificadas como outliers potenciais o são, efectivamente. São efectuados testes à ou às observações “preocupantes”. Devem ser escolhidos os testes mais adequados para a situação em estudo. As observações suspeitas são testadas quanto à sua discordância. Se for aceite a hipótese de algumas observações serem outliers, elas podem ser designadas como discordantes. Uma observação diz-se discordante se puder considerar-se inconsistente com os restantes valores depois da aplicação de um critério estatístico objectivo. Muitas vezes o termo discordante é usado como sinónimo de outlier.
  • 7. Dep. Matemática Escola Superior de Tecnologia de Viseu OUTLIERS Conceitos básicos Tratamento Estatístico de Dados 7 • Na última fase é necessário decidir o que fazer com as observações discordantes. A maneira mais simples de lidar com essas observações é eliminá-las. Como já foi dito, esta abordagem, apesar de ser muito utilizada, não é aconselhável. Ela só se justifica no caso de os outliers serem devidos a erros cuja correcção é inviável. Caso contrário, as observações consideradas como outliers devem ser tratadas cuidadosamente pois contêm informação relevante sobre características subjacentes aos dados e poderão ser decisivas no conhecimento da população à qual pertence a amostra em estudo.
  • 8. Dep. Matemática Escola Superior de Tecnologia de Viseu OUTLIERS Conceitos básicos Tratamento Estatístico de Dados 8 Outliers: Métodos de identificação. • Gráfico de Box • Modelos de discordância • Teste de Dixon • Teste de Grubbs • Z-scores • etc
  • 9. Dep. Matemática Escola Superior de Tecnologia de Viseu OUTLIERS Conceitos básicos Tratamento Estatístico de Dados 9 Gráfico de Box-Plot O gráfico de Box é construído da seguinte forma: • Calcula-se a mediana, o quartil inferior (Q1) e o quartil superior (Q3); • Subtrai-se o quartil superior do quartil inferior = (L) • Os valores que estiverem no intervalo de Q3+1,5L e Q3+3L e no intervalo Q1-1,5L e Q1-3L, serão considerados outliers podendo, portanto ser aceitos na população com alguma suspeita; • Os valores que forem maiores que Q3+3L e menores que Q1-3L devem ser considerados suspeitos de pertencer à população, devendo ser investigada a origem da dispersão. Estes pontos são chamados de extremos.
  • 10. Dep. Matemática Escola Superior de Tecnologia de Viseu OUTLIERS Conceitos básicos Tratamento Estatístico de Dados 10 Moroco, J. (2003), Análise Estatística de dados – com utilização do SPSS, Edições Sílabo, Lisboa, pág. 36
  • 11. Dep. Matemática Escola Superior de Tecnologia de Viseu OUTLIERS Conceitos básicos Tratamento Estatístico de Dados 11 Modelos de discordância: Num modelo de discordância considera-se que num dado conjunto de dados, se existirem observações aberrantes elas têm distribuição diferente das restantes observações ou distribuições idênticas mas com parâmetros diferentes. H0: a amostra foi retirada de uma população com distribuição específica que pode ou não ser conhecida e ser especificada completamente ou não, e onde não existem observações “anormais” H1: todas as observações ou apenas as “anormais” têm distribuição diferente da da hipótese nula.
  • 12. Dep. Matemática Escola Superior de Tecnologia de Viseu OUTLIERS Conceitos básicos Tratamento Estatístico de Dados 12 A hipótese nula será rejeitada a favor da hipótese alternativa se existirem observações aberrantes. Para decidir pela aceitação ou rejeição da hipótese nula, da não existência de outliers é necessário utilizar testes de discordância que tenham distribuição desconhecida ou valores críticos tabelados. Na utilização de testes formais de outliers deve ter-se em conta que eles dividem-se em duas classes: • aqueles em que as observações discordantes da amostra são identificadas como sendo outliers, e • aqueles que testam a presença de outliers mas não identificam
  • 13. Dep. Matemática Escola Superior de Tecnologia de Viseu OUTLIERS Conceitos básicos Tratamento Estatístico de Dados 13 observações particulares.
  • 14. Dep. Matemática Escola Superior de Tecnologia de Viseu OUTLIERS Conceitos básicos Tratamento Estatístico de Dados 14 Teste de Dixon • Distribuição normal; teste bilateral. • Ordenar os valores de forma crescente de “1” a “H”. • Supor a hipótese de que o menor valor, 1, ou o maior valor, H, são suspeitos como valores outliers.
  • 15. Dep. Matemática Escola Superior de Tecnologia de Viseu OUTLIERS Conceitos básicos Tratamento Estatístico de Dados 15 • Critérios : Extremo Inferior Extremo superior - n=3 a 7 - n=8 a 12 - n > 13 ( ) ( ) ( ) ( ) 2 1 1 z z D z H z − = − ( ) ( ) ( ) ( ) 1 1 z H z H D z H z − − = − ( ) ( ) ( ) ( ) 2 1 1 1 z z Q z H z − = − − ( ) ( ) ( ) ( ) 1 2 z H z H D z H z − − = − ( ) ( ) ( ) ( ) 3 1 2 1 z z D z H z − = − − ( ) ( ) ( ) ( ) 2 3 z H z H D z H z − − = −
  • 16. Dep. Matemática Escola Superior de Tecnologia de Viseu OUTLIERS Conceitos básicos Tratamento Estatístico de Dados 16 • Se D > valor crítico, temos a presença de um outlier. n Valor crítico de D para P=0,05 3 0,970 4 0,829 5 0,710 6 0,628 7 0,569 8 0,608 9 0,504 10 0,530 11 0,502 12 0,479 13 0,611 14 0,589
  • 17. Dep. Matemática Escola Superior de Tecnologia de Viseu OUTLIERS Conceitos básicos Tratamento Estatístico de Dados 17 Teste de Grubbs • Distribuição normal; • Calcular desvio di de cada ponto em relação à média • Calcular o desvio-padrão s • Calcular G=di/s • Um valor é considerado como outlier quando G é maior do que o valor crítico correspondente na tabela. x xiG s − = d x xi i= −
  • 18. Dep. Matemática Escola Superior de Tecnologia de Viseu OUTLIERS Conceitos básicos Tratamento Estatístico de Dados 18 n Gcrit 95 % 3 1,154 4 1,481 5 1,715 6 1,887 7 2,020 8 2,127 9 2,215 10 2,290 11 2,355 12 2,412 14 2,507 16 2,586 18 2,652 20 2,708 50 3,128
  • 19. Dep. Matemática Escola Superior de Tecnologia de Viseu OUTLIERS Conceitos básicos Tratamento Estatístico de Dados 19 Z-Scores • Calcular os z-scores, isto é, os valores z-standardizados dos dados. • Se o conjunto dos dados é pequeno (inferior a 50), valores que tenham z- scores inferiores a -2.5 ou superiores a 2.5 devem ser considerados outliers. • Se o conjunto dos dados é grande, valores que tenham z-socres inferiores a -3.3 ou superiores a 3.3 são tipicamente considerados outliers. • Se o conjunto dos dados é muito grande (1000 ou mais), também valores mais extremos do que +-3.3 podem ser considerados dados normais e não outliers.
  • 20. Dep. Matemática Escola Superior de Tecnologia de Viseu OUTLIERS Conceitos básicos Tratamento Estatístico de Dados 20 Exemplo: Olhemos para este conjunto de 10 observações: Observação X Y 1 111 68 2 92 46 3 90 50 4 107 59 5 98 50 6 150 66 7 118 54 8 110 51 9 117 59 10 94 97
  • 21. Dep. Matemática Escola Superior de Tecnologia de Viseu OUTLIERS Conceitos básicos Tratamento Estatístico de Dados 21 Utilizando a técnica dos Z – Scores a observação 5 da variável X é um outlier, o mesmo acontece para a observação 10 da variável Y. Observação z-score de X z-score de Y 1 0.129702456075883 0.5388159060803247 2 -0.9417526158553188 -0.9429278356405683 3 -1.05453736026913 -0.6735198826004059 4 -0.09586703275173845 -0.06735198826004059 5 -0.6033983826138867 -0.6735198826004059 6 2.329004972145192 0.4041119295602435 7 0.5244490615242204 -0.4041119295602435 8 0.0733100838689776 -0.6061678943403653 9 0.4680566893173151 -0.06735198826004059 10 -0.8289678714415081 2.492023565621502
  • 22. Dep. Matemática Escola Superior de Tecnologia de Viseu OUTLIERS Conceitos básicos Tratamento Estatístico de Dados 22 É possível detectar os outliers usando histogramas e box-plots: Histograma de X
  • 23. Dep. Matemática Escola Superior de Tecnologia de Viseu OUTLIERS Conceitos básicos Tratamento Estatístico de Dados 23 Box – Plot de Y
  • 24. Dep. Matemática Escola Superior de Tecnologia de Viseu OUTLIERS Conceitos básicos Tratamento Estatístico de Dados 24 Para aplicar o Teste de Dixon à variável X é necessário ordenar os valores por ordem crescente: 90, 92, 94, 98, 107, 110, 111, 117, 118, 150. O último valor é suspeito com outlier. Como temos n=10 observações, calculemos D = (150-118) / (150 – 92) = 0.5517 Da tabela apresentada anteriormente para o teste de Dixon, para uma amostra de tamanho 10, o valor crítico de D é igual a 0.530 (para p=0.05). Como o valor de D excede esse valor, a observação suspeita é efectivamente um outlier.
  • 25. Dep. Matemática Escola Superior de Tecnologia de Viseu OUTLIERS Conceitos básicos Tratamento Estatístico de Dados 25 Da tabela apresentada anteriormente para o teste de Grubbs, para uma amostra de tamanho 10, o valor crítico de G é igual a 2.290 (para p=0.05). Como o valor de G, para a observação 97, excede esse valor, a observação é um outlier. Yi di G 68 8 0,54 46 14 0,94 50 10 0,67 59 1 0,07 50 10 0,67 66 6 0,4 54 6 0,4 51 9 0,61 59 1 0,07 Média = 60 97 37 2,49 Desvio padrão = 14.8474
  • 26. Dep. Matemática Escola Superior de Tecnologia de Viseu OUTLIERS Conceitos básicos Tratamento Estatístico de Dados 26 Exercícios: 1.Os valores seguintes referem-se às concentrações de nitrito numa amostra de água de um rio: 0.403, 0.410, 0.401 e 0.380. A última observação é suspeita: deverá ser considerada um outlier? 2. Os dados que se seguem referem-se à precipitação (em mm) caída num determinada cidade durante 5 meses: 53.5, 61.5, 62.3, 64.9, 40.6. Algum dos valores referidos anteriormente pode ser considerado um outlier? 3. Os valores seguintes referem-se à produção de trigo: 12.0, 12.4, 13.0, 11.8, 14.0, 12.8, 14.0, 13.5, 12.6, 13.0, 12.6, 12.7. Algum dos valores referidos anteriormente pode ser considerado um outlier?
  • 27. Dep. Matemática Escola Superior de Tecnologia de Viseu OUTLIERS Conceitos básicos Tratamento Estatístico de Dados 27 4. Considere os seguintes tempos de hemodiálise (em meses) em 14 doentes transplantados: 51, 24, 55, 75, 24, 27, 22, 23, 48, 18, 96, 24, 26 e 35. Verifique se alguma destas observações pode ser considerada um outlier.
  • 28. Dep. Matemática Escola Superior de Tecnologia de Viseu OUTLIERS Conceitos básicos Tratamento Estatístico de Dados 28 Bibliografia • Figueira, M.M.C, Identificação de Outliers, MILLENIUM nº12 – Outubro de 1998. • Morel P., Validação e Incerteza na Medição Analítica, Ministério da Saúde, ANVISA / GGLAS http://www.anvisa.gov.br/reblas/cursos_gglas/validacao_incertezas_pierre_2.pdf • Andrade, E.A. e Robin J., Seminário - Mineração de Exceções www.cin.ufpe.br/~compint/aulas-IAS/kdd-012/Outliers.ppt • Miler, J.C. e Miler, J.N. (1988), Statistics for Analytical Chemistry – second edition, John Wiley & Sons, New York, Chichester, Brisbane, Toronto.