SlideShare uma empresa Scribd logo
1 de 49
Faculdade de Economia, Administração e Contabilidade de Ribeirão Preto
Departamento de Contabilidade
RCC0305 – Métodos Quantitativos I
Introdução à Análise
Multivariada
Prof. Dr. Marcelo Botelho da Costa
Moraes
www.marcelobotelho.com
1
Adaptado do Material de Aula de Corrar, Paulo e
Dias Filho (2007)
O que é análise multivariada?
“De um modo geral, refere-se a todos os
métodos estatísticos que simultaneamente
analisam múltiplas medidas sobre cada indivíduo
ou objeto sob investigação. Qualquer análise
simultânea de mais de duas variáveis de certo
modo pode ser considerada análise multivariada.”
2
(HAIR et al., 2005, p.26)
Análise Multivariada
• Avaliação de comportamentos e tendências para
a tomada de decisão
3
Informação Conhecimento
Dados
Tratamento e
Análise
Tomada de
Decisão
Processo de geração de conhecimento de um fenômeno (FÁVERO et al, 2009)
Técnicas Multivariadas de Análise de
Dados
• Análise univariada: comportamento e
distribuição de uma variável isolada
• Análise bivariada: associação, correlação e
análise de variância relativas a duas variáveis
simultaneamente
• Análise multivariada: todas as variáveis são
aleatórias e inter-relacionadas, de modo que
seus diferentes efeitos não podem ser
interpretados separadamente
4
Técnicas Multivariadas de Análise de
Dados
5
Quantas variáveis são
analisadas
simultaneamente?
Análise
univariada
Análise
bivariada
Análise
multivariada
uma duas mais de
duas
Tipos de análise de dados em função do número de variáveis (FÁVERO et al, 2009)
Esquema de Banco de Dados
Var 1 Var 2 Var 3 ... Var m
Obs 1
Obs 2
Obs 3
...
Obs n
6
Matriz nxm
Variáveis
Observações
Preparação da Análise de Dados
• Número de variáveis a serem analisadas ao
mesmo tempo
• Nível de mensuração das variáveis de interesse
• Interesse descritivo ou inferencial da análise
• Interesse na inter-relação ou na relação de
dependência das variáveis em estudo (para duas
ou mais variáveis)
7
Tipos de Variáveis
• Variáveis
Quantitativas
▫ Variáveis Discretas
▫ Variáveis Contínuas
• Variáveis
Qualitativas
▫ Variáveis Nominais
▫ Variáveis Ordinais
8
Regressão Múltipla
• Sua ideia-chave é a dependência
estatística de uma variável em
relação a duas ou mais variáveis
independentes.
• Seus principais objetivos podem ser
descritos como:
▫ Encontrar a relação causal entre as
variáveis.
▫ Estimar os valores da variável
dependente a partir dos valores
conhecidos ou fixados das variáveis
independentes.
9
Análise Discriminante
• A variável dependente é qualitativa, podendo ser
dicotômica (sim-não) ou multicotômica (alto-
médio-baixo), e as variáveis independentes
podem ser quantitativa ou qualitativa.
10
• Esta técnica estatística
auxilia na identificação
de quais variáveis
conseguem diferenciar
grupos ou categorias.
Regressão Logística
• Técnica de análise
multivariada que permite
estabelecer a probabilidade
de ocorrência de
determinado evento para
situações em que a variável
dependente é qualitativa e
de natureza dicotômica.
• Pode ser utilizada mesmo
quando alguns dos
pressupostos da análise
discriminante não forem
atendidos.
11
Análise Fatorial
• É uma técnica multivariada de interdependência
em que todas as variáveis são simultaneamente
consideradas.
• Cada variável é relacionada com as demais, a fim
de estudar as inter-relações existentes entre elas,
buscando a redução ou sumarização dos dados.
12
Análise de Cluster
• É o nome dado ao grupo de
técnicas multivariadas cuja
finalidade primária é agregar
objetos com base nas
características que eles
possuem.
13
• O objetivo é classificar uma amostra de indivíduos ou
objetos em um pequeno número de grupos mutuamente
excludentes, com base nas similaridades entre eles.
MDS
• O Escalonamento Multidimensional
(MDS) é um procedimento que permite
determinar a imagem relativa percebida de um
conjunto de objetos, transformando os
julgamentos de similaridade ou preferência em
distâncias representadas no espaço
multidimensional.
14
O Truque!
“O truque na estatística multivariada, se existe,
não está nos cálculos, fácil e rapidamente feitos
num computador com software adequado
instalado. O truque consiste em escolher o método
apropriado ao tipo de dados, usá-lo corretamente,
saber interpretar os resultados e retirar deles as
conclusões corretas.”
(Reis, 2001, p.11)
15
Faculdade de Economia, Administração e Contabilidade de Ribeirão Preto
Departamento de Contabilidade
RCC0305 – Métodos Quantitativos I
Exame Gráfico dos Dados
16
Advertência!!!
• Se o pesquisador confia cegamente nessas
técnicas para encontrar as respostas de suas
questões sem ao menos atentar para as
propriedades fundamentais dos dados que
serão analisados, aumenta o risco de problemas
sérios, tais como:
▫ Uso indevido de técnicas
▫ Violação de propriedades estatísticas
▫ Interpretação inadequada dos resultados
17
Examine seus dados...
• Existe algum problema com meu banco de
dados?
• Como solucionar esses problemas?
18
Estatística Descritiva
• A Estatística descritiva está voltada para
organizar, resumir e descrever os aspectos
importantes de um banco de dados.
• Sintetizar os dados pode levar a perda de
informações originais. Contudo, esta perda é
pequena quando comparada ao ganho que se
obtém com as interpretações que são
proporcionadas.
19
Média aritmética não ponderada
• A média é definida como a soma das observações
dividida pelo número de observações.
• Se tivermos, por exemplo, n valores, temos:
20
n
x
n
x
x
x
Média
n
i
i
n






 1
2
1 ...
Desvio-Padrão
• É uma medida de dispersão.
• É a raiz quadrada da variância.
• Variância é definida como a média dos desvios
ao quadrado em relação à média da distribuição
21
Como calcular a variância?
• Para uma amostra:
• Para uma população finita:
22
1
)
( 2
2




n
X
x
S
N
x
 

2
2
)
( 

Observações atípicas (outliers)
• São observações com
uma combinação única
de características
identificáveis como sendo
notavelmente diferentes
das outras observações.
• Não podem ser
categoricamente
caracterizadas como
benéficas ou
problemáticas.
• É importante averiguar
seu tipo de influência.
23
Classes de observações atípicas
(outliers)
1º Erro de procedimento
(erro na entrada de dados ou uma falha na
codificação)
2º Resultado de um evento extraordinário
detectável
3º Observação extraordinária inexplicável
4º Observações com valores possíveis, mas com
combinação extraordinária entre as variáveis.
24
Identificação de observações atípicas
(outliers)
• Detecção Univariada – Casos que estão fora
dos intervalos da distribuição, sendo que os
principais passos deste procedimento são os
seguintes:
▫ Padronizar a variável para ter média 0 (zero) e
desvio- padrão 1 (um).
▫ Em pequenas amostras (N ≤ 80) outlier
apresenta score ≥ 2,5.
▫ Em grandes amostras outlier apresenta score ≥
3,0.
25
Identificação de observações atípicas
(outliers)
• Detecção Bivariada – Casos que estão fora do
intervalo das outras observações, percebidos
como pontos isolados no diagrama de dispersão
(visualização gráfica).
• Detecção Multivariada – Casos com as
maiores distâncias no espaço multidimensional
de cada observação em relação ao centro médio
das observações (visualização gráfica).
26
Eliminação de observações atípicas
(outliers)
• Devem ser mantidas, a menos que exista prova
demonstrável de que estão verdadeiramente fora
do normal e que não são representativas de
quaisquer observações na população.
• Se as observações atípicas são eliminadas, o
pesquisador corre o risco de melhorar a análise
multivariada, mas limita sua generalidade.
27
Dados Perdidos (missing value)
• A preocupação primária do pesquisador é
determinar as razões inerentes aos dados
perdidos.
• O pesquisador deve compreender os processos
que conduzem os dados perdidos a fim de
selecionar o curso de ação apropriado.
28
Padrão de Dados Perdidos
• Quando os dados perdidos ocorrem em um
padrão aleatório, pode haver providências
para minimizar seu efeito.
• As ações corretivas para dados perdidos
somente poderão ser usadas se o processo de
dados perdidos tiver um padrão aleatório, ou
seja, quando o processo de dados perdidos for
completamente ao acaso, pois, caso contrário,
serão introduzidas tendências nos resultados.
29
Ações corretivas (remédios) para
dados perdidos
• Incluir somente
observações com dados
completos
• Eliminar as observações
e/ou variáveis
problemáticas
• Utilizar métodos de
atribuição
30
Incluir somente observações com
dados completos
• Tratamento simples e direto.
• É conhecido como abordagem de caso
completo.
• É mais apropriado quando a extensão de dados
perdidos é pequena, a amostra é suficientemente
grande e as relações nos dados são tão fortes que
não podem ser afetadas por qualquer processo
de dados perdidos.
31
Eliminar as observações e/ou variáveis
problemáticas
• Pode-se descobrir que os dados perdidos estão
concentrados em um pequeno subconjunto de
casos e/ou variáveis, sendo que sua exclusão
reduz substancialmente a extensão dos dados
perdidos.
• O pesquisador sempre deve considerar os
ganhos na eliminação de uma fonte de dados
perdidos versus a eliminação de uma variável na
análise multivariada.
32
Utilizar métodos de atribuição
• O método de atribuição é um processo de
estimação de valores perdidos com base em
valores válidos de outras variáveis e/ou
observações na amostra.
• Principais métodos de atribuição:
▫ Substituição por um caso
▫ Substituição pela média
▫ Atribuição por regressão
33
Suposições da análise multivariada
• A análise multivariada requer testes de
suposições para as variáveis separadas e em
conjunto.
• O foco agora será o exame de variáveis
individuais.
• Nas aulas posteriores serão abordados os
métodos usados para avaliar as suposições
inerentes às técnicas multivariadas específicas.
34
Suposições da análise multivariada
• As principais suposições são:
▫ Normalidade
▫ Homoscedasticidade
▫ Linearidade
35
Normalidade
• Os dados devem ter uma
distribuição que seja
correspondente a uma
distribuição normal.
• Esta é a suposição mais
comum na análise
multivariada.
36
• Uma situação em que todas as variáveis exibem
uma normalidade univariada ajuda a obter, apesar
de não garantir, a normalidade multivariada.
Normalidade
• O teste diagnóstico de normalidade mais simples
é uma verificação visual do histograma.
• Kolmogorov-Smirnov, Jarque-Bera e Shapiro-
Wilks são exemplos de testes que tentam
identificar se uma determinada variável possui
distribuição normal.
37
Homoscedasticidade
• A homoscedasticidade significa igualdade de
variâncias entre as variáveis.
• Se as variáveis dependentes exibem iguais níveis
de variância através da escala de previsão, a
variância dos resíduos deve ser constante.
• Quando a variância dos termos de erro (ε)
parece constante, diz-se que os dados são
homoscedásticos.
38
Linearidade
• A linearidade pode ser usada para expressar o
conceito de que um modelo possui as propriedades
de aditividade e homogeneidade.
• Os modelos lineares preveem valores que recaem em
uma linha reta.
• A linearidade é uma suposição implícita nas técnicas
multivariadas baseadas em medidas correlacionais
de associação, incluindo regressão múltipla,
regressão logística e análise fatorial
39
Linearidade
• A maneira mais comum para avaliar linearidade
é examinar diagramas de dispersão das variáveis
e identificar padrões não lineares nos dados.
• Um tratamento alternativo é executar uma
análise de regressão simples e examinar os
resíduos, uma vez que estes refletem a parte não
explicada da variável dependente, qualquer
parte não linear da relação despontará nos
resíduos
40
Transformação de dados
• A transformação de dados é executada
normalmente para modificar alguma variável,
com intuito de corrigir violações das suposições
estatísticas e/ou melhorar as relações entre
variáveis.
• As transformações podem ser tanto nas variáveis
dependentes quanto nas independentes.
41
Assimetria e Curtose
• Assimetria é a propriedade que indica a tendência
de maior concentração dos dados em relação ao
ponto central.
• Curtose é a característica que se refere ao grau de
achatamento.
• Medidas de assimetria e de curtose são úteis para se
precaver contra erros ao estabelecer a suposição de
populações distribuídas normalmente.
42
Assimetria
• A medida de assimetria é baseada nas relações entre
a média, mediana e moda.
• Estas três medidas são idênticas em valor para uma
distribuição simétrica, mas para uma distribuição
assimétrica a média distancia-se da moda, situando-
se a mediana em uma posição intermediária.
• A distância entre a média e a moda pode ser usada
para medir a assimetria, ou seja, quanto maior é a
distância, seja negativa ou positiva, maior é a
assimetria da distribuição.
43
Assimetria
44
Distribuição Simétrica
Média = Mediana = Moda
Moda
Média
Mediana
Assimetria à direita ou positiva
Moda
Assimetria à esquerda ou negativa
Média
Mediana
Curtose
• Já a curtose, que representa uma medida de
achatamento das distribuições, pode ser
ilustrada do seguinte modo:
45
Achatada com grande
dispersão
Alongada com pouca dispersão
Transformações para obter
normalidade
• Distribuição assimétrica positiva:
▫ Emprega-se o logaritmo das variáveis.
• Distribuição assimétrica negativa:
▫ Emprega-se a raiz quadrada das variáveis.
• Distribuição achatada:
▫ Emprega-se o inverso das variáveis (1/y e 1/x).
46
Transformações para obter
homoscedasticidade
• Distribuição dos resíduos:
▫ Emprega-se logaritmo, raiz quadrada, inverso etc.
• A transformação deverá ser testada para
verificar se o remédio utilizado é eficiente.
47
Transformações para obter linearidade
48
Tipo de Função Forma Original Forma linearizada
por transformação
Logaritma ou potencial Y = a.Xb LnY = Lna + b.LnX
Exponencial ou
semilogaritma I
Y = a.bX LNY = Lna + Lnb.X
Semilogaritma II ey = a.Xb Y = Lna + b.LnX
Hiperbólica ou recíproca
I
Y = a + b1/X Usa-se 1/X em vez de X
Hiperbólica ou recíproca
II
Y = 1/(a + bX) 1/Y = a + bX
Quadrática Y = a + bX + cX2 Usa-se X2 além de X
Logística Y = M/(1 + b.e-mx) Ln(M/Y – 1) = Lnb - mX
Faculdade de Economia, Administração e Contabilidade de Ribeirão Preto
Departamento de Contabilidade
RCC0305 – Métodos Quantitativos I
Obrigado pela Atenção!!!
Até a próxima aula
mbotelho@usp.br
www.marcelobotelho.com
49

Mais conteúdo relacionado

Semelhante a Análise Multivariada

19 elaboração da metodologia
19 elaboração da metodologia19 elaboração da metodologia
19 elaboração da metodologiaJoao Balbi
 
19 elaboração da metodologia
19 elaboração da metodologia19 elaboração da metodologia
19 elaboração da metodologiaJoao Balbi
 
Estatística aplicada à gestão de recursos humanos
Estatística aplicada  à gestão de recursos humanosEstatística aplicada  à gestão de recursos humanos
Estatística aplicada à gestão de recursos humanosaurelio2machado
 
2018 Cleverson Tabajara - aspectos relevantes a serem descritos em modelos p...
2018 Cleverson Tabajara -  aspectos relevantes a serem descritos em modelos p...2018 Cleverson Tabajara -  aspectos relevantes a serem descritos em modelos p...
2018 Cleverson Tabajara - aspectos relevantes a serem descritos em modelos p...IFSC
 
Trabalho de analise de regressao 2012 trab2
Trabalho de analise de regressao 2012 trab2Trabalho de analise de regressao 2012 trab2
Trabalho de analise de regressao 2012 trab2Samuel Orlando Nhantumbo
 
30 Erros Comuns em Análise de Dados
30 Erros Comuns em Análise de Dados30 Erros Comuns em Análise de Dados
30 Erros Comuns em Análise de DadosNicholas Gimenes
 
Estatística básica
Estatística básicaEstatística básica
Estatística básicaJose_ferreira
 
Oficina analise-e-solucao-de-problemas
Oficina analise-e-solucao-de-problemasOficina analise-e-solucao-de-problemas
Oficina analise-e-solucao-de-problemasTiago Oliveira, Eng.
 
Oficina analise-e-solucao-de-problemas
Oficina analise-e-solucao-de-problemasOficina analise-e-solucao-de-problemas
Oficina analise-e-solucao-de-problemasLeonardo
 
COMO ELABORAR UM PROJETO PESQUISA.pdf
COMO ELABORAR UM PROJETO PESQUISA.pdfCOMO ELABORAR UM PROJETO PESQUISA.pdf
COMO ELABORAR UM PROJETO PESQUISA.pdfEricBoss7
 
Planejamento das Medições (aula 5)
Planejamento das Medições (aula 5)Planejamento das Medições (aula 5)
Planejamento das Medições (aula 5)Sandra Lago Moraes
 
Analise de dados ccill end
Analise de dados ccill endAnalise de dados ccill end
Analise de dados ccill endcruz ant
 
Amostragem: O Que É E Como Utilizá-la Em Um Trabalho De Auditoria
Amostragem: O Que É E Como Utilizá-la Em Um Trabalho De AuditoriaAmostragem: O Que É E Como Utilizá-la Em Um Trabalho De Auditoria
Amostragem: O Que É E Como Utilizá-la Em Um Trabalho De AuditoriaMarlon de Freitas
 
Análise de Clusters - White Paper ELOGroup
Análise de Clusters - White Paper ELOGroupAnálise de Clusters - White Paper ELOGroup
Análise de Clusters - White Paper ELOGroupEloGroup
 

Semelhante a Análise Multivariada (20)

CONTROLO DE QUALIDADE SLIDE.pdf
CONTROLO DE QUALIDADE SLIDE.pdfCONTROLO DE QUALIDADE SLIDE.pdf
CONTROLO DE QUALIDADE SLIDE.pdf
 
19 elaboração da metodologia
19 elaboração da metodologia19 elaboração da metodologia
19 elaboração da metodologia
 
19 elaboração da metodologia
19 elaboração da metodologia19 elaboração da metodologia
19 elaboração da metodologia
 
Metanálise
MetanáliseMetanálise
Metanálise
 
Estatística aplicada à gestão de recursos humanos
Estatística aplicada  à gestão de recursos humanosEstatística aplicada  à gestão de recursos humanos
Estatística aplicada à gestão de recursos humanos
 
Aula-3-Introdução-parte-2.ppt
Aula-3-Introdução-parte-2.pptAula-3-Introdução-parte-2.ppt
Aula-3-Introdução-parte-2.ppt
 
2018 Cleverson Tabajara - aspectos relevantes a serem descritos em modelos p...
2018 Cleverson Tabajara -  aspectos relevantes a serem descritos em modelos p...2018 Cleverson Tabajara -  aspectos relevantes a serem descritos em modelos p...
2018 Cleverson Tabajara - aspectos relevantes a serem descritos em modelos p...
 
Trabalho de analise de regressao 2012 trab2
Trabalho de analise de regressao 2012 trab2Trabalho de analise de regressao 2012 trab2
Trabalho de analise de regressao 2012 trab2
 
30 Erros Comuns em Análise de Dados
30 Erros Comuns em Análise de Dados30 Erros Comuns em Análise de Dados
30 Erros Comuns em Análise de Dados
 
Estatística básica
Estatística básicaEstatística básica
Estatística básica
 
Oficina analise-e-solucao-de-problemas
Oficina analise-e-solucao-de-problemasOficina analise-e-solucao-de-problemas
Oficina analise-e-solucao-de-problemas
 
Oficina analise-e-solucao-de-problemas
Oficina analise-e-solucao-de-problemasOficina analise-e-solucao-de-problemas
Oficina analise-e-solucao-de-problemas
 
Programa de Equalização em Estatística - 2014 A
Programa de Equalização em Estatística - 2014 APrograma de Equalização em Estatística - 2014 A
Programa de Equalização em Estatística - 2014 A
 
COMO ELABORAR UM PROJETO PESQUISA.pdf
COMO ELABORAR UM PROJETO PESQUISA.pdfCOMO ELABORAR UM PROJETO PESQUISA.pdf
COMO ELABORAR UM PROJETO PESQUISA.pdf
 
Pesquisa Aplicada a Comunicação cap-6
Pesquisa Aplicada a Comunicação cap-6Pesquisa Aplicada a Comunicação cap-6
Pesquisa Aplicada a Comunicação cap-6
 
Planejamento das Medições (aula 5)
Planejamento das Medições (aula 5)Planejamento das Medições (aula 5)
Planejamento das Medições (aula 5)
 
Analise de dados ccill end
Analise de dados ccill endAnalise de dados ccill end
Analise de dados ccill end
 
Amostragem: O Que É E Como Utilizá-la Em Um Trabalho De Auditoria
Amostragem: O Que É E Como Utilizá-la Em Um Trabalho De AuditoriaAmostragem: O Que É E Como Utilizá-la Em Um Trabalho De Auditoria
Amostragem: O Que É E Como Utilizá-la Em Um Trabalho De Auditoria
 
Análise de Clusters - White Paper ELOGroup
Análise de Clusters - White Paper ELOGroupAnálise de Clusters - White Paper ELOGroup
Análise de Clusters - White Paper ELOGroup
 
Analisando os dados coletados [modo de compatibilidade]
Analisando os dados coletados [modo de compatibilidade]Analisando os dados coletados [modo de compatibilidade]
Analisando os dados coletados [modo de compatibilidade]
 

Análise Multivariada

  • 1. Faculdade de Economia, Administração e Contabilidade de Ribeirão Preto Departamento de Contabilidade RCC0305 – Métodos Quantitativos I Introdução à Análise Multivariada Prof. Dr. Marcelo Botelho da Costa Moraes www.marcelobotelho.com 1 Adaptado do Material de Aula de Corrar, Paulo e Dias Filho (2007)
  • 2. O que é análise multivariada? “De um modo geral, refere-se a todos os métodos estatísticos que simultaneamente analisam múltiplas medidas sobre cada indivíduo ou objeto sob investigação. Qualquer análise simultânea de mais de duas variáveis de certo modo pode ser considerada análise multivariada.” 2 (HAIR et al., 2005, p.26)
  • 3. Análise Multivariada • Avaliação de comportamentos e tendências para a tomada de decisão 3 Informação Conhecimento Dados Tratamento e Análise Tomada de Decisão Processo de geração de conhecimento de um fenômeno (FÁVERO et al, 2009)
  • 4. Técnicas Multivariadas de Análise de Dados • Análise univariada: comportamento e distribuição de uma variável isolada • Análise bivariada: associação, correlação e análise de variância relativas a duas variáveis simultaneamente • Análise multivariada: todas as variáveis são aleatórias e inter-relacionadas, de modo que seus diferentes efeitos não podem ser interpretados separadamente 4
  • 5. Técnicas Multivariadas de Análise de Dados 5 Quantas variáveis são analisadas simultaneamente? Análise univariada Análise bivariada Análise multivariada uma duas mais de duas Tipos de análise de dados em função do número de variáveis (FÁVERO et al, 2009)
  • 6. Esquema de Banco de Dados Var 1 Var 2 Var 3 ... Var m Obs 1 Obs 2 Obs 3 ... Obs n 6 Matriz nxm Variáveis Observações
  • 7. Preparação da Análise de Dados • Número de variáveis a serem analisadas ao mesmo tempo • Nível de mensuração das variáveis de interesse • Interesse descritivo ou inferencial da análise • Interesse na inter-relação ou na relação de dependência das variáveis em estudo (para duas ou mais variáveis) 7
  • 8. Tipos de Variáveis • Variáveis Quantitativas ▫ Variáveis Discretas ▫ Variáveis Contínuas • Variáveis Qualitativas ▫ Variáveis Nominais ▫ Variáveis Ordinais 8
  • 9. Regressão Múltipla • Sua ideia-chave é a dependência estatística de uma variável em relação a duas ou mais variáveis independentes. • Seus principais objetivos podem ser descritos como: ▫ Encontrar a relação causal entre as variáveis. ▫ Estimar os valores da variável dependente a partir dos valores conhecidos ou fixados das variáveis independentes. 9
  • 10. Análise Discriminante • A variável dependente é qualitativa, podendo ser dicotômica (sim-não) ou multicotômica (alto- médio-baixo), e as variáveis independentes podem ser quantitativa ou qualitativa. 10 • Esta técnica estatística auxilia na identificação de quais variáveis conseguem diferenciar grupos ou categorias.
  • 11. Regressão Logística • Técnica de análise multivariada que permite estabelecer a probabilidade de ocorrência de determinado evento para situações em que a variável dependente é qualitativa e de natureza dicotômica. • Pode ser utilizada mesmo quando alguns dos pressupostos da análise discriminante não forem atendidos. 11
  • 12. Análise Fatorial • É uma técnica multivariada de interdependência em que todas as variáveis são simultaneamente consideradas. • Cada variável é relacionada com as demais, a fim de estudar as inter-relações existentes entre elas, buscando a redução ou sumarização dos dados. 12
  • 13. Análise de Cluster • É o nome dado ao grupo de técnicas multivariadas cuja finalidade primária é agregar objetos com base nas características que eles possuem. 13 • O objetivo é classificar uma amostra de indivíduos ou objetos em um pequeno número de grupos mutuamente excludentes, com base nas similaridades entre eles.
  • 14. MDS • O Escalonamento Multidimensional (MDS) é um procedimento que permite determinar a imagem relativa percebida de um conjunto de objetos, transformando os julgamentos de similaridade ou preferência em distâncias representadas no espaço multidimensional. 14
  • 15. O Truque! “O truque na estatística multivariada, se existe, não está nos cálculos, fácil e rapidamente feitos num computador com software adequado instalado. O truque consiste em escolher o método apropriado ao tipo de dados, usá-lo corretamente, saber interpretar os resultados e retirar deles as conclusões corretas.” (Reis, 2001, p.11) 15
  • 16. Faculdade de Economia, Administração e Contabilidade de Ribeirão Preto Departamento de Contabilidade RCC0305 – Métodos Quantitativos I Exame Gráfico dos Dados 16
  • 17. Advertência!!! • Se o pesquisador confia cegamente nessas técnicas para encontrar as respostas de suas questões sem ao menos atentar para as propriedades fundamentais dos dados que serão analisados, aumenta o risco de problemas sérios, tais como: ▫ Uso indevido de técnicas ▫ Violação de propriedades estatísticas ▫ Interpretação inadequada dos resultados 17
  • 18. Examine seus dados... • Existe algum problema com meu banco de dados? • Como solucionar esses problemas? 18
  • 19. Estatística Descritiva • A Estatística descritiva está voltada para organizar, resumir e descrever os aspectos importantes de um banco de dados. • Sintetizar os dados pode levar a perda de informações originais. Contudo, esta perda é pequena quando comparada ao ganho que se obtém com as interpretações que são proporcionadas. 19
  • 20. Média aritmética não ponderada • A média é definida como a soma das observações dividida pelo número de observações. • Se tivermos, por exemplo, n valores, temos: 20 n x n x x x Média n i i n        1 2 1 ...
  • 21. Desvio-Padrão • É uma medida de dispersão. • É a raiz quadrada da variância. • Variância é definida como a média dos desvios ao quadrado em relação à média da distribuição 21
  • 22. Como calcular a variância? • Para uma amostra: • Para uma população finita: 22 1 ) ( 2 2     n X x S N x    2 2 ) (  
  • 23. Observações atípicas (outliers) • São observações com uma combinação única de características identificáveis como sendo notavelmente diferentes das outras observações. • Não podem ser categoricamente caracterizadas como benéficas ou problemáticas. • É importante averiguar seu tipo de influência. 23
  • 24. Classes de observações atípicas (outliers) 1º Erro de procedimento (erro na entrada de dados ou uma falha na codificação) 2º Resultado de um evento extraordinário detectável 3º Observação extraordinária inexplicável 4º Observações com valores possíveis, mas com combinação extraordinária entre as variáveis. 24
  • 25. Identificação de observações atípicas (outliers) • Detecção Univariada – Casos que estão fora dos intervalos da distribuição, sendo que os principais passos deste procedimento são os seguintes: ▫ Padronizar a variável para ter média 0 (zero) e desvio- padrão 1 (um). ▫ Em pequenas amostras (N ≤ 80) outlier apresenta score ≥ 2,5. ▫ Em grandes amostras outlier apresenta score ≥ 3,0. 25
  • 26. Identificação de observações atípicas (outliers) • Detecção Bivariada – Casos que estão fora do intervalo das outras observações, percebidos como pontos isolados no diagrama de dispersão (visualização gráfica). • Detecção Multivariada – Casos com as maiores distâncias no espaço multidimensional de cada observação em relação ao centro médio das observações (visualização gráfica). 26
  • 27. Eliminação de observações atípicas (outliers) • Devem ser mantidas, a menos que exista prova demonstrável de que estão verdadeiramente fora do normal e que não são representativas de quaisquer observações na população. • Se as observações atípicas são eliminadas, o pesquisador corre o risco de melhorar a análise multivariada, mas limita sua generalidade. 27
  • 28. Dados Perdidos (missing value) • A preocupação primária do pesquisador é determinar as razões inerentes aos dados perdidos. • O pesquisador deve compreender os processos que conduzem os dados perdidos a fim de selecionar o curso de ação apropriado. 28
  • 29. Padrão de Dados Perdidos • Quando os dados perdidos ocorrem em um padrão aleatório, pode haver providências para minimizar seu efeito. • As ações corretivas para dados perdidos somente poderão ser usadas se o processo de dados perdidos tiver um padrão aleatório, ou seja, quando o processo de dados perdidos for completamente ao acaso, pois, caso contrário, serão introduzidas tendências nos resultados. 29
  • 30. Ações corretivas (remédios) para dados perdidos • Incluir somente observações com dados completos • Eliminar as observações e/ou variáveis problemáticas • Utilizar métodos de atribuição 30
  • 31. Incluir somente observações com dados completos • Tratamento simples e direto. • É conhecido como abordagem de caso completo. • É mais apropriado quando a extensão de dados perdidos é pequena, a amostra é suficientemente grande e as relações nos dados são tão fortes que não podem ser afetadas por qualquer processo de dados perdidos. 31
  • 32. Eliminar as observações e/ou variáveis problemáticas • Pode-se descobrir que os dados perdidos estão concentrados em um pequeno subconjunto de casos e/ou variáveis, sendo que sua exclusão reduz substancialmente a extensão dos dados perdidos. • O pesquisador sempre deve considerar os ganhos na eliminação de uma fonte de dados perdidos versus a eliminação de uma variável na análise multivariada. 32
  • 33. Utilizar métodos de atribuição • O método de atribuição é um processo de estimação de valores perdidos com base em valores válidos de outras variáveis e/ou observações na amostra. • Principais métodos de atribuição: ▫ Substituição por um caso ▫ Substituição pela média ▫ Atribuição por regressão 33
  • 34. Suposições da análise multivariada • A análise multivariada requer testes de suposições para as variáveis separadas e em conjunto. • O foco agora será o exame de variáveis individuais. • Nas aulas posteriores serão abordados os métodos usados para avaliar as suposições inerentes às técnicas multivariadas específicas. 34
  • 35. Suposições da análise multivariada • As principais suposições são: ▫ Normalidade ▫ Homoscedasticidade ▫ Linearidade 35
  • 36. Normalidade • Os dados devem ter uma distribuição que seja correspondente a uma distribuição normal. • Esta é a suposição mais comum na análise multivariada. 36 • Uma situação em que todas as variáveis exibem uma normalidade univariada ajuda a obter, apesar de não garantir, a normalidade multivariada.
  • 37. Normalidade • O teste diagnóstico de normalidade mais simples é uma verificação visual do histograma. • Kolmogorov-Smirnov, Jarque-Bera e Shapiro- Wilks são exemplos de testes que tentam identificar se uma determinada variável possui distribuição normal. 37
  • 38. Homoscedasticidade • A homoscedasticidade significa igualdade de variâncias entre as variáveis. • Se as variáveis dependentes exibem iguais níveis de variância através da escala de previsão, a variância dos resíduos deve ser constante. • Quando a variância dos termos de erro (ε) parece constante, diz-se que os dados são homoscedásticos. 38
  • 39. Linearidade • A linearidade pode ser usada para expressar o conceito de que um modelo possui as propriedades de aditividade e homogeneidade. • Os modelos lineares preveem valores que recaem em uma linha reta. • A linearidade é uma suposição implícita nas técnicas multivariadas baseadas em medidas correlacionais de associação, incluindo regressão múltipla, regressão logística e análise fatorial 39
  • 40. Linearidade • A maneira mais comum para avaliar linearidade é examinar diagramas de dispersão das variáveis e identificar padrões não lineares nos dados. • Um tratamento alternativo é executar uma análise de regressão simples e examinar os resíduos, uma vez que estes refletem a parte não explicada da variável dependente, qualquer parte não linear da relação despontará nos resíduos 40
  • 41. Transformação de dados • A transformação de dados é executada normalmente para modificar alguma variável, com intuito de corrigir violações das suposições estatísticas e/ou melhorar as relações entre variáveis. • As transformações podem ser tanto nas variáveis dependentes quanto nas independentes. 41
  • 42. Assimetria e Curtose • Assimetria é a propriedade que indica a tendência de maior concentração dos dados em relação ao ponto central. • Curtose é a característica que se refere ao grau de achatamento. • Medidas de assimetria e de curtose são úteis para se precaver contra erros ao estabelecer a suposição de populações distribuídas normalmente. 42
  • 43. Assimetria • A medida de assimetria é baseada nas relações entre a média, mediana e moda. • Estas três medidas são idênticas em valor para uma distribuição simétrica, mas para uma distribuição assimétrica a média distancia-se da moda, situando- se a mediana em uma posição intermediária. • A distância entre a média e a moda pode ser usada para medir a assimetria, ou seja, quanto maior é a distância, seja negativa ou positiva, maior é a assimetria da distribuição. 43
  • 44. Assimetria 44 Distribuição Simétrica Média = Mediana = Moda Moda Média Mediana Assimetria à direita ou positiva Moda Assimetria à esquerda ou negativa Média Mediana
  • 45. Curtose • Já a curtose, que representa uma medida de achatamento das distribuições, pode ser ilustrada do seguinte modo: 45 Achatada com grande dispersão Alongada com pouca dispersão
  • 46. Transformações para obter normalidade • Distribuição assimétrica positiva: ▫ Emprega-se o logaritmo das variáveis. • Distribuição assimétrica negativa: ▫ Emprega-se a raiz quadrada das variáveis. • Distribuição achatada: ▫ Emprega-se o inverso das variáveis (1/y e 1/x). 46
  • 47. Transformações para obter homoscedasticidade • Distribuição dos resíduos: ▫ Emprega-se logaritmo, raiz quadrada, inverso etc. • A transformação deverá ser testada para verificar se o remédio utilizado é eficiente. 47
  • 48. Transformações para obter linearidade 48 Tipo de Função Forma Original Forma linearizada por transformação Logaritma ou potencial Y = a.Xb LnY = Lna + b.LnX Exponencial ou semilogaritma I Y = a.bX LNY = Lna + Lnb.X Semilogaritma II ey = a.Xb Y = Lna + b.LnX Hiperbólica ou recíproca I Y = a + b1/X Usa-se 1/X em vez de X Hiperbólica ou recíproca II Y = 1/(a + bX) 1/Y = a + bX Quadrática Y = a + bX + cX2 Usa-se X2 além de X Logística Y = M/(1 + b.e-mx) Ln(M/Y – 1) = Lnb - mX
  • 49. Faculdade de Economia, Administração e Contabilidade de Ribeirão Preto Departamento de Contabilidade RCC0305 – Métodos Quantitativos I Obrigado pela Atenção!!! Até a próxima aula mbotelho@usp.br www.marcelobotelho.com 49