SlideShare uma empresa Scribd logo
1 de 10
Baixar para ler offline
XXII SEMANA ACADÊMICA DA MATEMÁTICA




              Multicolinearidade em Modelos de Regress˜ o
                                                      a

                           Simone A. Miloca 1 , Paulo D. Conejo 2


  1
      Colegiado do Curso de Matem´ tica - Centro de Ciˆ ncias Exatas e Tecnol´ gicas da
                                   a                  e                      o
                        Universidade Estadual do Oeste do Paran´ a
                  Caixa Postal 711 - 85819-110 - Cascavel - PR - Brasil
                     smiloca@unioeste.br, pconejo@unioeste.br




      Resumo. As t´ cnicas da an´ lise multivariada de dados tˆ m sido regularmente apli-
                  e             a                             e
      cada em problemas de diversas areas. A escolha de uma determinada t´ cnica nor-
                                         ´                                        e
      malmente e determinada segundo os objetivos da investigacao a ser realizada. Uma
                 ´                                                  ¸˜
      teoria abordada na an´ lise multivariada de dados e a construcao e validacao de mo-
                              a                            ´           ¸˜          ¸˜
      delos de regress˜ o linear. Tais modelos surgem em problemas em que o interesse de
                        a
      estudo est´ em saber qual o comportamento das vari´ veis em quest˜ o e qual relacao
                 a                                           a               a            ¸˜
      existente entre elas. Na construcao de tais modelos, alguns pressupostos devem ser ve-
                                      ¸˜
      rificados e um deles e a dependˆ ncia entre os regressores (vari´ veis independentes). Se
                            ´         e                               a
      tais dependˆ ncias forem fortes pode existir multicolinearidade, provocando efeitos nas
                   e
      estimativas dos coeficientes de regress˜ o e na aplicabilidade geral do modelo estimado.
                                             a
      Este trabalho traz uma discuss˜ o inicial sobre o problema de multicolinearidade, apre-
                                     a
      sentando atrav´ s de um exemplo uma das formas de se detectar e solucionar (t´ cnica
                      e                                                                 e
      de An´ lise Fatorial) o problema.
            a



      Palavras Chaves. multicolinearidade, an´ lise fatorial, dependˆ ncia linear
                                             a                      e




1. Problema de Multicolinearidade em Modelos de Regress˜ o
                                                       a
                                                        ´
A escolha de um determinado m´ todo multivariado e determinada segundo os objeti-
                                   e
                  ¸˜
vos da investigacao a ser realizada, [9], [10], [12], [14], [13]. Uma teoria abordada na
                               ´          ¸˜           ¸˜
an´ lise multivariada de dados e a construcao e validacao de modelos de regress˜ o linear.
  a                                                                             a
Tais modelos surgem em problemas em que o interesse de estudo est´ em saber qual o
                                                                       a
                          a             a              ¸˜
comportamento das vari´ veis em quest˜ o e qual relacao existente entre elas. Deseja-se
construir um modelo matem´ tico que melhor represente tal relacionamento.
                             a
                                      ¸˜                       ´
      Quando se tem pares de observacoes de duas vari´ veis, e poss´vel avaliar o rela-
                                                        a            ı
cionamento entre elas fazendo-se um gr´ fico de dispers˜ o e assim, indicar como seria o
                                      a               a
modelo matem´ tico. Em muitos problemas, os modelos a serem constru´dos s˜ o lineares.
             a                                                         ı    a
                                     ´
       A teoria de Regress˜ o Linear e importante principalmente quando se tem duas ou
                            a
mais vari´ veis envolvidas no problema (tanto na vari´ vel resposta quanto nas covari´ veis).
         a                                           a                               a
                                                     ¸˜
         Um modelo de regress˜ o linear, tem por equacao
                             a
XXII SEMANA ACADÊMICA DA MATEMÁTICA

                                Yn×1 = Xn×p Bp×1 +     n×1

onde,
    • Y e o vetor das n observacoes (vari´ vel dependente).
         ´                        ¸˜        a
    • Xe ´ a matriz das vari´ veis independentes.
                            a
    • e a matriz dos erros aleat´ rios e representa a influˆ ncia de outros fatores n˜ o
        ´                            o                      e                       a
                                                             ¸˜
      considerados no modelo, bem como os erros de medicao da vari´ vel resposta Y.
                                                                      a
      Em geral e suposto que ≈ N (0, σ 2 ), ou seja, os erros experimentais s˜ o inde-
                 ´                                                            a
      pendentes e normalmente distribu´dos.
                                          ı
    • B e a matriz dos coeficientes desconhecidos do modelo que devem ser estimados.
         ´
                                               ´
        O que se espera em tais modelos, e encontrar dependˆ ncias entre a vari´ vel res-
                                                                 e                   a
posta Yi e os regressores Xj . Em tais problemas, deve-se fazer uma avaliacao das suposicoes
                                                                           ¸˜              ¸˜
                        ¸˜
exigidas para aplicacao do modelo. Segundo HAIR [14] existem diversos fatores que po-
dem influenciar na busca do melhor modelo de regress˜ o. Neste sentido, algumas etapas
                                                          a
                                           ´            ¸˜
devem ser seguidas, a primeira delas e a especificacao dos objetivos da an´ lise de re-
                                                                                 a
      a                     ¸˜
gress˜ o, que inclui a selecao das vari´ veis dependentes e independentes. A segunda etapa
                                        a
                   ¸˜                                              ¸˜                ` a
inclui determinacao do tamanho da amostra. A seguir, as suposicoes inerentes a an´ lise
de regress˜ o (normalidade, linearidade, homocesdasticidade e independˆ ncia dos termos
           a                                                               e
de erro) devem ser testadas para as vari´ veis individuais e se todas forem atendidas, o
                                             a
                                    o         ¸˜
modelo dever´ ser estimado. Ap´ s obtencao dos resultados, faz-se an´ lises diagn´ sticas
               a                                                        a              o
                                                      `        ¸˜
no sentido de verificar se o modelo geral atende as suposicoes de regress˜ o e que ne-
                                                                               a
                 ¸˜                                                                ´
nhuma observacao tenha influˆ ncia excessiva sobre os dados. A pr´ xima etapa e interpre-
                                  e                                 o
tar a vari´ vel estat´stica de regress˜ o e examinar o papel de cada vari´ vel independente
          a           ı               a                                  a
na previs˜ o da medida dependente. Por fim, os resultados s˜ o validados para garantir
          a                                                      a
            ¸˜                 ¸˜
generalizacao para a populacao. Nas referˆ ncias [9] e [14] pode-se encontrar informacoes
                                              e                                          ¸˜
sobre cada uma dessas etapas.
        O enfoque deste trabalho est´ centrado em um aspecto a ser considerado na pri-
                                       a
                                                  ¸˜
meira destas etapas. Trata-se de discutir a selecao de vari´ veis. Uma vari´ vel indepen-
                                                             a                 a
dente adicional pode melhorar a previs˜ o da vari´ vel dependente, essa melhoria est´ rela-
                                         a         a                                 a
          a                          ¸˜
cionada n˜ o somente com a correlacao existente com a vari´ vel dependente, mas tamb´ m
                                                             a                           e
               ¸˜
com a correlacao desta vari´ vel com as demais vari´ veis independentes existentes no
                              a                          a
modelo. Assim, deve-se investigar se existe dependˆ ncias entre os regressores Xj . Em
                                                       e
situacoes onde essas dependˆ ncias forem fortes, dizemos que existe multicolinearidade.
     ¸˜                      e
                                 `         ¸˜
A multicolinearidade refere-se a correlacao entre trˆ s ou mais vari´ veis independentes. O
                                                     e              a
                      ´
que precisa ser feito e procurar vari´ veis independentes que tenham baixa multicolineari-
                                     a
                         a                                e                      ¸˜
dade com as outras vari´ veis independentes, mas tamb´ m apresentem correlacoes eleva-
               a                                            e                         ¸˜
das com a vari´ vel dependente. Segundo HAIR (2005), al´ m dos efeitos na explicacao, a
multicolinearidade pode ter s´ rios efeitos nas estimativas dos coeficientes de regress˜ o e
                              e                                                         a
na aplicabilidade geral do modelo estimado.

                     ¸˜
       Algumas indicacoes da presenca de multicolinearidade s˜ o:
                                   ¸                         a
                                              ¸˜
    1. valores altos do coeficiente de correlacao;
                       ¸˜
    2. grandes alteracoes nas estimativas dos coeficientes de regress˜ o, quando uma
                                                                        a
                                                                                         ¸˜
       vari´ vel independente for adicionada ou retirada do modelo, ou quando uma observacao
           a
       for alterada ou eliminada;
    3. a rejeicao da hip´ tese Ho : β1 = β2 = ... = βk = 0, mas nenhuma rejeicao
              ¸˜          o                                                          ¸˜
       das hip´ teses Ho : βi = 0, i = 1, 2, ..., k, sobre os coeficientes individuais de
               o
       regresss˜ o;
                a
XXII SEMANA ACADÊMICA DA MATEMÁTICA

              ¸˜
    4. obtencao de estimativas para os coeficientes de regress˜ o com sinais alg´ bricos
                                                                a                e
             a     `
       contr´ rios aqueles que seriam esperados a partir de conhecimentos te´ ricos dis-
                                                                            o
       pon´veis ou de experiˆ ncias anteriores sobre o fenˆ meno estudado e
           ı                 e                            o
              ¸˜
    5. obtencao de intervalos de confianca com elevadas amplitudes para os coeficientes
                                           ¸
       de regress˜ o, associados a vari´ veis independentes importantes.
                  a                    a

        A presenca de multicolinearidade pode ser detectada de v´ rias maneiras. Duas
                  ¸                                                a
medidas mais comumente utilizadas s˜ o o valor de tolerˆ ncia ou seu inverso, chamada
                                       a                   a
                ¸˜          a                                ¸˜              1
fatores de inflacao da variˆ ncia (VIF) definido pela equacao F (βj ) = 1−R2 j . E uma´
                                   a                   ´
medida do grau em que cada vari´ vel independente e explicada pelas demais vari´ veis a
                                                    ¸˜
independentes. Quanto maior for o fator de inflacao da variˆ ncia, mais severa ser´ a
                                                                a                       a
                                                                         ¸˜
multicolinearidade. Sugerem-se [9] e [14] que se qualquer fator de inflacao da variˆ ncia
                                                                                      a
exceder 10, ent˜ o a multicolinearidade causar´ efeitos nos coeficientes de regress˜ o. Ou-
                a                             a                                   a
                                             ¸˜
tros autores sugerem que os fatores de inflacao da variˆ ncia n˜ o devem exceder 4 ou 5,
                                                         a      a
isso depender´ do conhecimento te´ rico do pesquisador sobre o assunto estudado.
              a                     o
        V´ rias medidas tˆ m sido propostas para resolver o problema de multicolineari-
         a               e
dade.
        Hair [14] destaca as seguintes:

     • excluir uma ou mais vari´ veis independentes altamente correlacionadas e identi-
                                   a
       ficar outras vari´ veis independentes para ajudar na previs˜ o. Esse procedimento
                        a                                            a
                                                                             ¸˜
       deve ser feito com cautela pois, neste caso, h´ o descarte de informacoes, contida
                                                        a
       nas vari´ veis removidas;
                a
     • usar o modelo com vari´ veis independentes altamente correlacionadas apenas para
                                 a
       previs˜ o, ou seja, n˜ o interpretar os coeficientes de regress˜ o;
             a              a                                        a
     • usar as correlacoes simples entre cada vari´ vel independente e a dependente para
                       ¸˜                            a
                            ¸˜
       compreender a relacao entre vari´ veis independentes e dependente e
                                           a
     • usar um m´ todo mais sofisticado de an´ lise como a regres˜ o Bayesiana (ou um
                   e                              a                    a
       caso especial - regress˜ o ridge) ou a regress˜ o sobre componentes principais para
                                a                     a
       obter um modelo que reflita mais claramente os efeitos simples das vari´ veis in-
                                                                                 a
       dependentes.
         Segundo Aranha [13], o problema de multicolinearidade pode ser contornado
utilizando-se a An´ lise de Componentes Principais (ACP), que transforma os Xj em com-
                   a
ponentes ortogonais (n˜ o correlacionados) que s˜ o utilizados como vari´ veis explicativas
                        a                         a                      a
da regress˜ o. O problema que pode ocorrer com esta pr´ tica est´ na dificuldade de inter-
            a                                             a       a
                                                                                     ¸˜
pretar o significado dos componentes e por consequˆ ncia, dificuldade de interpretacao dos
                                                     e
coeficientes de regress˜ o. Comenta ainda que os escores fatoriais, obtidos atrav´ s de ou-
                        a                                                         e
tra t´ cnica denominada An´ lise Fatorial, podem ser utilizados como vari´ veis de interesse
     e                      a                                             a
em modelos de regress˜ o, sendo esta pr´ tica realizada com cautela, devido principalmente
                        a               a
             ¸˜
a interpetacao dos chamados fatores.
        Outro autor, Alpert apud Hair [14], escreve um artigo abordando quest˜ es refe-
                                                                             o
                             a                              ¸˜
rentes ao modelo de regress˜ o e sugere, como forma de reducao do n´ mero de vari´ veis
                                                                    u             a
independentes, a t´ cnica de An´ lise Fatorial.
                  e            a
                                                  ´
        Neste contexto, a proposta deste trabalho e apresentar a t´ cnica de An´ lise Fatorial
                                                                  e            a
bem como um exemplo ilustrativo, utilizando-se dados de um modelo de regress˜ o cujasa
vari´ veis independentes apresentam multicolinearidade.
    a
XXII SEMANA ACADÊMICA DA MATEMÁTICA

2. An´ lise Fatorial
     a
      a                   ´
A An´ lise Fatorial (AF) e uma t´ cnica da an´ lise multivariada que tem por objetivo ex-
                                 e              a
                ¸˜
plicar a correlacao entre um conjunto grande de vari´ veis aleat´ rias em termos de um
                                                         a         o
conjunto de poucas vari´ veis aleat´ rias n˜ o observ´ veis chamadas fatores.
                        a          o       a         a
              a           o                  a                                          ¸˜
       As vari´ veis aleat´ rias observadas s˜ o agrupadas de acordo com suas correlacoes.
Dentro de um grupo as vari´ veis aleat´ rias s˜ o altamente correlacionadas entre si e de um
                             a         o      a
                             ¸˜
grupo para outro as correlacoes s˜ o baixas.
                                   a
                         ´                      ¸˜
        A id´ ia central e condensar a informacao contida em diversas vari´ veis originais
            e                                                               a
                                                                   ¸˜
em um conjunto menor (fatores) com pequena perda de informacao, com a vantagem de
                   ¸˜                                         ¸˜
n˜ o haver correlacao entre os fatores e eles estarem nas direcoes de maior variabilidade.
 a
                                     ´
         O modelo fatorial ortogonal e
                             Xp×1 = µp×1 + Lp×m Fm×1 + εp×1
onde,
    •    X = (x1 , x2 , ..., xp )t e um vetor aleat´ rio,
                                   ´               o
    •    µi e a m´ dia da i-´ sima vari´ vel,
             ´     e          e          a
    •    εi e o i-´ simo erro ou fator espec´fico,
             ´    e                           ı
    •    Fj e o j-´ simo fator comum, e
              ´    e
    •    lij e o peso ou carregamento na i-´ sima vari´ vel xi do j-´ simo fator Fj
             ´                                 e          a         e
sendo,
    •   F e ε independentes;
    •   E(F ) = 0 e Cov(F ) = Im×m e
    •   E(ε) = 0, Cov(ε) = ψ, onde ψ e uma matriz diagonal com variˆ ncia espec´fica
                                     ´                                  a             ı
        ψi na diagonal principal.
Postula-se que X e LD de algumas vari´ veis aleat´ rias n˜ o observ´ veis F1 , ..., Fm e p
                   ´                 a           o       a         a
fontes de variacao εi , ..., εp
               ¸˜
       ¸˜
Proposicao 1 A estrutura para o modelo fatorial ortogonal satisfaz:
   1. Cov(X) = LL + ψ, ou
                                                2           2
                                   V ar(Xi ) = li1 + ... + lim + ψi
                                Cov(Xi , Xk ) = li1 lk1 + ... + lim lkm
    2. Cov(X, F ) = L, ou
                                          Cov(Xi , Fj ) = li j
                ¸˜
       Observacoes:
         2    2         2
     • hi = li1 +...+lim e denominada comunalidade espec´fica e e a porcao da variˆ ncia
                           ´                                 ı   ´     ¸˜         a
       da vari´ vel xi que e distribu´da pelos m fatores comuns.
              a            ´         ı
     • ψi e denominada variˆ ncia espec´fica e e a porcao da variˆ ncia V ar(Xi ) devida
           ´                  a            ı      ´      ¸˜      a
       ao fator espec´fico. Logo, pode-se escrever
                      ı
                                  V ar(Xi ) = hi 2 + ψi = σi 2 = σii .
     • A exigˆ ncia m ≤ p implica que a estrutura dos dados (fatores comuns) n˜ o e mais
               e                                                                a ´
       complicada do que aquela para os dados observados. Se fosse, n˜ o haveria o que
                                                                           a
       se ganhar com a AF.
     • lij e a covariˆ ncia da i-´ sima vari´ vel Xi com o j-´ simo fator comum Fj . Se a
            ´         a            e          a              e
       matriz de correlacao for usada, ent˜ o lij ser´ o coeficiente de correlacao entre a
                           ¸˜                  a      a                       ¸˜
       i-´ sima vari´ vel e o j-´ simo fator comum.
         e          a           e
XXII SEMANA ACADÊMICA DA MATEMÁTICA

                       ¸˜
2.1. M´ todos de Estimacao
      e

O modelo fatorial ortogonal procura representar adequadamente os dados com um pe-
                             a          a                         a        ´
queno n´ mero de fatores n˜ o observ´ veis. A matriz de covariˆ ncia S e um estimador da
          u
matriz populacional Σ desconhecida. Se em determinado problema, os elementos fora da
diagonal de S s˜ o pequenos, ou equivalentemente, os elementos fora da diagonal da ma-
                a
               ¸˜
triz de correlacao R s˜ o essencialmente nulos, ent˜ o as vari´ veis n˜ o s˜ o correlacionadas
                       a                              a       a       a a
e portanto a an´ lise fatorial n˜ o ser´ util ao problema. Agora, se Σ desvia significativa-
                a               a      a´
mente de uma matriz diagonal, ent˜ o o modelo fatorial pode ser utilizado, e o problema
                                      a
inicial e fazer uma estimacao dos carregamentos fatoriais lij e as variˆ ncias espec´ficas
        ´                    ¸˜                                             a            ı
ψi . Os m´ todos mais populares s˜ o: o m´ todo das componentes principais e o m´ todo de
           e                        a       e                                         e
m´ xima verossimilhanca. A seguir descreve-se o m´ todo das componentes principais.
   a                     ¸                              e
        Seja S a matriz de covariˆ ncia amostral e (λ1 , e1 ), (λ2 , e2 ), · · · , (λp , ep ) os pares
                                 a
de autovalores e autovetores de S, sendo λ1 ≥ λ2 ≥ · · · ≥ λp . Seja m ≤ p o n´ mero de      u
fatores comuns. A matriz de pesos (ou cargas) estimadas, dos fatores lij e dada por´
                                                         1
                                             L = CDλ
                                                   2




onde                                                                    
                                             e11 e12         ···   e1n
                                        
                                            e21 e22         ···   e2n   
                                                                         
                                Cp×p   =
                                            e31 e32         ···   e3n   
                                                                         
                                             .
                                              .   .
                                                  .          ...    .
                                                                    .    
                                             .   .                 .    
                                             ep1 ep2         ···   epp
e                                       √                                
                                           λ1 √0 · · ·              0
                               1
                                          0   λ2 · · ·             0     
                              Dλ = 
                               2                                         
                                           .
                                           .   .
                                               .   ...              .
                                                                    .     
                                          .   .                    .     
                                           0   0 ···                 λp

                ¸˜                                                   ¸˜
       A obtencao de tais matrizes deve-se ao teorema da decomposicao espectral, que
permite escrever a matriz de covariˆ ncia Σ (que normalmente e estimada e denotada an-
                                   a                         ´
teriormente por S) na forma
                                       Σ = P ΛP
onde P e uma matriz de autovetores e Λ e uma matriz diagonal de autovalores, ou seja,
       ´                               ´

                             Σ = λ1 e1 e1 + λ2 e2 e2 + · · · + λp ep ep

que na forma matricial fatorada fica
                                                               √         
                                                                    λ1 e1
                                           .       .                 .
                            Σ = [e1     λ1 . · · · . p
                                           .       .e    λp ]       .
                                                                         
                                                                     .    
                                                                    λp ep

Escreve-se
                                              Σ = LL
XXII SEMANA ACADÊMICA DA MATEMÁTICA

                                           ´
O que ocorre no modelo que queremos e explicar a estrutura de covariˆ ncia em termos
                                                                        a
de poucos fatores, ou seja, tomando m ≤ p. Desta forma exclui-se a contribuicao de
                                                                              ¸˜
λm+1 em+1 em+1 + · · · + λp ep ep e toma-se a aproximacao
                                                       ¸˜
                                               √         
                                                   λ1 e1
                                .    .              .
                Σ = [e1 λ1 . · · · . m λm ] 
                                .    .e             .      = Lp×m Lm×p
                                                         
                                                 √  .
                                                   λm em

              ¸˜
       Observacoes:

     • as variˆ ncias espec´ficas ψ s˜ o dadas pelos elementos da diagonal principal da
              a            ı          a
       matriz Σ − LL , e
     • na aplicacao deste modelo costuma-se subtrair de cada observacao X1 , ..., xn a
                 ¸˜                                                   ¸˜
         e                                ¸˜
       m´ dia amostral para que as observacoes fiquem centradas no mesmo ponto. Tamb´ m
                                                                                     e
       ´
       e usual padronizar as vari´ veis
                                 a
                                              x −x 
                                                      ij         1
                                                      √
                                                           s11
                                                 
                                            Zj =          .
                                                           .
                                                                     
                                                          .         
                                                                     
                                                     xpj −xp
                                                      √
                                                        spp


                 ¸˜                                      ¸˜
        Tal solucao pode ser rotacionada para a obtencao de uma estrutura mais simples,
                    ¸˜
na qual a interpretacao dos fatores seja bem mais vis´vel e simplificada. Isto pode ser feito
                                                     ı
por diversos m´ todos sendo os mais utilizados, o m´ todo Varimax ou Varimax Normal,
                e                                      e
[9].
       Quanto a escolha do n´ mero de fatores comuns, dentre os crit´ rios utilizados,
                            u                                       e
pode-se citar:
                              ´                                                        ¸˜
    1. o n´ mero de fatores m e igual ao n´ mero de autovalores de R (matriz de correlacao),
          u                               u
       maiores do que 1 (um) (crit´ rio de Kaiser), e
                                   e
          u                    ´
    2. o n´ mero de fatores m e escolhido de acordo com o percentual da variˆ ncia expli-
                                                                               a
       cada sendo,
                λj
            • tr(S) quando a an´ lise e feita a partir de S, e
                                 a     ´
                 λj
             •   p
                                        ´                                    ¸˜
                      quando a an´ lise e feita a partir da matriz de correlacao
                                 a


3. Exemplo
Para exemplificar a t´ cnica de An´ lise Fatorial, sup˜ e-se que se deseja construir um
                        e               a                    o
modelo de regress˜ o para tentar explicar o relacionamento entre uma vari´ vel resposta
                    a                                                            a
y=preco e um conjunto de vari´ veis explicativas dadas por ´ndices (vari´ veis quantitati-
      ¸                           a                               ı           a
vas) de qualidade industrial do trigo ([4], [3]), obtidos atrav´ s de testes espec´ficos reali-
                                                                  e                ı
zados em laborat´ rios. Os dados para an´ lise foram extra´dos de [7], perfazendo um total
                  o                          a                 ı
                                                                                        ¸˜
de 7 vari´ veis explicativas (w, pl, fn, gs, gu, aa e est), cada uma contendo 18 informacoes,
         a
que podem ser vistas como 18 lotes.
                          ´
       Uma id´ ia inicial e optar por um modelo do tipo
             e

             y = β0 + β1 w + β2 pl + β3 f n + β4 gs + β5 gu + β6 aa + β7 est.
XXII SEMANA ACADÊMICA DA MATEMÁTICA

                                  a               ¸˜
        Nosso objetivo aqui ser´ voltar nossa atencao ao fato de haver uma dependˆ ncia
                                                                                 e
entre as vari´ veis explicativas.
             a
                 ¸˜                                          ´
       As correlacoes estimadas a partir dos dados originais e apresentado na tabela 1.


                                       ¸˜
                      Tabela 1: correlacoes a partir dos dados originais.
                       w       pl      fn    gs        gu       aa      est
                w      1,00    -0,20   0,05 -0,32      -0,27    -0,16   0,46
                pl     -0,20   1,00    0,24 -0,26      -0,41    0,08    0,41
                fn     0,05    0,24    1,00 0,17       -0,09    -0,16   0,55
                gs     -0,32   -0,26   0,17 1,00       0,91     -0,45   -0,02
                gu     -0,27   -0,41   -0,09 0,91      1,00     -0,43   -0,14
                aa     -0,16   0,08    -0,16 -0,45     -0,43    1,00    -0,50
                est    0,46    0,41    0,55 -0,02      -0,14    -0,50   1,00

           a               a               a                  ´
       O gr´ fico de dispers˜ o para as vari´ veis do problema e dado pela figura 1.


                                           ´              ˜
                               Figura 1: grafico de dispersao.




        Observe pela figura 1 e tabela 1, que algumas vari´ veis como gs e gu apresentam
                                                          a
             ¸˜
alta correlacao.
                                                        ´
        A seguir apresenta-se o scree plot (figura 2). E um gr´ fico que auxilia na de-
                                                                 a
cis˜ o do n´ mero de fatores. O crit´ rio associado ao uso do scree plot para determinar
   a        u                          e
                            ´                                   `
a quantidade de fatores e considerar o n´ mero de autovalores a esquerda do “ponto de
                                            u
                  ´                                                 ¸˜
cotovelo”, isto e, o ponto onde ocorre uma forte mudanca da inclinacao da linha que une
                                                        ¸
                ¸˜
as representacoes dos autovalores. Tal crit´ rio costuma ser coerente com o crit´ rio de
                                              e                                   e
                    a ´                                    ¸˜
Kayser, mas isso n˜ o e uma regra. Observa-se que a solucao com trˆ s fatores para sete
                                                                     e
vari´ veis atende ao crit´ rio do “cotovelo”.
     a                   e
       Utilizando o crit´ rio de Kayser, temos trˆ s autovalores maiores do que 1, expli-
                        e                        e
cando em torno de 83% da variˆ ncia total dos dados (tabela 2).
                                a
XXII SEMANA ACADÊMICA DA MATEMÁTICA


                                             ´
                                 Figura 2: grafico scree plot.




                                                                  ¸˜
                        Tabela 2: autovalores da matriz de correlacao.
                Autovalores   % variˆ ncia explicada
                                    a                  % variˆ ncia cumulativa
                                                             a
                2,4343        34,7757                  34,7757
                2,0907        29,8677                  64,6434
                1,2837        18,3393                  82,9827


       Na tabela 3 apresenta-se a matriz de carregamentos(pesos) e comunalidades.



    Tabela 3: matriz de pesos (ou carregamentos) e comunalidades estimados pelo
               ´                                  ˜
              metodo das componentes principais nao rotacionado.
   Vari´ veis
       a          cargas fatoriais estimadas        Comunalidades          R2 m´ ltiplo
                                                                               u
                  Fator 1 Fator 2 Fator 3      Fator 1 Fator 2 Fator 3
   w              0,343     -0,396     0,797   0,117   0,274   0,909       0,626
   pl             0,496     -0,318 -0,671      0,246   0,348   0,799       0,644
   fn             0,077     -0,689 -0,339      0,006   0,481   0,597       0,620
   gs             -0,924 -0,208 -0,189         0,854   0,897   0,933       0,911
   gu             -0,965 -0,041 -0,006         0,931   0,933   0,933       0,915
   aa             0,480     0,664     -0,211   0,231   0,672   0,717       0,559
   est            0,219     -0,932 0,034       0,048   0,918   0,919       0,806
   Exp.Var        2,434     2,091     1,284
   Prp.Tot        0,347     0,299     0,183


                              ¸˜
         Observa-se a associacao das vari´ veis gs e gu como o primeiro fator F1, est, aa
                                         a
                                                                              ¸˜
e fn, como segundo fator F2 e w, pl como F3. Tenta-se procurar uma solucao mais in-
                                                             ¸˜       e ´
terpret´ vel, rotacionando o eixo que descreve o espaco solucao. A id´ ia e a seguinte: os
        a                                             ¸
resultados do modelo fatorial pode ser representado em um espaco ortogonal onde cada
                                                                   ¸
      ´                                           ´
eixo e representado por um fator e cada vari´ vel e representada por um ponto cujas coor-
                                             a
denadas s˜ o descritas por uma n-upla. No nosso problema a vari´ vel w ser´ representada
           a                                                      a        a
XXII SEMANA ACADÊMICA DA MATEMÁTICA

   em R3 pelo ponto (0, 342; −0, 396; 0, 797), e assim por diante. O que se fez foi procurar
                                                                ¸˜
   um outro sistema de eixos ortogonais (atr´ ves de uma rotacao do sistema original) que
                                               a
         e                          ¸˜
   tamb´ m descrevesse as configuracoes das vari´ veis envolvidas, preservando as distˆ ncias
                                                   a                                  a
                                                                       ¸˜
   relativas entre os pontos, de modo que se possa perceber a associacao das vari´ veis a um
                                                                                 a
                                     ´               ¸˜
   dos fatores mais claramente. Isto e feito via rotacao varimax (tabela 4).

                                                             ¸˜
                            Tabela 4: dados obtidos pela rotacao varimax.

     Vari´ veis
         a        cargas fatoriais estimadas              Comunalidades                  R2 m´ ltiplo VIF
                                                                                             u
                  Fator 1 Fator 2 Fator 3            Fator 1 Fator 2 Fator 3
     w            -0,234 0,145         -0,913        0,055   0,075   0,909               0,626            2,67
     pl           -0,417 0,636        0,470          0,174   0,578   0,799               0,644            2,81
     fn           0,080     0,765     0,069          0,006   0,592   0,596               0,620            2,63
     gs           0,945     0,063     0,189          0,893   0,897   0,933               0,911            11,24
     gu           0,950     -0,163 0,079             0,900   0,927   0,933               0,915            11,76
     aa            -0,622 -0,426 0,384               0,387   0,569   0,717               0,559            2,27
     est          0,0006 0,882        -0,377         0,000   0,777   0,912               0,806            5,15
     Exp.Var      2,416     2,001     1,391
     Prp.Tot      0,345     0,285     0,198

           Os fatores encontrados s˜ o identificados pelas suas cargas em suas respectivas
                                       a
   vari´ veis, ficando o fator F1 formado pelas vari´ veis (gs, gu, aa), o fator F2, por (pl, fn
       a                                             a
                                           ¸       ´
   e est) e o fator F3 por (w). A diferenca agora e que a vari´ vel pl passou a fazer parte do
                                                               a
                     a                          e                                  ¸˜
   fator F2, e a vari´ vel aa, do fator F1. Tamb´ m pode-se verificar tal identificacao atrav´ s
                                                                                             e
   do gr´ fico da matriz de cargas fatoriais.
         a
           Observa-se que o R2 m´ ltiplo, permite obter o VIF, definido na secao 1, indicando
                                 u                                          ¸˜
   presenca de multicolinearidade.
         ¸
          O c´ lculo dos escores fatoriais podem ser feitos com base nas cargas fatoriais
              a
   estimadas, e s˜ o apresentados na tabela 5.
                 a

                                        Tabela 5: escores fatoriais
     F1   -0,42 1,77 0,18 -1,58 -0,56 1,23 2,19 -0,38 -0,57 -0,29 -1,59 0,61 -0,09 -0,69 0,43 0,21 0,07 -0,52
     F2   0,11 -0,46 -0,87 -1,04 -0,92 0,35 0,76 0,59 -0,26 0,38 1,05 -1,84 1,08 1,30 -0,38 1,91 -0,68 -1,07
     F3   0,95 0,61 -0,26 0,58 0,48 -0,74 0,15 1,39 -1,09 -1,74 0,16 -1,57 -0,64 -0,68 1,92 0,03 1,02 -0,56




               ¸˜
   4. Consideracoes finais
                                                              ¸˜
   O modelo fatorial ortogonal pode ser utilizado para reducao de um conjunto de dados.
   Os escores fatoriais podem ser utilizados para substituir as vari´ veis independentes com
                                                                    a
               ¸˜                                                   ¸˜
   alta correlacao em modelos de regress˜ o, devendo esta substituicao ser feita com cautela,
                                         a
                       ¸˜
   devido as interpretacoes dos coeficientes de regress˜ o.
                                                      a


   Referˆ ncias
        e
[1] BRUNETTA, D.; DOTTO, S. R.; FRANCO, F. de A; BASSOI, M. C. Cultivares de trigo
       no Paran´ : rendimento, caracter´sticas agronˆ micas e qualidade industrial. Lon-
               a                       ı            o
       drina: EMBRAPA - CNPSo, 1997. 48p. (EMBRAPA-CNPSo. Circular T´ cnica,     e
       18).
XXII SEMANA ACADÊMICA DA MATEMÁTICA

 [2] MORETTIN, P. A.; BUSSAB, W. O. Estat´stica b´ sica. 5. ed. S˜ o Paulo: Saraiva, 2004.
                                             ı      a              a
         526p.
                           ˆ                   ´
 [3] INSTITUTO AGRONOMICO DO PARANA. Londrina, PR. Informacoes t´ cnicas para
                                                                       ¸˜ e
         a cultura do trigo no Paran´ - Londrina 2000 152p. ilus. (IAPAR.Circular, 109)
                                    a
 [4] GUARIENTI, E. M. Efeito de vari´ veis meteorol´ gicas na qualidade industrial de trigo.
                                    a              o
        Tese de doutorado. Unicamp - 2001.
 [5] KOEHLER, H. S. Estat´stica Experimental. UFPR - Curitiba. 1998. P 36-43.
                         ı
 [6] MILOCA, Simone A., Aplicacao da Teoria de Correlacao Canˆ nica e m´ todo PRO-
                              ¸˜                      ¸˜       o           e
        METHEE num problema de qualidade industrial do trigo, Curitiba, 2002, UFPR.
 [7] MILOCA, Simone A., Relacao entre vari´ veis meteorol´ gicas e a qualidade industrial
                                ¸˜            a              o
        do trigo, Revista Ciˆ ncia Rural. Santa Maria, v.37, n.1, p.31-37, jan-fev, 2007.
                            e
 [8] CHAVES NET0, Anselmo. Probabilidade e estat´stica aplicada. Curitiba. UFPR, 1998.
                                                ı
        (notas de aula)
 [9] JOHNSON, R.; WICHERN, D. W. Applied Multivariate Statistical Analysis. New Jersey:
        Prentice Hall International, Inc. 1988. 642p.
[10] JOHNSON, R.; WICHERN, D. W. Business Statistics. John Wiley and Sons, Inc. 1997.
[11] MOOD,A.; GRAYBILL, F. Introduction to the theory of statistics. Mc-Graw-Hill, Inc.
        1986.
[12] MARDIA, Kantilal Varichand. Multivariate Analysis. (Probability and mathematical sta-
        tistics). New York. 1980.
[13] Aranha, Francisco; Zambaldi, Felipe. An´ lise Fatorial em Administracao. S˜ o Paulo:
                                            a                            ¸˜    a
         CENGAGE Learning, 2008.
[14] Hair, Jr., J. H.; Anderson, R. E.; Tatham, R. L.; Black, W. C. trad. Adonai Schlup
          Sant’Ana e Anselmo Chaves Neto. An´ lise Multivariada de Dados. 5 ed. Porto Ale-
                                              a
          gre: Bookman. 2005.

Mais conteúdo relacionado

Destaque (20)

ALFAMAR PEREIRA
ALFAMAR PEREIRAALFAMAR PEREIRA
ALFAMAR PEREIRA
 
Deus te cuide
Deus te cuideDeus te cuide
Deus te cuide
 
Velas precisam ficar_acesas
Velas precisam ficar_acesasVelas precisam ficar_acesas
Velas precisam ficar_acesas
 
Pensamento03022009
Pensamento03022009Pensamento03022009
Pensamento03022009
 
Mensagem
MensagemMensagem
Mensagem
 
Multidisciplinares
MultidisciplinaresMultidisciplinares
Multidisciplinares
 
La toscane. coro
La toscane. coroLa toscane. coro
La toscane. coro
 
Caño cristales
Caño cristales Caño cristales
Caño cristales
 
O ferreiro
O ferreiroO ferreiro
O ferreiro
 
Arvore de amigos
Arvore de amigosArvore de amigos
Arvore de amigos
 
Fotos Surrealistas
Fotos SurrealistasFotos Surrealistas
Fotos Surrealistas
 
Victor Hugo
Victor HugoVictor Hugo
Victor Hugo
 
Bonsai De Amigos
Bonsai De AmigosBonsai De Amigos
Bonsai De Amigos
 
7 deus
7 deus7 deus
7 deus
 
Caf!!!e dengue!!!
Caf!!!e dengue!!!Caf!!!e dengue!!!
Caf!!!e dengue!!!
 
Fotos Curiosas
Fotos CuriosasFotos Curiosas
Fotos Curiosas
 
Historietas
HistorietasHistorietas
Historietas
 
Recomecar
RecomecarRecomecar
Recomecar
 
Si alguien se acerca.
Si alguien se acerca.Si alguien se acerca.
Si alguien se acerca.
 
=
==
=
 

Semelhante a Multicolinearidade%20em%20modelos%20de%20regressao adicional

Modelos lineares mistos aplicados em ciências atuariais.
Modelos lineares mistos aplicados em ciências atuariais.Modelos lineares mistos aplicados em ciências atuariais.
Modelos lineares mistos aplicados em ciências atuariais.Universidade Federal Fluminense
 
Raciocínio baseado em casos
Raciocínio baseado em casosRaciocínio baseado em casos
Raciocínio baseado em casosPatrick Peyneau
 
Livro risco de credito
Livro risco de creditoLivro risco de credito
Livro risco de creditoTâmara Muhle
 
Livro proprietario calculo diferencia e integral iii
Livro proprietario   calculo diferencia e integral iiiLivro proprietario   calculo diferencia e integral iii
Livro proprietario calculo diferencia e integral iiiAndré Pinto
 
Breves notas sobre projecto de pesquisa
Breves notas sobre projecto de pesquisaBreves notas sobre projecto de pesquisa
Breves notas sobre projecto de pesquisaUEM/Mozambique
 
Modelação estatística para risco de crédito (versão incompleta)
Modelação estatística para risco de crédito (versão incompleta) Modelação estatística para risco de crédito (versão incompleta)
Modelação estatística para risco de crédito (versão incompleta) Emanuel Ramos Borges
 
Estimando a aversão ao risco, a taxa de desconto intertemporal
Estimando a aversão ao risco, a taxa de desconto intertemporalEstimando a aversão ao risco, a taxa de desconto intertemporal
Estimando a aversão ao risco, a taxa de desconto intertemporalUniversidade Federal Fluminense
 
Estimando a aversão ao risco, a taxa de desconto intertemporal
Estimando a aversão ao risco, a taxa de desconto intertemporalEstimando a aversão ao risco, a taxa de desconto intertemporal
Estimando a aversão ao risco, a taxa de desconto intertemporalUniversidade Federal Fluminense
 
Artigos de revisão e metanálise
Artigos de revisão e metanáliseArtigos de revisão e metanálise
Artigos de revisão e metanáliseESTeSC
 
Materiais proporcionalidade__(imlna)_4cfc0dcb29b46
 Materiais proporcionalidade__(imlna)_4cfc0dcb29b46 Materiais proporcionalidade__(imlna)_4cfc0dcb29b46
Materiais proporcionalidade__(imlna)_4cfc0dcb29b46Célia Mestre
 
Linear regression model
Linear regression modelLinear regression model
Linear regression modelGabriel Peixe
 

Semelhante a Multicolinearidade%20em%20modelos%20de%20regressao adicional (16)

Modelos lineares mistos aplicados em ciências atuariais.
Modelos lineares mistos aplicados em ciências atuariais.Modelos lineares mistos aplicados em ciências atuariais.
Modelos lineares mistos aplicados em ciências atuariais.
 
Raciocínio baseado em casos
Raciocínio baseado em casosRaciocínio baseado em casos
Raciocínio baseado em casos
 
Padrões
PadrõesPadrões
Padrões
 
Regressão Linear Múltipla
Regressão Linear MúltiplaRegressão Linear Múltipla
Regressão Linear Múltipla
 
Livro risco de credito
Livro risco de creditoLivro risco de credito
Livro risco de credito
 
Livro proprietario calculo diferencia e integral iii
Livro proprietario   calculo diferencia e integral iiiLivro proprietario   calculo diferencia e integral iii
Livro proprietario calculo diferencia e integral iii
 
Breves notas sobre projecto de pesquisa
Breves notas sobre projecto de pesquisaBreves notas sobre projecto de pesquisa
Breves notas sobre projecto de pesquisa
 
Modelação estatística para risco de crédito (versão incompleta)
Modelação estatística para risco de crédito (versão incompleta) Modelação estatística para risco de crédito (versão incompleta)
Modelação estatística para risco de crédito (versão incompleta)
 
Regressao linear
Regressao linearRegressao linear
Regressao linear
 
Estimando a aversão ao risco, a taxa de desconto intertemporal
Estimando a aversão ao risco, a taxa de desconto intertemporalEstimando a aversão ao risco, a taxa de desconto intertemporal
Estimando a aversão ao risco, a taxa de desconto intertemporal
 
Estimando a aversão ao risco, a taxa de desconto intertemporal
Estimando a aversão ao risco, a taxa de desconto intertemporalEstimando a aversão ao risco, a taxa de desconto intertemporal
Estimando a aversão ao risco, a taxa de desconto intertemporal
 
Artigos de revisão e metanálise
Artigos de revisão e metanáliseArtigos de revisão e metanálise
Artigos de revisão e metanálise
 
Materiais proporcionalidade__(imlna)_4cfc0dcb29b46
 Materiais proporcionalidade__(imlna)_4cfc0dcb29b46 Materiais proporcionalidade__(imlna)_4cfc0dcb29b46
Materiais proporcionalidade__(imlna)_4cfc0dcb29b46
 
Linear regression model
Linear regression modelLinear regression model
Linear regression model
 
Introdução à Regressão Linear
Introdução à Regressão LinearIntrodução à Regressão Linear
Introdução à Regressão Linear
 
Trabalho serie temporai sss
Trabalho serie temporai sssTrabalho serie temporai sss
Trabalho serie temporai sss
 

Multicolinearidade%20em%20modelos%20de%20regressao adicional

  • 1. XXII SEMANA ACADÊMICA DA MATEMÁTICA Multicolinearidade em Modelos de Regress˜ o a Simone A. Miloca 1 , Paulo D. Conejo 2 1 Colegiado do Curso de Matem´ tica - Centro de Ciˆ ncias Exatas e Tecnol´ gicas da a e o Universidade Estadual do Oeste do Paran´ a Caixa Postal 711 - 85819-110 - Cascavel - PR - Brasil smiloca@unioeste.br, pconejo@unioeste.br Resumo. As t´ cnicas da an´ lise multivariada de dados tˆ m sido regularmente apli- e a e cada em problemas de diversas areas. A escolha de uma determinada t´ cnica nor- ´ e malmente e determinada segundo os objetivos da investigacao a ser realizada. Uma ´ ¸˜ teoria abordada na an´ lise multivariada de dados e a construcao e validacao de mo- a ´ ¸˜ ¸˜ delos de regress˜ o linear. Tais modelos surgem em problemas em que o interesse de a estudo est´ em saber qual o comportamento das vari´ veis em quest˜ o e qual relacao a a a ¸˜ existente entre elas. Na construcao de tais modelos, alguns pressupostos devem ser ve- ¸˜ rificados e um deles e a dependˆ ncia entre os regressores (vari´ veis independentes). Se ´ e a tais dependˆ ncias forem fortes pode existir multicolinearidade, provocando efeitos nas e estimativas dos coeficientes de regress˜ o e na aplicabilidade geral do modelo estimado. a Este trabalho traz uma discuss˜ o inicial sobre o problema de multicolinearidade, apre- a sentando atrav´ s de um exemplo uma das formas de se detectar e solucionar (t´ cnica e e de An´ lise Fatorial) o problema. a Palavras Chaves. multicolinearidade, an´ lise fatorial, dependˆ ncia linear a e 1. Problema de Multicolinearidade em Modelos de Regress˜ o a ´ A escolha de um determinado m´ todo multivariado e determinada segundo os objeti- e ¸˜ vos da investigacao a ser realizada, [9], [10], [12], [14], [13]. Uma teoria abordada na ´ ¸˜ ¸˜ an´ lise multivariada de dados e a construcao e validacao de modelos de regress˜ o linear. a a Tais modelos surgem em problemas em que o interesse de estudo est´ em saber qual o a a a ¸˜ comportamento das vari´ veis em quest˜ o e qual relacao existente entre elas. Deseja-se construir um modelo matem´ tico que melhor represente tal relacionamento. a ¸˜ ´ Quando se tem pares de observacoes de duas vari´ veis, e poss´vel avaliar o rela- a ı cionamento entre elas fazendo-se um gr´ fico de dispers˜ o e assim, indicar como seria o a a modelo matem´ tico. Em muitos problemas, os modelos a serem constru´dos s˜ o lineares. a ı a ´ A teoria de Regress˜ o Linear e importante principalmente quando se tem duas ou a mais vari´ veis envolvidas no problema (tanto na vari´ vel resposta quanto nas covari´ veis). a a a ¸˜ Um modelo de regress˜ o linear, tem por equacao a
  • 2. XXII SEMANA ACADÊMICA DA MATEMÁTICA Yn×1 = Xn×p Bp×1 + n×1 onde, • Y e o vetor das n observacoes (vari´ vel dependente). ´ ¸˜ a • Xe ´ a matriz das vari´ veis independentes. a • e a matriz dos erros aleat´ rios e representa a influˆ ncia de outros fatores n˜ o ´ o e a ¸˜ considerados no modelo, bem como os erros de medicao da vari´ vel resposta Y. a Em geral e suposto que ≈ N (0, σ 2 ), ou seja, os erros experimentais s˜ o inde- ´ a pendentes e normalmente distribu´dos. ı • B e a matriz dos coeficientes desconhecidos do modelo que devem ser estimados. ´ ´ O que se espera em tais modelos, e encontrar dependˆ ncias entre a vari´ vel res- e a posta Yi e os regressores Xj . Em tais problemas, deve-se fazer uma avaliacao das suposicoes ¸˜ ¸˜ ¸˜ exigidas para aplicacao do modelo. Segundo HAIR [14] existem diversos fatores que po- dem influenciar na busca do melhor modelo de regress˜ o. Neste sentido, algumas etapas a ´ ¸˜ devem ser seguidas, a primeira delas e a especificacao dos objetivos da an´ lise de re- a a ¸˜ gress˜ o, que inclui a selecao das vari´ veis dependentes e independentes. A segunda etapa a ¸˜ ¸˜ ` a inclui determinacao do tamanho da amostra. A seguir, as suposicoes inerentes a an´ lise de regress˜ o (normalidade, linearidade, homocesdasticidade e independˆ ncia dos termos a e de erro) devem ser testadas para as vari´ veis individuais e se todas forem atendidas, o a o ¸˜ modelo dever´ ser estimado. Ap´ s obtencao dos resultados, faz-se an´ lises diagn´ sticas a a o ` ¸˜ no sentido de verificar se o modelo geral atende as suposicoes de regress˜ o e que ne- a ¸˜ ´ nhuma observacao tenha influˆ ncia excessiva sobre os dados. A pr´ xima etapa e interpre- e o tar a vari´ vel estat´stica de regress˜ o e examinar o papel de cada vari´ vel independente a ı a a na previs˜ o da medida dependente. Por fim, os resultados s˜ o validados para garantir a a ¸˜ ¸˜ generalizacao para a populacao. Nas referˆ ncias [9] e [14] pode-se encontrar informacoes e ¸˜ sobre cada uma dessas etapas. O enfoque deste trabalho est´ centrado em um aspecto a ser considerado na pri- a ¸˜ meira destas etapas. Trata-se de discutir a selecao de vari´ veis. Uma vari´ vel indepen- a a dente adicional pode melhorar a previs˜ o da vari´ vel dependente, essa melhoria est´ rela- a a a a ¸˜ cionada n˜ o somente com a correlacao existente com a vari´ vel dependente, mas tamb´ m a e ¸˜ com a correlacao desta vari´ vel com as demais vari´ veis independentes existentes no a a modelo. Assim, deve-se investigar se existe dependˆ ncias entre os regressores Xj . Em e situacoes onde essas dependˆ ncias forem fortes, dizemos que existe multicolinearidade. ¸˜ e ` ¸˜ A multicolinearidade refere-se a correlacao entre trˆ s ou mais vari´ veis independentes. O e a ´ que precisa ser feito e procurar vari´ veis independentes que tenham baixa multicolineari- a a e ¸˜ dade com as outras vari´ veis independentes, mas tamb´ m apresentem correlacoes eleva- a e ¸˜ das com a vari´ vel dependente. Segundo HAIR (2005), al´ m dos efeitos na explicacao, a multicolinearidade pode ter s´ rios efeitos nas estimativas dos coeficientes de regress˜ o e e a na aplicabilidade geral do modelo estimado. ¸˜ Algumas indicacoes da presenca de multicolinearidade s˜ o: ¸ a ¸˜ 1. valores altos do coeficiente de correlacao; ¸˜ 2. grandes alteracoes nas estimativas dos coeficientes de regress˜ o, quando uma a ¸˜ vari´ vel independente for adicionada ou retirada do modelo, ou quando uma observacao a for alterada ou eliminada; 3. a rejeicao da hip´ tese Ho : β1 = β2 = ... = βk = 0, mas nenhuma rejeicao ¸˜ o ¸˜ das hip´ teses Ho : βi = 0, i = 1, 2, ..., k, sobre os coeficientes individuais de o regresss˜ o; a
  • 3. XXII SEMANA ACADÊMICA DA MATEMÁTICA ¸˜ 4. obtencao de estimativas para os coeficientes de regress˜ o com sinais alg´ bricos a e a ` contr´ rios aqueles que seriam esperados a partir de conhecimentos te´ ricos dis- o pon´veis ou de experiˆ ncias anteriores sobre o fenˆ meno estudado e ı e o ¸˜ 5. obtencao de intervalos de confianca com elevadas amplitudes para os coeficientes ¸ de regress˜ o, associados a vari´ veis independentes importantes. a a A presenca de multicolinearidade pode ser detectada de v´ rias maneiras. Duas ¸ a medidas mais comumente utilizadas s˜ o o valor de tolerˆ ncia ou seu inverso, chamada a a ¸˜ a ¸˜ 1 fatores de inflacao da variˆ ncia (VIF) definido pela equacao F (βj ) = 1−R2 j . E uma´ a ´ medida do grau em que cada vari´ vel independente e explicada pelas demais vari´ veis a ¸˜ independentes. Quanto maior for o fator de inflacao da variˆ ncia, mais severa ser´ a a a ¸˜ multicolinearidade. Sugerem-se [9] e [14] que se qualquer fator de inflacao da variˆ ncia a exceder 10, ent˜ o a multicolinearidade causar´ efeitos nos coeficientes de regress˜ o. Ou- a a a ¸˜ tros autores sugerem que os fatores de inflacao da variˆ ncia n˜ o devem exceder 4 ou 5, a a isso depender´ do conhecimento te´ rico do pesquisador sobre o assunto estudado. a o V´ rias medidas tˆ m sido propostas para resolver o problema de multicolineari- a e dade. Hair [14] destaca as seguintes: • excluir uma ou mais vari´ veis independentes altamente correlacionadas e identi- a ficar outras vari´ veis independentes para ajudar na previs˜ o. Esse procedimento a a ¸˜ deve ser feito com cautela pois, neste caso, h´ o descarte de informacoes, contida a nas vari´ veis removidas; a • usar o modelo com vari´ veis independentes altamente correlacionadas apenas para a previs˜ o, ou seja, n˜ o interpretar os coeficientes de regress˜ o; a a a • usar as correlacoes simples entre cada vari´ vel independente e a dependente para ¸˜ a ¸˜ compreender a relacao entre vari´ veis independentes e dependente e a • usar um m´ todo mais sofisticado de an´ lise como a regres˜ o Bayesiana (ou um e a a caso especial - regress˜ o ridge) ou a regress˜ o sobre componentes principais para a a obter um modelo que reflita mais claramente os efeitos simples das vari´ veis in- a dependentes. Segundo Aranha [13], o problema de multicolinearidade pode ser contornado utilizando-se a An´ lise de Componentes Principais (ACP), que transforma os Xj em com- a ponentes ortogonais (n˜ o correlacionados) que s˜ o utilizados como vari´ veis explicativas a a a da regress˜ o. O problema que pode ocorrer com esta pr´ tica est´ na dificuldade de inter- a a a ¸˜ pretar o significado dos componentes e por consequˆ ncia, dificuldade de interpretacao dos e coeficientes de regress˜ o. Comenta ainda que os escores fatoriais, obtidos atrav´ s de ou- a e tra t´ cnica denominada An´ lise Fatorial, podem ser utilizados como vari´ veis de interesse e a a em modelos de regress˜ o, sendo esta pr´ tica realizada com cautela, devido principalmente a a ¸˜ a interpetacao dos chamados fatores. Outro autor, Alpert apud Hair [14], escreve um artigo abordando quest˜ es refe- o a ¸˜ rentes ao modelo de regress˜ o e sugere, como forma de reducao do n´ mero de vari´ veis u a independentes, a t´ cnica de An´ lise Fatorial. e a ´ Neste contexto, a proposta deste trabalho e apresentar a t´ cnica de An´ lise Fatorial e a bem como um exemplo ilustrativo, utilizando-se dados de um modelo de regress˜ o cujasa vari´ veis independentes apresentam multicolinearidade. a
  • 4. XXII SEMANA ACADÊMICA DA MATEMÁTICA 2. An´ lise Fatorial a a ´ A An´ lise Fatorial (AF) e uma t´ cnica da an´ lise multivariada que tem por objetivo ex- e a ¸˜ plicar a correlacao entre um conjunto grande de vari´ veis aleat´ rias em termos de um a o conjunto de poucas vari´ veis aleat´ rias n˜ o observ´ veis chamadas fatores. a o a a a o a ¸˜ As vari´ veis aleat´ rias observadas s˜ o agrupadas de acordo com suas correlacoes. Dentro de um grupo as vari´ veis aleat´ rias s˜ o altamente correlacionadas entre si e de um a o a ¸˜ grupo para outro as correlacoes s˜ o baixas. a ´ ¸˜ A id´ ia central e condensar a informacao contida em diversas vari´ veis originais e a ¸˜ em um conjunto menor (fatores) com pequena perda de informacao, com a vantagem de ¸˜ ¸˜ n˜ o haver correlacao entre os fatores e eles estarem nas direcoes de maior variabilidade. a ´ O modelo fatorial ortogonal e Xp×1 = µp×1 + Lp×m Fm×1 + εp×1 onde, • X = (x1 , x2 , ..., xp )t e um vetor aleat´ rio, ´ o • µi e a m´ dia da i-´ sima vari´ vel, ´ e e a • εi e o i-´ simo erro ou fator espec´fico, ´ e ı • Fj e o j-´ simo fator comum, e ´ e • lij e o peso ou carregamento na i-´ sima vari´ vel xi do j-´ simo fator Fj ´ e a e sendo, • F e ε independentes; • E(F ) = 0 e Cov(F ) = Im×m e • E(ε) = 0, Cov(ε) = ψ, onde ψ e uma matriz diagonal com variˆ ncia espec´fica ´ a ı ψi na diagonal principal. Postula-se que X e LD de algumas vari´ veis aleat´ rias n˜ o observ´ veis F1 , ..., Fm e p ´ a o a a fontes de variacao εi , ..., εp ¸˜ ¸˜ Proposicao 1 A estrutura para o modelo fatorial ortogonal satisfaz: 1. Cov(X) = LL + ψ, ou 2 2 V ar(Xi ) = li1 + ... + lim + ψi Cov(Xi , Xk ) = li1 lk1 + ... + lim lkm 2. Cov(X, F ) = L, ou Cov(Xi , Fj ) = li j ¸˜ Observacoes: 2 2 2 • hi = li1 +...+lim e denominada comunalidade espec´fica e e a porcao da variˆ ncia ´ ı ´ ¸˜ a da vari´ vel xi que e distribu´da pelos m fatores comuns. a ´ ı • ψi e denominada variˆ ncia espec´fica e e a porcao da variˆ ncia V ar(Xi ) devida ´ a ı ´ ¸˜ a ao fator espec´fico. Logo, pode-se escrever ı V ar(Xi ) = hi 2 + ψi = σi 2 = σii . • A exigˆ ncia m ≤ p implica que a estrutura dos dados (fatores comuns) n˜ o e mais e a ´ complicada do que aquela para os dados observados. Se fosse, n˜ o haveria o que a se ganhar com a AF. • lij e a covariˆ ncia da i-´ sima vari´ vel Xi com o j-´ simo fator comum Fj . Se a ´ a e a e matriz de correlacao for usada, ent˜ o lij ser´ o coeficiente de correlacao entre a ¸˜ a a ¸˜ i-´ sima vari´ vel e o j-´ simo fator comum. e a e
  • 5. XXII SEMANA ACADÊMICA DA MATEMÁTICA ¸˜ 2.1. M´ todos de Estimacao e O modelo fatorial ortogonal procura representar adequadamente os dados com um pe- a a a ´ queno n´ mero de fatores n˜ o observ´ veis. A matriz de covariˆ ncia S e um estimador da u matriz populacional Σ desconhecida. Se em determinado problema, os elementos fora da diagonal de S s˜ o pequenos, ou equivalentemente, os elementos fora da diagonal da ma- a ¸˜ triz de correlacao R s˜ o essencialmente nulos, ent˜ o as vari´ veis n˜ o s˜ o correlacionadas a a a a a e portanto a an´ lise fatorial n˜ o ser´ util ao problema. Agora, se Σ desvia significativa- a a a´ mente de uma matriz diagonal, ent˜ o o modelo fatorial pode ser utilizado, e o problema a inicial e fazer uma estimacao dos carregamentos fatoriais lij e as variˆ ncias espec´ficas ´ ¸˜ a ı ψi . Os m´ todos mais populares s˜ o: o m´ todo das componentes principais e o m´ todo de e a e e m´ xima verossimilhanca. A seguir descreve-se o m´ todo das componentes principais. a ¸ e Seja S a matriz de covariˆ ncia amostral e (λ1 , e1 ), (λ2 , e2 ), · · · , (λp , ep ) os pares a de autovalores e autovetores de S, sendo λ1 ≥ λ2 ≥ · · · ≥ λp . Seja m ≤ p o n´ mero de u fatores comuns. A matriz de pesos (ou cargas) estimadas, dos fatores lij e dada por´ 1 L = CDλ 2 onde   e11 e12 ··· e1n   e21 e22 ··· e2n   Cp×p =  e31 e32 ··· e3n    . . . . ... . .   . . .  ep1 ep2 ··· epp e  √  λ1 √0 · · · 0 1  0 λ2 · · · 0  Dλ =  2   . . . . ... . .   . . .  0 0 ··· λp ¸˜ ¸˜ A obtencao de tais matrizes deve-se ao teorema da decomposicao espectral, que permite escrever a matriz de covariˆ ncia Σ (que normalmente e estimada e denotada an- a ´ teriormente por S) na forma Σ = P ΛP onde P e uma matriz de autovetores e Λ e uma matriz diagonal de autovalores, ou seja, ´ ´ Σ = λ1 e1 e1 + λ2 e2 e2 + · · · + λp ep ep que na forma matricial fatorada fica  √  λ1 e1 . . . Σ = [e1 λ1 . · · · . p . .e λp ]  .   .  λp ep Escreve-se Σ = LL
  • 6. XXII SEMANA ACADÊMICA DA MATEMÁTICA ´ O que ocorre no modelo que queremos e explicar a estrutura de covariˆ ncia em termos a de poucos fatores, ou seja, tomando m ≤ p. Desta forma exclui-se a contribuicao de ¸˜ λm+1 em+1 em+1 + · · · + λp ep ep e toma-se a aproximacao ¸˜  √  λ1 e1 . . . Σ = [e1 λ1 . · · · . m λm ]  . .e .  = Lp×m Lm×p   √ . λm em ¸˜ Observacoes: • as variˆ ncias espec´ficas ψ s˜ o dadas pelos elementos da diagonal principal da a ı a matriz Σ − LL , e • na aplicacao deste modelo costuma-se subtrair de cada observacao X1 , ..., xn a ¸˜ ¸˜ e ¸˜ m´ dia amostral para que as observacoes fiquem centradas no mesmo ponto. Tamb´ m e ´ e usual padronizar as vari´ veis a  x −x  ij 1 √ s11  Zj =  . .   .   xpj −xp √ spp ¸˜ ¸˜ Tal solucao pode ser rotacionada para a obtencao de uma estrutura mais simples, ¸˜ na qual a interpretacao dos fatores seja bem mais vis´vel e simplificada. Isto pode ser feito ı por diversos m´ todos sendo os mais utilizados, o m´ todo Varimax ou Varimax Normal, e e [9]. Quanto a escolha do n´ mero de fatores comuns, dentre os crit´ rios utilizados, u e pode-se citar: ´ ¸˜ 1. o n´ mero de fatores m e igual ao n´ mero de autovalores de R (matriz de correlacao), u u maiores do que 1 (um) (crit´ rio de Kaiser), e e u ´ 2. o n´ mero de fatores m e escolhido de acordo com o percentual da variˆ ncia expli- a cada sendo, λj • tr(S) quando a an´ lise e feita a partir de S, e a ´ λj • p ´ ¸˜ quando a an´ lise e feita a partir da matriz de correlacao a 3. Exemplo Para exemplificar a t´ cnica de An´ lise Fatorial, sup˜ e-se que se deseja construir um e a o modelo de regress˜ o para tentar explicar o relacionamento entre uma vari´ vel resposta a a y=preco e um conjunto de vari´ veis explicativas dadas por ´ndices (vari´ veis quantitati- ¸ a ı a vas) de qualidade industrial do trigo ([4], [3]), obtidos atrav´ s de testes espec´ficos reali- e ı zados em laborat´ rios. Os dados para an´ lise foram extra´dos de [7], perfazendo um total o a ı ¸˜ de 7 vari´ veis explicativas (w, pl, fn, gs, gu, aa e est), cada uma contendo 18 informacoes, a que podem ser vistas como 18 lotes. ´ Uma id´ ia inicial e optar por um modelo do tipo e y = β0 + β1 w + β2 pl + β3 f n + β4 gs + β5 gu + β6 aa + β7 est.
  • 7. XXII SEMANA ACADÊMICA DA MATEMÁTICA a ¸˜ Nosso objetivo aqui ser´ voltar nossa atencao ao fato de haver uma dependˆ ncia e entre as vari´ veis explicativas. a ¸˜ ´ As correlacoes estimadas a partir dos dados originais e apresentado na tabela 1. ¸˜ Tabela 1: correlacoes a partir dos dados originais. w pl fn gs gu aa est w 1,00 -0,20 0,05 -0,32 -0,27 -0,16 0,46 pl -0,20 1,00 0,24 -0,26 -0,41 0,08 0,41 fn 0,05 0,24 1,00 0,17 -0,09 -0,16 0,55 gs -0,32 -0,26 0,17 1,00 0,91 -0,45 -0,02 gu -0,27 -0,41 -0,09 0,91 1,00 -0,43 -0,14 aa -0,16 0,08 -0,16 -0,45 -0,43 1,00 -0,50 est 0,46 0,41 0,55 -0,02 -0,14 -0,50 1,00 a a a ´ O gr´ fico de dispers˜ o para as vari´ veis do problema e dado pela figura 1. ´ ˜ Figura 1: grafico de dispersao. Observe pela figura 1 e tabela 1, que algumas vari´ veis como gs e gu apresentam a ¸˜ alta correlacao. ´ A seguir apresenta-se o scree plot (figura 2). E um gr´ fico que auxilia na de- a cis˜ o do n´ mero de fatores. O crit´ rio associado ao uso do scree plot para determinar a u e ´ ` a quantidade de fatores e considerar o n´ mero de autovalores a esquerda do “ponto de u ´ ¸˜ cotovelo”, isto e, o ponto onde ocorre uma forte mudanca da inclinacao da linha que une ¸ ¸˜ as representacoes dos autovalores. Tal crit´ rio costuma ser coerente com o crit´ rio de e e a ´ ¸˜ Kayser, mas isso n˜ o e uma regra. Observa-se que a solucao com trˆ s fatores para sete e vari´ veis atende ao crit´ rio do “cotovelo”. a e Utilizando o crit´ rio de Kayser, temos trˆ s autovalores maiores do que 1, expli- e e cando em torno de 83% da variˆ ncia total dos dados (tabela 2). a
  • 8. XXII SEMANA ACADÊMICA DA MATEMÁTICA ´ Figura 2: grafico scree plot. ¸˜ Tabela 2: autovalores da matriz de correlacao. Autovalores % variˆ ncia explicada a % variˆ ncia cumulativa a 2,4343 34,7757 34,7757 2,0907 29,8677 64,6434 1,2837 18,3393 82,9827 Na tabela 3 apresenta-se a matriz de carregamentos(pesos) e comunalidades. Tabela 3: matriz de pesos (ou carregamentos) e comunalidades estimados pelo ´ ˜ metodo das componentes principais nao rotacionado. Vari´ veis a cargas fatoriais estimadas Comunalidades R2 m´ ltiplo u Fator 1 Fator 2 Fator 3 Fator 1 Fator 2 Fator 3 w 0,343 -0,396 0,797 0,117 0,274 0,909 0,626 pl 0,496 -0,318 -0,671 0,246 0,348 0,799 0,644 fn 0,077 -0,689 -0,339 0,006 0,481 0,597 0,620 gs -0,924 -0,208 -0,189 0,854 0,897 0,933 0,911 gu -0,965 -0,041 -0,006 0,931 0,933 0,933 0,915 aa 0,480 0,664 -0,211 0,231 0,672 0,717 0,559 est 0,219 -0,932 0,034 0,048 0,918 0,919 0,806 Exp.Var 2,434 2,091 1,284 Prp.Tot 0,347 0,299 0,183 ¸˜ Observa-se a associacao das vari´ veis gs e gu como o primeiro fator F1, est, aa a ¸˜ e fn, como segundo fator F2 e w, pl como F3. Tenta-se procurar uma solucao mais in- ¸˜ e ´ terpret´ vel, rotacionando o eixo que descreve o espaco solucao. A id´ ia e a seguinte: os a ¸ resultados do modelo fatorial pode ser representado em um espaco ortogonal onde cada ¸ ´ ´ eixo e representado por um fator e cada vari´ vel e representada por um ponto cujas coor- a denadas s˜ o descritas por uma n-upla. No nosso problema a vari´ vel w ser´ representada a a a
  • 9. XXII SEMANA ACADÊMICA DA MATEMÁTICA em R3 pelo ponto (0, 342; −0, 396; 0, 797), e assim por diante. O que se fez foi procurar ¸˜ um outro sistema de eixos ortogonais (atr´ ves de uma rotacao do sistema original) que a e ¸˜ tamb´ m descrevesse as configuracoes das vari´ veis envolvidas, preservando as distˆ ncias a a ¸˜ relativas entre os pontos, de modo que se possa perceber a associacao das vari´ veis a um a ´ ¸˜ dos fatores mais claramente. Isto e feito via rotacao varimax (tabela 4). ¸˜ Tabela 4: dados obtidos pela rotacao varimax. Vari´ veis a cargas fatoriais estimadas Comunalidades R2 m´ ltiplo VIF u Fator 1 Fator 2 Fator 3 Fator 1 Fator 2 Fator 3 w -0,234 0,145 -0,913 0,055 0,075 0,909 0,626 2,67 pl -0,417 0,636 0,470 0,174 0,578 0,799 0,644 2,81 fn 0,080 0,765 0,069 0,006 0,592 0,596 0,620 2,63 gs 0,945 0,063 0,189 0,893 0,897 0,933 0,911 11,24 gu 0,950 -0,163 0,079 0,900 0,927 0,933 0,915 11,76 aa -0,622 -0,426 0,384 0,387 0,569 0,717 0,559 2,27 est 0,0006 0,882 -0,377 0,000 0,777 0,912 0,806 5,15 Exp.Var 2,416 2,001 1,391 Prp.Tot 0,345 0,285 0,198 Os fatores encontrados s˜ o identificados pelas suas cargas em suas respectivas a vari´ veis, ficando o fator F1 formado pelas vari´ veis (gs, gu, aa), o fator F2, por (pl, fn a a ¸ ´ e est) e o fator F3 por (w). A diferenca agora e que a vari´ vel pl passou a fazer parte do a a e ¸˜ fator F2, e a vari´ vel aa, do fator F1. Tamb´ m pode-se verificar tal identificacao atrav´ s e do gr´ fico da matriz de cargas fatoriais. a Observa-se que o R2 m´ ltiplo, permite obter o VIF, definido na secao 1, indicando u ¸˜ presenca de multicolinearidade. ¸ O c´ lculo dos escores fatoriais podem ser feitos com base nas cargas fatoriais a estimadas, e s˜ o apresentados na tabela 5. a Tabela 5: escores fatoriais F1 -0,42 1,77 0,18 -1,58 -0,56 1,23 2,19 -0,38 -0,57 -0,29 -1,59 0,61 -0,09 -0,69 0,43 0,21 0,07 -0,52 F2 0,11 -0,46 -0,87 -1,04 -0,92 0,35 0,76 0,59 -0,26 0,38 1,05 -1,84 1,08 1,30 -0,38 1,91 -0,68 -1,07 F3 0,95 0,61 -0,26 0,58 0,48 -0,74 0,15 1,39 -1,09 -1,74 0,16 -1,57 -0,64 -0,68 1,92 0,03 1,02 -0,56 ¸˜ 4. Consideracoes finais ¸˜ O modelo fatorial ortogonal pode ser utilizado para reducao de um conjunto de dados. Os escores fatoriais podem ser utilizados para substituir as vari´ veis independentes com a ¸˜ ¸˜ alta correlacao em modelos de regress˜ o, devendo esta substituicao ser feita com cautela, a ¸˜ devido as interpretacoes dos coeficientes de regress˜ o. a Referˆ ncias e [1] BRUNETTA, D.; DOTTO, S. R.; FRANCO, F. de A; BASSOI, M. C. Cultivares de trigo no Paran´ : rendimento, caracter´sticas agronˆ micas e qualidade industrial. Lon- a ı o drina: EMBRAPA - CNPSo, 1997. 48p. (EMBRAPA-CNPSo. Circular T´ cnica, e 18).
  • 10. XXII SEMANA ACADÊMICA DA MATEMÁTICA [2] MORETTIN, P. A.; BUSSAB, W. O. Estat´stica b´ sica. 5. ed. S˜ o Paulo: Saraiva, 2004. ı a a 526p. ˆ ´ [3] INSTITUTO AGRONOMICO DO PARANA. Londrina, PR. Informacoes t´ cnicas para ¸˜ e a cultura do trigo no Paran´ - Londrina 2000 152p. ilus. (IAPAR.Circular, 109) a [4] GUARIENTI, E. M. Efeito de vari´ veis meteorol´ gicas na qualidade industrial de trigo. a o Tese de doutorado. Unicamp - 2001. [5] KOEHLER, H. S. Estat´stica Experimental. UFPR - Curitiba. 1998. P 36-43. ı [6] MILOCA, Simone A., Aplicacao da Teoria de Correlacao Canˆ nica e m´ todo PRO- ¸˜ ¸˜ o e METHEE num problema de qualidade industrial do trigo, Curitiba, 2002, UFPR. [7] MILOCA, Simone A., Relacao entre vari´ veis meteorol´ gicas e a qualidade industrial ¸˜ a o do trigo, Revista Ciˆ ncia Rural. Santa Maria, v.37, n.1, p.31-37, jan-fev, 2007. e [8] CHAVES NET0, Anselmo. Probabilidade e estat´stica aplicada. Curitiba. UFPR, 1998. ı (notas de aula) [9] JOHNSON, R.; WICHERN, D. W. Applied Multivariate Statistical Analysis. New Jersey: Prentice Hall International, Inc. 1988. 642p. [10] JOHNSON, R.; WICHERN, D. W. Business Statistics. John Wiley and Sons, Inc. 1997. [11] MOOD,A.; GRAYBILL, F. Introduction to the theory of statistics. Mc-Graw-Hill, Inc. 1986. [12] MARDIA, Kantilal Varichand. Multivariate Analysis. (Probability and mathematical sta- tistics). New York. 1980. [13] Aranha, Francisco; Zambaldi, Felipe. An´ lise Fatorial em Administracao. S˜ o Paulo: a ¸˜ a CENGAGE Learning, 2008. [14] Hair, Jr., J. H.; Anderson, R. E.; Tatham, R. L.; Black, W. C. trad. Adonai Schlup Sant’Ana e Anselmo Chaves Neto. An´ lise Multivariada de Dados. 5 ed. Porto Ale- a gre: Bookman. 2005.