SlideShare uma empresa Scribd logo
1 de 51
Baixar para ler offline
1




                       Programa Doutoral :: ISPA – Instituto Universitário
                       Técnicas de Análise de Dados II
                                                               JOÃO MAROCO, Ph.D.
4.                                                                       jpmaroco@ispa.pt


Modelos Lineares Estruturais

Fundamentos teóricos
   4.1. Introdução
   4.2. Variáveis manifestas e variáveis latentes
   4.3. O modelo de Equações Estruturais
   4.4. Estratégia de Análise de Equações Estruturais
   4.5. Pressupostos do modelo de Equações Estruturais
   4.6. Problemas com o ajustamento do modelo
2



4.1. Introdução
Análise de Equações Estruturais (Structural Equation Modelling):

 • Extensão dos modelos GLM;
 • Técnica de modelação generalizada (modelos teóricos sobre a forma como diferentes variáveis
   latentes ou constructos são operacionalizados e como estes estão relacionados entre si)
 • Permitem considerar erros de medida de forma explicita

Em termos simplistas:

                                               AEE
                                                 =
                                         Análise Factorial
                                    (define modelo de medida)
                                                 +
                                         Regressão linear
                                     (define modelo estrutural)
3



4.1. Introdução
Análise de Equações Estruturais (Structural Equation Modelling):

Porém o racional das AMEE é diferente do racional da Estatística clássica:


          Estatística Clássica:                          AMEE:


                                                                 Teoria


                                                            Teoria Dados      Teoria
             Dados           Teoria
                                                                          Teoria



  1.   Qual o modelo que descreve os dados          1.   Poderá este modelo explicar/gerar os
       observados? Método Exploratório                   dados observados? Método Confirmatório
  2.   Dados levam à dedução de Teorias             2.   A teoria é o “motor” do processo
  3.   Novos dados, novas teorias                   3.   Teorias diferentes podem ser testadas por
                                                         formalização e avaliação de modelos
                                                         distintos
4



4.1. Introdução
Porquê é que a Análise de Equações Estruturais é, actualmente, tão popular?

                                                           Luke, D. A. (2005) Getting the Big Picture in Community
                                                                 Science: Methods That Capture Context. American
                                                                 Journal of Community Science. 35(3/4): 185-200




      Marôco, J. (2010) Análise de Equações Estruturais:
           Fundamentos teóricos, Software & Aplicações.
           ReportNumber. Pêro Pinheiro.
5



4.1. Introdução
Porquê é que a Análise de Equações Estruturais é, actualmente, tão popular?

1.   Nem todas as variáveis envolvidas num determinado ‘acontecimento’ são manifestas, i.e.
     observáveis ou manipuláveis directamente.
     • Variáveis Latentes: Não são directamente mensuráveis. Só se observam as suas
       manifestações;
     • Validade e fiabilidade de variáveis latentes (erros-nas-variáveis) limita conclusões sobre relações
       estruturais
     • Métodos clássicos de análise não consideram os ‘erros-nas-variáveis’.
2.   Acréscimo da complexidade dos modelos teóricos capazes de explicar um determinado
     acontecimento
     • Múltiplas variáveis manifestas e variáveis latentes;
     • Diferenças entre grupos e efeitos hierárquicos, de interacção, mediação, etc…
     • AEE permite testar ajustamento global de modelos e significância individual de parâmetros num
       enquadramento teórico que engloba vários tipos de modelos lineares.
3.   Software para AEE de fácil utilização:
     • <1993: LisRel exigia o domínio de uma linguagem de programação própria assente em
        notação matricial e no alfabeto grego.
     • AMOS, EQS, LisREL: Ambiente Windows; especificação visual do modelo
6



4.2. Variáveis em A.E.E.
As variáveis nos modelos de equações estruturais são de dois tipos:

1. Variáveis manifestas ou variáveis observadas:
   São variáveis medidas, manipuladas ou observadas directamente.

2.    Variáveis latentes, Factores ou Constructos:
     São variáveis não directamente observáveis ou mensuráveis, sendo a sua ‘existência’
     indicada pela sua manifestação em variáveis indicadoras ou manifestas.

As variáveis (quer latentes quer manifestas) podem ser independentes ou dependentes:
1. Variáveis Independentes ou v. exógenas:
    as causas destas variáveis residem fora do modelo, i.e. não são influenciadas por nenhuma
    outra variável no modelo.
2. Variáveis Dependentes ou v. endógenas:
    as causas da variação destas variáveis residem no modelo, i.e. a variação destas variáveis é
    explicada por variáveis presentes no modelo.
7



4.3. O modelo de equações estruturais
Um modelo de equações estruturais apresenta geralmente duas componentes:
1. Modelo de Medida : define a forma como os constructos hipotéticos ou variáveis latentes são
   operacionalizados pelas variáveis observadas ou manifestas
2. Modelo Estrutural : define as relações causais ou de associação entre as variáveis latentes

Formalmente (modelo LISREL: Linear Structural Relationships), para uma amostra, as variáveis
centradas podem ser modeladas:

                       Modelo de Medida:                 Modelo Estrutural:
                       v.d.: y = Ly h + e                  h = B h + Gx + z
                       v.i.:  x = Lx x + d


assumindo que (pressupostos):
    a. e e h são independentes
    b. d e x são independentes
    c. z e x são independentes
    d. z, e e d são mutuamente independentes
    e. Os valores esperados dos erros é 0.
    f. Bii=0 (uma v.d. não é causa e efeito dela mesmo) e (I-B) é não singular (i.e. tem inversa)
8



 4.3. O modelo de equações estruturais
  Modelo de Equações Estruturais                                               y        Vector px1 das p v. dependentes ou de resposta
                                                                                        manifestas
    y = Ly h + e
                                        Modelo Medida                          x        Vector qx1 das q v. independentes ou preditoras
    x = Lx x + d
                                                                               h        Vector rx1 das r v. latentes dependentes ou
    h = B h + Gx + z                    Modelo estrutural
                                                                             (eta)      endógenas

  Onde:                                                                         x       Vector sx1 das s v. latentes independentes ou
                                                                              (csi)     exógenas
     éy ù           éx ù           éh ù               éx ù        ée ù
     ê 1ú           ê 1ú           ê 1ú               ê 1ú        ê 1ú
     êy ú           êx ú           êh ú               êx ú        êe ú         e        Vector px1 dos erros de medida de y
y = êê 2 úú x =     ê 2ú
                    êú       h = êê 2 úú x        = êê 2 úú e = êê 2 úú    (epsilon)
     êú            ê ú            êú                êú         êú
     êy ú           êx ú           êh ú               êx ú        êe ú          d       Vector qx1 dos erros de medida de x
     êë p úû        êë q úû        êë r úû            êë s úû     êë p úû    (delta)
     éd ù           éz ù                 él         l12  l1r ùú
     ê 1ú           ê 1ú                 ê 11                                  Ly       Matriz pxr dos pesos da regressão de y em h
     êd ú           êz ú                 êl         l22  l2r úú            (lambda)
d = êê 2 úú    z = êê 2 úú      Ly = êê 21
                                         ê             úú                  Lx       Matriz qxs dos pesos da regressão de x em x
     êú            êú                  êl
     êd ú           êz ú                 êë p1      lp 2  lpr úú
     êë q úû        êë r úû                                        û           B        Matriz rxr dos coeficientes de h no modelo
                                                                             (beta)     estrutural. bii=0
     é0 b              b1r ùú            ég          g12     g1s ùú
     ê       12                           ê 11
     êb                                                                        G        Matriz rxs dos coeficientes de x no modelo
             0         b2r úú            êg           0      g2s úú
B = êê 21                      G=         ê 21                              (gamma)     estrutural.
     ê                úú              ê 
                                          ê                   úú
     êb                                                                        z        Vector rx1 dos r erros do modelo estrutural
     êë r 1 br 2       0 úú              êg
                                          êë r 1      gr 2    grs úú                   (disturbances)
                             û                                      û        (zeta)
9



4.3. O modelo de equações estruturais
As equações estruturais podem representar-se graficamente, por exemplo:

     d1        x1    lx11

                     lx21                       g11                               ly11     y1   e1
     d2        x2              x1                                 h1               ly21
                     lx   31                                                               y2   e2
                                              g21
     d3        x3                                                            z1
                                        f12                 b21        b12           y12             qe23

     d4        x4    lx42                     g12
                                                                             z2
                                                                                   ly32    y3   e3
                     lx   52                                      h2
     d5        x5              x2                                                   ly42
                     lx62                           g22                                    y4   e4
     d6        x6


Neste modelo (Convenção):
          - Variável latente (não observável directamente: factores; erros) (letras gregas)
          - Variável manifesta (mensurável directamente: itens) (letras romanas)
          - Relação causal (de causa para efeito). Os índices em subscrito são pela ordem v.d. v.i.
           - Correlação (sem hipótese de causalidade)
10



4.3. O modelo de equações estruturais
Formalmente as equações são:
 Modelo de medida para x          Modelo de medida para y              Modelo estrutural
    d1       x1    lx11                                                                   g11
                                                                        x1
                   lx21                  ly   11
                                                     y1   e1                                            h1
    d2       x2              x1    h1    ly21                                           g21                     z1
                   lx31                              y2   e2                      f12                 b21 b12        y12
    d3       x3                                                                                                 z2
                                                               qe23                     g12
    d4       x4                                                                                         h2
                   lx42                                                 x2
                                         ly   32     y3   e3                                  g22
                   lx52            h2
    d5       x5              x2          ly   42
                   lx   62
                                                     y4   e4                  h1 = b12h2 + g11x1 + g12x2 + z1
    d6       x6                                                               h2 = b21h1 + g21x1 + g22x2 + z2

                x
         x 1 = l11x1 + d1                     y
                                                                      Variância-Covariância
                                        y1 = l11h1 + e1                   éf f ù                éq e 0
                x
         x 2 = l21x1 + d2                                                 ê 11 12 ú             ê 11            0     0 ùú
                                                   y
                                        y2 = l h + e2                 F=ê             ú         ê
                x
         x 3 = l31x1 + d3                          21 1
                                                                          êëf21 f22 úû e ê 0 q22 q23
                                                                                                       e        e
                                                                                                                      0 úú
                                                   y
                                        y 3 = l h + e3                                    Q =ê         e        e        ú
                x
         x 4 = l42x2 + d4                          32 2
                                                                           éy                   ê 0 q32 q33           0ú
                                                   y
                                        y 4 = l h + e4                             y12 ùú       ê                     e ú
                x
         x 5 = l52x2 + d5                          42 2               Y = êê 11                 ê0 0            0    q44 ú
                                                                           êë y21 y22 úú        ë                        û
                x
         x 6 = l62x2 + d6                                                               û
                                                                                Qd = diag éêq11, q22, , q66 ùú
                                                                                              d    d      e
                                                                                            ë                 û
11



4.3. O modelo de equações estruturais
Os modelos de equações estruturais são classificados em duas classes:

A. Modelos Recursivos (mais frequentes): nenhuma variável é simultaneamente causa-e-efeito de
   outra:
     d1     x1    lx11
                                                                           ly11     y1        e1
     d2     x2    lx21      x1                g11           h1              ly21
                  lx31                                                              y2        e2
     d3     x3                           g21                          z1
                                                                                                                 h1 = g11x1 + g12x2 + z1
                                   f12                     b21                y12                         qe23
     d4     x4                                                        z2                                         h2 = b21h1 + g21x1 + g22x2 + z2
                  lx42                       g12                                    y3        e3
                                                                           ly32
     d5     x5    lx52      x2                              h2
                                                                              ly42 y          e4
                  lx62                         g22                                   4
     d6     x6


B. Modelos não-recursivos: uma variável pode ser causa-e-efeito de outra (efeito de feedback):
     d1    x1    lx11
                                                                      ly11 y1            e1
     d2    x2    lx21      x1            g11          h1               ly21
                 lx31                                                       y2           e2
     d3    x3                          g21                       z1                                              h1 = b12h2 + g11x1 + g12x2 + z1
                                 f12                 b21 b12            y12                        qe23          h2 = b21h1 + g21x1 + g22x2 + z2
     d4    x4                                                    z2
                 lx42                  g12                                               e3
                                                                      ly32 y3
     d5    x5    lx   52   x2                         h2
                                                                       ly42 y            e4
                 lx62                    g22                                  4

     d6    x6
12



4.3. O modelo de equações estruturais
Confuso? Vejamos um exemplo concreto:

   Warren, White & Fuller (1974) estudaram 98 gestores de cooperativas agrícolas, estabelecendo um
   modelo causal de performance em função de três constructos chave: Conhecimento, Valor e
   Satisfação:



      d1       C1
                               Conhecimento
      d2       C2                                                     z1

      d5       V1                                                                      P1       e1
                                   Valor                        Performance
      d5       V2                                                                      P2       e2


      d3       S1
                                  Satisfação
      d4       S2
13



  4.4. Estratégia de Análise de Eq. Estruturais
   A Análise de Equações Estruturais desenrola-se, geralmente, nos seguintes passos:


                                                         Validação do
                                                           modelo                      Aceitação ou
                                                                                       Rejeição do
                                                                                         modelo
                              Estimação do
                                 Modelo

                                                 Avaliação da
                                                 qualidade do
         Recolha de                              Ajustamento
           Dados               Especificação e
                              identificação do
                                  modelo

             Elaboração do
             modelo Teórico




TEORIA
14



4.4.1. Especificação do modelo
“Desenho” formal do modelo, que reflecte, à priori, as hipóteses sobre o modelo de medida e
sobre o modelo estrutural:


        d1       C1
                               Conhecimento
        d2       C2                                              z1

        d5       V1                                                             P1      e1
                                   Valor                    Performance
        d5       V2                                                             P2     e2

        d3       S1
                                  Satisfação
        d4       S2
Decidir:
1. Que variáveis manifestas operacionalizam que variáveis latentes; erros correlacionados?
2. Que relações causais entre v. latentes e/ou v. manifestas devem ser incluídas / excluídas?
3. Que associações (não-causais) devem ser incluídas/omitidas do modelo?
15



4.4.1. Especificação do modelo
        d1      C1
                               Conhecimento
       d2       C2                                              z1

        d5      V1                                                              P1     e1
                                  Valor                    Performance
        d5      V2                                                              P2     e2

        d3       S1
                                 Satisfação
        d4       S2


A inclusão/omissão de variáveis relevantes para explicar as relações de variâncias-covariâncias
entre as variáveis conduz a erros de especificação:
1. O modelo tem mais variáveis e ou relações entre variáveis do que aquelas que é possível
    estimar pelos dados (matriz de variâncias-covariâncias das v. manifestas)
2. O modelo tem menos variáveis do que aquelas necessárias para explicar as verdadeiras
    relações entre variáveis

    Os erros de especificação podem impedir a obtenção de estimativas dos parâmetros
    (problemas de identificação do modelo) ou pode produzir estimativas enviesadas dos
    parâmetros do modelo (i.e. diferentes do valor real no verdadeiro modelo teórico).
16



4.4.1. Especificação do modelo
A especificação do modelo é, segundo Cooley (1978) uma das etapas mais complexas da AEE.
Uma dificuldade comum é perceber o tipo de modelo de medida apropriado:



Modelos reflectivos:                                 Modelos formativos:
As v. latentes ‘reflectem-se’ nos itens;             As ‘v. latentes’ são ‘formadas’ pelas manifestas;
As v. latentes manifestam-se através das v.          Os itens podem estar ou não correlacionados,
manifestas                                           positivamente ou negativamente
Os itens devem estar correlacionados positivamente
                                                                e1
                                                                                 Português
                    Febre                       e1

                                                             Aptidão             Matemática
                    Dores Musculares            e2
                                                             Acesso
     Gripe                                                 Universidade           Biologia
                    Dores Garganta              e3

                                                                                 Psicologia
                    Nariz congestionado         e4

                    Cansaço                     e5   (Esta Aptidão de Acesso Univ. não é
                                                     verdadeiramente latente, já que é uma combinação
(estimáveis pelos modelos de Eq. Estruturais)        de v. manifestas (média ponderada). Não é
                                                     estimável com AEE, mas sim com PLS)
17



4.4.1. Especificação do modelo
Algumas ‘regras’ de especificação:

    Modelo de Medida (AFC)                           Modelo Estrutural (RL)
     1. Factores comuns latentes (x) causam as v.     1. As relações são ‘desenhadas’ de causa-
        manifestas (x1,…,xi). O comportamento            para-efeito
        das v. manifestas resulta da manifestação     2. A variância da v. exógenas não explicada
        dos factores latentes;                           pela combinação das v. endógenas é
     2. A variância das v. manifestas (e.g. erros        explicada por ‘erros’ (Disturbances ou
        de medida) que não é explicada pelos             Perturbações)
        factores comuns latentes é explicado por
        factores específicos latentes (e1,...,ei);
     3. Os erros de medida são geralmente
                                                               Valor                     z1
        independentes (mas podem estar
        correlacionados indicando uma fonte de
        variação comum dos itens não explicada             Conhecimento             Perfomance
        pelos factores comuns presentes no
        modelo).
                                                             Satisfação
                               P1     e1
             Perform.          P2    e2
                               P3    e3
18



4.4.2. Identificação do modelo
Incluir conhecimento prévio sobre o valor dos parâmetros de forma a que o modelo global seja
ajustável aos dados recolhidos, i.e. que exista pelo menos uma estimativa única para cada
parâmetro do modelo.

Por exemplo, no modelo de medida da performance:


                                          Dados (3):
                            le   1           2 variáveis manifestas: 1 covariância e 2 variâncias
                 lP1   P1            e1      Neste exemplo: (p+q)=2  (p+q)(p+q+1)/2 =2×3/2=3
      Perform.                            Parâmetros a estimar (t=7):
                            l e2              l=[lP1, lP2, le1, le2] + V(P)+V(e1)+V(e2)
                 lP2   P2            e2   Graus de Liberdade do modelo = (p+q)(p+q+1)/2 -t=
                                                                           = 3-7=-4


O modelo não é identificado: Não é possível estimar 4 parâmetros a partir de 3 ‘dados’.
Naturalmente, em AEE não é possível estimar as v. latentes sem assumir algum tipo de hipóteses
sobre elas:
  1. Qual é a métrica (amplitude de medida) das v. latentes? ou
  2. Qual a variância?
  3. Qual a correlação com outras v. latentes?
19



4.4.2. Identificação do modelo
… estas hipóteses reflectir-se-ão na indicação de quais os parâmetros livres (a estimar),quais os
parâmetros fixos (não-estimáveis) e quais os parâmetros constritos (estimáveis mas iguais entre si):
  • Os parâmetros livres: estimados a partir das variâncias/covariâncias das variáveis manifestas;
  • Os parâmetros fixos: não são estimados e são geralmente fixos em 0 (não existe relação) ou em
    1 (estandardização face a outras variáveis).
  • Os parâmetros constritos, são estimáveis, mas essa estimativa é igual para todos os parâmetros
    restringidos.

  No modelo de medida da performance, podemos tornar o modelo identificado:



                                         1. Fixando um coeficiente de trajectória entre o factor e
                        1
                                            pelo menos uma das v. manifestas: o factor tem uma
  1          1     P1       e1              medida proporcional à v. manifesta. Por defeito: lei=1.
                                            Naturalmente, esta trajectória tem um valor de 1 e é
  Perform.
                        1                   assumida como significativa.
             lP2   P2       e2
                                         2. Estandardizando o factor latente: Fixar a variância do
                                            factor em 1. Vantagem: permite testar a significância
                                            de todas as trajectórias entre os factores e as variáveis
                                            manifestas
20



4.4.2. Identificação do modelo
Relativamente à identificação um modelo pode classificar-se como:

A. Indeterminado ou sub-identificado (under-identified): O nº de parâmetros a estimar é superior à
   informação presente nas v. manifestas (variâncias e covariâncias) sendo os graus de liberdade
   <0!!!

                              l e1
                  lP1   P1           e1
                                          Dados: (p+q)(p+q+1)/2 =2×3/2=3
       Perform.                           Parâmetros a estimar (t ): l=[lP1, lP2, le1, le2] + V(P)+V(e1)+V(e2)
                              l e2        Graus de Liberdade = Dados  parâmetros a estimar
                  lP2   P2           e2
                                                                (p+q)(p+q+1)/2 -t =3-7=-4


    Analogia com a Matemática:
           x+y=6
    Sistema indeterminado: Uma equação com duas incógnitas  Infinitas soluções: (2,4), (3,3), …

    Problema: O modelo tem infinitas soluções, não é ajustável!...

    Solução: fixar ou restringir um ou mais parâmetros livres; adicionar mais informação (v. manifestas)
21



4.4.2. Identificação do modelo
Relativamente à identificação um modelo pode classificar-se como:

B. Determinado, identificado ou saturado (just-identified): o nº de parâmetros a estimar é igual ao
   nº de elementos não redundantes da matriz de covariância, sendo os graus de liberdade=0!!!

                                      1
                                 P1       e1
                            1                  Dados: (p+q)(p+q+1)/2 t=2×3/2=3
            1   Perform.                       Parâmetros a estimar (t ):lP2 +V(e1)+V(e2)
                                      1        Graus de Liberdade = (p+q)(p+q+1)/2 -t =3-3=0
                           lP2   P2       e2
    Analogia com a Matemática:
           x+y=6
           x-y=2
    Sistema determinado: Duas equação com duas incógnitas  Uma solução : (4,2)

    Problema: Ao calcular as estimativas usa-se toda a informação disponível e portanto não é
    possível avaliar a significância do modelo pois gl=0. MAS este modelo só tem uma solução e
    portanto nunca pode estar errado – não vale a pena avaliar a significância!. Pode ter problemas de
    convergência numérica durante o ajustamento. Cuidado com a Multicolinearidade! 2 v. manifestas
    colineares, contam apenas como 1, tornando o modelo sub-identificado

    Solução: fixar ou restringir pelo menos mais um parâmetro livre; adicionar mais v. manifestas
22



4.4.2. Identificação do modelo
Relativamente à identificação um modelo pode classificar-se como:

C. Sobre-identificado ou sobre-saturado (overidentified): o nº de parâmetros a estimar é
   inferior ao nº de elementos não redundantes da matriz de covariância. Graus de liberdade>0!

                                               1
        1                    1        P1            e1
                                                         Dados: (p+q)(p+q+1)/2  t=3×4/2=6
                                               1
            Perform.         lP2      P2            e2   Parâmetros a estimar (t): l=[lP2, lP3]+V(e1)+V(e2) +V(e3)
                                                         Graus de Liberdade = (p+q)(p+q+1)/2 -t =6-5=1
                                               1
                           lP3        P3            e3



                                        1
                       1         P1            e1
                       lP2              1                Dados: (p+q)(p+q+1)/2  t=4×5/2=10
                                 P2            e2        Parâmetros a estimar (t): l=[lP2, lP3, lP4]+V(e1)+V(e2)
        Perform.       lP3
                                           1             +V(e3) +V(P)
                       lP4       P3            e3
                                                         Graus de Liberdade = (p+q)(p+q+1)/2 -t =10-7=3
                                           1
                                   P4          e4
23



4.4.2. Identificação do modelo
Relativamente à identificação um modelo pode classificar-se como:

C. Sobre-identificado ou sobre-saturado (overidentified):

    Analogia com a Matemática:
            x+y=6
                              3 quantidades conhecidas (6,3,11) e duas desconhecidas, mas o
            2x-y=3            sistema não tem uma solução exacta. Para encontrar uma
            3x+y=11           solução, é preciso impor algum tipo de modelo “teórico”

e.g. Encontrar os valores x, y positivos tal que o quadrado da diferença entre os valores estimados pelas
     equações e os dados (6,3,11) sejam o menor possível:
            x =2.816; y=2.789 é uma solução, ainda que imperfeita:
            x + y = 5.605           2x – y = 2.842          3x + y=11.237

Apesar de a solução não ser perfeita nos modelos sobre-identificados, contrariamente aos modelos
saturados, a imposição de restrições aos parâmetros permite testar hipóteses sobre o modelo.
É agora possível avaliar a plausibilidade do modelo, para gerar os dados observados. Se os valores
estimados estiverem muito afastados dos valores observados, o modelo deve estar errado!
A maior parte dos investigadores prefere trabalhar com modelos sobre-identificados!
24



4.4.2. Identificação do modelo
Sub-identificação empírica
Um modelo teoricamente identificado ou sobre-identificado, ainda poder apresentar problemas de
sub-identificação. Um problema mais ou menos frequente é a Sub-identificação empírica:

1. Quando parâmetro tem um valor próximo de zero. O processo iterativo da estimação do
   modelo pode eliminar esse parâmetro e o modelo passa a estar sub-identificado
2. Quando duas ou mais variáveis manifestas são fortemente colineares (problema da
   multicolinearieadade) as estimativas dos parâmetros associadas tornam-se instáveis e podem
   ditar a eliminação das v. manifestas da análise, tornando o modelo sub-identificado.

    Solução: Respecificação do modelo (remover v. manifestas colineares) e/ou aumentar a
    dimensão da amostra

    Existem várias regras mais ou menos complexas (e de difícil determinação manual) para avaliar
    a identificação de um modelo (regra-t, Regra B=0, Regra Recursiva, Condições de ordem e
    característica da matriz de covariância; ver e.g. Bollen (1989), p. 88-103) mas estas regras não
    dão garantias absolutas. A maioria dos softwares (e.g. AMOS) avaliam a identificação do
    modelo e identificam os parâmetros responsáveis pela não identificação do modelo.

    Os Slides seguintes tem algumas ‘dicas’ para lidar com a indeterminação e/ou saturação do
    modelo
25



4.4.2. Identificação do modelo
Estratégias para lidar com a indeterminação do modelo:
Se um modelo for indeterminado (sub-identificado) ou mesmo saturado (identificado), é necessário tomar
uma ou mais das seguintes medidas correctivas:

1. Regra-t: Nº de parâmetros a estimar deve ser igual ou inferior ao nº de variâncias-covariâncias não-
   redundantes (p+q)(p+q+1)/2
2. Fixar pelo menos um dos coeficientes entre uma variável latente e os seus indicadores (é necessário
   indicar qual a métrica da variável latente...)
3. Fixar a variância de uma ou mais v. latentes (estandardizar as v. latentes)
4. Ter pelo menos 3-4 indicadores por v. latente (com 2 também funciona, com 1 também (fixando a
   fiabilidade do indicador), mas tem problemas de fiabilidade/consistência interna)
5. Simplificar o modelo igualando trajectórias entre si: Usar testes à igualdade de parâmetros (Critical
   Ratios for differences no AMOS; para amostras grandes CR<1.96 implica igualdade dos coef.)
6. Eliminar trajectórias de feedback, ou efeitos recíprocos X  Y
7. Fixar parâmetros (e.g. coeficientes de trajectória) cuja magnitude é conhecida (teoria)
8. Simplificar o modelo reduzindo o nº de variáveis latentes, eliminar v. manifestas multicolineares, fixar
   trajectórias =0 (ou seja eliminar trajectórias); aumentar a dimensão da amostra
9. Caso existam missings, usar um método Listwise de eliminação de missings (não usar pairwise) ou
   utilizar métodos de imputação de missings (Regressão, FIML,…).
10. Aumentar o nº de iterações, ou usar um outro método de estimação (GLS, ULS em vez do ML)
26
4.4.3. Ajustamento do modelo e
    estimação dos parâmetros

De acordo com a Teoria, o investigador estabelece:
1. Modelo de medida (para definir o modo de “medir” as variáveis latentes) e
2. Modelo estrutural (causal ou simplesmente correlacional) que relaciona as variáveis de interesse.
Se o modelo de EE for ‘correcto’, os dados “gerados” pelo modelo são suficientemente próximos
dos dados observados:

                                                Covariâncias
                                                 estimadas
                                                   S(q)

                                                                      Erros=
                   Modelo                          =?                 S-S(q)

                                                Covariâncias
                                                observadas
                                                    S

Assim, o investigador “colhe” os dados e avalia o ajustamento do modelo aos dados (Estratégia
Confirmatória). Se o modelo não for rejeitado, isto não demonstra que o modelo é único, mas sim
que aqueles “Dados” podem ser explicados pelo modelo em causa.

Se o modelo for rejeitado, pode proceder-se a refinamentos do modelo (Estratégia exploratória) para
encontrar um modelo que melhor explique os dados observados.
27
4.4.3. Ajustamento do modelo e estimação dos
       parâmetros

O objectivo da AEE é então encontrar um vector de estimativas dos parâmetros do modelo (q)
que reproduza o melhor possível a matriz S das v. manifestas na população, i.e.

Estimar os parâmetros modelo tal que
                                            S= S(q)
q – Vector dos parâmetros (coeficientes) do modelo.
S(q) – Matriz de variâncias estimadas pelo modelo teórico


Na prática não trabalhamos com populações mas sim com amostras, pelo que     ˆ
                                                                             S=S
A questão é então:

‘Dada a matriz S de covariâncias amostrais das v. manifestas (que estima S), qual é o melhor
vector de parâmetros do modelo teórico tal que:

                                          S = S(q) ˆ
                                éS
                                ê xx    Syx ùú éêSyy (q) Syx (q)ùú
                                                      ˆ       ˆ
                                              =
                                êS
                                êë xy   Sxy úú êêSxy (q) Sxx (q)úú
                                                      ˆ       ˆ
                                             û ë                 û
28
4.4.3. Ajustamento do modelo e estimação dos
       parâmetros

Consideremos um exemplo relativamente simples:
                                                                      z
                             1                                       1                     1
                     d1            x1      1              g                 1         y1       e1
                                                    x                 h
                             1                                              l2             1
                     d2            x2      l1                                         y2       e2


As equações estruturais do modelo são:
                          éx ù é 1 ù      é ù               éy ù é 1 ù      é ù
                          ê 1 ú = ê ú x + ê d1 ú            ê 1 ú = ê ú h + ê e1 ú                  h = gx + z
                          êx ú êl ú       êd ú              êy ú êl ú       êe ú
                          êë 2 úû êë 1 úû êë 2 úû           êë 2 úû êë 2 úû êë 2 úû

Sendo as matrizes dos erros, matrizes diagonais (os erros não estão correlacionados):
                   diag(Qe ) = éêV (e11 ),V (e22 )ùú      diag(Qd ) = éêV (d11 ),V (d22 )ùú
                                ë                  û                   ë                  û

O vector de parâmetros q a estimar é:
                          q ' = éêl1, l2, g,V (x ),V (e1 ),V (e2 ),V (d1 ),V (d2 ),V (z )ùú
                                 ë                                                        û

Sendo (p+q)(p+q+1)/2=(4×5/2)=10 e t=9, o modelo é sobre-identificado com gl=10-9=1.
29
4.4.3. Ajustamento do modelo e estimação dos
       parâmetros
O problema é então estimar o vector q tal que
       é V (y )                                   ù
       ê      1                                   ú
       êCov(y , x )    V (y2 )                    ú
       ê
     S=ê     2    1                               ú            seja igual
                                                  ú
       êCov(x 1, y1 ) Cov(x 1, y2 ) V (x 1 )      ú
       êCov(x , y ) Cov(x , y ) Cov(x , x ) V (x )ú
       êë     2 1           2   2       2    1  2 ú
                                                  û
        é g 2V (x ) +V (z ) +V (e )                                                                 ù
        ê                        1                                                                  ú
        ê l [ g 2V (x ) +V (z )]     2    2
                                    l2 [ g V (x) +V (z )] +V (e2 )                                  ú
   ˆ) = ê
 S(q          2                                                                                     ú
        ê                                                                                           ú
        ê            gV (x)                    l2 gV (x)           V (x ) +V (d1 )                  ú
        ê                                                                           2               ú
        ê           lgV (x )                  l1l2 gV (x )            l1V (x )     l1V (x ) +V (d2 )ú
        ë                                                                                           û

Mas, mesmo este modelo simples, corresponde a um sistema de 10 equações com 9 incógnitas
(parâmetros)…

Os softwares de AEE utilizam um algoritmo iterativo que minimiza a ‘função de discrepância’.
                                                                                                    ˆ
                                                                                       f = F (S - S(q))
Se o ajustamento for perfeito f=0;
Quanto menor for f melhor será o ajustamento do modelo teórico
O algoritmo para quando é atingido um critério de convergência (e.g. quando a variação das
estimativas ou da f é inferior a 0.001)
30
4.4.3. Ajustamento do modelo e estimação dos
       parâmetros

Os métodos de ajustamento mais usuais em AEE e respectivas funções de discrepância (f ) são:

1. Máxima verosimilhança (ML):
   Método iterativo que estima os parâmetros que maximizam a verosimilhança de observar a
   matriz S. A função de discrepância a minimizar é

                               ˆ           ˆ
                 fML = log | S(q) | +tr(SS(q)-1 ) - log | S | -(p + q )
    Se o modelo exigir a estimação das médias e das ordenadas na origem, a função de
    discrepância é:

                     ˆ           ˆ                                     ˆ      ˆ          ˆ
       fML = log | S(q) | +tr(SS(q)-1 ) - log | S | -(p + q ) + (x - m(q))' S(q)-1(x - m(q))

Método mais usado em AEE. Produz estimativas centradas e consistentes: à medida que n
             ˆ
   aumenta, q aproxima-se do verdadeiro q (populacional) com distribuição Normal.
    Exige normalidade multivariada das v. manifestas (é +/- robusto à violação deste pressuposto)
    ou que SWishart.
    Problemas associados à violação da normalidade:
    a. Rejeição de modelos apropriados mais vezes do que o correcto (teste c2=(n-1)fML)
    b. Concluir pela significância de parâmetros mais vezes do que o correcto (+ erros tipo I)
31
4.4.3. Ajustamento do modelo e estimação dos
       parâmetros

Os métodos de ajustamento mais usuais em AEE e respectivas funções de discrepância (f ) são:

2. Mínimos quadrados não-ponderados (ULS):
   Método iterativo que estima os parâmetros que minimizam a SQE da matriz residual:
                                             ˆ
                                   E = S - S(q)

    A função de discrepância a minimizar é:

                                           1           ˆ
                                  fULS =     tr[(S - S(q))2 ]
                                           2
                                                              ˆ 2
    onde tr[ ] é a função traço de uma matriz, i.e. tr[(S - S(q)) ] é a soma dos elementos diagonais
    de E (SQE).

    O método ULS não tem assumpções (à semelhança do OLS da Reg. Linear), é consistente,
    mas não é assimptóticamente eficiente (i.e. a variância não é mínima à medida que n aumenta).

    O AMOS (até v. 18 inclusive) não produz o teste do c2=(n-1)fULS uma vez que não é possível
    assegurar a distribuição de c2.
32
4.4.3. Ajustamento do modelo e estimação dos
       parâmetros

Os métodos de ajustamento mais usuais em AEE e respectivas funções de discrepância (f ) são:

3. Mínimos quadrados generalizados (GLS):
   Método iterativo que estima os parâmetros ponderando os erros de estimação com pesos
   correspondentes ao inverso da matriz de covariância amostral.
   Os elementos da matriz E que tem maior variância amostral, tem menor peso no modelo. Desta
   forma obtém-se estimativas mais eficientes do que se as observações não fossem ponderadas.
   A função de discrepância a minimizar é:

                            1 é -1        ˆ))ù = 1 tr[(I - S-1S(q))2 ]
                                               2
                    fGLS   = tr êS (S - S(q ú                   ˆ
                            2 ë              û   2
    o que é equivalente a minimizar a SQE ponderada pelo inverso da matriz de covariância
    amostral.

    O método GLS tem as mesmas propriedades assimptóticas que o ML (consistência e eficiência)
    com estimativas com distribuição normal assimptóticas.
33
4.4.3. Ajustamento do modelo e estimação dos
       parâmetros

Os métodos de ajustamento mais usuais em AEE e respectivas funções de discrepância (f ) são:

4. Distribuição Assimptótica livre (ADF) (ou Mínimos quadrados ponderados generalizados (WLS):
   Não exige Normalidade Multivariada. Contudo, exige que as variáveis manifestas permitam estimar
   momentos de ordem 8 (a ver adiante) o que, geralmente, exige amostras de grande dimensão
   (>1000’s)

                    ˆ              ˆ
      fADF = (s - (q))' W-1(s - (q))
   s’=(s11, s21,s22,…,skk) vector de elementos da matriz triangular inferior S incluindo a diagonal
     ˆ                                                                                   ˆ
   (q) = (s11, s21, s22 ,..., skk ) vector de elementos da matriz triangular inferior S(q) incluindo a diagonal
   W – matriz de distâncias de todas as observações às médias de todas as variáveis . W-1 corrige
   Curtose dos itens. O elemento genérico de W é

        [W ]ij ,kl = wij ,kl - wij wkl
              1 n                                             1 n
         wij = å (x ir - x i )(x jr - x j )        wij ,kl   = å (x ir - x i )(x jr - x j )(x kr - x k )(xlr - xl )
              n r =1                                          n r =1

    Se a dimensão da amostra não for suficiente para o ADF e não for desejável assumir a validade
    da distribuição (aproximadamente) normal dos itens (v. manifestas), podem usar-se métodos de
    Bootstrap.
34
4.4.3. Ajustamento do modelo e estimação dos
       parâmetros

Os métodos de ajustamento mais usuais em AEE e respectivas funções de discrepância (f ) são:

5. Mínimos quadrados sem escala (Scale free Least Squares)

    Método equivalente ao ULS, mas com a análise feita na matriz de correlações ( e não na matriz
    de covariância) (Relembre: rxy=cov(x,y)/(sxsy)).

    A função de discrepância a minimizar é:
              1              ˆ
         fSLS = tr[D-1(S - S(q))]2
              2
    onde D = diag(S)

    As estimativas do SLS não são comparáveis com as estimativas dos restantes métodos
    especialmente se forem feitas transformações lineares das v. manifestas. Por isso, o SLS
    raramente é utilizado

    Na prática, as estimativas obtidas por uma das funções 1-a-4 anteriores são suficientemente
    próximas permitindo uma mesma interpretação dos resultados.
35



4.4.4. Avaliação da qualidade do modelo
Depois de encontrado o vector de estimativas dos parâmetros do modelo () que minimiza a
discrepância, é necessário avaliar a qualidade do ajustamento do modelo obtido aos dados
observados.

Três ‘estratégias’ para avaliar a Qualidade do Ajustamento:

1.Teste de significância à função de discrepância: Teste do Qui-quadrado
  A. Hipóteses
      H0: =() (a matriz de covariância populacional é igual à matriz de covariância
                   estimada pelo modelo) vs.
      H1: ()
  B. E.T.
                             a
       X 2 = (N - 1)fML ~ c(2p +q )( p +q +1)/2-t          p +q – nº variáveis manifestas no modelo
                                                           t - nº parâmetros estimados
  C. Decisão
     Rejeitar H0 se p-value ≤
     Muito sensível à dimensão da amostra (amostras pequenas: raramente rejeita H0, Amostras
     grandes: Rejeita quase sempre H0)
     Sensível à violação da Normalidade multivariada levando à rejeição de bons modelos e
     aceitação de modelos maus! (usar correcção de Satorra-Bentler; usar WLS (especialmente com
      v. ordinais) com o LisREL; usar Bootstrap com o AMOS)
36



4.4.4. Avaliação da qualidade do modelo

2. Índices “empíricos” de qualidade de ajustamento
   Os problemas associados ao teste do Qui-quadrado (um teste à mediocridade do ajustamento)
   que testa, irrealisticamente, se o ajustamento é perfeito (100%), levaram à criação de várias
   outras medidas de qualidade/mediocridade do ajustamento.
   Índices de qualidade de ajustamento: avaliam a distância relativa entre: S - S(q)ˆ

A. Índices Absolutos: Avaliam a qualidade do modelo per se, sem comparação com outros modelos.
   Sem grande utilidade (R. Fisher: ‘Nothing is good or bad, but by comparison’): RMR, GFI
B. Índices Relativos: Avaliam a qualidade do modelo sob teste relativamente: (i) ao modelo com pior
   ajustamento possível (modelo de independência: não há relações entre quaisquer v. manifestas) e/ou (ii)
   ao modelo com melhor ajustamento possível (modelo saturado: todas as v. manifestas estão
   correlacionadas): NFI, CFI
C. Índices de Parcimónia: Índices relativos que penalizam a complexidade do modelo: Compensam a
   melhoria ‘artificial’ do modelo por inclusão de mais parâmetros livres para melhorar o ajustamento (i.e.
   menos graus de liberdade). Um modelo complexo pode ter melhor ajustamento mas ser menos
   generalizável a outras amostras: AGFI, PGFI, PCFI
D. Índices de discrepância populacional: Baseados na distribuição c2 não-central de (n-1)f. Avaliam se
   o modelo é ‘aproximadamente’ correcto (em oposição ao 100% correcto do c2 ): NCP, RMSEA
E.   Índices baseados na teoria da informação: Apropriados quando é necessário comparar vários
     modelos alternativos que ajustem aos dados (AIC, BIC, ECVI)
37



4.4.4. Avaliação da qualidade do modelo
2. Índices “empíricos” de qualidade de ajustamento
   Várias dezenas: Alguns mais frequentes em AEE:

     Índices Absolutos                                             Valores de Referência
     X2/df                                                         < 5 – ajustamento sofrível
     Se H0: =() é verdadeira E(X2)=gl, logo um valor óptimo é   ≤ 2 - ajustamento aceitável
     X2/df=1. Normalização do c2 .                                 ~ 1 – ajustamento bom
     Root mean squared Residual                                    Quanto menor, melhor.
                                                                   Se for calculada a partir da matriz de
                   p +q   i
                                                                   correlação, varia entre 0 e 1. Quanto
                   å å (s       ij
                                         ˆ
                                     - s(q))2
                                                                   mais próximo de 0, melhor.
                    i =1 j =1
       RMR =                                                       Só deve ser usado para comparar o
                  (p + q )(p + q + 1) / 2
                                                                   ajustamento de 2 modelos alternativos
     Média dos resíduos.                                           ajustados aos mesmos dados
     Goodness of Fit index
                         ˆ              ˆ
                  (s - (q))' W-1(s - (q))                        <0.9 – ajustamento mau
        GFI = 1 -
                           s ' W-1s                                [0.9; 0.95[ – ajustamento bom
     Numerador: mínimo da f depois do modelo ajustado              0.95 – ajustamento muito bom
     Denominador: f antes do ajustamento                           1 – ajustamento perfeito
     W – matriz de ponderação dependente do método de estim.
     GFI foi um dos primeiros índices. Proporção da covariância
     observada explicada pelo modelo ajustado.
38



4.4.4. Avaliação da qualidade do modelo
2. Índices “empíricos” de qualidade de ajustamento
   Várias dezenas: Alguns mais frequentes (Continuação)

     Índices Relativos                                               Valores de Referência
    Normed Fit Index                                                 <0.8 – ajustamento mau
    % de incremento na qualidade do ajustamento do modelo ajustado   [0.8;0.9[ – ajustamento sofrível
    (X2) relativamente ao modelo de independência (pior modelo       [0.9 ;1.0[ – ajustamento Bom
    possível) (X2b):
                                                                     = 1 – ajustamento perfeito
                NFI = 1-X2/X2b
     Comparative Fit Index (CFI)                                     <0.8 – ajustamento mau
     Compara o ajustamento do modelo em estudo com o do modelo       [0.8;0.9[ – ajustamento sofrível
     basal ou modelo de independência                                [0.9 ;1.0[ – ajustamento Bom
                CFI= 1- max(X2-gl,0)/max(X2b-glb,0)                  = 1 – ajustamento perfeito
     Procura resolver o problema do NFI que tende a subestimar o
     ajustamento em amostras pequenas.
     Relative Fit Index (RFI)                                        <0.8 – ajustamento mau
     Compara o ajustamento do modelo em função do X2 normalizado     [0.8;0.9[ – ajustamento sofrível
     pelos gl em estudo com o do modelo basal ou modelo de           [0.9 ;1.0[ – ajustamento Bom
     independência,                                                  = 1 – ajustamento perfeito
                              X 2 / gl
                  RFI = 1 -
                              Xb2 / glb
39



4.4.4. Avaliação da qualidade do modelo
2. Índices “empíricos” de qualidade de ajustamento
   Várias dezenas: Alguns mais frequentes (Continuação)


    Índices de Parcimónia                                 Valores de Referência
    Parsimony CFI                                         Os índices de Parcimónia tomam
    (CFI penalizado com a complexidade do modelo)         geralmente valores (muito)
         PCFI=CFIgl/glb                                 menores do que os índices
                                                          relativos.
    Adjusted GFI                                          De uma forma geral:
        AGFI=1-(1-GFI)glb/gl . AGFI 1 e pode ser <0.
    Abandonado! actualmente usa-se o:                     < 0.6 – Ajustamento mau
    Parsimony GFI varia no intervalo [0;1]                [06; 0.8[ - Ajustamento bom
        PGFI=GFIgl/glb
    Parsimony NFI                                         0.8 – Ajustamento muito bom
    (NFI penalizado com a complexidade do modelo)
         PNFI=NFIgl/glb

     Nota: gl/glb designa-se ‘rácio de parcimónia’
40



4.4.4. Avaliação da qualidade do modelo
2. Índices “empíricos” de qualidade de ajustamento
   Várias dezenas: Alguns mais frequentes (Continuação)


    Índices de discrepância populacional                                      Valores de Referência
    Non-Centrality Parameter (NCP)
    Estima o quão afastado o valor esperado do c2 sob H0 está do verdadeiro   Quanto mais próximo de zero,
    c2 . O parâmetro de não centralidade (d) é estimado por:                  melhor
         NCP=max[X2- gl, 0]
    Pode calcular-se I.C. a 90% para o NCP
    F0                                                                        Quanto mais próximo de zero,
    É o mínimo relativo do NCP                                                melhor
        F0=max[(X2- gl)/n, 0]=NCP/n
    Root Mean square Error of Aproximation (RMSEA)                            > 0.10 - Inaceitável
    Compensa o F0 devido à complexidade do modelo (quanto mais                ]0.05;0.10] – ajustamento
    complexo for o modelo menor será F0).                                     sofrível
        RMSEA = F0 / gl                                                       [0.05; 0.01[ – ajustamento bom
    Diferença média entre as covariâncias observadas e as estimadas pelo      ≤0.01 – ajustamento muito
    modelo                                                                    bom
    Pode calcular-se I.C. e testar                                            Não rejeitar H0.
         H0: RMSEA ≤0.05 vs. H1: RMSEA >0.05                                  p-value0.05 (0.5 segundo
                                                                              Jöreskog)
41



4.4.4. Avaliação da qualidade do modelo
2. Índices “empíricos” de qualidade de ajustamento
   Várias dezenas: Alguns mais frequentes (Continuação)

    Índices baseados na teoria da informação                                   Valores de Referência
    AIC (Akaike Information Criterion)
        AIC=X2+2t
    Penalize o modelo pela sua complexidade (i.e. nº de parâmetros a estimar
    e falta de parcimónia).
    BCC (Browne-Cudeck Criterion)
                        n[(p + q )(p + q + 3)]
                           N - (p + q ) - 2                                    Quanto menor, melhor.
         BCC = X 2 + 2t
                         (p + q )(p + q + 3)                                   Usar apenas para comparar
    Penaliza ainda mais o modelo devido à sua complexidade do que o AIC.       modelos alternativos
                                                                               (aninhados e não aninhados)
    BIC (Bayes Information Criterion)
        BIC=X2+tLn(n)
    Índice que atribui a maior penalização à complexidade do modelo .
    Permite seleccionar os modelos mais parcimoniosos
    ECVI (Expected Cross-validation index)
       ECVI=AIC/n
    Útil em estudos de validação cruzada (ajustamento numa amostra e
    validação noutra amostra)
42



4.4.4. Avaliação da qualidade do modelo
Mas, mas…    é mesmo preciso usar todos os índices? Não! Os índices mais recomendados são:

  Estatística                                              Valores de Referência
  X2 e p-value (H0: O Ajustamento é perfeito)              Quanto menor melhor
  (Macro do AMOS: cmin; p)                               p>0.05
  X2/df (Macro do AMOS: cmindf)                           < 5 – ajustamento sofrível
                                                           ≤ 2 - ajustamento aceitável
                                                           ~ 1 – ajustamento bom
  CFI     (Macro do AMOS: cfi)                            <0.8 – ajustamento mau
  GFI    (Macro do AMOS: gfi)                             [0.8;0.9[ – ajustamento sofrível
                                                           ≥ 0.9 – ajustamento muito bom
  PGFI     (Macro do AMOS: pcfi)                          < 0.6 – Ajustamento mau
  PCFI     (Macro do AMOS: gfi)                           [06; 0.8[ - Ajustamento bom
                                                           0.8 – Ajustamento muito bom
  RMSEA (com I.C. 90%)                                     > 0.10 - Inaceitável
  e                                                        ]0.05;0.10] – ajustamento sofrível
  p-value (H0: rmsea0.05)                                 ≤0.05 – ajustamento bom
  (Macro do AMOS: rmsea; pclose)                         p-value0.05 (0.5 segundo Jöreskog)
  AIC (Macro do AMOS: aic)                                Só para comparar modelos
  ECVI (Macro do AMOS: ecvi)                              Quanto menor, melhor…
43



4.4.4. Avaliação da qualidade do modelo
3. Análise de resíduos, estimativa de parâmetros e fiabilidade individual de indicadores

   Os índices de qualidade de ajustamento são medidas do ajustamento global médio aos
   dados. O modelo pode ter um bom ajustamento global, mas ainda assim apresentar um mau
   ajustamento local. Para fazer o diagnóstico de possíveis problemas locais:
   1. Avaliar os resíduos estandardizados do modelo estimados por
                          eij    a
                  rij =          ~ N (0,1)                  ˆ
                                             e[ij ] = S - S(q)
                          se
                          ˆ
                            ij

     rij >> 2 indicam outliers (com 95% de confiança) e problemas de ajustamento local

    2. Avaliar os erros-padrão assimptóticos dos parâmetros do modelo e sua significância:
       A significância dos parâmetros do modelo pode avaliar-se com um teste Z:
           H0: gij=0 vs. H1: gij ¹ 0.
                                         ˆ a
           Para n grandes, Z = gij / sg ~ N (0,1) rejeitando-se H0 se |Z|  z1-a
                                      ˆ
                                             ij


    3. Avaliar a fiabilidade individual dos indicadores ou v. manifestas: Apropriado para avaliar a
       relevância dos indicadores nos modelos de medida.
        Valores de R2<0.25 indicam possíveis problemas com o indicador.
44



4.4.5. Respecificação do modelo
E se o modelo ajustado não apresentar um ‘bom’ ajustamento aos dados?
Prática corrente: modificar o modelo eliminando vias não significativas, libertando parâmetros
anteriormente fixos, fixando parâmetros anteriormente livres, correlacionar erros, etc...

Índices de Modificação (Modification Indices) para os parâmetros: Redução (conservadora) da
estatística X2 do modelo, se o parâmetro fixo ou restrição de igualdade for libertado e o modelo for
re-estimado, com perda de um grau de liberdade. Este teste poder obter-se como, um Rácio de
verosimilhança dos dois modelos:

                               LR = -2 éê log L(qr ) - log L(qu )ùú
                                                ˆ            ˆ
                                        ë                         û
                                  = (n - 1)( fMLr - fMLu )

Onde fMLr é a função de discrepância para o modelo restrito, e fMLu é a mesma função para o
modelo com o parâmetro livre

A maioria dos softwares (AMOS, LisRel,…) estima porem os Índices de Modificação pelo método
dos Multiplicadores de Lagrange que apenas precisa ser estimado para o modelo restrito :

                                                                        -1
                                  (n - 1) ç ¶fMLr ÷ ' êé ç ¶ fMLr öúù
                                          æ       ö æ 2
                                                  ÷ ç              ÷
                                                                   ÷
                                                                             æ       ö
                                                                             ç ¶fMLr ÷
                                                                                     ÷
                             LM =         ç
                                          ç ¶θ ÷ êE ç ¶θ ¶θ ' ÷ú
                                                         ç         ÷         ç
                                                                             ç       ÷
                                          ç
                                     2 è r ø      ÷ ê è            ÷         ç
                                                                             è ¶θr ø ÷
                                                       ë     r   r øú
                                                                    û
45



4.4.5. Respecificação do modelo
E se o modelo ajustado não apresentar um ‘bom’ ajustamento aos dados?

Tendo LM ~ c2 (1)
         a



J. Arbuckle (o autor do AMOS): MI4 (c20.95;(1)=3.84)
Mais seguro: MI  11 (c20.999;(1)=10.82), já que só se deve modificar um modelo, se existirem
fortes fundamentos teóricos para o fazer!!!. Um modelo pode ser modificado até a um
ajustamento perfeito (quanto mais próximo estiver do modelo saturado, melhor será o
ajustamento…).

Análise sequencial: começar por libertar o parâmetro com maior MI até chegar ao parâmetro de
menor MI.

PERIGO: o modelo pode perder a validade para a população... i.e. O modelo ajusta-se bem
aqueles dados, mas pode não ser válido na população.

Deve-se sempre considerar possíveis modelos paralelos ou não-paralelos alternativos que possam
igualmente reproduzir os dados observados.

Deve-se também fazer a validação cruzada do modelo com outra amostra.
46



4.5. Pressupostos do Modelo de Eq. Estruturais
1. Normalidade multivariada
1. As variáveis (manifestas) devem apresentar distribuição normal multivariada.
2. A normalidade multivariada é requerida pelo método ML que é o método dominante na AEE
   (outros métodos não a exigem: WLS, ADF,...)

   Como avaliar?
    Não há testes de Normalidade multivariada implementados nos softwares.
    Alternativa: Avaliar valores de Sk e Ku dos itens. Distribuição normal Sk=Ku=0
    No AMOS:
                     n                                                        n

                    å (x i - x )3              6                             å (x   i
                                                                                        - x )4
                                                                                                               24
       sk = M 3 =   i =1
                                  3
                                      ; sesk =           ku = M 4 - 3 =      i =1
                                                                                                 - 3; seku =
                           ns '                n                                    ns   4
                                                                                                               n

   Schumaker & Lomax (2004): Valores |sk| e |ku|  2 não são problemáticos
   Kline (1998): Valores de |Sk|<3 e |Ku|<8-10 são aceitáveis em AEE.
   No AMOS:

             1 n é                              2 p(p + 2)(n - 1)            8 p(p + 2)
     kuM =     å êë(
             n i =1
                     xi - x ) ' S-1 (xi - x )ùú -
                                              û       n +1
                                                                  ; seku =
                                                                                 n

   Kline (1998); KuMult<10 não é problemática
47



4.5. Pressupostos do Modelo de Eq. Estruturais
1. Normalidade multivariada
 Sob a validade da hipótese de normalidade multivariada é possível testar as hipóteses:
                                          sk a
     H0: sk=0 vs. H1:sk¹0           Z =       ~ N (0,1)
                                         sesk
     H0: ku=0 vs. H1:ku¹0                 ku a             para a=0.05, rej. H0 se |Z|≥1.96
     H0: kuM=0 vs. H1:kuM¹0         Z =       ~ N (0,1)
                                         se   ku

  Mesmo problema do teste do c2: testa se a distribuição é ‘perfeitamente normal’… nunca é,
  para amostras grandes (se=s/n), nem é preciso que seja para fazer AEE (ML)

Problemas com a violação da normalidade
a. Teste do Qui-quadrado inimputável (a distribuição da estatística é c2 não-central).
   Inflação do erro de tipo I).
   O teste pode ser corrigido por uma medida do enviesamento multivariado (correcção de
   Satorra-Bentler); pode transformar-se as variáveis para forçar a normalidade; ou pode usar-se
   um método de estimação que não exija a normalidade – e.g. ADF, ULS.
b. Estimativas dos parâmetros com significância inflacionada
   As estimativas têm SE menor do que o correcto, o que faz que os coeficientes sejam
   estatisticamente significativos mais vezes do que o que deviam (inflação do erro de tipo I).
48



4.5. Pressupostos do Modelo de Eq. Estruturais
2. Linearidade: relações lineares entre as v. manifestas e as v. latentes, e entre as v. latentes. O
   método ML não exige linearidade, mas é aplicado à matriz de covariâncias /correlações que
   exigem associações de tipo linear.
3. Covariâncias amostrais não-nulas: as v. manifestas devem apresentar algum tipo de
   associação.
4. Múltiplos indicadores: 3 ou mais variáveis manifestas ou indicadores por factor, e a
   fiabilidade dos constructos (v. latentes) deve ser elevada.
5. Ausência de Multicolinearidade: A multicolinearidade inflaciona a estimação das
   covariâncias dos parâmetros; produz coeficientes de trajectória estandardizados muito
   superiores a 1 ou -1; pode produzir variâncias negativas. Pode mesmo causar o aborto das
   iterações (matrix not positive definite) quando é perfeita ou quase (não é possível inverter a
   matriz de correlações/covariâncias que são singulares). Avaliar multicolinearidade com o VIF
   (SPSS).
6. Amostras de “grande” dimensão: Várias regras : N>200 – 400 ; 15 sujeitos por variável
   manifesta; 5 sujeitos por parâmetro a estimar (v. manifestas, latentes, erros, correlações,
   etc...). Quanto mais melhor (especialmente se os dados forem muito enviesados, não
   mesocúrticos, com missings)... Mas nunca inferior a (p+q)(p+q)+1)/2 (caso contrário não é
   possível calcular a matriz de covariâncias assimptótica).
7. Modelos sobre-identificados (ou quando muito identificados).
49



4.5. Pressupostos do modelo de Eq. Estruturais
8. Medida forte

O cálculo de variâncias-covariâncias das v. manifestas exige medidas numa escala quantitativa.
Alguma controvérsia sobre o uso de métodos ML com escalas ordinais (5 ou 7 pontos):

Utilizadores do AMOS:
      a. Se a escala for ordinal deve ter pelo menos 5 pontos (7, ou mesmo 9-10), e distribuição
         aproximadamente em sino: estas variáveis comportam-se como v. intervalares
      b. Se os itens forem nominais (0-não, 1-sim), usar compósitos somados
      c. Usar métodos ‘Bootstrap’/ Estimação Bayesiana para v. ordinais
      d. As assumpções das correlações policóricas e poliseriais de que existem variáveis latentes
         com normalidade multivariada de cujos itens ordinais são manifestações, são irreais; o
         cálculo exige amostras de grande dimensão(>2000, e pode usar-se o ADF)
Utilizadores do LisRel, EQS, MPlus:
      a. Não faz sentido usar covariâncias de variáveis ordinais
      b. Usar correlações policóricas (ordinal vs ordinal) ou poliserial ordinal vs quantitativa) ou
         tetracórica (nominal vs. nominal)
      c. Usar métodos WLS e matrizes de correlação policóricas.
      d. Joreskog & Sorbom (1988): Correlações de Pearson, Spearman, Kendall t tem pior
         performance do que policóricas com v. ordinais
50



4.5. Pressupostos do modelo de Eq. Estruturais
9. Inexistência de Outliers
   Outliers são observações que caem fora da tendência das restantes observações.
   Podem ocorrer devido a problemas de observação/registo das variáveis ou podem ser valores
   extremos que ocorrem naturalmente (ainda que com frequência muito baixa).

   Problemas com a existência de outliers:
   a. Afectam as estimativas das médias, desvios-padrão e covariâncias, tornando o modelo ‘mau’
   b. Podem atenuar ou inflacionar as estimativas dos parâmetros

   Como diagnosticar:
   1. Medidas univariadas, box-wisker plots: Mas, um outlier poder ser multivariado sem ser univariado
   2. Medidas multivariadas: Distância de Mahnalobis: Distância de uma observação xi à média de
      todas as observações (centróide):
                                                         1 n 4 p(p + 2)(n - 1)            8 p(p + 2)
         di2 = (xi - x ) ' S-1 (xi - x )         kuM =     åd -                ; seku =
                                                         n i =1 i  n +1                       n
   AMOS sob a hipótese da normalidade multivariada, a partir da kuM:
   p1: probabilidade de uma observação xi ter um valor de di2 superior ao di2 calculado
   p2: probabilidade de a maior distância de Mahalanobis ser superior ao di2 de xi.
   Convém que p1 seja pequeno (<0.05-0.10) e p2 seja grande (>0.05-0.10), caso contrário a observação
   deve ser um outlier multivariado.
51



4.6. Problemas com o ajustamento do modelo
É possível que o software não consiga encontrar um vector de parâmetros q que permita minimizar
S-S(q). Algumas das causas mais frequentes são:
1. Problemas de convergência do modelo: As iterações seleccionadas não permitem alcançar uma
    solução. Pode dever-se a reduzidas dimensões de amostra; modelo mal especificado; variâncias muito
    diferentes das v. manifestas; v. manifestas extremamente não-normais; outliers
    Solução: Aumentar a amostra; Respecificar o modelo; uniformizar variâncias (e.g. alterando a
    magnitude de medida Kgg; m  Km,…; ou estandardizando as escalas), transformações
    matemáticas para normalizar variáveis (Sqrt, Ln, ArcSin); eliminar outliers; aumentar nº iterações.
2. Indeterminação do modelo: O modelo não é determinado ou sobre-identificado. A indeterminação
    empírica é particularmente difícil de diagnosticar.
    Solução: fixar trajectórias; analisar multicolinearidade; simplificar o modelo; aumentar nº de variáveis
    manifestas; aumentar dimensão da amostra.
3. Problemas com variâncias: Estimativas das variâncias das v. latentes < 0 (!!!). Pode acontecer
    quando: (i) a dimensão da amostra é demasiado pequena; (ii) quando correlações fortes entre itens
    são ignoradas (i.e. não contemplando as correlações entre os itens e/ou outros factores).
    Solução: Aumentar dimensão da amostra; correlacionar itens e/ou erros dos itens; Respecificar o
    modelo adicionando trajectórias para outros factores e os itens.
4. Matrizes de Covariância singulares (not positive definite): Alguns dos valores próprios
    (eigenvalues, raízes características = variância das componentes principais da matriz de covariância) <
    0. Pode acontecer com as matrizes S, S(q) e W. A multicolinearidade (no caso de S) e especificação
    errada do modelo (S(q) e W) são as causas mais frequentes
    Solução: resolver os problemas de multicolinearidade; reespecificar o modelo.

Mais conteúdo relacionado

Mais procurados

Proteínas essenciais e metabolismo do cho
Proteínas essenciais e metabolismo do choProteínas essenciais e metabolismo do cho
Proteínas essenciais e metabolismo do choPhoenixSportFitness
 
E book - gêneros textuais - com-pub
E book - gêneros textuais - com-pubE book - gêneros textuais - com-pub
E book - gêneros textuais - com-pubHilsa Mota
 
Formação do imperativo
Formação do imperativoFormação do imperativo
Formação do imperativoTainá Alves
 
Controle de qualidade de matérias primas e produto acabado
Controle de qualidade de matérias primas e produto acabadoControle de qualidade de matérias primas e produto acabado
Controle de qualidade de matérias primas e produto acabadoVanessa Rodrigues
 
Principios de primeiros socorros 2017- GRUPO IRRADIAR
Principios de primeiros socorros 2017- GRUPO IRRADIARPrincipios de primeiros socorros 2017- GRUPO IRRADIAR
Principios de primeiros socorros 2017- GRUPO IRRADIARCURSO TÉCNICO CEPRAMED
 
Validação de métodos analíticos - conceitos
Validação de métodos analíticos - conceitosValidação de métodos analíticos - conceitos
Validação de métodos analíticos - conceitosVanessa Rodrigues
 
Figuras de linguagem
Figuras de linguagemFiguras de linguagem
Figuras de linguagemISJ
 
Preconceito Linguístico
Preconceito Linguístico Preconceito Linguístico
Preconceito Linguístico Jhenifer Silva
 
Biorrisco avaliação de risco em biossegurança
Biorrisco  avaliação de risco em biossegurançaBiorrisco  avaliação de risco em biossegurança
Biorrisco avaliação de risco em biossegurançaElezerLemes
 
Psicologia aula 5 a enfermagem e o outro
Psicologia aula 5 a enfermagem e o outroPsicologia aula 5 a enfermagem e o outro
Psicologia aula 5 a enfermagem e o outroCintia Colotoni
 

Mais procurados (20)

Proteínas essenciais e metabolismo do cho
Proteínas essenciais e metabolismo do choProteínas essenciais e metabolismo do cho
Proteínas essenciais e metabolismo do cho
 
Verbos
Verbos Verbos
Verbos
 
E book - gêneros textuais - com-pub
E book - gêneros textuais - com-pubE book - gêneros textuais - com-pub
E book - gêneros textuais - com-pub
 
Formação do imperativo
Formação do imperativoFormação do imperativo
Formação do imperativo
 
Controle de qualidade de matérias primas e produto acabado
Controle de qualidade de matérias primas e produto acabadoControle de qualidade de matérias primas e produto acabado
Controle de qualidade de matérias primas e produto acabado
 
Enf.
Enf.Enf.
Enf.
 
Correlação
CorrelaçãoCorrelação
Correlação
 
Elementos da versificação
Elementos da versificaçãoElementos da versificação
Elementos da versificação
 
Principios de primeiros socorros 2017- GRUPO IRRADIAR
Principios de primeiros socorros 2017- GRUPO IRRADIARPrincipios de primeiros socorros 2017- GRUPO IRRADIAR
Principios de primeiros socorros 2017- GRUPO IRRADIAR
 
Validação de métodos analíticos - conceitos
Validação de métodos analíticos - conceitosValidação de métodos analíticos - conceitos
Validação de métodos analíticos - conceitos
 
Algumas formas de psicoterapia
Algumas formas de psicoterapiaAlgumas formas de psicoterapia
Algumas formas de psicoterapia
 
Figuras de linguagem
Figuras de linguagemFiguras de linguagem
Figuras de linguagem
 
Ppt hiperónimos
Ppt   hiperónimosPpt   hiperónimos
Ppt hiperónimos
 
Preconceito Linguístico
Preconceito Linguístico Preconceito Linguístico
Preconceito Linguístico
 
Regressão Linear I
Regressão Linear IRegressão Linear I
Regressão Linear I
 
Slides coesao textual
Slides coesao textualSlides coesao textual
Slides coesao textual
 
Indicadores e teste biológicos
Indicadores e teste biológicosIndicadores e teste biológicos
Indicadores e teste biológicos
 
Gênero textual
Gênero textualGênero textual
Gênero textual
 
Biorrisco avaliação de risco em biossegurança
Biorrisco  avaliação de risco em biossegurançaBiorrisco  avaliação de risco em biossegurança
Biorrisco avaliação de risco em biossegurança
 
Psicologia aula 5 a enfermagem e o outro
Psicologia aula 5 a enfermagem e o outroPsicologia aula 5 a enfermagem e o outro
Psicologia aula 5 a enfermagem e o outro
 

Semelhante a Mle Enquadramento Teorico Aula8

Multicolinearidade%20em%20modelos%20de%20regressao adicional
Multicolinearidade%20em%20modelos%20de%20regressao adicionalMulticolinearidade%20em%20modelos%20de%20regressao adicional
Multicolinearidade%20em%20modelos%20de%20regressao adicionalAdilson Gomes Veiga
 
Aula 4 -_metodologia_e_tecnicas_de_analise_oo
Aula 4 -_metodologia_e_tecnicas_de_analise_ooAula 4 -_metodologia_e_tecnicas_de_analise_oo
Aula 4 -_metodologia_e_tecnicas_de_analise_ooPortal_do_estudante_ADS
 
Modelos lineares mistos aplicados em ciências atuariais.
Modelos lineares mistos aplicados em ciências atuariais.Modelos lineares mistos aplicados em ciências atuariais.
Modelos lineares mistos aplicados em ciências atuariais.Universidade Federal Fluminense
 
Livro proprietario calculo diferencia e integral iii
Livro proprietario   calculo diferencia e integral iiiLivro proprietario   calculo diferencia e integral iii
Livro proprietario calculo diferencia e integral iiiAndré Pinto
 
Tema 1 metodologia hermeneutica e transdisciplinar na pesquisa
Tema 1 metodologia hermeneutica e transdisciplinar na pesquisaTema 1 metodologia hermeneutica e transdisciplinar na pesquisa
Tema 1 metodologia hermeneutica e transdisciplinar na pesquisaJacob Massuanganhe
 
Modelação Conceptual de Classes
Modelação Conceptual de ClassesModelação Conceptual de Classes
Modelação Conceptual de Classeselliando dias
 
Regressao Linear Simples - Pessupostos
Regressao Linear Simples - PessupostosRegressao Linear Simples - Pessupostos
Regressao Linear Simples - PessupostosAnselmo Alves de Sousa
 
Metodologia orientado a objetos
Metodologia orientado a objetosMetodologia orientado a objetos
Metodologia orientado a objetosGabriel Faustino
 
Análise e Projeto de Sistemas
Análise e Projeto de SistemasAnálise e Projeto de Sistemas
Análise e Projeto de SistemasGuilherme
 
Desenho de Experimentos: Desenho Fatorial
Desenho de Experimentos: Desenho FatorialDesenho de Experimentos: Desenho Fatorial
Desenho de Experimentos: Desenho FatorialNayara Duarte
 
Provete estatistica aplicada
Provete estatistica aplicadaProvete estatistica aplicada
Provete estatistica aplicadaJoel Pereira
 
Projeto de Sistemas - Aula005
Projeto de Sistemas - Aula005Projeto de Sistemas - Aula005
Projeto de Sistemas - Aula005Cláudio Amaral
 
6_Resumo_Metodos_de_Pesquisas_de_Survey._1_.pdf
6_Resumo_Metodos_de_Pesquisas_de_Survey._1_.pdf6_Resumo_Metodos_de_Pesquisas_de_Survey._1_.pdf
6_Resumo_Metodos_de_Pesquisas_de_Survey._1_.pdfJosdeOliveiraJunior5
 

Semelhante a Mle Enquadramento Teorico Aula8 (20)

Multicolinearidade%20em%20modelos%20de%20regressao adicional
Multicolinearidade%20em%20modelos%20de%20regressao adicionalMulticolinearidade%20em%20modelos%20de%20regressao adicional
Multicolinearidade%20em%20modelos%20de%20regressao adicional
 
Regressao linear
Regressao linearRegressao linear
Regressao linear
 
4º semestre
4º semestre4º semestre
4º semestre
 
Econometria endogeneidade
Econometria   endogeneidadeEconometria   endogeneidade
Econometria endogeneidade
 
Apresentação da UML
Apresentação da UMLApresentação da UML
Apresentação da UML
 
Aula 4 -_metodologia_e_tecnicas_de_analise_oo
Aula 4 -_metodologia_e_tecnicas_de_analise_ooAula 4 -_metodologia_e_tecnicas_de_analise_oo
Aula 4 -_metodologia_e_tecnicas_de_analise_oo
 
Modelos lineares mistos aplicados em ciências atuariais.
Modelos lineares mistos aplicados em ciências atuariais.Modelos lineares mistos aplicados em ciências atuariais.
Modelos lineares mistos aplicados em ciências atuariais.
 
Livro proprietario calculo diferencia e integral iii
Livro proprietario   calculo diferencia e integral iiiLivro proprietario   calculo diferencia e integral iii
Livro proprietario calculo diferencia e integral iii
 
Tema 1 metodologia hermeneutica e transdisciplinar na pesquisa
Tema 1 metodologia hermeneutica e transdisciplinar na pesquisaTema 1 metodologia hermeneutica e transdisciplinar na pesquisa
Tema 1 metodologia hermeneutica e transdisciplinar na pesquisa
 
Modelação Conceptual de Classes
Modelação Conceptual de ClassesModelação Conceptual de Classes
Modelação Conceptual de Classes
 
Regressao Linear Simples - Pessupostos
Regressao Linear Simples - PessupostosRegressao Linear Simples - Pessupostos
Regressao Linear Simples - Pessupostos
 
Introdução à Regressão Linear
Introdução à Regressão LinearIntrodução à Regressão Linear
Introdução à Regressão Linear
 
Metodologia orientado a objetos
Metodologia orientado a objetosMetodologia orientado a objetos
Metodologia orientado a objetos
 
Análise e Projeto de Sistemas
Análise e Projeto de SistemasAnálise e Projeto de Sistemas
Análise e Projeto de Sistemas
 
Desenho de Experimentos: Desenho Fatorial
Desenho de Experimentos: Desenho FatorialDesenho de Experimentos: Desenho Fatorial
Desenho de Experimentos: Desenho Fatorial
 
Provete estatistica aplicada
Provete estatistica aplicadaProvete estatistica aplicada
Provete estatistica aplicada
 
Projeto de Sistemas - Aula005
Projeto de Sistemas - Aula005Projeto de Sistemas - Aula005
Projeto de Sistemas - Aula005
 
Grounded theory
Grounded theoryGrounded theory
Grounded theory
 
6_Resumo_Metodos_de_Pesquisas_de_Survey._1_.pdf
6_Resumo_Metodos_de_Pesquisas_de_Survey._1_.pdf6_Resumo_Metodos_de_Pesquisas_de_Survey._1_.pdf
6_Resumo_Metodos_de_Pesquisas_de_Survey._1_.pdf
 
Resumo widener2007
Resumo widener2007Resumo widener2007
Resumo widener2007
 

Mle Enquadramento Teorico Aula8

  • 1. 1 Programa Doutoral :: ISPA – Instituto Universitário Técnicas de Análise de Dados II JOÃO MAROCO, Ph.D. 4. jpmaroco@ispa.pt Modelos Lineares Estruturais Fundamentos teóricos 4.1. Introdução 4.2. Variáveis manifestas e variáveis latentes 4.3. O modelo de Equações Estruturais 4.4. Estratégia de Análise de Equações Estruturais 4.5. Pressupostos do modelo de Equações Estruturais 4.6. Problemas com o ajustamento do modelo
  • 2. 2 4.1. Introdução Análise de Equações Estruturais (Structural Equation Modelling): • Extensão dos modelos GLM; • Técnica de modelação generalizada (modelos teóricos sobre a forma como diferentes variáveis latentes ou constructos são operacionalizados e como estes estão relacionados entre si) • Permitem considerar erros de medida de forma explicita Em termos simplistas: AEE = Análise Factorial (define modelo de medida) + Regressão linear (define modelo estrutural)
  • 3. 3 4.1. Introdução Análise de Equações Estruturais (Structural Equation Modelling): Porém o racional das AMEE é diferente do racional da Estatística clássica: Estatística Clássica: AMEE: Teoria Teoria Dados Teoria Dados Teoria Teoria 1. Qual o modelo que descreve os dados 1. Poderá este modelo explicar/gerar os observados? Método Exploratório dados observados? Método Confirmatório 2. Dados levam à dedução de Teorias 2. A teoria é o “motor” do processo 3. Novos dados, novas teorias 3. Teorias diferentes podem ser testadas por formalização e avaliação de modelos distintos
  • 4. 4 4.1. Introdução Porquê é que a Análise de Equações Estruturais é, actualmente, tão popular? Luke, D. A. (2005) Getting the Big Picture in Community Science: Methods That Capture Context. American Journal of Community Science. 35(3/4): 185-200 Marôco, J. (2010) Análise de Equações Estruturais: Fundamentos teóricos, Software & Aplicações. ReportNumber. Pêro Pinheiro.
  • 5. 5 4.1. Introdução Porquê é que a Análise de Equações Estruturais é, actualmente, tão popular? 1. Nem todas as variáveis envolvidas num determinado ‘acontecimento’ são manifestas, i.e. observáveis ou manipuláveis directamente. • Variáveis Latentes: Não são directamente mensuráveis. Só se observam as suas manifestações; • Validade e fiabilidade de variáveis latentes (erros-nas-variáveis) limita conclusões sobre relações estruturais • Métodos clássicos de análise não consideram os ‘erros-nas-variáveis’. 2. Acréscimo da complexidade dos modelos teóricos capazes de explicar um determinado acontecimento • Múltiplas variáveis manifestas e variáveis latentes; • Diferenças entre grupos e efeitos hierárquicos, de interacção, mediação, etc… • AEE permite testar ajustamento global de modelos e significância individual de parâmetros num enquadramento teórico que engloba vários tipos de modelos lineares. 3. Software para AEE de fácil utilização: • <1993: LisRel exigia o domínio de uma linguagem de programação própria assente em notação matricial e no alfabeto grego. • AMOS, EQS, LisREL: Ambiente Windows; especificação visual do modelo
  • 6. 6 4.2. Variáveis em A.E.E. As variáveis nos modelos de equações estruturais são de dois tipos: 1. Variáveis manifestas ou variáveis observadas: São variáveis medidas, manipuladas ou observadas directamente. 2. Variáveis latentes, Factores ou Constructos: São variáveis não directamente observáveis ou mensuráveis, sendo a sua ‘existência’ indicada pela sua manifestação em variáveis indicadoras ou manifestas. As variáveis (quer latentes quer manifestas) podem ser independentes ou dependentes: 1. Variáveis Independentes ou v. exógenas: as causas destas variáveis residem fora do modelo, i.e. não são influenciadas por nenhuma outra variável no modelo. 2. Variáveis Dependentes ou v. endógenas: as causas da variação destas variáveis residem no modelo, i.e. a variação destas variáveis é explicada por variáveis presentes no modelo.
  • 7. 7 4.3. O modelo de equações estruturais Um modelo de equações estruturais apresenta geralmente duas componentes: 1. Modelo de Medida : define a forma como os constructos hipotéticos ou variáveis latentes são operacionalizados pelas variáveis observadas ou manifestas 2. Modelo Estrutural : define as relações causais ou de associação entre as variáveis latentes Formalmente (modelo LISREL: Linear Structural Relationships), para uma amostra, as variáveis centradas podem ser modeladas: Modelo de Medida: Modelo Estrutural: v.d.: y = Ly h + e h = B h + Gx + z v.i.: x = Lx x + d assumindo que (pressupostos): a. e e h são independentes b. d e x são independentes c. z e x são independentes d. z, e e d são mutuamente independentes e. Os valores esperados dos erros é 0. f. Bii=0 (uma v.d. não é causa e efeito dela mesmo) e (I-B) é não singular (i.e. tem inversa)
  • 8. 8 4.3. O modelo de equações estruturais Modelo de Equações Estruturais y Vector px1 das p v. dependentes ou de resposta manifestas y = Ly h + e Modelo Medida x Vector qx1 das q v. independentes ou preditoras x = Lx x + d h Vector rx1 das r v. latentes dependentes ou h = B h + Gx + z Modelo estrutural (eta) endógenas Onde: x Vector sx1 das s v. latentes independentes ou (csi) exógenas éy ù éx ù éh ù éx ù ée ù ê 1ú ê 1ú ê 1ú ê 1ú ê 1ú êy ú êx ú êh ú êx ú êe ú e Vector px1 dos erros de medida de y y = êê 2 úú x = ê 2ú êú h = êê 2 úú x = êê 2 úú e = êê 2 úú (epsilon) êú ê ú êú êú êú êy ú êx ú êh ú êx ú êe ú d Vector qx1 dos erros de medida de x êë p úû êë q úû êë r úû êë s úû êë p úû (delta) éd ù éz ù él l12  l1r ùú ê 1ú ê 1ú ê 11 Ly Matriz pxr dos pesos da regressão de y em h êd ú êz ú êl l22  l2r úú (lambda) d = êê 2 úú z = êê 2 úú Ly = êê 21 ê     úú Lx Matriz qxs dos pesos da regressão de x em x êú êú êl êd ú êz ú êë p1 lp 2  lpr úú êë q úû êë r úû û B Matriz rxr dos coeficientes de h no modelo (beta) estrutural. bii=0 é0 b  b1r ùú ég g12  g1s ùú ê 12 ê 11 êb G Matriz rxs dos coeficientes de x no modelo 0  b2r úú êg 0  g2s úú B = êê 21 G= ê 21 (gamma) estrutural. ê     úú ê  ê    úú êb z Vector rx1 dos r erros do modelo estrutural êë r 1 br 2  0 úú êg êë r 1 gr 2  grs úú (disturbances) û û (zeta)
  • 9. 9 4.3. O modelo de equações estruturais As equações estruturais podem representar-se graficamente, por exemplo: d1 x1 lx11 lx21 g11 ly11 y1 e1 d2 x2 x1 h1 ly21 lx 31 y2 e2 g21 d3 x3 z1 f12 b21 b12 y12 qe23 d4 x4 lx42 g12 z2 ly32 y3 e3 lx 52 h2 d5 x5 x2 ly42 lx62 g22 y4 e4 d6 x6 Neste modelo (Convenção): - Variável latente (não observável directamente: factores; erros) (letras gregas) - Variável manifesta (mensurável directamente: itens) (letras romanas) - Relação causal (de causa para efeito). Os índices em subscrito são pela ordem v.d. v.i. - Correlação (sem hipótese de causalidade)
  • 10. 10 4.3. O modelo de equações estruturais Formalmente as equações são: Modelo de medida para x Modelo de medida para y Modelo estrutural d1 x1 lx11 g11 x1 lx21 ly 11 y1 e1 h1 d2 x2 x1 h1 ly21 g21 z1 lx31 y2 e2 f12 b21 b12 y12 d3 x3 z2 qe23 g12 d4 x4 h2 lx42 x2 ly 32 y3 e3 g22 lx52 h2 d5 x5 x2 ly 42 lx 62 y4 e4 h1 = b12h2 + g11x1 + g12x2 + z1 d6 x6 h2 = b21h1 + g21x1 + g22x2 + z2 x x 1 = l11x1 + d1 y Variância-Covariância y1 = l11h1 + e1 éf f ù éq e 0 x x 2 = l21x1 + d2 ê 11 12 ú ê 11 0 0 ùú y y2 = l h + e2 F=ê ú ê x x 3 = l31x1 + d3 21 1 êëf21 f22 úû e ê 0 q22 q23 e e 0 úú y y 3 = l h + e3 Q =ê e e ú x x 4 = l42x2 + d4 32 2 éy ê 0 q32 q33 0ú y y 4 = l h + e4 y12 ùú ê e ú x x 5 = l52x2 + d5 42 2 Y = êê 11 ê0 0 0 q44 ú êë y21 y22 úú ë û x x 6 = l62x2 + d6 û Qd = diag éêq11, q22, , q66 ùú d d e ë û
  • 11. 11 4.3. O modelo de equações estruturais Os modelos de equações estruturais são classificados em duas classes: A. Modelos Recursivos (mais frequentes): nenhuma variável é simultaneamente causa-e-efeito de outra: d1 x1 lx11 ly11 y1 e1 d2 x2 lx21 x1 g11 h1 ly21 lx31 y2 e2 d3 x3 g21 z1 h1 = g11x1 + g12x2 + z1 f12 b21 y12 qe23 d4 x4 z2 h2 = b21h1 + g21x1 + g22x2 + z2 lx42 g12 y3 e3 ly32 d5 x5 lx52 x2 h2 ly42 y e4 lx62 g22 4 d6 x6 B. Modelos não-recursivos: uma variável pode ser causa-e-efeito de outra (efeito de feedback): d1 x1 lx11 ly11 y1 e1 d2 x2 lx21 x1 g11 h1 ly21 lx31 y2 e2 d3 x3 g21 z1 h1 = b12h2 + g11x1 + g12x2 + z1 f12 b21 b12 y12 qe23 h2 = b21h1 + g21x1 + g22x2 + z2 d4 x4 z2 lx42 g12 e3 ly32 y3 d5 x5 lx 52 x2 h2 ly42 y e4 lx62 g22 4 d6 x6
  • 12. 12 4.3. O modelo de equações estruturais Confuso? Vejamos um exemplo concreto: Warren, White & Fuller (1974) estudaram 98 gestores de cooperativas agrícolas, estabelecendo um modelo causal de performance em função de três constructos chave: Conhecimento, Valor e Satisfação: d1 C1 Conhecimento d2 C2 z1 d5 V1 P1 e1 Valor Performance d5 V2 P2 e2 d3 S1 Satisfação d4 S2
  • 13. 13 4.4. Estratégia de Análise de Eq. Estruturais A Análise de Equações Estruturais desenrola-se, geralmente, nos seguintes passos: Validação do modelo Aceitação ou Rejeição do modelo Estimação do Modelo Avaliação da qualidade do Recolha de Ajustamento Dados Especificação e identificação do modelo Elaboração do modelo Teórico TEORIA
  • 14. 14 4.4.1. Especificação do modelo “Desenho” formal do modelo, que reflecte, à priori, as hipóteses sobre o modelo de medida e sobre o modelo estrutural: d1 C1 Conhecimento d2 C2 z1 d5 V1 P1 e1 Valor Performance d5 V2 P2 e2 d3 S1 Satisfação d4 S2 Decidir: 1. Que variáveis manifestas operacionalizam que variáveis latentes; erros correlacionados? 2. Que relações causais entre v. latentes e/ou v. manifestas devem ser incluídas / excluídas? 3. Que associações (não-causais) devem ser incluídas/omitidas do modelo?
  • 15. 15 4.4.1. Especificação do modelo d1 C1 Conhecimento d2 C2 z1 d5 V1 P1 e1 Valor Performance d5 V2 P2 e2 d3 S1 Satisfação d4 S2 A inclusão/omissão de variáveis relevantes para explicar as relações de variâncias-covariâncias entre as variáveis conduz a erros de especificação: 1. O modelo tem mais variáveis e ou relações entre variáveis do que aquelas que é possível estimar pelos dados (matriz de variâncias-covariâncias das v. manifestas) 2. O modelo tem menos variáveis do que aquelas necessárias para explicar as verdadeiras relações entre variáveis Os erros de especificação podem impedir a obtenção de estimativas dos parâmetros (problemas de identificação do modelo) ou pode produzir estimativas enviesadas dos parâmetros do modelo (i.e. diferentes do valor real no verdadeiro modelo teórico).
  • 16. 16 4.4.1. Especificação do modelo A especificação do modelo é, segundo Cooley (1978) uma das etapas mais complexas da AEE. Uma dificuldade comum é perceber o tipo de modelo de medida apropriado: Modelos reflectivos: Modelos formativos: As v. latentes ‘reflectem-se’ nos itens; As ‘v. latentes’ são ‘formadas’ pelas manifestas; As v. latentes manifestam-se através das v. Os itens podem estar ou não correlacionados, manifestas positivamente ou negativamente Os itens devem estar correlacionados positivamente e1 Português Febre e1 Aptidão Matemática Dores Musculares e2 Acesso Gripe Universidade Biologia Dores Garganta e3 Psicologia Nariz congestionado e4 Cansaço e5 (Esta Aptidão de Acesso Univ. não é verdadeiramente latente, já que é uma combinação (estimáveis pelos modelos de Eq. Estruturais) de v. manifestas (média ponderada). Não é estimável com AEE, mas sim com PLS)
  • 17. 17 4.4.1. Especificação do modelo Algumas ‘regras’ de especificação: Modelo de Medida (AFC) Modelo Estrutural (RL) 1. Factores comuns latentes (x) causam as v. 1. As relações são ‘desenhadas’ de causa- manifestas (x1,…,xi). O comportamento para-efeito das v. manifestas resulta da manifestação 2. A variância da v. exógenas não explicada dos factores latentes; pela combinação das v. endógenas é 2. A variância das v. manifestas (e.g. erros explicada por ‘erros’ (Disturbances ou de medida) que não é explicada pelos Perturbações) factores comuns latentes é explicado por factores específicos latentes (e1,...,ei); 3. Os erros de medida são geralmente Valor z1 independentes (mas podem estar correlacionados indicando uma fonte de variação comum dos itens não explicada Conhecimento Perfomance pelos factores comuns presentes no modelo). Satisfação P1 e1 Perform. P2 e2 P3 e3
  • 18. 18 4.4.2. Identificação do modelo Incluir conhecimento prévio sobre o valor dos parâmetros de forma a que o modelo global seja ajustável aos dados recolhidos, i.e. que exista pelo menos uma estimativa única para cada parâmetro do modelo. Por exemplo, no modelo de medida da performance: Dados (3): le 1 2 variáveis manifestas: 1 covariância e 2 variâncias lP1 P1 e1 Neste exemplo: (p+q)=2  (p+q)(p+q+1)/2 =2×3/2=3 Perform. Parâmetros a estimar (t=7): l e2 l=[lP1, lP2, le1, le2] + V(P)+V(e1)+V(e2) lP2 P2 e2 Graus de Liberdade do modelo = (p+q)(p+q+1)/2 -t= = 3-7=-4 O modelo não é identificado: Não é possível estimar 4 parâmetros a partir de 3 ‘dados’. Naturalmente, em AEE não é possível estimar as v. latentes sem assumir algum tipo de hipóteses sobre elas: 1. Qual é a métrica (amplitude de medida) das v. latentes? ou 2. Qual a variância? 3. Qual a correlação com outras v. latentes?
  • 19. 19 4.4.2. Identificação do modelo … estas hipóteses reflectir-se-ão na indicação de quais os parâmetros livres (a estimar),quais os parâmetros fixos (não-estimáveis) e quais os parâmetros constritos (estimáveis mas iguais entre si): • Os parâmetros livres: estimados a partir das variâncias/covariâncias das variáveis manifestas; • Os parâmetros fixos: não são estimados e são geralmente fixos em 0 (não existe relação) ou em 1 (estandardização face a outras variáveis). • Os parâmetros constritos, são estimáveis, mas essa estimativa é igual para todos os parâmetros restringidos. No modelo de medida da performance, podemos tornar o modelo identificado: 1. Fixando um coeficiente de trajectória entre o factor e 1 pelo menos uma das v. manifestas: o factor tem uma 1 1 P1 e1 medida proporcional à v. manifesta. Por defeito: lei=1. Naturalmente, esta trajectória tem um valor de 1 e é Perform. 1 assumida como significativa. lP2 P2 e2 2. Estandardizando o factor latente: Fixar a variância do factor em 1. Vantagem: permite testar a significância de todas as trajectórias entre os factores e as variáveis manifestas
  • 20. 20 4.4.2. Identificação do modelo Relativamente à identificação um modelo pode classificar-se como: A. Indeterminado ou sub-identificado (under-identified): O nº de parâmetros a estimar é superior à informação presente nas v. manifestas (variâncias e covariâncias) sendo os graus de liberdade <0!!! l e1 lP1 P1 e1 Dados: (p+q)(p+q+1)/2 =2×3/2=3 Perform. Parâmetros a estimar (t ): l=[lP1, lP2, le1, le2] + V(P)+V(e1)+V(e2) l e2 Graus de Liberdade = Dados  parâmetros a estimar lP2 P2 e2 (p+q)(p+q+1)/2 -t =3-7=-4 Analogia com a Matemática: x+y=6 Sistema indeterminado: Uma equação com duas incógnitas  Infinitas soluções: (2,4), (3,3), … Problema: O modelo tem infinitas soluções, não é ajustável!... Solução: fixar ou restringir um ou mais parâmetros livres; adicionar mais informação (v. manifestas)
  • 21. 21 4.4.2. Identificação do modelo Relativamente à identificação um modelo pode classificar-se como: B. Determinado, identificado ou saturado (just-identified): o nº de parâmetros a estimar é igual ao nº de elementos não redundantes da matriz de covariância, sendo os graus de liberdade=0!!! 1 P1 e1 1 Dados: (p+q)(p+q+1)/2 t=2×3/2=3 1 Perform. Parâmetros a estimar (t ):lP2 +V(e1)+V(e2) 1 Graus de Liberdade = (p+q)(p+q+1)/2 -t =3-3=0 lP2 P2 e2 Analogia com a Matemática: x+y=6 x-y=2 Sistema determinado: Duas equação com duas incógnitas  Uma solução : (4,2) Problema: Ao calcular as estimativas usa-se toda a informação disponível e portanto não é possível avaliar a significância do modelo pois gl=0. MAS este modelo só tem uma solução e portanto nunca pode estar errado – não vale a pena avaliar a significância!. Pode ter problemas de convergência numérica durante o ajustamento. Cuidado com a Multicolinearidade! 2 v. manifestas colineares, contam apenas como 1, tornando o modelo sub-identificado Solução: fixar ou restringir pelo menos mais um parâmetro livre; adicionar mais v. manifestas
  • 22. 22 4.4.2. Identificação do modelo Relativamente à identificação um modelo pode classificar-se como: C. Sobre-identificado ou sobre-saturado (overidentified): o nº de parâmetros a estimar é inferior ao nº de elementos não redundantes da matriz de covariância. Graus de liberdade>0! 1 1 1 P1 e1 Dados: (p+q)(p+q+1)/2  t=3×4/2=6 1 Perform. lP2 P2 e2 Parâmetros a estimar (t): l=[lP2, lP3]+V(e1)+V(e2) +V(e3) Graus de Liberdade = (p+q)(p+q+1)/2 -t =6-5=1 1 lP3 P3 e3 1 1 P1 e1 lP2 1 Dados: (p+q)(p+q+1)/2  t=4×5/2=10 P2 e2 Parâmetros a estimar (t): l=[lP2, lP3, lP4]+V(e1)+V(e2) Perform. lP3 1 +V(e3) +V(P) lP4 P3 e3 Graus de Liberdade = (p+q)(p+q+1)/2 -t =10-7=3 1 P4 e4
  • 23. 23 4.4.2. Identificação do modelo Relativamente à identificação um modelo pode classificar-se como: C. Sobre-identificado ou sobre-saturado (overidentified): Analogia com a Matemática: x+y=6 3 quantidades conhecidas (6,3,11) e duas desconhecidas, mas o 2x-y=3 sistema não tem uma solução exacta. Para encontrar uma 3x+y=11 solução, é preciso impor algum tipo de modelo “teórico” e.g. Encontrar os valores x, y positivos tal que o quadrado da diferença entre os valores estimados pelas equações e os dados (6,3,11) sejam o menor possível: x =2.816; y=2.789 é uma solução, ainda que imperfeita: x + y = 5.605 2x – y = 2.842 3x + y=11.237 Apesar de a solução não ser perfeita nos modelos sobre-identificados, contrariamente aos modelos saturados, a imposição de restrições aos parâmetros permite testar hipóteses sobre o modelo. É agora possível avaliar a plausibilidade do modelo, para gerar os dados observados. Se os valores estimados estiverem muito afastados dos valores observados, o modelo deve estar errado! A maior parte dos investigadores prefere trabalhar com modelos sobre-identificados!
  • 24. 24 4.4.2. Identificação do modelo Sub-identificação empírica Um modelo teoricamente identificado ou sobre-identificado, ainda poder apresentar problemas de sub-identificação. Um problema mais ou menos frequente é a Sub-identificação empírica: 1. Quando parâmetro tem um valor próximo de zero. O processo iterativo da estimação do modelo pode eliminar esse parâmetro e o modelo passa a estar sub-identificado 2. Quando duas ou mais variáveis manifestas são fortemente colineares (problema da multicolinearieadade) as estimativas dos parâmetros associadas tornam-se instáveis e podem ditar a eliminação das v. manifestas da análise, tornando o modelo sub-identificado. Solução: Respecificação do modelo (remover v. manifestas colineares) e/ou aumentar a dimensão da amostra Existem várias regras mais ou menos complexas (e de difícil determinação manual) para avaliar a identificação de um modelo (regra-t, Regra B=0, Regra Recursiva, Condições de ordem e característica da matriz de covariância; ver e.g. Bollen (1989), p. 88-103) mas estas regras não dão garantias absolutas. A maioria dos softwares (e.g. AMOS) avaliam a identificação do modelo e identificam os parâmetros responsáveis pela não identificação do modelo. Os Slides seguintes tem algumas ‘dicas’ para lidar com a indeterminação e/ou saturação do modelo
  • 25. 25 4.4.2. Identificação do modelo Estratégias para lidar com a indeterminação do modelo: Se um modelo for indeterminado (sub-identificado) ou mesmo saturado (identificado), é necessário tomar uma ou mais das seguintes medidas correctivas: 1. Regra-t: Nº de parâmetros a estimar deve ser igual ou inferior ao nº de variâncias-covariâncias não- redundantes (p+q)(p+q+1)/2 2. Fixar pelo menos um dos coeficientes entre uma variável latente e os seus indicadores (é necessário indicar qual a métrica da variável latente...) 3. Fixar a variância de uma ou mais v. latentes (estandardizar as v. latentes) 4. Ter pelo menos 3-4 indicadores por v. latente (com 2 também funciona, com 1 também (fixando a fiabilidade do indicador), mas tem problemas de fiabilidade/consistência interna) 5. Simplificar o modelo igualando trajectórias entre si: Usar testes à igualdade de parâmetros (Critical Ratios for differences no AMOS; para amostras grandes CR<1.96 implica igualdade dos coef.) 6. Eliminar trajectórias de feedback, ou efeitos recíprocos X  Y 7. Fixar parâmetros (e.g. coeficientes de trajectória) cuja magnitude é conhecida (teoria) 8. Simplificar o modelo reduzindo o nº de variáveis latentes, eliminar v. manifestas multicolineares, fixar trajectórias =0 (ou seja eliminar trajectórias); aumentar a dimensão da amostra 9. Caso existam missings, usar um método Listwise de eliminação de missings (não usar pairwise) ou utilizar métodos de imputação de missings (Regressão, FIML,…). 10. Aumentar o nº de iterações, ou usar um outro método de estimação (GLS, ULS em vez do ML)
  • 26. 26 4.4.3. Ajustamento do modelo e estimação dos parâmetros De acordo com a Teoria, o investigador estabelece: 1. Modelo de medida (para definir o modo de “medir” as variáveis latentes) e 2. Modelo estrutural (causal ou simplesmente correlacional) que relaciona as variáveis de interesse. Se o modelo de EE for ‘correcto’, os dados “gerados” pelo modelo são suficientemente próximos dos dados observados: Covariâncias estimadas S(q) Erros= Modelo =? S-S(q) Covariâncias observadas S Assim, o investigador “colhe” os dados e avalia o ajustamento do modelo aos dados (Estratégia Confirmatória). Se o modelo não for rejeitado, isto não demonstra que o modelo é único, mas sim que aqueles “Dados” podem ser explicados pelo modelo em causa. Se o modelo for rejeitado, pode proceder-se a refinamentos do modelo (Estratégia exploratória) para encontrar um modelo que melhor explique os dados observados.
  • 27. 27 4.4.3. Ajustamento do modelo e estimação dos parâmetros O objectivo da AEE é então encontrar um vector de estimativas dos parâmetros do modelo (q) que reproduza o melhor possível a matriz S das v. manifestas na população, i.e. Estimar os parâmetros modelo tal que S= S(q) q – Vector dos parâmetros (coeficientes) do modelo. S(q) – Matriz de variâncias estimadas pelo modelo teórico Na prática não trabalhamos com populações mas sim com amostras, pelo que ˆ S=S A questão é então: ‘Dada a matriz S de covariâncias amostrais das v. manifestas (que estima S), qual é o melhor vector de parâmetros do modelo teórico tal que: S = S(q) ˆ éS ê xx Syx ùú éêSyy (q) Syx (q)ùú ˆ ˆ = êS êë xy Sxy úú êêSxy (q) Sxx (q)úú ˆ ˆ û ë û
  • 28. 28 4.4.3. Ajustamento do modelo e estimação dos parâmetros Consideremos um exemplo relativamente simples: z 1 1 1 d1 x1 1 g 1 y1 e1 x h 1 l2 1 d2 x2 l1 y2 e2 As equações estruturais do modelo são: éx ù é 1 ù é ù éy ù é 1 ù é ù ê 1 ú = ê ú x + ê d1 ú ê 1 ú = ê ú h + ê e1 ú h = gx + z êx ú êl ú êd ú êy ú êl ú êe ú êë 2 úû êë 1 úû êë 2 úû êë 2 úû êë 2 úû êë 2 úû Sendo as matrizes dos erros, matrizes diagonais (os erros não estão correlacionados): diag(Qe ) = éêV (e11 ),V (e22 )ùú diag(Qd ) = éêV (d11 ),V (d22 )ùú ë û ë û O vector de parâmetros q a estimar é: q ' = éêl1, l2, g,V (x ),V (e1 ),V (e2 ),V (d1 ),V (d2 ),V (z )ùú ë û Sendo (p+q)(p+q+1)/2=(4×5/2)=10 e t=9, o modelo é sobre-identificado com gl=10-9=1.
  • 29. 29 4.4.3. Ajustamento do modelo e estimação dos parâmetros O problema é então estimar o vector q tal que é V (y ) ù ê 1 ú êCov(y , x ) V (y2 ) ú ê S=ê 2 1 ú seja igual ú êCov(x 1, y1 ) Cov(x 1, y2 ) V (x 1 ) ú êCov(x , y ) Cov(x , y ) Cov(x , x ) V (x )ú êë 2 1 2 2 2 1 2 ú û é g 2V (x ) +V (z ) +V (e ) ù ê 1 ú ê l [ g 2V (x ) +V (z )] 2 2 l2 [ g V (x) +V (z )] +V (e2 ) ú ˆ) = ê S(q 2 ú ê ú ê gV (x) l2 gV (x) V (x ) +V (d1 ) ú ê 2 ú ê lgV (x ) l1l2 gV (x ) l1V (x ) l1V (x ) +V (d2 )ú ë û Mas, mesmo este modelo simples, corresponde a um sistema de 10 equações com 9 incógnitas (parâmetros)… Os softwares de AEE utilizam um algoritmo iterativo que minimiza a ‘função de discrepância’. ˆ f = F (S - S(q)) Se o ajustamento for perfeito f=0; Quanto menor for f melhor será o ajustamento do modelo teórico O algoritmo para quando é atingido um critério de convergência (e.g. quando a variação das estimativas ou da f é inferior a 0.001)
  • 30. 30 4.4.3. Ajustamento do modelo e estimação dos parâmetros Os métodos de ajustamento mais usuais em AEE e respectivas funções de discrepância (f ) são: 1. Máxima verosimilhança (ML): Método iterativo que estima os parâmetros que maximizam a verosimilhança de observar a matriz S. A função de discrepância a minimizar é ˆ ˆ fML = log | S(q) | +tr(SS(q)-1 ) - log | S | -(p + q ) Se o modelo exigir a estimação das médias e das ordenadas na origem, a função de discrepância é: ˆ ˆ ˆ ˆ ˆ fML = log | S(q) | +tr(SS(q)-1 ) - log | S | -(p + q ) + (x - m(q))' S(q)-1(x - m(q)) Método mais usado em AEE. Produz estimativas centradas e consistentes: à medida que n ˆ aumenta, q aproxima-se do verdadeiro q (populacional) com distribuição Normal. Exige normalidade multivariada das v. manifestas (é +/- robusto à violação deste pressuposto) ou que SWishart. Problemas associados à violação da normalidade: a. Rejeição de modelos apropriados mais vezes do que o correcto (teste c2=(n-1)fML) b. Concluir pela significância de parâmetros mais vezes do que o correcto (+ erros tipo I)
  • 31. 31 4.4.3. Ajustamento do modelo e estimação dos parâmetros Os métodos de ajustamento mais usuais em AEE e respectivas funções de discrepância (f ) são: 2. Mínimos quadrados não-ponderados (ULS): Método iterativo que estima os parâmetros que minimizam a SQE da matriz residual: ˆ E = S - S(q) A função de discrepância a minimizar é: 1 ˆ fULS = tr[(S - S(q))2 ] 2 ˆ 2 onde tr[ ] é a função traço de uma matriz, i.e. tr[(S - S(q)) ] é a soma dos elementos diagonais de E (SQE). O método ULS não tem assumpções (à semelhança do OLS da Reg. Linear), é consistente, mas não é assimptóticamente eficiente (i.e. a variância não é mínima à medida que n aumenta). O AMOS (até v. 18 inclusive) não produz o teste do c2=(n-1)fULS uma vez que não é possível assegurar a distribuição de c2.
  • 32. 32 4.4.3. Ajustamento do modelo e estimação dos parâmetros Os métodos de ajustamento mais usuais em AEE e respectivas funções de discrepância (f ) são: 3. Mínimos quadrados generalizados (GLS): Método iterativo que estima os parâmetros ponderando os erros de estimação com pesos correspondentes ao inverso da matriz de covariância amostral. Os elementos da matriz E que tem maior variância amostral, tem menor peso no modelo. Desta forma obtém-se estimativas mais eficientes do que se as observações não fossem ponderadas. A função de discrepância a minimizar é: 1 é -1 ˆ))ù = 1 tr[(I - S-1S(q))2 ] 2 fGLS = tr êS (S - S(q ú ˆ 2 ë û 2 o que é equivalente a minimizar a SQE ponderada pelo inverso da matriz de covariância amostral. O método GLS tem as mesmas propriedades assimptóticas que o ML (consistência e eficiência) com estimativas com distribuição normal assimptóticas.
  • 33. 33 4.4.3. Ajustamento do modelo e estimação dos parâmetros Os métodos de ajustamento mais usuais em AEE e respectivas funções de discrepância (f ) são: 4. Distribuição Assimptótica livre (ADF) (ou Mínimos quadrados ponderados generalizados (WLS): Não exige Normalidade Multivariada. Contudo, exige que as variáveis manifestas permitam estimar momentos de ordem 8 (a ver adiante) o que, geralmente, exige amostras de grande dimensão (>1000’s) ˆ ˆ fADF = (s - (q))' W-1(s - (q)) s’=(s11, s21,s22,…,skk) vector de elementos da matriz triangular inferior S incluindo a diagonal ˆ ˆ (q) = (s11, s21, s22 ,..., skk ) vector de elementos da matriz triangular inferior S(q) incluindo a diagonal W – matriz de distâncias de todas as observações às médias de todas as variáveis . W-1 corrige Curtose dos itens. O elemento genérico de W é [W ]ij ,kl = wij ,kl - wij wkl 1 n 1 n wij = å (x ir - x i )(x jr - x j ) wij ,kl = å (x ir - x i )(x jr - x j )(x kr - x k )(xlr - xl ) n r =1 n r =1 Se a dimensão da amostra não for suficiente para o ADF e não for desejável assumir a validade da distribuição (aproximadamente) normal dos itens (v. manifestas), podem usar-se métodos de Bootstrap.
  • 34. 34 4.4.3. Ajustamento do modelo e estimação dos parâmetros Os métodos de ajustamento mais usuais em AEE e respectivas funções de discrepância (f ) são: 5. Mínimos quadrados sem escala (Scale free Least Squares) Método equivalente ao ULS, mas com a análise feita na matriz de correlações ( e não na matriz de covariância) (Relembre: rxy=cov(x,y)/(sxsy)). A função de discrepância a minimizar é: 1 ˆ fSLS = tr[D-1(S - S(q))]2 2 onde D = diag(S) As estimativas do SLS não são comparáveis com as estimativas dos restantes métodos especialmente se forem feitas transformações lineares das v. manifestas. Por isso, o SLS raramente é utilizado Na prática, as estimativas obtidas por uma das funções 1-a-4 anteriores são suficientemente próximas permitindo uma mesma interpretação dos resultados.
  • 35. 35 4.4.4. Avaliação da qualidade do modelo Depois de encontrado o vector de estimativas dos parâmetros do modelo () que minimiza a discrepância, é necessário avaliar a qualidade do ajustamento do modelo obtido aos dados observados. Três ‘estratégias’ para avaliar a Qualidade do Ajustamento: 1.Teste de significância à função de discrepância: Teste do Qui-quadrado A. Hipóteses H0: =() (a matriz de covariância populacional é igual à matriz de covariância estimada pelo modelo) vs. H1: () B. E.T. a X 2 = (N - 1)fML ~ c(2p +q )( p +q +1)/2-t p +q – nº variáveis manifestas no modelo t - nº parâmetros estimados C. Decisão Rejeitar H0 se p-value ≤ Muito sensível à dimensão da amostra (amostras pequenas: raramente rejeita H0, Amostras grandes: Rejeita quase sempre H0) Sensível à violação da Normalidade multivariada levando à rejeição de bons modelos e aceitação de modelos maus! (usar correcção de Satorra-Bentler; usar WLS (especialmente com v. ordinais) com o LisREL; usar Bootstrap com o AMOS)
  • 36. 36 4.4.4. Avaliação da qualidade do modelo 2. Índices “empíricos” de qualidade de ajustamento Os problemas associados ao teste do Qui-quadrado (um teste à mediocridade do ajustamento) que testa, irrealisticamente, se o ajustamento é perfeito (100%), levaram à criação de várias outras medidas de qualidade/mediocridade do ajustamento. Índices de qualidade de ajustamento: avaliam a distância relativa entre: S - S(q)ˆ A. Índices Absolutos: Avaliam a qualidade do modelo per se, sem comparação com outros modelos. Sem grande utilidade (R. Fisher: ‘Nothing is good or bad, but by comparison’): RMR, GFI B. Índices Relativos: Avaliam a qualidade do modelo sob teste relativamente: (i) ao modelo com pior ajustamento possível (modelo de independência: não há relações entre quaisquer v. manifestas) e/ou (ii) ao modelo com melhor ajustamento possível (modelo saturado: todas as v. manifestas estão correlacionadas): NFI, CFI C. Índices de Parcimónia: Índices relativos que penalizam a complexidade do modelo: Compensam a melhoria ‘artificial’ do modelo por inclusão de mais parâmetros livres para melhorar o ajustamento (i.e. menos graus de liberdade). Um modelo complexo pode ter melhor ajustamento mas ser menos generalizável a outras amostras: AGFI, PGFI, PCFI D. Índices de discrepância populacional: Baseados na distribuição c2 não-central de (n-1)f. Avaliam se o modelo é ‘aproximadamente’ correcto (em oposição ao 100% correcto do c2 ): NCP, RMSEA E. Índices baseados na teoria da informação: Apropriados quando é necessário comparar vários modelos alternativos que ajustem aos dados (AIC, BIC, ECVI)
  • 37. 37 4.4.4. Avaliação da qualidade do modelo 2. Índices “empíricos” de qualidade de ajustamento Várias dezenas: Alguns mais frequentes em AEE: Índices Absolutos Valores de Referência X2/df < 5 – ajustamento sofrível Se H0: =() é verdadeira E(X2)=gl, logo um valor óptimo é ≤ 2 - ajustamento aceitável X2/df=1. Normalização do c2 . ~ 1 – ajustamento bom Root mean squared Residual Quanto menor, melhor. Se for calculada a partir da matriz de p +q i correlação, varia entre 0 e 1. Quanto å å (s ij ˆ - s(q))2 mais próximo de 0, melhor. i =1 j =1 RMR = Só deve ser usado para comparar o (p + q )(p + q + 1) / 2 ajustamento de 2 modelos alternativos Média dos resíduos. ajustados aos mesmos dados Goodness of Fit index ˆ ˆ (s - (q))' W-1(s - (q)) <0.9 – ajustamento mau GFI = 1 - s ' W-1s [0.9; 0.95[ – ajustamento bom Numerador: mínimo da f depois do modelo ajustado 0.95 – ajustamento muito bom Denominador: f antes do ajustamento 1 – ajustamento perfeito W – matriz de ponderação dependente do método de estim. GFI foi um dos primeiros índices. Proporção da covariância observada explicada pelo modelo ajustado.
  • 38. 38 4.4.4. Avaliação da qualidade do modelo 2. Índices “empíricos” de qualidade de ajustamento Várias dezenas: Alguns mais frequentes (Continuação) Índices Relativos Valores de Referência Normed Fit Index <0.8 – ajustamento mau % de incremento na qualidade do ajustamento do modelo ajustado [0.8;0.9[ – ajustamento sofrível (X2) relativamente ao modelo de independência (pior modelo [0.9 ;1.0[ – ajustamento Bom possível) (X2b): = 1 – ajustamento perfeito NFI = 1-X2/X2b Comparative Fit Index (CFI) <0.8 – ajustamento mau Compara o ajustamento do modelo em estudo com o do modelo [0.8;0.9[ – ajustamento sofrível basal ou modelo de independência [0.9 ;1.0[ – ajustamento Bom CFI= 1- max(X2-gl,0)/max(X2b-glb,0) = 1 – ajustamento perfeito Procura resolver o problema do NFI que tende a subestimar o ajustamento em amostras pequenas. Relative Fit Index (RFI) <0.8 – ajustamento mau Compara o ajustamento do modelo em função do X2 normalizado [0.8;0.9[ – ajustamento sofrível pelos gl em estudo com o do modelo basal ou modelo de [0.9 ;1.0[ – ajustamento Bom independência, = 1 – ajustamento perfeito X 2 / gl RFI = 1 - Xb2 / glb
  • 39. 39 4.4.4. Avaliação da qualidade do modelo 2. Índices “empíricos” de qualidade de ajustamento Várias dezenas: Alguns mais frequentes (Continuação) Índices de Parcimónia Valores de Referência Parsimony CFI Os índices de Parcimónia tomam (CFI penalizado com a complexidade do modelo) geralmente valores (muito) PCFI=CFIgl/glb menores do que os índices relativos. Adjusted GFI De uma forma geral: AGFI=1-(1-GFI)glb/gl . AGFI 1 e pode ser <0. Abandonado! actualmente usa-se o: < 0.6 – Ajustamento mau Parsimony GFI varia no intervalo [0;1] [06; 0.8[ - Ajustamento bom PGFI=GFIgl/glb Parsimony NFI 0.8 – Ajustamento muito bom (NFI penalizado com a complexidade do modelo) PNFI=NFIgl/glb Nota: gl/glb designa-se ‘rácio de parcimónia’
  • 40. 40 4.4.4. Avaliação da qualidade do modelo 2. Índices “empíricos” de qualidade de ajustamento Várias dezenas: Alguns mais frequentes (Continuação) Índices de discrepância populacional Valores de Referência Non-Centrality Parameter (NCP) Estima o quão afastado o valor esperado do c2 sob H0 está do verdadeiro Quanto mais próximo de zero, c2 . O parâmetro de não centralidade (d) é estimado por: melhor NCP=max[X2- gl, 0] Pode calcular-se I.C. a 90% para o NCP F0 Quanto mais próximo de zero, É o mínimo relativo do NCP melhor F0=max[(X2- gl)/n, 0]=NCP/n Root Mean square Error of Aproximation (RMSEA) > 0.10 - Inaceitável Compensa o F0 devido à complexidade do modelo (quanto mais ]0.05;0.10] – ajustamento complexo for o modelo menor será F0). sofrível RMSEA = F0 / gl [0.05; 0.01[ – ajustamento bom Diferença média entre as covariâncias observadas e as estimadas pelo ≤0.01 – ajustamento muito modelo bom Pode calcular-se I.C. e testar Não rejeitar H0. H0: RMSEA ≤0.05 vs. H1: RMSEA >0.05 p-value0.05 (0.5 segundo Jöreskog)
  • 41. 41 4.4.4. Avaliação da qualidade do modelo 2. Índices “empíricos” de qualidade de ajustamento Várias dezenas: Alguns mais frequentes (Continuação) Índices baseados na teoria da informação Valores de Referência AIC (Akaike Information Criterion) AIC=X2+2t Penalize o modelo pela sua complexidade (i.e. nº de parâmetros a estimar e falta de parcimónia). BCC (Browne-Cudeck Criterion) n[(p + q )(p + q + 3)] N - (p + q ) - 2 Quanto menor, melhor. BCC = X 2 + 2t (p + q )(p + q + 3) Usar apenas para comparar Penaliza ainda mais o modelo devido à sua complexidade do que o AIC. modelos alternativos (aninhados e não aninhados) BIC (Bayes Information Criterion) BIC=X2+tLn(n) Índice que atribui a maior penalização à complexidade do modelo . Permite seleccionar os modelos mais parcimoniosos ECVI (Expected Cross-validation index) ECVI=AIC/n Útil em estudos de validação cruzada (ajustamento numa amostra e validação noutra amostra)
  • 42. 42 4.4.4. Avaliação da qualidade do modelo Mas, mas… é mesmo preciso usar todos os índices? Não! Os índices mais recomendados são: Estatística Valores de Referência X2 e p-value (H0: O Ajustamento é perfeito) Quanto menor melhor (Macro do AMOS: cmin; p) p>0.05 X2/df (Macro do AMOS: cmindf) < 5 – ajustamento sofrível ≤ 2 - ajustamento aceitável ~ 1 – ajustamento bom CFI (Macro do AMOS: cfi) <0.8 – ajustamento mau GFI (Macro do AMOS: gfi) [0.8;0.9[ – ajustamento sofrível ≥ 0.9 – ajustamento muito bom PGFI (Macro do AMOS: pcfi) < 0.6 – Ajustamento mau PCFI (Macro do AMOS: gfi) [06; 0.8[ - Ajustamento bom 0.8 – Ajustamento muito bom RMSEA (com I.C. 90%) > 0.10 - Inaceitável e ]0.05;0.10] – ajustamento sofrível p-value (H0: rmsea0.05) ≤0.05 – ajustamento bom (Macro do AMOS: rmsea; pclose) p-value0.05 (0.5 segundo Jöreskog) AIC (Macro do AMOS: aic) Só para comparar modelos ECVI (Macro do AMOS: ecvi) Quanto menor, melhor…
  • 43. 43 4.4.4. Avaliação da qualidade do modelo 3. Análise de resíduos, estimativa de parâmetros e fiabilidade individual de indicadores Os índices de qualidade de ajustamento são medidas do ajustamento global médio aos dados. O modelo pode ter um bom ajustamento global, mas ainda assim apresentar um mau ajustamento local. Para fazer o diagnóstico de possíveis problemas locais: 1. Avaliar os resíduos estandardizados do modelo estimados por eij a rij = ~ N (0,1) ˆ e[ij ] = S - S(q) se ˆ ij rij >> 2 indicam outliers (com 95% de confiança) e problemas de ajustamento local 2. Avaliar os erros-padrão assimptóticos dos parâmetros do modelo e sua significância: A significância dos parâmetros do modelo pode avaliar-se com um teste Z: H0: gij=0 vs. H1: gij ¹ 0. ˆ a Para n grandes, Z = gij / sg ~ N (0,1) rejeitando-se H0 se |Z|  z1-a ˆ ij 3. Avaliar a fiabilidade individual dos indicadores ou v. manifestas: Apropriado para avaliar a relevância dos indicadores nos modelos de medida. Valores de R2<0.25 indicam possíveis problemas com o indicador.
  • 44. 44 4.4.5. Respecificação do modelo E se o modelo ajustado não apresentar um ‘bom’ ajustamento aos dados? Prática corrente: modificar o modelo eliminando vias não significativas, libertando parâmetros anteriormente fixos, fixando parâmetros anteriormente livres, correlacionar erros, etc... Índices de Modificação (Modification Indices) para os parâmetros: Redução (conservadora) da estatística X2 do modelo, se o parâmetro fixo ou restrição de igualdade for libertado e o modelo for re-estimado, com perda de um grau de liberdade. Este teste poder obter-se como, um Rácio de verosimilhança dos dois modelos: LR = -2 éê log L(qr ) - log L(qu )ùú ˆ ˆ ë û = (n - 1)( fMLr - fMLu ) Onde fMLr é a função de discrepância para o modelo restrito, e fMLu é a mesma função para o modelo com o parâmetro livre A maioria dos softwares (AMOS, LisRel,…) estima porem os Índices de Modificação pelo método dos Multiplicadores de Lagrange que apenas precisa ser estimado para o modelo restrito : -1 (n - 1) ç ¶fMLr ÷ ' êé ç ¶ fMLr öúù æ ö æ 2 ÷ ç ÷ ÷ æ ö ç ¶fMLr ÷ ÷ LM = ç ç ¶θ ÷ êE ç ¶θ ¶θ ' ÷ú ç ÷ ç ç ÷ ç 2 è r ø ÷ ê è ÷ ç è ¶θr ø ÷ ë r r øú û
  • 45. 45 4.4.5. Respecificação do modelo E se o modelo ajustado não apresentar um ‘bom’ ajustamento aos dados? Tendo LM ~ c2 (1) a J. Arbuckle (o autor do AMOS): MI4 (c20.95;(1)=3.84) Mais seguro: MI  11 (c20.999;(1)=10.82), já que só se deve modificar um modelo, se existirem fortes fundamentos teóricos para o fazer!!!. Um modelo pode ser modificado até a um ajustamento perfeito (quanto mais próximo estiver do modelo saturado, melhor será o ajustamento…). Análise sequencial: começar por libertar o parâmetro com maior MI até chegar ao parâmetro de menor MI. PERIGO: o modelo pode perder a validade para a população... i.e. O modelo ajusta-se bem aqueles dados, mas pode não ser válido na população. Deve-se sempre considerar possíveis modelos paralelos ou não-paralelos alternativos que possam igualmente reproduzir os dados observados. Deve-se também fazer a validação cruzada do modelo com outra amostra.
  • 46. 46 4.5. Pressupostos do Modelo de Eq. Estruturais 1. Normalidade multivariada 1. As variáveis (manifestas) devem apresentar distribuição normal multivariada. 2. A normalidade multivariada é requerida pelo método ML que é o método dominante na AEE (outros métodos não a exigem: WLS, ADF,...) Como avaliar? Não há testes de Normalidade multivariada implementados nos softwares. Alternativa: Avaliar valores de Sk e Ku dos itens. Distribuição normal Sk=Ku=0 No AMOS: n n å (x i - x )3 6 å (x i - x )4 24 sk = M 3 = i =1 3 ; sesk = ku = M 4 - 3 = i =1 - 3; seku = ns ' n ns 4 n Schumaker & Lomax (2004): Valores |sk| e |ku|  2 não são problemáticos Kline (1998): Valores de |Sk|<3 e |Ku|<8-10 são aceitáveis em AEE. No AMOS: 1 n é 2 p(p + 2)(n - 1) 8 p(p + 2) kuM = å êë( n i =1 xi - x ) ' S-1 (xi - x )ùú - û n +1 ; seku = n Kline (1998); KuMult<10 não é problemática
  • 47. 47 4.5. Pressupostos do Modelo de Eq. Estruturais 1. Normalidade multivariada Sob a validade da hipótese de normalidade multivariada é possível testar as hipóteses: sk a H0: sk=0 vs. H1:sk¹0 Z = ~ N (0,1) sesk H0: ku=0 vs. H1:ku¹0 ku a para a=0.05, rej. H0 se |Z|≥1.96 H0: kuM=0 vs. H1:kuM¹0 Z = ~ N (0,1) se ku Mesmo problema do teste do c2: testa se a distribuição é ‘perfeitamente normal’… nunca é, para amostras grandes (se=s/n), nem é preciso que seja para fazer AEE (ML) Problemas com a violação da normalidade a. Teste do Qui-quadrado inimputável (a distribuição da estatística é c2 não-central). Inflação do erro de tipo I). O teste pode ser corrigido por uma medida do enviesamento multivariado (correcção de Satorra-Bentler); pode transformar-se as variáveis para forçar a normalidade; ou pode usar-se um método de estimação que não exija a normalidade – e.g. ADF, ULS. b. Estimativas dos parâmetros com significância inflacionada As estimativas têm SE menor do que o correcto, o que faz que os coeficientes sejam estatisticamente significativos mais vezes do que o que deviam (inflação do erro de tipo I).
  • 48. 48 4.5. Pressupostos do Modelo de Eq. Estruturais 2. Linearidade: relações lineares entre as v. manifestas e as v. latentes, e entre as v. latentes. O método ML não exige linearidade, mas é aplicado à matriz de covariâncias /correlações que exigem associações de tipo linear. 3. Covariâncias amostrais não-nulas: as v. manifestas devem apresentar algum tipo de associação. 4. Múltiplos indicadores: 3 ou mais variáveis manifestas ou indicadores por factor, e a fiabilidade dos constructos (v. latentes) deve ser elevada. 5. Ausência de Multicolinearidade: A multicolinearidade inflaciona a estimação das covariâncias dos parâmetros; produz coeficientes de trajectória estandardizados muito superiores a 1 ou -1; pode produzir variâncias negativas. Pode mesmo causar o aborto das iterações (matrix not positive definite) quando é perfeita ou quase (não é possível inverter a matriz de correlações/covariâncias que são singulares). Avaliar multicolinearidade com o VIF (SPSS). 6. Amostras de “grande” dimensão: Várias regras : N>200 – 400 ; 15 sujeitos por variável manifesta; 5 sujeitos por parâmetro a estimar (v. manifestas, latentes, erros, correlações, etc...). Quanto mais melhor (especialmente se os dados forem muito enviesados, não mesocúrticos, com missings)... Mas nunca inferior a (p+q)(p+q)+1)/2 (caso contrário não é possível calcular a matriz de covariâncias assimptótica). 7. Modelos sobre-identificados (ou quando muito identificados).
  • 49. 49 4.5. Pressupostos do modelo de Eq. Estruturais 8. Medida forte O cálculo de variâncias-covariâncias das v. manifestas exige medidas numa escala quantitativa. Alguma controvérsia sobre o uso de métodos ML com escalas ordinais (5 ou 7 pontos): Utilizadores do AMOS: a. Se a escala for ordinal deve ter pelo menos 5 pontos (7, ou mesmo 9-10), e distribuição aproximadamente em sino: estas variáveis comportam-se como v. intervalares b. Se os itens forem nominais (0-não, 1-sim), usar compósitos somados c. Usar métodos ‘Bootstrap’/ Estimação Bayesiana para v. ordinais d. As assumpções das correlações policóricas e poliseriais de que existem variáveis latentes com normalidade multivariada de cujos itens ordinais são manifestações, são irreais; o cálculo exige amostras de grande dimensão(>2000, e pode usar-se o ADF) Utilizadores do LisRel, EQS, MPlus: a. Não faz sentido usar covariâncias de variáveis ordinais b. Usar correlações policóricas (ordinal vs ordinal) ou poliserial ordinal vs quantitativa) ou tetracórica (nominal vs. nominal) c. Usar métodos WLS e matrizes de correlação policóricas. d. Joreskog & Sorbom (1988): Correlações de Pearson, Spearman, Kendall t tem pior performance do que policóricas com v. ordinais
  • 50. 50 4.5. Pressupostos do modelo de Eq. Estruturais 9. Inexistência de Outliers Outliers são observações que caem fora da tendência das restantes observações. Podem ocorrer devido a problemas de observação/registo das variáveis ou podem ser valores extremos que ocorrem naturalmente (ainda que com frequência muito baixa). Problemas com a existência de outliers: a. Afectam as estimativas das médias, desvios-padrão e covariâncias, tornando o modelo ‘mau’ b. Podem atenuar ou inflacionar as estimativas dos parâmetros Como diagnosticar: 1. Medidas univariadas, box-wisker plots: Mas, um outlier poder ser multivariado sem ser univariado 2. Medidas multivariadas: Distância de Mahnalobis: Distância de uma observação xi à média de todas as observações (centróide): 1 n 4 p(p + 2)(n - 1) 8 p(p + 2) di2 = (xi - x ) ' S-1 (xi - x ) kuM = åd - ; seku = n i =1 i n +1 n AMOS sob a hipótese da normalidade multivariada, a partir da kuM: p1: probabilidade de uma observação xi ter um valor de di2 superior ao di2 calculado p2: probabilidade de a maior distância de Mahalanobis ser superior ao di2 de xi. Convém que p1 seja pequeno (<0.05-0.10) e p2 seja grande (>0.05-0.10), caso contrário a observação deve ser um outlier multivariado.
  • 51. 51 4.6. Problemas com o ajustamento do modelo É possível que o software não consiga encontrar um vector de parâmetros q que permita minimizar S-S(q). Algumas das causas mais frequentes são: 1. Problemas de convergência do modelo: As iterações seleccionadas não permitem alcançar uma solução. Pode dever-se a reduzidas dimensões de amostra; modelo mal especificado; variâncias muito diferentes das v. manifestas; v. manifestas extremamente não-normais; outliers Solução: Aumentar a amostra; Respecificar o modelo; uniformizar variâncias (e.g. alterando a magnitude de medida Kgg; m  Km,…; ou estandardizando as escalas), transformações matemáticas para normalizar variáveis (Sqrt, Ln, ArcSin); eliminar outliers; aumentar nº iterações. 2. Indeterminação do modelo: O modelo não é determinado ou sobre-identificado. A indeterminação empírica é particularmente difícil de diagnosticar. Solução: fixar trajectórias; analisar multicolinearidade; simplificar o modelo; aumentar nº de variáveis manifestas; aumentar dimensão da amostra. 3. Problemas com variâncias: Estimativas das variâncias das v. latentes < 0 (!!!). Pode acontecer quando: (i) a dimensão da amostra é demasiado pequena; (ii) quando correlações fortes entre itens são ignoradas (i.e. não contemplando as correlações entre os itens e/ou outros factores). Solução: Aumentar dimensão da amostra; correlacionar itens e/ou erros dos itens; Respecificar o modelo adicionando trajectórias para outros factores e os itens. 4. Matrizes de Covariância singulares (not positive definite): Alguns dos valores próprios (eigenvalues, raízes características = variância das componentes principais da matriz de covariância) < 0. Pode acontecer com as matrizes S, S(q) e W. A multicolinearidade (no caso de S) e especificação errada do modelo (S(q) e W) são as causas mais frequentes Solução: resolver os problemas de multicolinearidade; reespecificar o modelo.