1) O documento descreve vários métodos estatísticos para análise multivariada de dados, incluindo análise de componentes principais, análise fatorial, escalonamento multidimensional, análise de agrupamento, análise discriminante, inferências sobre vetores de médias e MANOVA, análise de correspondência e análise de correlação canônica.
2) São apresentadas fórmulas estatísticas para cálculo de distâncias, escores, estatísticas de teste, porcentagens de explicação e representações gráfic
1. Formulário:
Medidas de Distância
Yn× p ( )
; Cov Y j p×1 = Σ ;
p
′
d ij = ∑ (Yi k − Y jk ) ; d ij = (Yi − Y j ) (Yi − Y j ) : distância Euclidiana
2 2 2
k =1
′
d ij = (Yi − Y j ) Σ −1 (Yi − Y j ) : distância de Mahalanobis
2
Análise de Componentes Principais
Yn× p ; Cov(Y ) = Σ = PΛP ′ ; Pp× p = (aij ) Λ p× p = Diag (λ j )
′ a kj λ j
⇒ Z j = Pj Y p×1 ; V (Z j ) = λ j ρ (Yk ; Z j ) =
σ kk
Análise Fatorial
Yn× p ; E (Y p×1 ) = µ Cov(Y ) = Σ
Y p×1 − µ p×1 = Φ p×m f m×1 + e p×1 ; Cov(f ) = I m Cov(e ) = Ψ ⇔ Σ = ΦΦ ′ + Ψ
m φ jk
⇒ V (Y j ) = h 2 + ψ j
j ; h 2 = ∑ φ jk
j
2
; ρ (Y j ; Fk ) =
k =1 σ jj
Escalonamento Multidimensional
( (
Dn×n = (d ij ) ⇒ B = bij = − 1 d ij − d i2 − d .2j + d ..2
2
2
. ))
B = XX ′ = PΛP ′ = PΛ1 / 2 Λ1 / 2 P ′ ⇒ X = PΛ1 / 2
Análise de Agrupamento
′
Yi p×1 d ij = (Yi − Y j ) (Yi − Y j ) : distância Euclidiana
2
d r = 3 − (r + 2) : cálculo de distância a partir de medidas de correlação
d (G1 , G 2 ) = max d ik : método do vizinho mais distante
i∈G1 , k∈G2
d (G1 , G 2 ) = min d ik : método do vizinho mais próximo
i∈G1 , k∈G2
p
SQDP = ∑ SQD( j ) : método de Ward (soma de quadrados da partição)
j =1
Análise Discriminante
1 c(1 | 2) p 2
− ( ) ( ˆ)
X 0 S1−1 − S 2 1 X 0 + X 1′S 1−1 − X 2 S 2 1 X 0 − k ≥ ln
′ −
′ − : função discriminante quadrática
2 c(2 | 1) p1
2. c(1 | 2 ) p 2 c(1 | 2) p 2
y 0 − m ≥ ln ⇒ y 0 − m − ln ≥ 0 : função discriminante linear de Fisher
c(2 | 1) p1 c(2 | 1) p1
′ 1 ′ c(1 | 2) p 2
(X − X 2 ) S c−1 X 0 − (X 1 − X 2 ) S c−1 ( X 1 + X 2 ) − ln ≥ 0 : função discriminante linear de Fisher
c(2 | 1) p1
1
2
1
d i ( x ) = µ i′ Σ
−1 −1
X − µ i′ Σ µ i′ + ln pi i = 1,..., g : escore discriminante linear para a população i
2
Inferências sobre vetores de médias e MANOVA
Estatísticas de Hotelling:
−1
′ S
T = (Y − µ ) (Y − µ )
2
n
′
= n (Y − µ ) S −1 (Y − µ ) ~
(n − 1) p F
(n − p ) p,( n− p )
−1
′ 1 1 (n1 + n2 − 2) p
T = (Y1 − Y2 − δ 0 ) + S c
2
(Y − Y
1 2 − δ0 ) ~ Fp ,( n1 + n2 − p −1)
n1 n2 (n1 + n2 − p − 1)
′ −1 (n − 1) p
T 2 = n (D − δ 0 ) S D (D − δ 0 ) ~ Fp , n − p
(n − p)
Intervalos de Confiança Simultâneos de componentes de vetores de médias:
(n − 1) p F l ′Sl (n − 1) p F l ′Sl
I .C.S .(l ′µ ) a 100(1 − α )% = l ′Y −
p ,( n − p ) (α ) ; l ′Y + p ,( n − p ) (α )
(n − p ) n (n − p ) n
MANOVA:
g
′
H = ∑ ni (y i − y )(y i − y ) : matriz de SQPC devido ao efeito de tratamento
i =1
g ni
′
E = ∑∑ (y ij − y i )(y ij − y i ) = (n1 − 1)S1 + ... + (n g − 1)S g : matriz de SQPC devido ao efeito residual
i =1 j =1
g ni
′
H + E = ∑∑ (y ij − y )(y ij − y ) : matriz de SQPC total
i =1 j =1
3. E
Λ* = : estatística lambda de Wilks
H+E
Intervalos de confiança com correção de Bonferroni:
1 1 E
V (Yi k − Yh k ) = + kk ⇒
(Y ik − Yh k ) ± t N − g (α / pg ( g − 1) ) V (Yi k − Yh k )
ni n h N − g
Análise de Correspondência
χ 2 = ∑∑
J I (O ij − Eij )
2
=
(O11 − E11 )2 + (O12 − E12 )2 + (OIJ − EIJ )2 ; ni⋅ n⋅ j
Oij = nij Eij =
j =1 i =1 Eij E11 E12 E IJ n
χ = ∑∑ ni⋅
2
I J (p ij − pj )
2
= ∑ ni⋅ ∑
I J (p ij − pj )
2 I
= ∑ ni⋅d i2 in(I ) = χ 2 / n : Inércia
i =1 j =1 pj i =1 j =1 pj i =1
Distância Euclidiana ao quadrado do perfil de freq. Relativas da linha i ao centróide:
2
d = p −p ( L L ′
) D (p −1 L
−p L
)= ∑
J
(p L
ij − pL j ) 2
⇒ Obter a matriz DL de distâncias entre os perfis linha
i i pL i
j =1 pL j
Distância Euclidiana ao quadrado do perfil de freq. Relativas da coluna j ao centróide:
d = p −p 2
( c c ′
) D (p−1 c
−p c
)= ∑
I (p c
ij − pc
j )2
⇒ Obter a matriz DC de distâncias entre os perfis coluna
j j pc j
i =1 pc
j
4. Representação gráfica dos perfis: realizar uma análise de escalonamento
multidimensional em DL e em DC.
Análise de Correlação Canônica
Σ11 p× p Σ12 p×q
Cov(Y( p + q )×1 ) = Σ ( p + q )×( p + q ) =
Σ 21q× p Σ 22 q×q
′ −1
U1 = a1Y1 = e1 Σ11 / 2 Y1
′ V1 = b1′Y2 = f1′ Σ −1/ 2 Y2
22
max a ,b Corr (U , V ) = ρ1
Z1 p×1 D11 / 2 (Y1 − µ 1 )
−1
Z ( p + q )×1 = = −1 / 2 ( )
max a ,b Corr U * , V * = ρ1
Z 2 p×1 D 22 (Y2 − µ 2 )
*′ ′ 1
U * k = a k ' Z1 = ek* ' ρ11 / 2 Z1 ⇒
*
′ −1 ak = ak D11/ 2
−1
Vk* = bk* ' Z 2 = f k* ' ρ 22 / 2 Z 2
′ ′ ′ 1/
⇒ bk* = bk D222
trE
RY1 |U1 ...U r = % Expl (U1 ,U 2 ,...,U r ) de Y1 = 100 × 1 − 11
2
trS
11
trE22
RY2 |V1 ...Vr = % Expl (V1 ,V2 ,...,Vr ) de Y2 = 100 × 1 −
2
trS
22
−1 ′
⇒ E11 = S11 − Ar Ar
−1
( ) ~~ ( ~~ ~ ~ ) ~ ~′
= S11 − a1a1′ + ... + ar ar′ = a( r +1) a(′r +1) + ...a p a p
⇒ E22 = S 22 − Br
−1
(B )′ = b
r
−1 ~ ~
b′
( r +1) ( r +1)
~~
+ bq bq′