TDC2018SP | Trilha Machine Learning - PCA: Como saber o que realmente importa ?

1
Globalcode – Open4education
PCA
O que realmente importa ?
Jacques Brawerman
Aviso
O autor da palestra não está apresentando a mesma como
representante de qualquer empresa que ele tenha
trabalhado, esteja trabalhando ou que venha a trabalhar;
Os assuntos são de domínio público não expondo dados,
cases ou procedimentos desenvolvidos especificamente
para serem utilizados em uma empresa;
Todas as marcas são de propriedade dos seus respectivos
detentores;

2
Imagine que você recebeu o seguinte conjunto de
dados para analisar
Dados

3
Vamos começar a plotar os gráficos das colunas
para ver se descobrimos algo novo
Dados

4
Apenas com o atributo ‘Sepal length’, não
conseguimos saber nada a respeito de nossos dados !
Será que os outros atributos conseguem nos dar
alguma informação realmente interessante a
respeito destes dados ?

5
Dados
Os atributos ‘Sepal length’ e ‘Sepal width’ conseguem
caracterizar muito bem o que seria uma flor do
tipo Iris-Setosa

6
Vamos continuar analisando os atributos ?
Dados

7
Já está começando a ficar difícil visualizar os dados ...
Ainda faltam os valores do atributo do tipo ‘Petal width’

8
Mas, não temos como desenhar um gráfico
com 4 dimensões
Imagina se tivéssemos dados com 10, 100 ou
mais colunas.

9
O que vamos fazer ?
Podemos escolher alguns atributos e ignorar os outros.

10
Mas poderíamos estar perdendo informação
importante contida nos dados
Que tal tentar combinar os dados de alguma forma
para que possamos utilizar todas as informações
disponíveis, mas de alguma maneira que possam ser
mais facilmente tratadas ?

11
O PCA é uma técnica que faz exatamente isto !
Ao invés de jogar fora dados, ele os combina
formando novos dados, a fim de que nesta nova
forma, possamos fazer nossas análises apenas com
as informações mais relevantes!

12
É o processo de jogar dados fora
Feature Elimination
É o processo de combinar os dados de forma que
possamos ficar com os mais relevantes para as
nossas análises !
Feature Extraction

13
PCA
nossas análises !
Mas, o que são os dados mais relevantes ?
PCA

14
Para saber isso, precisamos saber como os
dados se comportam!
PCA
A B
12 8
23 28
25 24
11 5
25 33
24 22
20 20
média 20 20
Dados
Dados

15
Média
A = [12,23,25,11,25,24]
Média(A) = 20
B = [08,28,24,05,33,22]
Média(B) = 20
Soma das discrepâncias
Vamos tentar somar as discrepâncias !

16
A A - média (A)
12 -8
23 3
25 5
11 -9
25 5
24 4
20 0
média 20 0 soma
Dados
B B - média(B)
8 -12
28 8
24 4
5 -15
33 13
22 2
20 0
média 20 0 soma
Dados
A soma das discrepâncias também não é uma boa
medida pois sempre é igual a 0.

17
(Soma das discrepâncias)2
Vamos tentar a soma das discrepâncias ao quadrado !
(Soma das discrepâncias)2
A C
Dados A - média (A)
12 -8 64
23 3 9
25 5 25
11 -9 81
25 5 25
24 4 16
20 0 0
média 20 soma 0 220

18
Variância
Se 7 dados forem todos os elementos de A
(população):
Se 7 dados não forem todos os elementos de A
(amostra):
Var(A) = 220 / 7 = 31,43
Var(A) = 220 / 6 = 36,67
Variância
A = [12,23,25,11,25,24]
Média(A) = 20
Variância (A) = 36,67
B = [08,28,24,05,33,22]
Média(B) = 20
Variância (B) = 103,67

19
Variância
Quem possui maior variação tem maior variância !
Variância

20
Variância
Quando queremos saber como um atributo varia
em relação ao outro, o que podemos fazer ?
Covariância
Quando queremos saber como um atributo varia
em relação ao outro, o que podemos fazer ?

21
Covariância
COV(A,B) = COV(B,A)
Covariância
COV(A,A) = VAR(A)

22
Tipos de Covariância
Covariância Positiva

23
Covariância Negativa
Covariância Nula

24
Matriz de covariância
Quando temos muitas variáveis e queremos ver
como cada uma se comporta em relação às
outras, fazemos uma matriz de covariâncias !

25
COV(A,A) = VAR(A)
COV(A,B) = COV(B,A)

26
A matriz de covariâncias é simétrica !
nossas análises !
PCA

27
No que a matriz de covariâncias pode nos ajudar a
achar os dados mais relevantes para nossas
análises ?
PCA
Queremos dados que tenham muita informação, ou
seja, alta variância!
PCA

28
Queremos dados que tenham pouca redundância, ou
seja, baixa covariância.
PCA
PCA
Matriz X
Matriz de covariâncias Sx
Matriz Y
Matriz de covariâncias Sy
Queremos achar uma matriz P que multiplique X e nos
leve a Y de tal forma que:
Covariâncias de Sy sejam iguais a 0;
Variâncias de Sy sejam diferentes de 0;
Sy seja uma matriz diagonal;

29
Mas, como gerar uma matriz diagonal Sy a partir da
matriz de covariâncias Sx ?
PCA
Teorema espectral
Toda matriz simétrica é diagonalizável ortogonalmente

30
Teorema espectral
Você conhece alguma matriz simétrica ?
Teorema espectral
MATRIZ DE COVARIÂNCIAS

31
Teorema espectral
Teorema espectral

32
Teorema espectral
Teorema espectral

33
PCA
O que é uma matriz ortogonal ?
Matriz ortogonal
É uma matriz onde o produto escalar entre os
vetores que formam suas colunas tem valor
igual a 0.

34
Matriz ortogonal
É uma matriz onde o produto escalar entre os vetores
que formam suas colunas tem valor igual a 0.
Matriz ortogonal

35
Matriz ortogonal
Matriz ortogonal

36
PCA
Mas, como calcular P-1 ?
(Matriz ortogonal)-1 = (Matriz ortogonal)T
Em uma matriz ortogonal, a sua inversa
é igual a sua transposta !

37
P = P-1 =
P = P-1 =

38
P = P-1 =
P = P-1 =

39
P = PT =
PCA
Já vimos o que é uma matriz ortogonal e como
achamos a sua inversa. Mas, como calculamos
os elementos da matriz ortogonal ?

40
PCA
Em uma matriz simétrica, se e são autovalores
com valores diferentes, então os seus respectivos
autovetores são ortogonais
(a matriz de covariâncias é simétrica)
PCA
Mas, o que são autovalores e autovetores ?

41
PCA
PCA

42
PCA
PCA
Em uma matriz simétrica, se e são autovalores
com valores diferentes, então os seus respectivos
autovetores são ortogonais

43
PCA
E se há autovalores iguais ?
PCA
Aplica-se o processo de ortogonalização de
Gram-Schmidt

44
PCA
Como achar uma matriz ortogonal a uma
matriz simétrica ?
PCA
Matriz de
covariâncias
Matriz diagonal
de autovalores
Matriz ortogonal
de autovetores
Matriz transposta da
matriz ortogonal de autovetores
q > r > s PC1 PC2 PC3

45
PCA
Como saber quanto de informação cada
componente principal carrega ?
Matrizes similares
Duas matrizes A e B são similares se podem ser
escritas na seguinte forma:
A = P-1 . B . P

46
Matrizes similares
Isto não parece com nada que acabamos de ver ?
A = P-1 . B . P
PCA
A = P-1 . B . P
Isto não parece com nada que acabamos de ver ?
Mat(Cov)=Mat(autovetores) -1. Mat(autovalores) . Mat(autovetores)

47
PCA
A = P-1 . B . P
Mat(Cov)=Mat(autovetores) -1. Mat(autovalores) . Mat(autovetores)
Duas matrizes similares possuem os mesmos traços
PCA
Mas, o que é o traço de uma matriz ?

48
PCA
É a soma dos elementos de sua diagonal principal !
Traço
Traço(Matriz de covariâncias) = a + d + f
Soma das variâncias(Matriz de covariâncias) = a + d + f

49
Traço
Traço(Matriz de covariâncias) = Traço(Matriz de autovalores)
Traço
Traço(Matriz de covariâncias) = Traço(Matriz de autovalores)
a + d + f = q + r + s

50
PCA
PCA
74,77% > 20,56% > 4,67 %

51
PCA
74,77% > 20,56% > 4,67 %
Se precisar de 90% da informação, basta usar as duas
primeiras componentes, que somadas representam
aproximadamente 95,33% da informação.
PCA
Voltando ao exemplo das flores ...

52
PCA
Carregando os dados
Obtendo os dados

53
Obtendo os dados
Obtendo os dados

54
Média
Desvio padrão

55
Normalizando os dados
-
-
-
-
...
(
(
(
(
) /
) /
) /
) /
Vamos normalizar cada
coluna da matriz de dados
subtraindo cada valor da
média da coluna e
dividindo pelo desvio
padrão da coluna
PCA
Obtendo as matrizes necessárias

56
Matriz de covariâncias
Matriz de
covariâncias
Matriz de covariâncias
Matriz de
covariâncias

57
Autovalores & Autovetores

58
Vamos juntar cada autovalor com o seu respectivo
autovetor para podermos montar a matriz P

59
Ordenar por quem tem o maior autovalor
PCA
Como saber quanto de informação cada componente
principal carrega ?

60
PCA
PCA

61
PCA
principal carrega ?
PCA
principal carrega ?

62
PCA
As duas primeiras componentes principais
(PC1 & PC2) possuem aproximadamente
95% da informação!
PCA
Vamos criar a matriz P com as duas componentes
principais (PC1 & PC2)

63
PCA
PCA
O que PC1 e PC2 nos dizem ?

64
PCA
PC1 = 0,52.(Sepal Length) – 0,26 . (Sepal Width) +
0,58 . (Petal length) + 0,56 . (Petal width)
PC2 = -0,37.(Sepal Length) – 0,92 . (Sepal Width)
+ 0,02 . (Petal length) + 0,65 . (Petal width)
PCA
Vamos multiplicar a matriz original (normalizada) pela
matriz das componentes principais.
Matriz Xnorm Matriz Y

65
PCA
...
PCA
......

66
PCA
... ...
PCA
Visualizando a matriz Y = P.X

67
PCA
PCA

68
PCA
Qual é o próximo passo ?

69
Para falar comigo ...
Twitter: @jacktecnologia
Referências
http://www.cs.otago.ac.nz/cosc453/student_tutorials/principal_compone
nts.pdf
https://www.cs.princeton.edu/picasso/mats/PCA-Tutorial-Intuition_jp.pdf
https://towardsdatascience.com/a-one-stop-shop-for-principal-
component-analysis-5582fb7e0a9c
http://setosa.io/ev/principal-component-analysis/
https://algobeans.com/2016/06/15/principal-component-analysis-tutorial/
https://medium.com/@aptrishu/understanding-principle-component-
analysis-e32be0253ef0
http://users.stat.umn.edu/~helwig/notes/pca-Notes.pdf

70
Referências
https://newonlinecourses.science.psu.edu/stat505/node/49/
https://www.dezyre.com/data-science-in-python-tutorial/principal-
component-analysis-tutorial
https://www.cgg.com/technicaldocuments/cggv_0000014063.pdf
https://machinelearningmastery.com/calculate-principal-component-
analysis-scratch-python/
http://sebastianraschka.com/Articles/2014_pca_step_by_step.html
https://glowingpython.blogspot.com/2011/07/pca-and-image-
compression-with-numpy.html

TDC2018SP | Trilha Machine Learning - PCA: Como saber o que realmente importa ?

Recomendados

Recomendados

Mais conteúdo relacionado

Semelhante a TDC2018SP | Trilha Machine Learning - PCA: Como saber o que realmente importa ?

Semelhante a TDC2018SP | Trilha Machine Learning - PCA: Como saber o que realmente importa ? (20)

Mais de tdc-globalcode

Mais de tdc-globalcode (20)

Último

Último (20)

TDC2018SP | Trilha Machine Learning - PCA: Como saber o que realmente importa ?