JÁ VAI COMEÇAR
ENQUANTO ISSO…
- Escolha um lugar confortável para você sentar e se acomodar
- Que tal pegar um snack pra matar a fome, uma água, um chá
- Abra o chat, envie um “olá” e #sentimento de como chega
- Que tal pegar caderno e caneta para anotações
Extração, Transformação e Carga de Dados
_
QUE
BOM
QUE
VOCÊ
VEIO
_
WELCOME
QUE BOM
QUE VOCÊ
VEIO!
Quem ainda não digitou, abra o Chat e coloque um #sentimento que
chega aqui hoje
CHECK-IN &
WARMUP
RELEMBRANDO OS ACORDOS
Mais algum acordo?
- Tenha ao alcance: carregador, snacks, água e fone de ouvido
- Cuidado com o horário: procure entrar na sala um pouco antes do horário
- Luz, câmera, ação! Mantenha a câmera aberta para a gente se ver e se
conhecer.
- Participe! Não esqueça do “leadership”. Se coloquem, falem, chutem,
participem! Usem tanto o chat, aberto ou privado, como o microfone para isso.
- Facilitação está aqui para ajudar: além do fluxo do conteúdo e do tempo,
conto com vocês para me dizerem se algo não está claro, pode ser melhor ou
só para trocar uma ideia =)
- Autocuidado, cuide da sua energia para estar presente na hora da aula
EXPECTATIVAS
SOBRE OS TEMAS
O que esperam aprender sobre os temas de hoje?
Guilherme Marson
Data and Insights Manager
no Mercado Livre
Clustering - Modelagem e
Algoritmos + PCA
https:/
/www.linkedin.com/in/gmarson
AGENDA
● Bloco 1: O que é redução de dimensionalidade?
● Bloco 2: Por que reduzir dimensionalidade?
● Bloco 3: Estudo de caso: uma regressão para entender
clusterização (redução de dimensionalidade)
● Bloco 4: Seleção de Variáveis
+ Intervalo - 10 min
● Bloco 4: PCA (1933)
● Bloco 5: t-sne (2008)
_
NOSSO
ENCONTRO
DE
HOJE
Metodologia: Stress + Rest = Growth
“Peak Performance: Elevate Your Game, Avoid Burnout, and Thrive with the New Science of Success”
Brad Stulberg e Steve Magness
O que são Dimensões?
Redução de
Dimensionalidade -
Introdução
❖ O número de variáveis (features) de um
dataset é chamado de dimensionalidade
do dataset
❖ Reduzir a dimensionalidade consiste em
reduzir a quantidade de variáveis de um
dataset
❖ Técnicas para redução de
dimensionalidade:
➢ Seleção de Variáveis
➢ Fatorização Matricial (PCA)
➢ Aprendizado Múltiplo (t-sne)
➢ Autoencoder
Redução de
Dimensionalidade -
Introdução
❖ O número de variáveis (features) de um
dataset é chamado de dimensionalidade
do dataset
❖ Reduzir a dimensionalidade consiste em
reduzir a quantidade de variáveis de um
dataset
❖ Técnicas para redução de
dimensionalidade:
➢ Seleção de Variáveis
➢ Fatorização Matricial
➢ Aprendizado Múltiplo
➢ Autoencoder
Por que reduzir
dimensionalidade ?
❖ Dificuldade em visualizar objetos com
mais de 3 dimensões
1 Dimension 2 Dimensions 3 Dimensions
4 Dimensions 5 Dimensions
Por que reduzir
dimensionalidade ?
❖ Dados Esparsos
➢ Ex: one-hot encoding
➢ Aumenta a necessidade de
observações para que algoritmos
“aprendam” sobre o dataset, o que
aumenta ainda mais a complexidade.
Por que reduzir
dimensionalidade ?
❖ Aumento da complexidade e do poder
computacional necessário para
processar os dados
Por que reduzir
dimensionalidade ?
❖ Aumento da complexidade e do poder
computacional necessário para
processar os dados
Por que reduzir
dimensionalidade ?
❖ Aumento da complexidade e do poder
computacional necessário para
processar os dados
❖ Imagem 100x100 pixels:
Por que reduzir
dimensionalidade ?
❖ Aumento da complexidade e do poder
computacional necessário para
processar os dados
❖ Imagem 100x100 pixels:
➢ Red: 100x100=10.000
➢ Green: 100x100=10.000
➢ Blue: 100x100=10.000
Por que reduzir
dimensionalidade ?
❖ Aumento da complexidade e do poder
computacional necessário para
processar os dados
❖ Imagem 100x100 pixels:
➢ Red: 100x100=10.000
➢ Green: 100x100=10.000
➢ Blue: 100x100=10.000
➢ Total: 30.000 features
ALGUMA DÚVIDA?
Se acomodem, pois nossa jornada épica começa agora
O problema
❖ Quantas calorias tem uma pizza?
O problema
❖ Quantas calorias tem uma pizza?
➢ Precisamos de um dataset
O problema
❖ Quantas calorias tem uma pizza?
➢ Precisamos de um dataset*
brand Marca da Pizza
id Identificador
mois Quantidade de água por 100g
prot Quantidade de proteína por 100g
fat Quantidade de gordura por 100g
ash Quantidade de farinha não incorporada por 100g
sodium Quantidade de sódio por 100g
carb Quantidade de carboidratos por 100g
cal Quantidade de calorias por 100g
* https:/
/data.world/sdhilip/pizza-datasets
O problema
❖ Quantas calorias tem uma pizza?
➢ Precisamos de um dataset*
brand Marca da Pizza
id Identificador
mois Quantidade de água por 100g
prot Quantidade de proteína por 100g
fat Quantidade de gordura por 100g
ash Quantidade de farinha não incorporada por 100g
sodium Quantidade de sódio por 100g
carb Quantidade de carboidratos por 100g
cal Quantidade de calorias por 100g
❖ Será que essas variáveis podem ser
utilizadas como preditores de calorias?
❖ Utilizaremos apenas as variáveis
numéricas
* https:/
/data.world/sdhilip/pizza-datasets
Hora de programar
Conhecendo o dataframe
Trabalhando o dataframe
Uma rápida olhada nos
dados
Uma rápida olhada nos
dados
Chegou a hora de treinar o modelo ?
Como avaliar o modelo?
Como avaliar o modelo?
Hora de modelar
Seleção de variáveis
❖ Este processo consiste em selecionar apenas
as variáveis mais importantes para o modelo,
ou seja, os melhores preditores.
❖ Para isso, começamos calculando a
importância de cada variável:
Seleção de variáveis
❖ Este processo consiste em selecionar apenas
as variáveis mais importantes para o modelo,
ou seja, os melhores preditores.
❖ Para isso, começamos calculando a
importância de cada variável:
Seleção de variáveis
❖ Este processo consiste em selecionar apenas
as variáveis mais importantes para o modelo,
ou seja, os melhores preditores.
❖ Para isso, começamos calculando a
importância de cada variável:
Seleção de variáveis
❖ Este processo consiste em selecionar apenas
as variáveis mais importantes para o modelo,
ou seja, os melhores preditores.
❖ Para isso, começamos calculando a
importância de cada variável:
❖ As 3 primeiras variáveis são muito mais
importantes para o modelo do que as últimas 3
❖ Vamos analisar qual o comportamento do
modelo ao utilizarmos apenas as 3 variáveis
mais importantes
Seleção de variáveis
Seleção de variáveis
Acompanhamento dos testes
Random Forest
Todas variáveis
padronizadas
Apenas as 3 variáveis
mais importantes
Apenas as 3 variáveis
menos importantes
MAE 0,031 0,025 0,144
ALGUMA DÚVIDA?
INTERVALO - 10 min
Um pouco mais de teoria …
PCA: Principal Component Analysis
❖ PCA é uma técnica de redução de dimensionalidade que geralmente
transforma uma grande quantidade de variáveis em um conjunto menor,
que ainda contém grande parte da informação do conjunto original
❖ O custo de reduzir o número de variáveis normalmente é pago em
acuracidade, mas o ponto interessante é que essa perda de acuracidade
vem acompanhada de ganho de simplicidade. Tudo isso por que datasets
menores são:
➢ Mais fáceis de explorar
➢ Mais simples de serem visualizados
➢ Mais rápidos para modelos de M.L.
❖ Em resumo, a ideia do PCA é: reduza o número de variáveis, enquanto
preserva o máximo de informação possível
❖ Os componentes principais não são interpretáveis
PCA: Etapas do Processo
1. Padronize o intervalo das variáveis input
2. Calcule a matriz de covariância para identificar
correlações
3. Calcule os autovalores e autovetores da matriz
de covariância para identificar os componentes
principais
4. Crie um vetor de features para decidir quais
componentes principais manter
5. Transforme os dados utilizando os eixos dos
componentes principais
PCA
1. Padronize o intervalo
das variáveis input
PCA
1. Padronize o intervalo
das variáveis input
PCA
1. Padronize o intervalo
das variáveis input
PCA
1. Padronize o intervalo
das variáveis input
PCA
1. Padronize o intervalo
das variáveis input
PCA
1. Padronize o intervalo
das variáveis input
PCA
2. Calcule a Matriz de
Covariância para
identificar correlações
PCA
2. Calcule a Matriz de
Covariância para
identificar correlações
PCA
2. Calcule a Matriz de
Covariância para
identificar correlações
PCA
2. Calcule a Matriz de
Covariância para
identificar correlações
PCA
3. Calcule os autovalores e
autovetores da Matriz de
Covariância
Componentes Principais
❖ São novas variáveis que são construídas como
combinações lineares ou misturas das variáveis
iniciais
❖ X variáveis originais geram os mesmos X
componentes principais
❖ São não-correlacionadas
❖ Grande parte da informação das variáveis
originais está concentrada nos primeiros
componentes
❖ Em seguida ele tenta adicionar o máximo de
informação restante possível na segunda
componente e assim até o final das X variáveis
❖ Os componentes principais não são
interpretáveis
PCA
3. Calcule os autovalores e
autovetores da Matriz de
Covariância
Gráfico de Componentes Principais
Componentes Principais
Porcentagem
de
Variância
Explicada
Variância dos Componentes Principais
❖ Organizar os Componentes Principais desta
forma permite reduzir a dimensionalidade,
sem perder muita informação, descartando os
componentes que têm pouca informação.
❖ Os componentes que não forem descartados
serão as novas variáveis
PCA
3. Calcule os autovalores e
autovetores da Matriz de
Covariância
❖ Geometricamente falando, Componentes
Principais representam a direção dos dados
que explicam a maior quantidade de variância
possível, ou seja, a maior quantidade de
informação
❖ A relação entre variância e informação se dá
pelo fato de que quanto maior a variância
contida em uma linha, maior a dispersão dos
pontos e quanto maior a dispersão em uma
linha, maior a quantidade de informação
❖ Autovetor é a linha que
representa o Componente
Principal
❖ Autovalor é a quantidade
de informação que a linha
contém
PCA
3. Calcule os autovalores e
autovetores da Matriz de
Covariância
PCA
3. Calcule os autovalores e
autovetores da Matriz de
Covariância
PCA
3. Calcule os autovalores e
autovetores da Matriz de
Covariância
PCA
4. Decidir quais
Componentes Principais
usar
PCA
4. Decidir quais
Componentes Principais
usar
PCA
4. Decidir quais
Componentes Principais
usar
PCA
4. Decidir quais
Componentes Principais
usar
PCA
4. Decidir quais
Componentes Principais
usar
Explicam 98% da Variância
PCA
5. Transformação dos
Dados
Vamos relembrar multiplicação de matrizes
PCA
5. Transformação dos
Dados
Vamos relembrar multiplicação de matrizes
❖ A quantidade de colunas da primeira matriz
precisa ser igual a quantidade de linhas da
segunda matriz
PCA
5. Transformação dos
Dados
Vamos relembrar multiplicação de matrizes
❖ A quantidade de colunas da primeira matriz
precisa ser igual a quantidade de linhas da
segunda matriz
PCA
5. Transformação dos
Dados
PCA
5. Transformação dos
Dados
PCA
5. Transformação dos
Dados
PCA
5. Transformação dos
Dados
PCA
5. Transformação dos
Dados
PCA
5. Transformação dos
Dados
PCA
5. Transformação dos
Dados
Não existe AB
PCA
5. Transformação dos
Dados
PCA
5. Transformação dos
Dados
PCA
5. Transformação dos
Dados
Existe AB
PCA
5. Transformação dos
Dados
Existe AB
PCA
5. Transformação dos
Dados
Existe AB
Vamos voltar para a floresta?
Random Forest com PCA
Random Forest com PCA
Random Forest com PCA
Random Forest com PCA
Acompanhamento dos testes
Random Forest
Todas variáveis
padronizadas
Apenas as 3 variáveis
mais importantes
Apenas as 3 variáveis
menos importantes
Com variáveis
do PCA
MAE 0,031 0,025 0,144 0,034
PCA na vida real
PCA na vida real
PCA na vida real
PCA na vida real
t-SNE
t-sne: t-distributed stochastic neighbor embedding
❖ Técnica não supervisionada e não-linear
❖ Utilizada principalmente para exploração e visualização de dados de alta
dimensionalidade
❖ t-sne traz uma aproximação ou intuição de como os dados estão organizados
em um espaço de alta dimensão
❖ Com ele é possível ganhar tempo, pois é preciso gerar muito menos gráficos
para entender os dados
❖ t-sne encontra padrões nos dados através da identificação de clusters
baseados na similaridade dos dados.
❖ Mesmo parecendo um algoritmo de clustering, ele é um de redução de
dimensionalidade, pois mapeia os dados para um espaço com menor
dimensionalidade.
❖ Variáveis input não são identificáveis.
Visualização Digits Dataset - 66 dimensões
Visualização Digits Dataset - 66 dimensões
Visualização Digits Dataset - 66 dimensões
Visualização Mnist Dataset- 786 dimensões
Visualização Mnist Dataset- 786 dimensões
Visualização Mnist Dataset- 786 dimensões
Tentar usar t-sne na Random Forest?
t-SNE
t-SNE
t-SNE
t-SNE
DATA LEAKAGE
t-SNE
t-SNE
Acompanhamento dos testes
Random Forest
Todas variáveis
padronizadas
Apenas as 3 variáveis
mais importantes
Apenas as 3 variáveis
menos importantes
Com variáveis
do PCA
Com Variáveis
t-SNE
MAE 0,031 0,025 0,144 0,034 0,155
DÚVIDAS FINAIS
Como usar o t-SNE em Produção
❖ Treinar a t-SNE até chegar em uma
situação onde os grupos estejam bem
separados
❖ Utilizar os valores das variáveis
Dimension 1 e Dimension 2 como target
de duas regressões que utilizem as
features originais do dataset:
➢ Regressão1 -> Target Dimension 1
➢ Regressão2 -> Target Dimension 2
❖ A combinação das respostas das
regressões implicará na posição do
gráfico ao lado, que poderá ser utilizado
para classificar o dígito
COMO FOI?
E ATÉ A PRÓXIMA!
BOA NOITE
Reduçao de Dimensionalidade - Guilherme Marson.pdf

Reduçao de Dimensionalidade - Guilherme Marson.pdf

  • 2.
    JÁ VAI COMEÇAR ENQUANTOISSO… - Escolha um lugar confortável para você sentar e se acomodar - Que tal pegar um snack pra matar a fome, uma água, um chá - Abra o chat, envie um “olá” e #sentimento de como chega - Que tal pegar caderno e caneta para anotações Extração, Transformação e Carga de Dados _ QUE BOM QUE VOCÊ VEIO
  • 3.
  • 4.
    Quem ainda nãodigitou, abra o Chat e coloque um #sentimento que chega aqui hoje CHECK-IN & WARMUP
  • 5.
    RELEMBRANDO OS ACORDOS Maisalgum acordo? - Tenha ao alcance: carregador, snacks, água e fone de ouvido - Cuidado com o horário: procure entrar na sala um pouco antes do horário - Luz, câmera, ação! Mantenha a câmera aberta para a gente se ver e se conhecer. - Participe! Não esqueça do “leadership”. Se coloquem, falem, chutem, participem! Usem tanto o chat, aberto ou privado, como o microfone para isso. - Facilitação está aqui para ajudar: além do fluxo do conteúdo e do tempo, conto com vocês para me dizerem se algo não está claro, pode ser melhor ou só para trocar uma ideia =) - Autocuidado, cuide da sua energia para estar presente na hora da aula
  • 6.
    EXPECTATIVAS SOBRE OS TEMAS Oque esperam aprender sobre os temas de hoje?
  • 7.
    Guilherme Marson Data andInsights Manager no Mercado Livre Clustering - Modelagem e Algoritmos + PCA https:/ /www.linkedin.com/in/gmarson
  • 8.
    AGENDA ● Bloco 1:O que é redução de dimensionalidade? ● Bloco 2: Por que reduzir dimensionalidade? ● Bloco 3: Estudo de caso: uma regressão para entender clusterização (redução de dimensionalidade) ● Bloco 4: Seleção de Variáveis + Intervalo - 10 min ● Bloco 4: PCA (1933) ● Bloco 5: t-sne (2008) _ NOSSO ENCONTRO DE HOJE
  • 9.
    Metodologia: Stress +Rest = Growth “Peak Performance: Elevate Your Game, Avoid Burnout, and Thrive with the New Science of Success” Brad Stulberg e Steve Magness
  • 10.
    O que sãoDimensões?
  • 11.
    Redução de Dimensionalidade - Introdução ❖O número de variáveis (features) de um dataset é chamado de dimensionalidade do dataset ❖ Reduzir a dimensionalidade consiste em reduzir a quantidade de variáveis de um dataset ❖ Técnicas para redução de dimensionalidade: ➢ Seleção de Variáveis ➢ Fatorização Matricial (PCA) ➢ Aprendizado Múltiplo (t-sne) ➢ Autoencoder
  • 12.
    Redução de Dimensionalidade - Introdução ❖O número de variáveis (features) de um dataset é chamado de dimensionalidade do dataset ❖ Reduzir a dimensionalidade consiste em reduzir a quantidade de variáveis de um dataset ❖ Técnicas para redução de dimensionalidade: ➢ Seleção de Variáveis ➢ Fatorização Matricial ➢ Aprendizado Múltiplo ➢ Autoencoder
  • 13.
    Por que reduzir dimensionalidade? ❖ Dificuldade em visualizar objetos com mais de 3 dimensões 1 Dimension 2 Dimensions 3 Dimensions 4 Dimensions 5 Dimensions
  • 14.
    Por que reduzir dimensionalidade? ❖ Dados Esparsos ➢ Ex: one-hot encoding ➢ Aumenta a necessidade de observações para que algoritmos “aprendam” sobre o dataset, o que aumenta ainda mais a complexidade.
  • 15.
    Por que reduzir dimensionalidade? ❖ Aumento da complexidade e do poder computacional necessário para processar os dados
  • 16.
    Por que reduzir dimensionalidade? ❖ Aumento da complexidade e do poder computacional necessário para processar os dados
  • 17.
    Por que reduzir dimensionalidade? ❖ Aumento da complexidade e do poder computacional necessário para processar os dados ❖ Imagem 100x100 pixels:
  • 18.
    Por que reduzir dimensionalidade? ❖ Aumento da complexidade e do poder computacional necessário para processar os dados ❖ Imagem 100x100 pixels: ➢ Red: 100x100=10.000 ➢ Green: 100x100=10.000 ➢ Blue: 100x100=10.000
  • 19.
    Por que reduzir dimensionalidade? ❖ Aumento da complexidade e do poder computacional necessário para processar os dados ❖ Imagem 100x100 pixels: ➢ Red: 100x100=10.000 ➢ Green: 100x100=10.000 ➢ Blue: 100x100=10.000 ➢ Total: 30.000 features
  • 20.
  • 21.
    Se acomodem, poisnossa jornada épica começa agora
  • 22.
    O problema ❖ Quantascalorias tem uma pizza?
  • 23.
    O problema ❖ Quantascalorias tem uma pizza? ➢ Precisamos de um dataset
  • 24.
    O problema ❖ Quantascalorias tem uma pizza? ➢ Precisamos de um dataset* brand Marca da Pizza id Identificador mois Quantidade de água por 100g prot Quantidade de proteína por 100g fat Quantidade de gordura por 100g ash Quantidade de farinha não incorporada por 100g sodium Quantidade de sódio por 100g carb Quantidade de carboidratos por 100g cal Quantidade de calorias por 100g * https:/ /data.world/sdhilip/pizza-datasets
  • 25.
    O problema ❖ Quantascalorias tem uma pizza? ➢ Precisamos de um dataset* brand Marca da Pizza id Identificador mois Quantidade de água por 100g prot Quantidade de proteína por 100g fat Quantidade de gordura por 100g ash Quantidade de farinha não incorporada por 100g sodium Quantidade de sódio por 100g carb Quantidade de carboidratos por 100g cal Quantidade de calorias por 100g ❖ Será que essas variáveis podem ser utilizadas como preditores de calorias? ❖ Utilizaremos apenas as variáveis numéricas * https:/ /data.world/sdhilip/pizza-datasets
  • 26.
  • 27.
  • 28.
  • 29.
  • 30.
  • 31.
    Chegou a horade treinar o modelo ?
  • 33.
  • 34.
  • 35.
  • 36.
    Seleção de variáveis ❖Este processo consiste em selecionar apenas as variáveis mais importantes para o modelo, ou seja, os melhores preditores. ❖ Para isso, começamos calculando a importância de cada variável:
  • 37.
    Seleção de variáveis ❖Este processo consiste em selecionar apenas as variáveis mais importantes para o modelo, ou seja, os melhores preditores. ❖ Para isso, começamos calculando a importância de cada variável:
  • 38.
    Seleção de variáveis ❖Este processo consiste em selecionar apenas as variáveis mais importantes para o modelo, ou seja, os melhores preditores. ❖ Para isso, começamos calculando a importância de cada variável:
  • 39.
    Seleção de variáveis ❖Este processo consiste em selecionar apenas as variáveis mais importantes para o modelo, ou seja, os melhores preditores. ❖ Para isso, começamos calculando a importância de cada variável: ❖ As 3 primeiras variáveis são muito mais importantes para o modelo do que as últimas 3 ❖ Vamos analisar qual o comportamento do modelo ao utilizarmos apenas as 3 variáveis mais importantes
  • 40.
  • 41.
  • 42.
    Acompanhamento dos testes RandomForest Todas variáveis padronizadas Apenas as 3 variáveis mais importantes Apenas as 3 variáveis menos importantes MAE 0,031 0,025 0,144
  • 43.
  • 44.
  • 45.
    Um pouco maisde teoria …
  • 46.
    PCA: Principal ComponentAnalysis ❖ PCA é uma técnica de redução de dimensionalidade que geralmente transforma uma grande quantidade de variáveis em um conjunto menor, que ainda contém grande parte da informação do conjunto original ❖ O custo de reduzir o número de variáveis normalmente é pago em acuracidade, mas o ponto interessante é que essa perda de acuracidade vem acompanhada de ganho de simplicidade. Tudo isso por que datasets menores são: ➢ Mais fáceis de explorar ➢ Mais simples de serem visualizados ➢ Mais rápidos para modelos de M.L. ❖ Em resumo, a ideia do PCA é: reduza o número de variáveis, enquanto preserva o máximo de informação possível ❖ Os componentes principais não são interpretáveis
  • 47.
    PCA: Etapas doProcesso 1. Padronize o intervalo das variáveis input 2. Calcule a matriz de covariância para identificar correlações 3. Calcule os autovalores e autovetores da matriz de covariância para identificar os componentes principais 4. Crie um vetor de features para decidir quais componentes principais manter 5. Transforme os dados utilizando os eixos dos componentes principais
  • 49.
    PCA 1. Padronize ointervalo das variáveis input
  • 50.
    PCA 1. Padronize ointervalo das variáveis input
  • 51.
    PCA 1. Padronize ointervalo das variáveis input
  • 52.
    PCA 1. Padronize ointervalo das variáveis input
  • 53.
    PCA 1. Padronize ointervalo das variáveis input
  • 54.
    PCA 1. Padronize ointervalo das variáveis input
  • 55.
    PCA 2. Calcule aMatriz de Covariância para identificar correlações
  • 56.
    PCA 2. Calcule aMatriz de Covariância para identificar correlações
  • 57.
    PCA 2. Calcule aMatriz de Covariância para identificar correlações
  • 58.
    PCA 2. Calcule aMatriz de Covariância para identificar correlações
  • 59.
    PCA 3. Calcule osautovalores e autovetores da Matriz de Covariância Componentes Principais ❖ São novas variáveis que são construídas como combinações lineares ou misturas das variáveis iniciais ❖ X variáveis originais geram os mesmos X componentes principais ❖ São não-correlacionadas ❖ Grande parte da informação das variáveis originais está concentrada nos primeiros componentes ❖ Em seguida ele tenta adicionar o máximo de informação restante possível na segunda componente e assim até o final das X variáveis ❖ Os componentes principais não são interpretáveis
  • 60.
    PCA 3. Calcule osautovalores e autovetores da Matriz de Covariância Gráfico de Componentes Principais Componentes Principais Porcentagem de Variância Explicada Variância dos Componentes Principais ❖ Organizar os Componentes Principais desta forma permite reduzir a dimensionalidade, sem perder muita informação, descartando os componentes que têm pouca informação. ❖ Os componentes que não forem descartados serão as novas variáveis
  • 61.
    PCA 3. Calcule osautovalores e autovetores da Matriz de Covariância ❖ Geometricamente falando, Componentes Principais representam a direção dos dados que explicam a maior quantidade de variância possível, ou seja, a maior quantidade de informação ❖ A relação entre variância e informação se dá pelo fato de que quanto maior a variância contida em uma linha, maior a dispersão dos pontos e quanto maior a dispersão em uma linha, maior a quantidade de informação ❖ Autovetor é a linha que representa o Componente Principal ❖ Autovalor é a quantidade de informação que a linha contém
  • 64.
    PCA 3. Calcule osautovalores e autovetores da Matriz de Covariância
  • 65.
    PCA 3. Calcule osautovalores e autovetores da Matriz de Covariância
  • 66.
    PCA 3. Calcule osautovalores e autovetores da Matriz de Covariância
  • 67.
  • 68.
  • 69.
  • 70.
  • 71.
    PCA 4. Decidir quais ComponentesPrincipais usar Explicam 98% da Variância
  • 72.
    PCA 5. Transformação dos Dados Vamosrelembrar multiplicação de matrizes
  • 73.
    PCA 5. Transformação dos Dados Vamosrelembrar multiplicação de matrizes ❖ A quantidade de colunas da primeira matriz precisa ser igual a quantidade de linhas da segunda matriz
  • 74.
    PCA 5. Transformação dos Dados Vamosrelembrar multiplicação de matrizes ❖ A quantidade de colunas da primeira matriz precisa ser igual a quantidade de linhas da segunda matriz
  • 75.
  • 76.
  • 77.
  • 78.
  • 79.
  • 80.
  • 81.
  • 82.
  • 83.
  • 84.
  • 85.
  • 86.
  • 87.
    Vamos voltar paraa floresta?
  • 88.
  • 89.
  • 90.
  • 91.
  • 92.
    Acompanhamento dos testes RandomForest Todas variáveis padronizadas Apenas as 3 variáveis mais importantes Apenas as 3 variáveis menos importantes Com variáveis do PCA MAE 0,031 0,025 0,144 0,034
  • 93.
  • 94.
  • 95.
  • 96.
  • 97.
  • 98.
    t-sne: t-distributed stochasticneighbor embedding ❖ Técnica não supervisionada e não-linear ❖ Utilizada principalmente para exploração e visualização de dados de alta dimensionalidade ❖ t-sne traz uma aproximação ou intuição de como os dados estão organizados em um espaço de alta dimensão ❖ Com ele é possível ganhar tempo, pois é preciso gerar muito menos gráficos para entender os dados ❖ t-sne encontra padrões nos dados através da identificação de clusters baseados na similaridade dos dados. ❖ Mesmo parecendo um algoritmo de clustering, ele é um de redução de dimensionalidade, pois mapeia os dados para um espaço com menor dimensionalidade. ❖ Variáveis input não são identificáveis.
  • 99.
  • 100.
  • 101.
  • 102.
  • 103.
  • 104.
  • 105.
    Tentar usar t-snena Random Forest?
  • 106.
  • 107.
  • 108.
  • 109.
  • 110.
  • 111.
  • 112.
    Acompanhamento dos testes RandomForest Todas variáveis padronizadas Apenas as 3 variáveis mais importantes Apenas as 3 variáveis menos importantes Com variáveis do PCA Com Variáveis t-SNE MAE 0,031 0,025 0,144 0,034 0,155
  • 113.
  • 114.
    Como usar ot-SNE em Produção ❖ Treinar a t-SNE até chegar em uma situação onde os grupos estejam bem separados ❖ Utilizar os valores das variáveis Dimension 1 e Dimension 2 como target de duas regressões que utilizem as features originais do dataset: ➢ Regressão1 -> Target Dimension 1 ➢ Regressão2 -> Target Dimension 2 ❖ A combinação das respostas das regressões implicará na posição do gráfico ao lado, que poderá ser utilizado para classificar o dígito
  • 115.
  • 116.
    E ATÉ APRÓXIMA! BOA NOITE