SlideShare uma empresa Scribd logo
1 de 29
Baixar para ler offline
Globalcode – Open4education
Trilha – Learning Machine
Cluster Analysis em 4 passos
Marco Siqueira Campos
Globalcode – Open4education
Marco Siqueira Campos
Sócio fundador Siqueira Campos Associados e sos-stat
Estatístico – UFRGS
Certificado Data Science Specialization – Johns Hopkins-Coursera
Mestrando Data Science
Globalcode – Open4education
Modelo
Learning Machine
Classificação Regressão Clustering
Aprendizado não
supervisionado
Aprendizado
supervisionado
Aprendizado por Exemplo Aprendizado por Observação
Globalcode – Open4education
O que é clustering?
É uma técnica estatística multivariada para identificar
agrupamentos dos dados de acordo com o grau de
semelhança. Queremos achar um grupo de objetos,
que são similares entre si e diferentes de outros
grupos.
Globalcode – Open4education
O que é clustering?
É uma técnica estatística multivariada para identificar
agrupamentos dos dados de acordo com o grau de
semelhança. Queremos achar um grupo de objetos,
que são similares entre si e diferentes de outros
grupos.
Menor distância
entre elementos
Maior distância entre
agrupamentos
Globalcode – Open4education
Que perguntas o cluster
pode responder?
Como agrupo os clientes que compram no site?
Onde coloco uma antena de operadora de celular?
Onde deixo uma ambulância estacionada para
atender a uma emergência?
Como classifico cervejas em categorias distintas?
Globalcode – Open4education
Utilização mais usual de
cluster
Organizar dados dentro do cluster para mostrar a
estrutura dos dados. Ex. Cluster em genes.
Particionar os dados. Ex. Segmentação de
clientes.
Preparar para outras técnicas. Ex. Sistemas de
recomendação.
Descoberta nos dados. Ex. Descoberta de
padrões.
Globalcode – Open4education
Preparar para
outras técnicas:
Sistemas de
recomendação
Globalcode – Open4education
Tipos de cluster
Agrupamento Particional
Uma divisão de objetos em
subconjuntos não sobrepostos
(clusters), de modo que cada objeto
esteja exatamente em um subconjunto.
Ex. Segmentação de clientes.
Agrupamento hierárquico
Um conjunto de clusters aninhados
organizados como uma árvore
hierárquica.
Agrupamento por Densidade
Baseado na existência de regiões
densas de dados, separadas por
regiões com baixa densidade de dados.
Cluster
Particional
Hierárquico
Densidade
Globalcode – Open4education
Método de ligação
Completo
Centroide
Ward
Média
Mediana
distância
ligação
Utiliza as informações de distância para agrupar pares de objetos em
clusters com base na sua similaridade.
Globalcode – Open4education
Medida de distância
Distância ou similaridade, é como a
distância entre agrupamentos
(clusters) é medida.
Continua – distância Euclidiana
Continua – correlação Pearson
Contínua – correlação cosseno Eisen
Não paramétrica – correlação Spearman
Não paramétrica – correlação Kendall
Binário – distância Manhattan
Euclidiano
Manhattan
Globalcode – Open4education
Passos para o cluster
Escolha / Definição
dos objetos e seus atributos
Padronização
Similaridade e Clustering
Validação
Interpretação




Globalcode – Open4education
Projeto Estaleiro Atlântico
Sul
SUEZMAX SUBMONTAGENS
≈ 7.100 t
= 1/3
SUEZMAX ESTRUTURA
≈ 21.500 t
SUBMONTAGEM
Globalcode – Open4education
Projeto Estaleiro Atlântico
Sul
Peça 01
peso
compr. de
solda
EMENDA ITENS SECUNDÁRIOS
PU unilateral quantidade diversidade inclinação outro lado barra face
Peça 01 7,5 t 83 m não não 5 não não não não
Peça 02 4,1 t 96 m sim não 20 sim não sim sim
Peça 02
Submontagem - Situação Atual
Globalcode – Open4education
Projeto Estaleiro Atlântico
Sul
Peça 02
Comprimento de solda (m)
Tempo estimado (info pela
produção) (h)
Peça 1 83 13
Peça 2 96 24
Diferença % 16% 85%
Submontagem - Situação Atual
Peça 01
Globalcode – Open4education
Escolha / Definição
dos objetos e seus atributos
COMPONENTE NÚM.PEÇASNÚM.FILHASCOMP.SOLDAESPESS.POND.ÁREA BASEPESO PEÇASPESO FILHASNÚM.CHAPAS MÃEFLANGE PEÇAS OUTRO LADOINCLINADAS
ANEL 01/A11/C/PAINEL01/SUB018 0 27,5 19,3 6,3 1939,8 0,0 1 0 0 0
ANEL 01/A11/C/PAINEL01/SUB0212 0 2,9 22,8 3,0 709,2 0,0 2 1 0 0
ANEL 01/A11/C/PAINEL01/SUB-MONTAGEM010 5 6,4 20,9 0,4 2267,7 2267,7 1 0 1 1
Caso tenhamos muitas variáveis, é importante reduzir a dimensionalidade,
utilizando técnicas como a análise de componentes principais - PCA
Matriz de 11 x 6.528
11 variáveis e 6.528 subconjuntos (componentes)
....

Globalcode – Open4education
Padronização
Globalcode – Open4education
Similaridade e Clusterização
Utilizando distância Euclidiana
1 2 3 4 5 6
1 0.00 4.32 4.23 4.83 4.04 3.63
2 4.32 0.00 4.90 4.69 3.50 2.82
3 4.23 4.90 0.00 5.95 5.16 5.33
4 4.83 4.69 5.95 0.00 1.50 3.34
5 4.04 3.50 5.16 1.50 0.00 2.85
6 3.63 2.82 5.33 3.34 2.85 0.00

Globalcode – Open4education
Similaridade e Clusterização
Matriz de dissimilaridade
1
2
3

Globalcode – Open4education
Similaridade e Clusterização
Hierárquico
Aglomerativo
(AGNES)
Divisivo
(DIANA)
Inicia com cada observação em
um cluster. Ao final há apenas um
cluster com todas observações.
Ao contrário do aglomerativo, inicia
com um cluster único e ao final cada
observação está em um cluster.

Globalcode – Open4education
Similaridade e Clusterização
Dendrograma

Globalcode – Open4education
Determinação do número
de clusters
Para cluster particional:
Métodos diretos
Elbow
Silhouette
Métodos estatísticos
Gap statistic
Método Elbow Método Silhouette
Gap statistic
Número k de clusters Número k de clusters
Número k de clusters
TotaldaSomadeQuadrados
Larguramédiadasilhoueta
Gapstatistic(k)

Globalcode – Open4education
Similaridade e Clusterização
Dendrograma para 3 clusters

Globalcode – Open4education
Similaridade e Clusterização
Dendrograma circular
Outras visualizações:
Dendrograma filogenético

Globalcode – Open4education
Validação
Tendência de agrupamento
Método estatístico: estatística de Hopkins
Método visual: Avaliação visual da tendência do
agrupamento (VAT)

Globalcode – Open4education
Estatística de Hopkins
Validação
Um valor de H distante de 0,5 indica que os dados originais são diferentes
dos dados aleatórios, portanto os clusters são significativos.
$H
[1] 0.3178

Globalcode – Open4education
VAT - Gráfico de tendência de agrupamento
Validação
Globalcode – Open4education
Interpretação
Dendograma final com 6.528
componentes
-10860,24
-7206,83
-3553,41
100,00
Peças
Similaridade
Dendrograma - população
Ligação de Ward; Distância Euclideana
componentes
Globalcode – Open4education
Nós fazemos a revolução digital.
Vamos juntos!
www.siqueiracampos.com
marco@siqueiracampos.com

Mais conteúdo relacionado

Semelhante a Cluster analysis TDC POA 2017

Explorando Correlações entre Rótulos usando Métodos de Detecção de Comu...
Explorando Correlações entre Rótulos usando Métodos de Detecção de Comu...Explorando Correlações entre Rótulos usando Métodos de Detecção de Comu...
Explorando Correlações entre Rótulos usando Métodos de Detecção de Comu...Elaine Cecília Gatto
 
TDC 2015 Big Data - Modelos Preditivos
TDC 2015 Big Data - Modelos PreditivosTDC 2015 Big Data - Modelos Preditivos
TDC 2015 Big Data - Modelos PreditivosRodrigo Moraes
 
TDC 2015 - Conceitos e Práticas no Desenvolvimento de Sistemas Preditivos
TDC 2015 - Conceitos e Práticas no Desenvolvimento de Sistemas PreditivosTDC 2015 - Conceitos e Práticas no Desenvolvimento de Sistemas Preditivos
TDC 2015 - Conceitos e Práticas no Desenvolvimento de Sistemas PreditivosWagner Luiz Cambruzzi
 
Análise de Clusters - White Paper ELOGroup
Análise de Clusters - White Paper ELOGroupAnálise de Clusters - White Paper ELOGroup
Análise de Clusters - White Paper ELOGroupEloGroup
 
[TDC2016] Apache SparkMLlib: Machine Learning na Prática
[TDC2016] Apache SparkMLlib:  Machine Learning na Prática[TDC2016] Apache SparkMLlib:  Machine Learning na Prática
[TDC2016] Apache SparkMLlib: Machine Learning na PráticaEiti Kimura
 
TDC2016SP - SparkMLlib Machine Learning na Prática
TDC2016SP -  SparkMLlib Machine Learning na PráticaTDC2016SP -  SparkMLlib Machine Learning na Prática
TDC2016SP - SparkMLlib Machine Learning na Práticatdc-globalcode
 
TDC2018SP | Trilha Machine Learning - PCA: Como saber o que realmente importa ?
TDC2018SP | Trilha Machine Learning - PCA: Como saber o que realmente importa ?TDC2018SP | Trilha Machine Learning - PCA: Como saber o que realmente importa ?
TDC2018SP | Trilha Machine Learning - PCA: Como saber o que realmente importa ?tdc-globalcode
 
TDC2018SP | Trilha IA - Deteccao de Objetos em Imagens com Deep Learning
TDC2018SP | Trilha IA - Deteccao de Objetos em Imagens com Deep LearningTDC2018SP | Trilha IA - Deteccao de Objetos em Imagens com Deep Learning
TDC2018SP | Trilha IA - Deteccao de Objetos em Imagens com Deep Learningtdc-globalcode
 
Agrupamento de sequências biológicas
Agrupamento de sequências biológicasAgrupamento de sequências biológicas
Agrupamento de sequências biológicasMarcos Castro
 
Community Detection for Multi-Label Classification - Seminários UFSCar
Community Detection for Multi-Label Classification - Seminários UFSCarCommunity Detection for Multi-Label Classification - Seminários UFSCar
Community Detection for Multi-Label Classification - Seminários UFSCarElaine Cecília Gatto
 
Clustering informatizado
Clustering  informatizadoClustering  informatizado
Clustering informatizadoDiêgo Maciel
 
Explorando correlações entre rótulos para o particionamento do espaço de rótu...
Explorando correlações entre rótulos para o particionamento do espaço de rótu...Explorando correlações entre rótulos para o particionamento do espaço de rótu...
Explorando correlações entre rótulos para o particionamento do espaço de rótu...Elaine Cecília Gatto
 
Análise de agrupamentos e regionalização - Prática no Geoda
Análise de agrupamentos e regionalização - Prática no GeodaAnálise de agrupamentos e regionalização - Prática no Geoda
Análise de agrupamentos e regionalização - Prática no GeodaVitor Vieira Vasconcelos
 
Instalando arquitetura Lambda com Graphx e Elasticsearch 2.0 em uma aplicação...
Instalando arquitetura Lambda com Graphx e Elasticsearch 2.0 em uma aplicação...Instalando arquitetura Lambda com Graphx e Elasticsearch 2.0 em uma aplicação...
Instalando arquitetura Lambda com Graphx e Elasticsearch 2.0 em uma aplicação...tdc-globalcode
 
Sistemas Inteligentes para Textos da Web
Sistemas Inteligentes para Textos da WebSistemas Inteligentes para Textos da Web
Sistemas Inteligentes para Textos da WebFernando Hideo Fukuda
 
Instanciando a Arquitetura Lambda com GraphX e Elasticsearch 2.0 em uma apl...
Instanciando a Arquitetura Lambda com  GraphX e Elasticsearch 2.0  em uma apl...Instanciando a Arquitetura Lambda com  GraphX e Elasticsearch 2.0  em uma apl...
Instanciando a Arquitetura Lambda com GraphX e Elasticsearch 2.0 em uma apl...Luiz Henrique Zambom Santana
 
EXPLORANDO CORRELAÇÕES PARA O PARTICIONAMENTO DO ESPAÇO DE RÓTULOS EM PROBLEM...
EXPLORANDO CORRELAÇÕES PARA O PARTICIONAMENTO DO ESPAÇO DE RÓTULOS EM PROBLEM...EXPLORANDO CORRELAÇÕES PARA O PARTICIONAMENTO DO ESPAÇO DE RÓTULOS EM PROBLEM...
EXPLORANDO CORRELAÇÕES PARA O PARTICIONAMENTO DO ESPAÇO DE RÓTULOS EM PROBLEM...Elaine Cecília Gatto
 
EXPLORANDO CORRELAÇÕES PARA O PARTICIONAMENTO DO ESPAÇO DE RÓTULOS EM PROBLEM...
EXPLORANDO CORRELAÇÕES PARA O PARTICIONAMENTO DO ESPAÇO DE RÓTULOS EM PROBLEM...EXPLORANDO CORRELAÇÕES PARA O PARTICIONAMENTO DO ESPAÇO DE RÓTULOS EM PROBLEM...
EXPLORANDO CORRELAÇÕES PARA O PARTICIONAMENTO DO ESPAÇO DE RÓTULOS EM PROBLEM...Elaine Cecília Gatto
 

Semelhante a Cluster analysis TDC POA 2017 (20)

Explorando Correlações entre Rótulos usando Métodos de Detecção de Comu...
Explorando Correlações entre Rótulos usando Métodos de Detecção de Comu...Explorando Correlações entre Rótulos usando Métodos de Detecção de Comu...
Explorando Correlações entre Rótulos usando Métodos de Detecção de Comu...
 
TDC 2015 Big Data - Modelos Preditivos
TDC 2015 Big Data - Modelos PreditivosTDC 2015 Big Data - Modelos Preditivos
TDC 2015 Big Data - Modelos Preditivos
 
TDC 2015 - Conceitos e Práticas no Desenvolvimento de Sistemas Preditivos
TDC 2015 - Conceitos e Práticas no Desenvolvimento de Sistemas PreditivosTDC 2015 - Conceitos e Práticas no Desenvolvimento de Sistemas Preditivos
TDC 2015 - Conceitos e Práticas no Desenvolvimento de Sistemas Preditivos
 
Análise de Clusters - White Paper ELOGroup
Análise de Clusters - White Paper ELOGroupAnálise de Clusters - White Paper ELOGroup
Análise de Clusters - White Paper ELOGroup
 
[TDC2016] Apache SparkMLlib: Machine Learning na Prática
[TDC2016] Apache SparkMLlib:  Machine Learning na Prática[TDC2016] Apache SparkMLlib:  Machine Learning na Prática
[TDC2016] Apache SparkMLlib: Machine Learning na Prática
 
TDC2016SP - SparkMLlib Machine Learning na Prática
TDC2016SP -  SparkMLlib Machine Learning na PráticaTDC2016SP -  SparkMLlib Machine Learning na Prática
TDC2016SP - SparkMLlib Machine Learning na Prática
 
TDC2018SP | Trilha Machine Learning - PCA: Como saber o que realmente importa ?
TDC2018SP | Trilha Machine Learning - PCA: Como saber o que realmente importa ?TDC2018SP | Trilha Machine Learning - PCA: Como saber o que realmente importa ?
TDC2018SP | Trilha Machine Learning - PCA: Como saber o que realmente importa ?
 
TDC2018SP | Trilha IA - Deteccao de Objetos em Imagens com Deep Learning
TDC2018SP | Trilha IA - Deteccao de Objetos em Imagens com Deep LearningTDC2018SP | Trilha IA - Deteccao de Objetos em Imagens com Deep Learning
TDC2018SP | Trilha IA - Deteccao de Objetos em Imagens com Deep Learning
 
Agrupamento de sequências biológicas
Agrupamento de sequências biológicasAgrupamento de sequências biológicas
Agrupamento de sequências biológicas
 
Community Detection for Multi-Label Classification - Seminários UFSCar
Community Detection for Multi-Label Classification - Seminários UFSCarCommunity Detection for Multi-Label Classification - Seminários UFSCar
Community Detection for Multi-Label Classification - Seminários UFSCar
 
Clustering informatizado
Clustering  informatizadoClustering  informatizado
Clustering informatizado
 
Explorando correlações entre rótulos para o particionamento do espaço de rótu...
Explorando correlações entre rótulos para o particionamento do espaço de rótu...Explorando correlações entre rótulos para o particionamento do espaço de rótu...
Explorando correlações entre rótulos para o particionamento do espaço de rótu...
 
Análise de agrupamentos e regionalização - Prática no Geoda
Análise de agrupamentos e regionalização - Prática no GeodaAnálise de agrupamentos e regionalização - Prática no Geoda
Análise de agrupamentos e regionalização - Prática no Geoda
 
Instalando arquitetura Lambda com Graphx e Elasticsearch 2.0 em uma aplicação...
Instalando arquitetura Lambda com Graphx e Elasticsearch 2.0 em uma aplicação...Instalando arquitetura Lambda com Graphx e Elasticsearch 2.0 em uma aplicação...
Instalando arquitetura Lambda com Graphx e Elasticsearch 2.0 em uma aplicação...
 
Sistemas Inteligentes para Textos da Web
Sistemas Inteligentes para Textos da WebSistemas Inteligentes para Textos da Web
Sistemas Inteligentes para Textos da Web
 
Instanciando a Arquitetura Lambda com GraphX e Elasticsearch 2.0 em uma apl...
Instanciando a Arquitetura Lambda com  GraphX e Elasticsearch 2.0  em uma apl...Instanciando a Arquitetura Lambda com  GraphX e Elasticsearch 2.0  em uma apl...
Instanciando a Arquitetura Lambda com GraphX e Elasticsearch 2.0 em uma apl...
 
EXPLORANDO CORRELAÇÕES PARA O PARTICIONAMENTO DO ESPAÇO DE RÓTULOS EM PROBLEM...
EXPLORANDO CORRELAÇÕES PARA O PARTICIONAMENTO DO ESPAÇO DE RÓTULOS EM PROBLEM...EXPLORANDO CORRELAÇÕES PARA O PARTICIONAMENTO DO ESPAÇO DE RÓTULOS EM PROBLEM...
EXPLORANDO CORRELAÇÕES PARA O PARTICIONAMENTO DO ESPAÇO DE RÓTULOS EM PROBLEM...
 
EXPLORANDO CORRELAÇÕES PARA O PARTICIONAMENTO DO ESPAÇO DE RÓTULOS EM PROBLEM...
EXPLORANDO CORRELAÇÕES PARA O PARTICIONAMENTO DO ESPAÇO DE RÓTULOS EM PROBLEM...EXPLORANDO CORRELAÇÕES PARA O PARTICIONAMENTO DO ESPAÇO DE RÓTULOS EM PROBLEM...
EXPLORANDO CORRELAÇÕES PARA O PARTICIONAMENTO DO ESPAÇO DE RÓTULOS EM PROBLEM...
 
Artigo tecnico RNA Iris
Artigo tecnico RNA IrisArtigo tecnico RNA Iris
Artigo tecnico RNA Iris
 
Code Smells
Code SmellsCode Smells
Code Smells
 

Cluster analysis TDC POA 2017

  • 1. Globalcode – Open4education Trilha – Learning Machine Cluster Analysis em 4 passos Marco Siqueira Campos
  • 2. Globalcode – Open4education Marco Siqueira Campos Sócio fundador Siqueira Campos Associados e sos-stat Estatístico – UFRGS Certificado Data Science Specialization – Johns Hopkins-Coursera Mestrando Data Science
  • 3. Globalcode – Open4education Modelo Learning Machine Classificação Regressão Clustering Aprendizado não supervisionado Aprendizado supervisionado Aprendizado por Exemplo Aprendizado por Observação
  • 4. Globalcode – Open4education O que é clustering? É uma técnica estatística multivariada para identificar agrupamentos dos dados de acordo com o grau de semelhança. Queremos achar um grupo de objetos, que são similares entre si e diferentes de outros grupos.
  • 5. Globalcode – Open4education O que é clustering? É uma técnica estatística multivariada para identificar agrupamentos dos dados de acordo com o grau de semelhança. Queremos achar um grupo de objetos, que são similares entre si e diferentes de outros grupos. Menor distância entre elementos Maior distância entre agrupamentos
  • 6. Globalcode – Open4education Que perguntas o cluster pode responder? Como agrupo os clientes que compram no site? Onde coloco uma antena de operadora de celular? Onde deixo uma ambulância estacionada para atender a uma emergência? Como classifico cervejas em categorias distintas?
  • 7. Globalcode – Open4education Utilização mais usual de cluster Organizar dados dentro do cluster para mostrar a estrutura dos dados. Ex. Cluster em genes. Particionar os dados. Ex. Segmentação de clientes. Preparar para outras técnicas. Ex. Sistemas de recomendação. Descoberta nos dados. Ex. Descoberta de padrões.
  • 8. Globalcode – Open4education Preparar para outras técnicas: Sistemas de recomendação
  • 9. Globalcode – Open4education Tipos de cluster Agrupamento Particional Uma divisão de objetos em subconjuntos não sobrepostos (clusters), de modo que cada objeto esteja exatamente em um subconjunto. Ex. Segmentação de clientes. Agrupamento hierárquico Um conjunto de clusters aninhados organizados como uma árvore hierárquica. Agrupamento por Densidade Baseado na existência de regiões densas de dados, separadas por regiões com baixa densidade de dados. Cluster Particional Hierárquico Densidade
  • 10. Globalcode – Open4education Método de ligação Completo Centroide Ward Média Mediana distância ligação Utiliza as informações de distância para agrupar pares de objetos em clusters com base na sua similaridade.
  • 11. Globalcode – Open4education Medida de distância Distância ou similaridade, é como a distância entre agrupamentos (clusters) é medida. Continua – distância Euclidiana Continua – correlação Pearson Contínua – correlação cosseno Eisen Não paramétrica – correlação Spearman Não paramétrica – correlação Kendall Binário – distância Manhattan Euclidiano Manhattan
  • 12. Globalcode – Open4education Passos para o cluster Escolha / Definição dos objetos e seus atributos Padronização Similaridade e Clustering Validação Interpretação    
  • 13. Globalcode – Open4education Projeto Estaleiro Atlântico Sul SUEZMAX SUBMONTAGENS ≈ 7.100 t = 1/3 SUEZMAX ESTRUTURA ≈ 21.500 t SUBMONTAGEM
  • 14. Globalcode – Open4education Projeto Estaleiro Atlântico Sul Peça 01 peso compr. de solda EMENDA ITENS SECUNDÁRIOS PU unilateral quantidade diversidade inclinação outro lado barra face Peça 01 7,5 t 83 m não não 5 não não não não Peça 02 4,1 t 96 m sim não 20 sim não sim sim Peça 02 Submontagem - Situação Atual
  • 15. Globalcode – Open4education Projeto Estaleiro Atlântico Sul Peça 02 Comprimento de solda (m) Tempo estimado (info pela produção) (h) Peça 1 83 13 Peça 2 96 24 Diferença % 16% 85% Submontagem - Situação Atual Peça 01
  • 16. Globalcode – Open4education Escolha / Definição dos objetos e seus atributos COMPONENTE NÚM.PEÇASNÚM.FILHASCOMP.SOLDAESPESS.POND.ÁREA BASEPESO PEÇASPESO FILHASNÚM.CHAPAS MÃEFLANGE PEÇAS OUTRO LADOINCLINADAS ANEL 01/A11/C/PAINEL01/SUB018 0 27,5 19,3 6,3 1939,8 0,0 1 0 0 0 ANEL 01/A11/C/PAINEL01/SUB0212 0 2,9 22,8 3,0 709,2 0,0 2 1 0 0 ANEL 01/A11/C/PAINEL01/SUB-MONTAGEM010 5 6,4 20,9 0,4 2267,7 2267,7 1 0 1 1 Caso tenhamos muitas variáveis, é importante reduzir a dimensionalidade, utilizando técnicas como a análise de componentes principais - PCA Matriz de 11 x 6.528 11 variáveis e 6.528 subconjuntos (componentes) .... 
  • 18. Globalcode – Open4education Similaridade e Clusterização Utilizando distância Euclidiana 1 2 3 4 5 6 1 0.00 4.32 4.23 4.83 4.04 3.63 2 4.32 0.00 4.90 4.69 3.50 2.82 3 4.23 4.90 0.00 5.95 5.16 5.33 4 4.83 4.69 5.95 0.00 1.50 3.34 5 4.04 3.50 5.16 1.50 0.00 2.85 6 3.63 2.82 5.33 3.34 2.85 0.00 
  • 19. Globalcode – Open4education Similaridade e Clusterização Matriz de dissimilaridade 1 2 3 
  • 20. Globalcode – Open4education Similaridade e Clusterização Hierárquico Aglomerativo (AGNES) Divisivo (DIANA) Inicia com cada observação em um cluster. Ao final há apenas um cluster com todas observações. Ao contrário do aglomerativo, inicia com um cluster único e ao final cada observação está em um cluster. 
  • 21. Globalcode – Open4education Similaridade e Clusterização Dendrograma 
  • 22. Globalcode – Open4education Determinação do número de clusters Para cluster particional: Métodos diretos Elbow Silhouette Métodos estatísticos Gap statistic Método Elbow Método Silhouette Gap statistic Número k de clusters Número k de clusters Número k de clusters TotaldaSomadeQuadrados Larguramédiadasilhoueta Gapstatistic(k) 
  • 23. Globalcode – Open4education Similaridade e Clusterização Dendrograma para 3 clusters 
  • 24. Globalcode – Open4education Similaridade e Clusterização Dendrograma circular Outras visualizações: Dendrograma filogenético 
  • 25. Globalcode – Open4education Validação Tendência de agrupamento Método estatístico: estatística de Hopkins Método visual: Avaliação visual da tendência do agrupamento (VAT) 
  • 26. Globalcode – Open4education Estatística de Hopkins Validação Um valor de H distante de 0,5 indica que os dados originais são diferentes dos dados aleatórios, portanto os clusters são significativos. $H [1] 0.3178 
  • 27. Globalcode – Open4education VAT - Gráfico de tendência de agrupamento Validação
  • 28. Globalcode – Open4education Interpretação Dendograma final com 6.528 componentes -10860,24 -7206,83 -3553,41 100,00 Peças Similaridade Dendrograma - população Ligação de Ward; Distância Euclideana componentes
  • 29. Globalcode – Open4education Nós fazemos a revolução digital. Vamos juntos! www.siqueiracampos.com marco@siqueiracampos.com