SlideShare uma empresa Scribd logo
1 de 41
Baixar para ler offline
Análise de Clusters
Mr. Kleverton Saath
O que a análise permite?
• Avaliar o tamanho da matriz de dados
• Identificar outliers multivariados
• Levar hipóteses relativas a relações
estruturais entre variáveis.
Introdução
• Análise de agrupamento ou Cluster analysis: é uma
técnica exploratória de análise multi-variada de
dados que permite classificar um conjunto de
categorias em grupos homogéneos, observando
apenas as similaridades ou dissimilaridades entre
elas.
Introdução
• Sequência de regras (algoritmo) para agrupar objetos sem
inferência de probabilidade a priori dos grupos.
• Não é necessário informações a priori sobre a composição
dos grupos.
• Dado um conjunto de ‘n’ unidades amostrais, os quais são
medidos segundo ‘p’ variáveis, obter um algoritmo que
possibilite reunir os indivíduos, tal que exista
homogeneidade dentro do grupo e heterogeneidade entre
grupos (Regazzi, 2000).
Como medimos as similaridades
e as dissimilaridade?
• MEDIDAS DE DISSIMILARIDADE
 Distância euclidiana
 Distância euclidiana média
 Distância de Mahalanobis
 A maioria dos algoritmos de análise de agrupamento têm
como base estas medidas de dissimilaridade;
Importante: Quanto maior for a medida de dissimilaridade
menor será a semelhança entre os indivíduos.
Nota
• É recomendável a padronização das variáveis antes de se
obter o valor da distância euclidiana, devido que
normalmente todos os dados não estão no mesmo padrão
de medidas.
𝑍𝑖𝑗 =
𝑋𝑖𝑗− 𝑋𝑗
𝑆𝑗
, 𝑍𝑖𝑗 ~ 0 , 1𝑗
𝑜𝑢 𝑍𝑖𝑗 =
𝑋𝑖𝑗
𝑆 𝑋𝑗
, 𝑍𝑖𝑗~ 𝑍𝑗 , 1
Distância euclidiana
• É a distância entre dois pontos, que pode ser
provada pela aplicação repetida do teorema
de Pitágoras.
• A Função da distância euclidiana de pq:
• Onde p e q são os pontos na reta.
Distância euclidiana
• De forma matricial temos:
𝑑 𝑎𝑏 = 𝑋 𝑎𝑗 − 𝑋 𝑏𝑗
2
𝑝
𝑗=1
1
2
𝑝 = 1,2, ⋯ , 𝑗;
𝑋 𝑎𝑗 = 𝑣𝑎𝑙𝑜𝑟 𝑑𝑎 𝑣𝑎𝑣𝑖á𝑣𝑒𝑙 𝑗 𝑝𝑎𝑟𝑎 𝑜 𝑖𝑛𝑑𝑖𝑣í𝑑𝑢𝑜 𝑎;
𝑋 𝑏𝑗 = 𝑣𝑎𝑙𝑜𝑟 𝑑𝑎 𝑣𝑎𝑟𝑖á𝑣𝑒𝑙 𝑗 𝑝𝑎𝑟𝑎 𝑜 𝑖𝑛𝑑𝑖𝑣í𝑑𝑢𝑜 𝑏.
Distância euclidiana média
• A distância euclidiana cresce à medida que cresce o
número de variáveis. Uma maneira de eliminar o efeito do
número de variáveis é dividir o valor da distância
euclidiana pela raiz quadrada do número de variáveis.
𝑑 𝑎𝑏 =
1
𝑝
∙ 𝑑 𝑎𝑏
𝑑 𝑎𝑏 = 𝑑𝑖𝑠𝑡â𝑛𝑐𝑖𝑎 𝑒𝑢𝑐𝑙𝑖𝑑𝑖𝑎𝑛𝑎 𝑚é𝑑𝑖𝑎 𝑒𝑛𝑡𝑟𝑒 𝑎 𝑒 𝑏;
𝑝 = 𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑣𝑎𝑟𝑖á𝑣𝑒𝑖𝑠;
𝑑 𝑎𝑏 = 𝑑𝑖𝑠𝑡â𝑛𝑐𝑖𝑎 𝑒𝑢𝑐𝑙𝑖𝑑𝑖𝑎𝑛𝑎 𝑒𝑛𝑡𝑟𝑒 𝑎 𝑒 𝑏.
Distância de Mahalanobis
• A distância de Mahalanobis entre os indivíduos a e b é
dada por:
𝐷 𝑎𝑏
2
= 𝑋 𝑎 − 𝑋 𝑏 ′ ∙ 𝑆−1 ∙ 𝑋 𝑎 − 𝑋 𝑏
em que,
𝐷 𝑎𝑏
2
é 𝑎 𝑑𝑖𝑠𝑡â𝑛𝑐𝑖𝑎 𝑑𝑒 𝑚𝑎ℎ𝑎𝑙𝑎𝑛𝑜𝑏𝑖𝑠 𝑒𝑛𝑡𝑟𝑒 𝑜𝑠 𝑖𝑛𝑑𝑖𝑣í𝑑𝑢𝑜𝑠 𝑎 𝑒 𝑏;
𝑋 𝑎 = 𝑣𝑒𝑡𝑜𝑟 𝑑𝑒 𝑐𝑎𝑟𝑎𝑐𝑡𝑒𝑟í𝑠𝑡𝑖𝑐𝑎𝑠 𝑑𝑜 𝑖𝑛𝑑𝑖𝑣í𝑑𝑢𝑜 𝑎;
𝑋 𝑏 = 𝑣𝑒𝑡𝑜𝑟 𝑑𝑒 𝑐𝑎𝑟𝑎𝑐𝑡𝑒𝑟í𝑠𝑡𝑖𝑐𝑎𝑠 𝑑𝑜 𝑖𝑛𝑑𝑖𝑣í𝑑𝑢𝑜 𝑏;
𝑆 = 𝑚𝑎𝑡𝑟𝑖𝑧 𝑑𝑒 𝑣𝑎𝑟𝑖â𝑛𝑐𝑖𝑎 𝑎𝑚𝑜𝑠𝑡𝑟𝑎𝑙 𝑑𝑎 𝑝𝑜𝑝𝑢𝑙𝑎çã𝑜.
MEDIDAS DE
SIMILARIDADE
• As variáveis são agrupadas de acordo com
as medidas de correlação ou associação
apropriadas. O coeficiente de correlação é
uma medida de similaridade, enquanto que
a distância euclidiana é uma medida de
dissimilaridade;
Importante: quanto maior for a medida de
similaridade maior semelhança entre os
indivíduos.
Correlações apropriadas
• Variaríeis contínuas: Coeficiente de
correlação de Pearson (linear).
• Variáveis ordinais: Coeficiente de
Spearman. (posto)
• Variáveis nominais: Coeficiente Phi.
• Variáveis contínuas: características mensuráveis que assumem
valores em uma escala contínua (na reta real), para as quais valores
fracionais fazem sentido. Usualmente devem ser medidas através de
algum instrumento. Exemplos: peso (balança), altura (régua), tempo
(relógio), pressão arterial, idade.
• Variáveis Qualitativas (ou categóricas): são as características que
não possuem valores quantitativos, mas, ao contrário, são definidas
por várias categorias, ou seja, representam uma classificação dos
indivíduos. Podem ser nominais ou ordinais.
• Variáveis nominais: não existe ordenação dentre as categorias.
Exemplos: sexo, cor dos olhos, fumante/não fumante, doente/sadio.
• Variáveis ordinais: existe uma ordenação entre as categorias.
Exemplos: escolaridade (1o, 2o, 3o graus), estágio da doença
(inicial, intermediário, terminal), mês de observação (janeiro,
fevereiro,..., dezembro).
Definição de critérios de
agrupamento dos indivíduos
De cada um dos elementos
do cluster a cada um dos
restantes objetos.
Definição de critérios de
agrupamento (clusters)
Tipos de agrupamentos
• O agrupamento dos clusters podem ser realizados
através de dois métodos: hierárquico e não
hierárquico.
• Método Hierárquicos: que obrigam ao cálculo de
uma matriz de semelhança/distâncias. Permite a
obtenção de clusters, de sujeito e variáveis.
• Método não - hierárquicos: Se aplicam diretamente
sobre os dados originais e que partem de uma
repartição inicial dos indivíduos por um número de
grupos pré-definido. Não precisa de matriz de
dissemelhança.
Método Hierárquicos são subdivididos em
dois tipos: aglomerativos e divisivos
• Aglomerativo: são os mais comuns entre os métodos
hierárquicos. Nesse tipo de método inicia-se com
cada padrão formando seu próprio agrupamento e
gradualmente os grupos são unidos até que um único
agrupamento contendo todos os dados seja gerado
(Silva, 2005).
Método Hierárquicos
• Divisivo: esse método começa com um único
agrupamento formado por todos os padrões e
gradualmente vai dividindo os agrupamentos em
agrupamentos menores até que termine com um
agrupamento padrão. Os métodos divisivos são os
menos comuns entre os métodos hierárquicos devido
a sua ineficiência e exigem uma capacidade
computacional maior (Costa,1999).
Método Hierárquicos
• Nestes métodos os indivíduos são alocados nos
grupos em diferentes etapas, de modo hierárquico, o
resultado final é uma árvore de classificação. Entre
os critérios de junção :
• Vizinho mais próximo
• Vizinho mais distante
Método do vizinho mais próximo
• Também chamado de método do
encadeamento simples “single linkage
method”.
• Neste método calcula-se a matriz de
distâncias entre os ‘n’ indivíduos da
população, em seguida os indivíduos mais
próximos são agrupados.
Método do vizinho mais distante
• Também chamado de método do
encadeamento completo “complete linkage
method”.
• Este método é o inverso do vizinho mais
próximo. Calcula-se a matriz de distâncias
entre os ‘n’ indivíduos da população, em
seguida os indivíduos mais distantes são
agrupados.
• Método: vizinho mais próximo
• Dissimilaridade: distância euclidiana
• Dendrograma
Exemplo de agrupamento
• Matriz de distância euclidiana entre os ‘n’
indivíduos da população;
• Como d15 é a menor distância em D1, os
indivíduos 1 e 5 são agrupados.
Matriz de distância D1
Ind. (n) 1 2 3 4 5
1 0 5 10 7 1
2 0 5 2 6
3 0 3 11
4 0 8
5 0
• Distância euclidiana entre d15 e os demais
indivíduos da população ;
• O menor valor em D2 é D(2,4)=2, então os
indivíduos 2 e 4 são agrupados.
Matriz de distância D2
(15) 2 3 4
(15) 0 5 10 7
2 0 5 2
3 0 3
4 0
• Distância euclidiana entre d24 e os demais
indivíduos da população ;
• O menor valor em D3 é D(2,4)3 = 3, então
o indivíduo 3 é incluído no grupo de 2 e 4.
Matriz de distância D3
Ind. (15) (24) 3
(15) 0 5 10
(24) 0 3
3 0
• Distância euclidiana entre (234) e (15) ;
• O grupo (234) é incluído no grupo (15),
formando assim um único grupo. Fim do
agrupamento.
Matriz de distância D4
(15) (234)
(15) 0 5
(234) 0
• Tabela resumindo passos, grupos e
distâncias entre grupos.
Resumo do método do vizinho mais
próximo
PASSO GRUPOS DISTÂNCIA
1 1,5 1
2 2,4 2
3 24,3 3
4 15,234 5
Número de grupos
• Grupos constituem uma proposição sobre a
organização básica e desconhecida dos
dados;
• Os algoritmos de agrupamento não
apresentam solução para determinação do
número ideal de grupos;
• Uma maneira de determinar o número de
grupos é pelo exame do dendrograma.
Exame do dendrograma
• O dendrograma é um gráfico em forma de
árvore onde podemos observar alterações dos
níveis de similaridade para as sucessivas
etapas do agrupamento;
• O eixo vertical nível de similaridade;
• Eixo horizontal indivíduos;
• As linhas verticais partindo dos indivíduos
agrupados tem altura correspondente ao nível
que os indivíduos são considerados
semelhantes.
Exame do dendrograma
• No exemplo apresentado podemos observar
que o maior nível ocorreu na última etapa,
sugerindo a existência de dois grupos
homogêneos: (1,5) e (2,3,4).
Ajuste do agrupamento
• Devido a inexistência de um método para
selecionar a melhor técnica de agrupamento, é
importante avaliar o grau de ajuste do
agrupamento;
• Coeficiente de correlação cofenética (ccc),
proposto por Sokal & Rohlf (1962);
• Quanto maior ccc melhor agrupamento;
• ccc menor que 0,7 indica inadequação do
método de agrupamento (Rohlf, 1970).
• Mede o grau de ajuste entre a matriz de
dissimilaridade (matriz fenética F ou D1) e a matriz
resultante da simplificação devido ao método de
agrupamento (matriz cofenética C).
𝑐𝑐𝑐 =
𝐶𝑜𝑣 𝐹, 𝐶
𝑉 𝐹 ∙ 𝑉 𝐶
Quando ccc > 0,7 concluímos que o método de
agrupamento foi adequado.
Coeficiente de correlação
cofenética, ccc
• Sarle and Kuo (1993) teste de aproximação não
paramétrica para o número de grupos está
implementado no procedimento MODECLUS.
• Algumas vantagens do método:
1. Não pressupõe nenhuma distribuição ;
2. Robusto o suficiente para ser aplicado em
situações práticas;
3. Os dados podem ser vetor de características ou
distâncias.
Número de Grupos
Algoritmos de Análise de Agrupamentos:
• Os dois principais algoritmos de otimização
dos Métodos Hierárquicos são: AGNES e o
DIANA.
AGNES
• O AGNES (AGglomerative NESting), é um
algoritmo baseado no método hierárquico
aglomerativo, ou seja, no início cada objeto
forma um agrupamento e a cada nova
interação os agrupamentos mais próximos
são unidos, formando um só, de acordo com
um critério pré-estabelecido.
AGNES
• Entre os critérios de junção é possível citar
o que une os agrupamentos de acordo com a
média da dissimilaridade (average linkage)
entre os pontos de um agrupamento e outro,
o método do vizinho mais próximo (single
linkage) que usa a menor distância entre os
dois agrupamentos e o método do vizinho
mais longe (complete linkage) que usa a
maior distância entre os dois agrupamentos.
AGNES
• Comparado a outros algoritmos
aglomerativos, o AGNES apresenta as duas
vantagens: (1) utiliza um coeficiente que
mede a quantia de estruturas de
agrupamentos descobertas, que procura
minimizar as buscas e (2) a partir da árvore
gráfica usualmente usada para representá-lo
é possível prover novas representações.
DIANA
• O DIANA (DIvisive ANAlysis) é um
algoritmo hierárquico divisivo, ou seja, no
início todos os objetos estão no mesmo
agrupamento. A cada interação o
agrupamento é divido em outros dois, de
acordo com um critério pré-definido (os
mesmos do AGNES), até que cada
agrupamento contenha apenas uma
observação.
DIANA
• A escolha de qual agrupamento dividir se dá a cada
etapa do processo, sendo selecionado sempre o
agrupamento que tiver o maior diâmetro (maior
dissimilaridade entre qualquer duas de suas
observações). Para dividir o agrupamento selecionado,
o algoritmo primeiro procura pela observação mais
dissimilar dentro do grupo, esta observação será o
primeiro elemento do novo agrupamento. A seguir, ele
reagrupa as observações que porventura estejam mais
próximas do novo grupo do que do grupo original. O
resultado do processo é a divisão em dois novos
grupos.
Fases da análise de agrupamento
Fonte: Branco/Instituto Superior Técnico
Vamos Praticar?...

Mais conteúdo relacionado

Mais procurados

Aula 6 - Assimetria e Curtose(1).pdf
Aula 6 - Assimetria e Curtose(1).pdfAula 6 - Assimetria e Curtose(1).pdf
Aula 6 - Assimetria e Curtose(1).pdfCandidoCole
 
Introdução à Regressão Linear Simples e Múltipla
Introdução à Regressão Linear Simples e MúltiplaIntrodução à Regressão Linear Simples e Múltipla
Introdução à Regressão Linear Simples e MúltiplaCélia M. D. Sales
 
Análise multivariada aplicada à pesquisa
Análise multivariada aplicada à pesquisaAnálise multivariada aplicada à pesquisa
Análise multivariada aplicada à pesquisaCarlos Moura
 
Estatística e Probabilidade 8 - Medidas de Assimetria e Boxplot
Estatística e Probabilidade 8 - Medidas de Assimetria e BoxplotEstatística e Probabilidade 8 - Medidas de Assimetria e Boxplot
Estatística e Probabilidade 8 - Medidas de Assimetria e BoxplotRanilson Paiva
 
Introdução à Análise Estatística Multivariada
Introdução à Análise Estatística MultivariadaIntrodução à Análise Estatística Multivariada
Introdução à Análise Estatística MultivariadaCélia M. D. Sales
 
Questões de provas e simulados probabilidade e estatística junho 2014
Questões de provas e simulados probabilidade e estatística junho 2014Questões de provas e simulados probabilidade e estatística junho 2014
Questões de provas e simulados probabilidade e estatística junho 2014Nina Silva
 
Exemplo de cálculo média,moda e mediana com distribuição frequencia
Exemplo de cálculo média,moda e mediana com distribuição frequenciaExemplo de cálculo média,moda e mediana com distribuição frequencia
Exemplo de cálculo média,moda e mediana com distribuição frequenciaRenato Ribeiro Soares
 
Aula 10 coeficientes de variabilidade e assimetria
Aula 10   coeficientes de variabilidade e assimetriaAula 10   coeficientes de variabilidade e assimetria
Aula 10 coeficientes de variabilidade e assimetriaEnio José Bolognini
 
Módulo4 regressao no spss
Módulo4 regressao no spssMódulo4 regressao no spss
Módulo4 regressao no spssBruna Ventorim
 

Mais procurados (20)

Aula1 estatistica
Aula1 estatisticaAula1 estatistica
Aula1 estatistica
 
Aula 6 - Assimetria e Curtose(1).pdf
Aula 6 - Assimetria e Curtose(1).pdfAula 6 - Assimetria e Curtose(1).pdf
Aula 6 - Assimetria e Curtose(1).pdf
 
Anova spss
Anova spssAnova spss
Anova spss
 
Introdução à Regressão Linear Simples e Múltipla
Introdução à Regressão Linear Simples e MúltiplaIntrodução à Regressão Linear Simples e Múltipla
Introdução à Regressão Linear Simples e Múltipla
 
Aula 17 medidas separatrizes
Aula 17   medidas separatrizesAula 17   medidas separatrizes
Aula 17 medidas separatrizes
 
Análise de regressão linear
Análise de regressão linearAnálise de regressão linear
Análise de regressão linear
 
Amostragem - estatistica
Amostragem - estatisticaAmostragem - estatistica
Amostragem - estatistica
 
Análise exploratória de dados no SPSS
Análise exploratória de dados no SPSSAnálise exploratória de dados no SPSS
Análise exploratória de dados no SPSS
 
Análise multivariada aplicada à pesquisa
Análise multivariada aplicada à pesquisaAnálise multivariada aplicada à pesquisa
Análise multivariada aplicada à pesquisa
 
Correlação Estatística
Correlação EstatísticaCorrelação Estatística
Correlação Estatística
 
Estatística Descritiva
Estatística DescritivaEstatística Descritiva
Estatística Descritiva
 
Estatística e Probabilidade 8 - Medidas de Assimetria e Boxplot
Estatística e Probabilidade 8 - Medidas de Assimetria e BoxplotEstatística e Probabilidade 8 - Medidas de Assimetria e Boxplot
Estatística e Probabilidade 8 - Medidas de Assimetria e Boxplot
 
Distribuição normal
Distribuição normalDistribuição normal
Distribuição normal
 
Regressao linear multipla
Regressao linear multiplaRegressao linear multipla
Regressao linear multipla
 
Introdução à Análise Estatística Multivariada
Introdução à Análise Estatística MultivariadaIntrodução à Análise Estatística Multivariada
Introdução à Análise Estatística Multivariada
 
Estatistica Basica para Saude aula 2
Estatistica Basica para Saude aula 2Estatistica Basica para Saude aula 2
Estatistica Basica para Saude aula 2
 
Questões de provas e simulados probabilidade e estatística junho 2014
Questões de provas e simulados probabilidade e estatística junho 2014Questões de provas e simulados probabilidade e estatística junho 2014
Questões de provas e simulados probabilidade e estatística junho 2014
 
Exemplo de cálculo média,moda e mediana com distribuição frequencia
Exemplo de cálculo média,moda e mediana com distribuição frequenciaExemplo de cálculo média,moda e mediana com distribuição frequencia
Exemplo de cálculo média,moda e mediana com distribuição frequencia
 
Aula 10 coeficientes de variabilidade e assimetria
Aula 10   coeficientes de variabilidade e assimetriaAula 10   coeficientes de variabilidade e assimetria
Aula 10 coeficientes de variabilidade e assimetria
 
Módulo4 regressao no spss
Módulo4 regressao no spssMódulo4 regressao no spss
Módulo4 regressao no spss
 

Semelhante a Analise de clusters

Sessao 6.pdf para aproveitametno em sessões
Sessao 6.pdf para aproveitametno em sessõesSessao 6.pdf para aproveitametno em sessões
Sessao 6.pdf para aproveitametno em sessõesJoaquimOliveiraBapti1
 
Análise de Agrupamentos e Regionalização
Análise de Agrupamentos e RegionalizaçãoAnálise de Agrupamentos e Regionalização
Análise de Agrupamentos e RegionalizaçãoVitor Vieira Vasconcelos
 
Análise de agrupamentos e regionalização - Prática no Geoda
Análise de agrupamentos e regionalização - Prática no GeodaAnálise de agrupamentos e regionalização - Prática no Geoda
Análise de agrupamentos e regionalização - Prática no GeodaVitor Vieira Vasconcelos
 
Aula 6 análise de conglomerados
Aula 6  análise de conglomeradosAula 6  análise de conglomerados
Aula 6 análise de conglomeradosRodrigo Rodrigues
 
Data Mining - Clustering
Data Mining - ClusteringData Mining - Clustering
Data Mining - Clusteringiaudesc
 
Aula_6_Análise__de_Correspondência_-_CA.pdf
Aula_6_Análise__de_Correspondência_-_CA.pdfAula_6_Análise__de_Correspondência_-_CA.pdf
Aula_6_Análise__de_Correspondência_-_CA.pdfStefanSudono
 
Agrupamento de sequências biológicas
Agrupamento de sequências biológicasAgrupamento de sequências biológicas
Agrupamento de sequências biológicasMarcos Castro
 
Estatística completa
Estatística completaEstatística completa
Estatística completaRonne Seles
 
Análise de Clusters - White Paper ELOGroup
Análise de Clusters - White Paper ELOGroupAnálise de Clusters - White Paper ELOGroup
Análise de Clusters - White Paper ELOGroupEloGroup
 
Apresentar dados na forma de distribuição de frequências
Apresentar dados na forma de distribuição de frequênciasApresentar dados na forma de distribuição de frequências
Apresentar dados na forma de distribuição de frequênciasdean dundas
 
Apresentar dados na forma de distribuição de frequências
Apresentar dados na forma de distribuição de frequênciasApresentar dados na forma de distribuição de frequências
Apresentar dados na forma de distribuição de frequênciasdean dundas
 
Probabilidade e Estatística - Aula 03
Probabilidade e Estatística - Aula 03Probabilidade e Estatística - Aula 03
Probabilidade e Estatística - Aula 03Augusto Junior
 
Análises agrupamento e dissimilaridade no Genes
Análises agrupamento e dissimilaridade no GenesAnálises agrupamento e dissimilaridade no Genes
Análises agrupamento e dissimilaridade no GenesCristiano Lemes da Silva
 
Raciocinio logico.pptx
Raciocinio logico.pptxRaciocinio logico.pptx
Raciocinio logico.pptxIagoBernard1
 

Semelhante a Analise de clusters (20)

Sessao 6.pdf para aproveitametno em sessões
Sessao 6.pdf para aproveitametno em sessõesSessao 6.pdf para aproveitametno em sessões
Sessao 6.pdf para aproveitametno em sessões
 
Análise de Agrupamentos e Regionalização
Análise de Agrupamentos e RegionalizaçãoAnálise de Agrupamentos e Regionalização
Análise de Agrupamentos e Regionalização
 
Análise de agrupamentos e regionalização - Prática no Geoda
Análise de agrupamentos e regionalização - Prática no GeodaAnálise de agrupamentos e regionalização - Prática no Geoda
Análise de agrupamentos e regionalização - Prática no Geoda
 
Aula 6 análise de conglomerados
Aula 6  análise de conglomeradosAula 6  análise de conglomerados
Aula 6 análise de conglomerados
 
Data Mining - Clustering
Data Mining - ClusteringData Mining - Clustering
Data Mining - Clustering
 
MetQuantI_Aula1 (1).pptx
MetQuantI_Aula1 (1).pptxMetQuantI_Aula1 (1).pptx
MetQuantI_Aula1 (1).pptx
 
Aula_6_Análise__de_Correspondência_-_CA.pdf
Aula_6_Análise__de_Correspondência_-_CA.pdfAula_6_Análise__de_Correspondência_-_CA.pdf
Aula_6_Análise__de_Correspondência_-_CA.pdf
 
Estatistica1
Estatistica1Estatistica1
Estatistica1
 
Análise de agrupamentos
Análise de agrupamentosAnálise de agrupamentos
Análise de agrupamentos
 
Agrupamento de sequências biológicas
Agrupamento de sequências biológicasAgrupamento de sequências biológicas
Agrupamento de sequências biológicas
 
Apostila estatistica-ufmg
Apostila estatistica-ufmgApostila estatistica-ufmg
Apostila estatistica-ufmg
 
Bioestatística
BioestatísticaBioestatística
Bioestatística
 
Estatística completa
Estatística completaEstatística completa
Estatística completa
 
Análise de Clusters - White Paper ELOGroup
Análise de Clusters - White Paper ELOGroupAnálise de Clusters - White Paper ELOGroup
Análise de Clusters - White Paper ELOGroup
 
Apresentar dados
Apresentar dadosApresentar dados
Apresentar dados
 
Apresentar dados na forma de distribuição de frequências
Apresentar dados na forma de distribuição de frequênciasApresentar dados na forma de distribuição de frequências
Apresentar dados na forma de distribuição de frequências
 
Apresentar dados na forma de distribuição de frequências
Apresentar dados na forma de distribuição de frequênciasApresentar dados na forma de distribuição de frequências
Apresentar dados na forma de distribuição de frequências
 
Probabilidade e Estatística - Aula 03
Probabilidade e Estatística - Aula 03Probabilidade e Estatística - Aula 03
Probabilidade e Estatística - Aula 03
 
Análises agrupamento e dissimilaridade no Genes
Análises agrupamento e dissimilaridade no GenesAnálises agrupamento e dissimilaridade no Genes
Análises agrupamento e dissimilaridade no Genes
 
Raciocinio logico.pptx
Raciocinio logico.pptxRaciocinio logico.pptx
Raciocinio logico.pptx
 

Último

PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: LEITURA DE IMAGENS, GRÁFICOS E MA...
PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: LEITURA DE IMAGENS, GRÁFICOS E MA...PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: LEITURA DE IMAGENS, GRÁFICOS E MA...
PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: LEITURA DE IMAGENS, GRÁFICOS E MA...azulassessoria9
 
Slide língua portuguesa português 8 ano.pptx
Slide língua portuguesa português 8 ano.pptxSlide língua portuguesa português 8 ano.pptx
Slide língua portuguesa português 8 ano.pptxssuserf54fa01
 
Considere a seguinte situação fictícia: Durante uma reunião de equipe em uma...
Considere a seguinte situação fictícia:  Durante uma reunião de equipe em uma...Considere a seguinte situação fictícia:  Durante uma reunião de equipe em uma...
Considere a seguinte situação fictícia: Durante uma reunião de equipe em uma...azulassessoria9
 
o ciclo do contato Jorge Ponciano Ribeiro.pdf
o ciclo do contato Jorge Ponciano Ribeiro.pdfo ciclo do contato Jorge Ponciano Ribeiro.pdf
o ciclo do contato Jorge Ponciano Ribeiro.pdfCamillaBrito19
 
Dicionário de Genealogia, autor Gilber Rubim Rangel
Dicionário de Genealogia, autor Gilber Rubim RangelDicionário de Genealogia, autor Gilber Rubim Rangel
Dicionário de Genealogia, autor Gilber Rubim RangelGilber Rubim Rangel
 
PROGRAMA DE AÇÃO 2024 - MARIANA DA SILVA MORAES.pdf
PROGRAMA DE AÇÃO 2024 - MARIANA DA SILVA MORAES.pdfPROGRAMA DE AÇÃO 2024 - MARIANA DA SILVA MORAES.pdf
PROGRAMA DE AÇÃO 2024 - MARIANA DA SILVA MORAES.pdfMarianaMoraesMathias
 
"É melhor praticar para a nota" - Como avaliar comportamentos em contextos de...
"É melhor praticar para a nota" - Como avaliar comportamentos em contextos de..."É melhor praticar para a nota" - Como avaliar comportamentos em contextos de...
"É melhor praticar para a nota" - Como avaliar comportamentos em contextos de...Rosalina Simão Nunes
 
CRUZADINHA - Leitura e escrita dos números
CRUZADINHA   -   Leitura e escrita dos números CRUZADINHA   -   Leitura e escrita dos números
CRUZADINHA - Leitura e escrita dos números Mary Alvarenga
 
CRÔNICAS DE UMA TURMA - TURMA DE 9ºANO - EASB
CRÔNICAS DE UMA TURMA - TURMA DE 9ºANO - EASBCRÔNICAS DE UMA TURMA - TURMA DE 9ºANO - EASB
CRÔNICAS DE UMA TURMA - TURMA DE 9ºANO - EASBAline Santana
 
RedacoesComentadasModeloAnalisarFazer.pdf
RedacoesComentadasModeloAnalisarFazer.pdfRedacoesComentadasModeloAnalisarFazer.pdf
RedacoesComentadasModeloAnalisarFazer.pdfAlissonMiranda22
 
AD2 DIDÁTICA.KARINEROZA.SHAYANNE.BINC.ROBERTA.pptx
AD2 DIDÁTICA.KARINEROZA.SHAYANNE.BINC.ROBERTA.pptxAD2 DIDÁTICA.KARINEROZA.SHAYANNE.BINC.ROBERTA.pptx
AD2 DIDÁTICA.KARINEROZA.SHAYANNE.BINC.ROBERTA.pptxkarinedarozabatista
 
Noções de Farmacologia - Flávia Soares.pdf
Noções de Farmacologia - Flávia Soares.pdfNoções de Farmacologia - Flávia Soares.pdf
Noções de Farmacologia - Flávia Soares.pdflucassilva721057
 
Rotas Transaarianas como o desrto prouz riqueza
Rotas Transaarianas como o desrto prouz riquezaRotas Transaarianas como o desrto prouz riqueza
Rotas Transaarianas como o desrto prouz riquezaronaldojacademico
 
Atividades sobre Coordenadas Geográficas
Atividades sobre Coordenadas GeográficasAtividades sobre Coordenadas Geográficas
Atividades sobre Coordenadas Geográficasprofcamilamanz
 
11oC_-_Mural_de_Portugues_4m35.pptxTrabalho do Ensino Profissional turma do 1...
11oC_-_Mural_de_Portugues_4m35.pptxTrabalho do Ensino Profissional turma do 1...11oC_-_Mural_de_Portugues_4m35.pptxTrabalho do Ensino Profissional turma do 1...
11oC_-_Mural_de_Portugues_4m35.pptxTrabalho do Ensino Profissional turma do 1...licinioBorges
 
PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: COMUNICAÇÃO ASSERTIVA E INTERPESS...
PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: COMUNICAÇÃO ASSERTIVA E INTERPESS...PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: COMUNICAÇÃO ASSERTIVA E INTERPESS...
PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: COMUNICAÇÃO ASSERTIVA E INTERPESS...azulassessoria9
 
Manual da CPSA_1_Agir com Autonomia para envio
Manual da CPSA_1_Agir com Autonomia para envioManual da CPSA_1_Agir com Autonomia para envio
Manual da CPSA_1_Agir com Autonomia para envioManuais Formação
 
GÊNERO TEXTUAL - TIRINHAS - Charges - Cartum
GÊNERO TEXTUAL - TIRINHAS - Charges - CartumGÊNERO TEXTUAL - TIRINHAS - Charges - Cartum
GÊNERO TEXTUAL - TIRINHAS - Charges - CartumAugusto Costa
 
PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: LEITURA DE IMAGENS, GRÁFICOS E MA...
PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: LEITURA DE IMAGENS, GRÁFICOS E MA...PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: LEITURA DE IMAGENS, GRÁFICOS E MA...
PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: LEITURA DE IMAGENS, GRÁFICOS E MA...azulassessoria9
 
COMPETÊNCIA 1 DA REDAÇÃO DO ENEM - REDAÇÃO ENEM
COMPETÊNCIA 1 DA REDAÇÃO DO ENEM - REDAÇÃO ENEMCOMPETÊNCIA 1 DA REDAÇÃO DO ENEM - REDAÇÃO ENEM
COMPETÊNCIA 1 DA REDAÇÃO DO ENEM - REDAÇÃO ENEMVanessaCavalcante37
 

Último (20)

PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: LEITURA DE IMAGENS, GRÁFICOS E MA...
PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: LEITURA DE IMAGENS, GRÁFICOS E MA...PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: LEITURA DE IMAGENS, GRÁFICOS E MA...
PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: LEITURA DE IMAGENS, GRÁFICOS E MA...
 
Slide língua portuguesa português 8 ano.pptx
Slide língua portuguesa português 8 ano.pptxSlide língua portuguesa português 8 ano.pptx
Slide língua portuguesa português 8 ano.pptx
 
Considere a seguinte situação fictícia: Durante uma reunião de equipe em uma...
Considere a seguinte situação fictícia:  Durante uma reunião de equipe em uma...Considere a seguinte situação fictícia:  Durante uma reunião de equipe em uma...
Considere a seguinte situação fictícia: Durante uma reunião de equipe em uma...
 
o ciclo do contato Jorge Ponciano Ribeiro.pdf
o ciclo do contato Jorge Ponciano Ribeiro.pdfo ciclo do contato Jorge Ponciano Ribeiro.pdf
o ciclo do contato Jorge Ponciano Ribeiro.pdf
 
Dicionário de Genealogia, autor Gilber Rubim Rangel
Dicionário de Genealogia, autor Gilber Rubim RangelDicionário de Genealogia, autor Gilber Rubim Rangel
Dicionário de Genealogia, autor Gilber Rubim Rangel
 
PROGRAMA DE AÇÃO 2024 - MARIANA DA SILVA MORAES.pdf
PROGRAMA DE AÇÃO 2024 - MARIANA DA SILVA MORAES.pdfPROGRAMA DE AÇÃO 2024 - MARIANA DA SILVA MORAES.pdf
PROGRAMA DE AÇÃO 2024 - MARIANA DA SILVA MORAES.pdf
 
"É melhor praticar para a nota" - Como avaliar comportamentos em contextos de...
"É melhor praticar para a nota" - Como avaliar comportamentos em contextos de..."É melhor praticar para a nota" - Como avaliar comportamentos em contextos de...
"É melhor praticar para a nota" - Como avaliar comportamentos em contextos de...
 
CRUZADINHA - Leitura e escrita dos números
CRUZADINHA   -   Leitura e escrita dos números CRUZADINHA   -   Leitura e escrita dos números
CRUZADINHA - Leitura e escrita dos números
 
CRÔNICAS DE UMA TURMA - TURMA DE 9ºANO - EASB
CRÔNICAS DE UMA TURMA - TURMA DE 9ºANO - EASBCRÔNICAS DE UMA TURMA - TURMA DE 9ºANO - EASB
CRÔNICAS DE UMA TURMA - TURMA DE 9ºANO - EASB
 
RedacoesComentadasModeloAnalisarFazer.pdf
RedacoesComentadasModeloAnalisarFazer.pdfRedacoesComentadasModeloAnalisarFazer.pdf
RedacoesComentadasModeloAnalisarFazer.pdf
 
AD2 DIDÁTICA.KARINEROZA.SHAYANNE.BINC.ROBERTA.pptx
AD2 DIDÁTICA.KARINEROZA.SHAYANNE.BINC.ROBERTA.pptxAD2 DIDÁTICA.KARINEROZA.SHAYANNE.BINC.ROBERTA.pptx
AD2 DIDÁTICA.KARINEROZA.SHAYANNE.BINC.ROBERTA.pptx
 
Noções de Farmacologia - Flávia Soares.pdf
Noções de Farmacologia - Flávia Soares.pdfNoções de Farmacologia - Flávia Soares.pdf
Noções de Farmacologia - Flávia Soares.pdf
 
Rotas Transaarianas como o desrto prouz riqueza
Rotas Transaarianas como o desrto prouz riquezaRotas Transaarianas como o desrto prouz riqueza
Rotas Transaarianas como o desrto prouz riqueza
 
Atividades sobre Coordenadas Geográficas
Atividades sobre Coordenadas GeográficasAtividades sobre Coordenadas Geográficas
Atividades sobre Coordenadas Geográficas
 
11oC_-_Mural_de_Portugues_4m35.pptxTrabalho do Ensino Profissional turma do 1...
11oC_-_Mural_de_Portugues_4m35.pptxTrabalho do Ensino Profissional turma do 1...11oC_-_Mural_de_Portugues_4m35.pptxTrabalho do Ensino Profissional turma do 1...
11oC_-_Mural_de_Portugues_4m35.pptxTrabalho do Ensino Profissional turma do 1...
 
PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: COMUNICAÇÃO ASSERTIVA E INTERPESS...
PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: COMUNICAÇÃO ASSERTIVA E INTERPESS...PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: COMUNICAÇÃO ASSERTIVA E INTERPESS...
PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: COMUNICAÇÃO ASSERTIVA E INTERPESS...
 
Manual da CPSA_1_Agir com Autonomia para envio
Manual da CPSA_1_Agir com Autonomia para envioManual da CPSA_1_Agir com Autonomia para envio
Manual da CPSA_1_Agir com Autonomia para envio
 
GÊNERO TEXTUAL - TIRINHAS - Charges - Cartum
GÊNERO TEXTUAL - TIRINHAS - Charges - CartumGÊNERO TEXTUAL - TIRINHAS - Charges - Cartum
GÊNERO TEXTUAL - TIRINHAS - Charges - Cartum
 
PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: LEITURA DE IMAGENS, GRÁFICOS E MA...
PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: LEITURA DE IMAGENS, GRÁFICOS E MA...PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: LEITURA DE IMAGENS, GRÁFICOS E MA...
PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: LEITURA DE IMAGENS, GRÁFICOS E MA...
 
COMPETÊNCIA 1 DA REDAÇÃO DO ENEM - REDAÇÃO ENEM
COMPETÊNCIA 1 DA REDAÇÃO DO ENEM - REDAÇÃO ENEMCOMPETÊNCIA 1 DA REDAÇÃO DO ENEM - REDAÇÃO ENEM
COMPETÊNCIA 1 DA REDAÇÃO DO ENEM - REDAÇÃO ENEM
 

Analise de clusters

  • 1. Análise de Clusters Mr. Kleverton Saath
  • 2. O que a análise permite? • Avaliar o tamanho da matriz de dados • Identificar outliers multivariados • Levar hipóteses relativas a relações estruturais entre variáveis.
  • 3. Introdução • Análise de agrupamento ou Cluster analysis: é uma técnica exploratória de análise multi-variada de dados que permite classificar um conjunto de categorias em grupos homogéneos, observando apenas as similaridades ou dissimilaridades entre elas.
  • 4. Introdução • Sequência de regras (algoritmo) para agrupar objetos sem inferência de probabilidade a priori dos grupos. • Não é necessário informações a priori sobre a composição dos grupos. • Dado um conjunto de ‘n’ unidades amostrais, os quais são medidos segundo ‘p’ variáveis, obter um algoritmo que possibilite reunir os indivíduos, tal que exista homogeneidade dentro do grupo e heterogeneidade entre grupos (Regazzi, 2000).
  • 5. Como medimos as similaridades e as dissimilaridade? • MEDIDAS DE DISSIMILARIDADE  Distância euclidiana  Distância euclidiana média  Distância de Mahalanobis  A maioria dos algoritmos de análise de agrupamento têm como base estas medidas de dissimilaridade; Importante: Quanto maior for a medida de dissimilaridade menor será a semelhança entre os indivíduos.
  • 6. Nota • É recomendável a padronização das variáveis antes de se obter o valor da distância euclidiana, devido que normalmente todos os dados não estão no mesmo padrão de medidas. 𝑍𝑖𝑗 = 𝑋𝑖𝑗− 𝑋𝑗 𝑆𝑗 , 𝑍𝑖𝑗 ~ 0 , 1𝑗 𝑜𝑢 𝑍𝑖𝑗 = 𝑋𝑖𝑗 𝑆 𝑋𝑗 , 𝑍𝑖𝑗~ 𝑍𝑗 , 1
  • 7. Distância euclidiana • É a distância entre dois pontos, que pode ser provada pela aplicação repetida do teorema de Pitágoras. • A Função da distância euclidiana de pq: • Onde p e q são os pontos na reta.
  • 8. Distância euclidiana • De forma matricial temos: 𝑑 𝑎𝑏 = 𝑋 𝑎𝑗 − 𝑋 𝑏𝑗 2 𝑝 𝑗=1 1 2 𝑝 = 1,2, ⋯ , 𝑗; 𝑋 𝑎𝑗 = 𝑣𝑎𝑙𝑜𝑟 𝑑𝑎 𝑣𝑎𝑣𝑖á𝑣𝑒𝑙 𝑗 𝑝𝑎𝑟𝑎 𝑜 𝑖𝑛𝑑𝑖𝑣í𝑑𝑢𝑜 𝑎; 𝑋 𝑏𝑗 = 𝑣𝑎𝑙𝑜𝑟 𝑑𝑎 𝑣𝑎𝑟𝑖á𝑣𝑒𝑙 𝑗 𝑝𝑎𝑟𝑎 𝑜 𝑖𝑛𝑑𝑖𝑣í𝑑𝑢𝑜 𝑏.
  • 9. Distância euclidiana média • A distância euclidiana cresce à medida que cresce o número de variáveis. Uma maneira de eliminar o efeito do número de variáveis é dividir o valor da distância euclidiana pela raiz quadrada do número de variáveis. 𝑑 𝑎𝑏 = 1 𝑝 ∙ 𝑑 𝑎𝑏 𝑑 𝑎𝑏 = 𝑑𝑖𝑠𝑡â𝑛𝑐𝑖𝑎 𝑒𝑢𝑐𝑙𝑖𝑑𝑖𝑎𝑛𝑎 𝑚é𝑑𝑖𝑎 𝑒𝑛𝑡𝑟𝑒 𝑎 𝑒 𝑏; 𝑝 = 𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑣𝑎𝑟𝑖á𝑣𝑒𝑖𝑠; 𝑑 𝑎𝑏 = 𝑑𝑖𝑠𝑡â𝑛𝑐𝑖𝑎 𝑒𝑢𝑐𝑙𝑖𝑑𝑖𝑎𝑛𝑎 𝑒𝑛𝑡𝑟𝑒 𝑎 𝑒 𝑏.
  • 10. Distância de Mahalanobis • A distância de Mahalanobis entre os indivíduos a e b é dada por: 𝐷 𝑎𝑏 2 = 𝑋 𝑎 − 𝑋 𝑏 ′ ∙ 𝑆−1 ∙ 𝑋 𝑎 − 𝑋 𝑏 em que, 𝐷 𝑎𝑏 2 é 𝑎 𝑑𝑖𝑠𝑡â𝑛𝑐𝑖𝑎 𝑑𝑒 𝑚𝑎ℎ𝑎𝑙𝑎𝑛𝑜𝑏𝑖𝑠 𝑒𝑛𝑡𝑟𝑒 𝑜𝑠 𝑖𝑛𝑑𝑖𝑣í𝑑𝑢𝑜𝑠 𝑎 𝑒 𝑏; 𝑋 𝑎 = 𝑣𝑒𝑡𝑜𝑟 𝑑𝑒 𝑐𝑎𝑟𝑎𝑐𝑡𝑒𝑟í𝑠𝑡𝑖𝑐𝑎𝑠 𝑑𝑜 𝑖𝑛𝑑𝑖𝑣í𝑑𝑢𝑜 𝑎; 𝑋 𝑏 = 𝑣𝑒𝑡𝑜𝑟 𝑑𝑒 𝑐𝑎𝑟𝑎𝑐𝑡𝑒𝑟í𝑠𝑡𝑖𝑐𝑎𝑠 𝑑𝑜 𝑖𝑛𝑑𝑖𝑣í𝑑𝑢𝑜 𝑏; 𝑆 = 𝑚𝑎𝑡𝑟𝑖𝑧 𝑑𝑒 𝑣𝑎𝑟𝑖â𝑛𝑐𝑖𝑎 𝑎𝑚𝑜𝑠𝑡𝑟𝑎𝑙 𝑑𝑎 𝑝𝑜𝑝𝑢𝑙𝑎çã𝑜.
  • 11. MEDIDAS DE SIMILARIDADE • As variáveis são agrupadas de acordo com as medidas de correlação ou associação apropriadas. O coeficiente de correlação é uma medida de similaridade, enquanto que a distância euclidiana é uma medida de dissimilaridade; Importante: quanto maior for a medida de similaridade maior semelhança entre os indivíduos.
  • 12. Correlações apropriadas • Variaríeis contínuas: Coeficiente de correlação de Pearson (linear). • Variáveis ordinais: Coeficiente de Spearman. (posto) • Variáveis nominais: Coeficiente Phi.
  • 13. • Variáveis contínuas: características mensuráveis que assumem valores em uma escala contínua (na reta real), para as quais valores fracionais fazem sentido. Usualmente devem ser medidas através de algum instrumento. Exemplos: peso (balança), altura (régua), tempo (relógio), pressão arterial, idade. • Variáveis Qualitativas (ou categóricas): são as características que não possuem valores quantitativos, mas, ao contrário, são definidas por várias categorias, ou seja, representam uma classificação dos indivíduos. Podem ser nominais ou ordinais. • Variáveis nominais: não existe ordenação dentre as categorias. Exemplos: sexo, cor dos olhos, fumante/não fumante, doente/sadio. • Variáveis ordinais: existe uma ordenação entre as categorias. Exemplos: escolaridade (1o, 2o, 3o graus), estágio da doença (inicial, intermediário, terminal), mês de observação (janeiro, fevereiro,..., dezembro).
  • 14. Definição de critérios de agrupamento dos indivíduos De cada um dos elementos do cluster a cada um dos restantes objetos.
  • 15. Definição de critérios de agrupamento (clusters)
  • 16. Tipos de agrupamentos • O agrupamento dos clusters podem ser realizados através de dois métodos: hierárquico e não hierárquico. • Método Hierárquicos: que obrigam ao cálculo de uma matriz de semelhança/distâncias. Permite a obtenção de clusters, de sujeito e variáveis. • Método não - hierárquicos: Se aplicam diretamente sobre os dados originais e que partem de uma repartição inicial dos indivíduos por um número de grupos pré-definido. Não precisa de matriz de dissemelhança.
  • 17. Método Hierárquicos são subdivididos em dois tipos: aglomerativos e divisivos • Aglomerativo: são os mais comuns entre os métodos hierárquicos. Nesse tipo de método inicia-se com cada padrão formando seu próprio agrupamento e gradualmente os grupos são unidos até que um único agrupamento contendo todos os dados seja gerado (Silva, 2005).
  • 18. Método Hierárquicos • Divisivo: esse método começa com um único agrupamento formado por todos os padrões e gradualmente vai dividindo os agrupamentos em agrupamentos menores até que termine com um agrupamento padrão. Os métodos divisivos são os menos comuns entre os métodos hierárquicos devido a sua ineficiência e exigem uma capacidade computacional maior (Costa,1999).
  • 19. Método Hierárquicos • Nestes métodos os indivíduos são alocados nos grupos em diferentes etapas, de modo hierárquico, o resultado final é uma árvore de classificação. Entre os critérios de junção : • Vizinho mais próximo • Vizinho mais distante
  • 20. Método do vizinho mais próximo • Também chamado de método do encadeamento simples “single linkage method”. • Neste método calcula-se a matriz de distâncias entre os ‘n’ indivíduos da população, em seguida os indivíduos mais próximos são agrupados.
  • 21. Método do vizinho mais distante • Também chamado de método do encadeamento completo “complete linkage method”. • Este método é o inverso do vizinho mais próximo. Calcula-se a matriz de distâncias entre os ‘n’ indivíduos da população, em seguida os indivíduos mais distantes são agrupados.
  • 22. • Método: vizinho mais próximo • Dissimilaridade: distância euclidiana • Dendrograma Exemplo de agrupamento
  • 23. • Matriz de distância euclidiana entre os ‘n’ indivíduos da população; • Como d15 é a menor distância em D1, os indivíduos 1 e 5 são agrupados. Matriz de distância D1 Ind. (n) 1 2 3 4 5 1 0 5 10 7 1 2 0 5 2 6 3 0 3 11 4 0 8 5 0
  • 24. • Distância euclidiana entre d15 e os demais indivíduos da população ; • O menor valor em D2 é D(2,4)=2, então os indivíduos 2 e 4 são agrupados. Matriz de distância D2 (15) 2 3 4 (15) 0 5 10 7 2 0 5 2 3 0 3 4 0
  • 25. • Distância euclidiana entre d24 e os demais indivíduos da população ; • O menor valor em D3 é D(2,4)3 = 3, então o indivíduo 3 é incluído no grupo de 2 e 4. Matriz de distância D3 Ind. (15) (24) 3 (15) 0 5 10 (24) 0 3 3 0
  • 26. • Distância euclidiana entre (234) e (15) ; • O grupo (234) é incluído no grupo (15), formando assim um único grupo. Fim do agrupamento. Matriz de distância D4 (15) (234) (15) 0 5 (234) 0
  • 27. • Tabela resumindo passos, grupos e distâncias entre grupos. Resumo do método do vizinho mais próximo PASSO GRUPOS DISTÂNCIA 1 1,5 1 2 2,4 2 3 24,3 3 4 15,234 5
  • 28. Número de grupos • Grupos constituem uma proposição sobre a organização básica e desconhecida dos dados; • Os algoritmos de agrupamento não apresentam solução para determinação do número ideal de grupos; • Uma maneira de determinar o número de grupos é pelo exame do dendrograma.
  • 29. Exame do dendrograma • O dendrograma é um gráfico em forma de árvore onde podemos observar alterações dos níveis de similaridade para as sucessivas etapas do agrupamento; • O eixo vertical nível de similaridade; • Eixo horizontal indivíduos; • As linhas verticais partindo dos indivíduos agrupados tem altura correspondente ao nível que os indivíduos são considerados semelhantes.
  • 30. Exame do dendrograma • No exemplo apresentado podemos observar que o maior nível ocorreu na última etapa, sugerindo a existência de dois grupos homogêneos: (1,5) e (2,3,4).
  • 31. Ajuste do agrupamento • Devido a inexistência de um método para selecionar a melhor técnica de agrupamento, é importante avaliar o grau de ajuste do agrupamento; • Coeficiente de correlação cofenética (ccc), proposto por Sokal & Rohlf (1962); • Quanto maior ccc melhor agrupamento; • ccc menor que 0,7 indica inadequação do método de agrupamento (Rohlf, 1970).
  • 32. • Mede o grau de ajuste entre a matriz de dissimilaridade (matriz fenética F ou D1) e a matriz resultante da simplificação devido ao método de agrupamento (matriz cofenética C). 𝑐𝑐𝑐 = 𝐶𝑜𝑣 𝐹, 𝐶 𝑉 𝐹 ∙ 𝑉 𝐶 Quando ccc > 0,7 concluímos que o método de agrupamento foi adequado. Coeficiente de correlação cofenética, ccc
  • 33. • Sarle and Kuo (1993) teste de aproximação não paramétrica para o número de grupos está implementado no procedimento MODECLUS. • Algumas vantagens do método: 1. Não pressupõe nenhuma distribuição ; 2. Robusto o suficiente para ser aplicado em situações práticas; 3. Os dados podem ser vetor de características ou distâncias. Número de Grupos
  • 34. Algoritmos de Análise de Agrupamentos: • Os dois principais algoritmos de otimização dos Métodos Hierárquicos são: AGNES e o DIANA.
  • 35. AGNES • O AGNES (AGglomerative NESting), é um algoritmo baseado no método hierárquico aglomerativo, ou seja, no início cada objeto forma um agrupamento e a cada nova interação os agrupamentos mais próximos são unidos, formando um só, de acordo com um critério pré-estabelecido.
  • 36. AGNES • Entre os critérios de junção é possível citar o que une os agrupamentos de acordo com a média da dissimilaridade (average linkage) entre os pontos de um agrupamento e outro, o método do vizinho mais próximo (single linkage) que usa a menor distância entre os dois agrupamentos e o método do vizinho mais longe (complete linkage) que usa a maior distância entre os dois agrupamentos.
  • 37. AGNES • Comparado a outros algoritmos aglomerativos, o AGNES apresenta as duas vantagens: (1) utiliza um coeficiente que mede a quantia de estruturas de agrupamentos descobertas, que procura minimizar as buscas e (2) a partir da árvore gráfica usualmente usada para representá-lo é possível prover novas representações.
  • 38. DIANA • O DIANA (DIvisive ANAlysis) é um algoritmo hierárquico divisivo, ou seja, no início todos os objetos estão no mesmo agrupamento. A cada interação o agrupamento é divido em outros dois, de acordo com um critério pré-definido (os mesmos do AGNES), até que cada agrupamento contenha apenas uma observação.
  • 39. DIANA • A escolha de qual agrupamento dividir se dá a cada etapa do processo, sendo selecionado sempre o agrupamento que tiver o maior diâmetro (maior dissimilaridade entre qualquer duas de suas observações). Para dividir o agrupamento selecionado, o algoritmo primeiro procura pela observação mais dissimilar dentro do grupo, esta observação será o primeiro elemento do novo agrupamento. A seguir, ele reagrupa as observações que porventura estejam mais próximas do novo grupo do que do grupo original. O resultado do processo é a divisão em dois novos grupos.
  • 40. Fases da análise de agrupamento Fonte: Branco/Instituto Superior Técnico