2. O que a análise permite?
• Avaliar o tamanho da matriz de dados
• Identificar outliers multivariados
• Levar hipóteses relativas a relações
estruturais entre variáveis.
3. Introdução
• Análise de agrupamento ou Cluster analysis: é uma
técnica exploratória de análise multi-variada de
dados que permite classificar um conjunto de
categorias em grupos homogéneos, observando
apenas as similaridades ou dissimilaridades entre
elas.
4. Introdução
• Sequência de regras (algoritmo) para agrupar objetos sem
inferência de probabilidade a priori dos grupos.
• Não é necessário informações a priori sobre a composição
dos grupos.
• Dado um conjunto de ‘n’ unidades amostrais, os quais são
medidos segundo ‘p’ variáveis, obter um algoritmo que
possibilite reunir os indivíduos, tal que exista
homogeneidade dentro do grupo e heterogeneidade entre
grupos (Regazzi, 2000).
5. Como medimos as similaridades
e as dissimilaridade?
• MEDIDAS DE DISSIMILARIDADE
Distância euclidiana
Distância euclidiana média
Distância de Mahalanobis
A maioria dos algoritmos de análise de agrupamento têm
como base estas medidas de dissimilaridade;
Importante: Quanto maior for a medida de dissimilaridade
menor será a semelhança entre os indivíduos.
6. Nota
• É recomendável a padronização das variáveis antes de se
obter o valor da distância euclidiana, devido que
normalmente todos os dados não estão no mesmo padrão
de medidas.
𝑍𝑖𝑗 =
𝑋𝑖𝑗− 𝑋𝑗
𝑆𝑗
, 𝑍𝑖𝑗 ~ 0 , 1𝑗
𝑜𝑢 𝑍𝑖𝑗 =
𝑋𝑖𝑗
𝑆 𝑋𝑗
, 𝑍𝑖𝑗~ 𝑍𝑗 , 1
7. Distância euclidiana
• É a distância entre dois pontos, que pode ser
provada pela aplicação repetida do teorema
de Pitágoras.
• A Função da distância euclidiana de pq:
• Onde p e q são os pontos na reta.
9. Distância euclidiana média
• A distância euclidiana cresce à medida que cresce o
número de variáveis. Uma maneira de eliminar o efeito do
número de variáveis é dividir o valor da distância
euclidiana pela raiz quadrada do número de variáveis.
𝑑 𝑎𝑏 =
1
𝑝
∙ 𝑑 𝑎𝑏
𝑑 𝑎𝑏 = 𝑑𝑖𝑠𝑡â𝑛𝑐𝑖𝑎 𝑒𝑢𝑐𝑙𝑖𝑑𝑖𝑎𝑛𝑎 𝑚é𝑑𝑖𝑎 𝑒𝑛𝑡𝑟𝑒 𝑎 𝑒 𝑏;
𝑝 = 𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑣𝑎𝑟𝑖á𝑣𝑒𝑖𝑠;
𝑑 𝑎𝑏 = 𝑑𝑖𝑠𝑡â𝑛𝑐𝑖𝑎 𝑒𝑢𝑐𝑙𝑖𝑑𝑖𝑎𝑛𝑎 𝑒𝑛𝑡𝑟𝑒 𝑎 𝑒 𝑏.
10. Distância de Mahalanobis
• A distância de Mahalanobis entre os indivíduos a e b é
dada por:
𝐷 𝑎𝑏
2
= 𝑋 𝑎 − 𝑋 𝑏 ′ ∙ 𝑆−1 ∙ 𝑋 𝑎 − 𝑋 𝑏
em que,
𝐷 𝑎𝑏
2
é 𝑎 𝑑𝑖𝑠𝑡â𝑛𝑐𝑖𝑎 𝑑𝑒 𝑚𝑎ℎ𝑎𝑙𝑎𝑛𝑜𝑏𝑖𝑠 𝑒𝑛𝑡𝑟𝑒 𝑜𝑠 𝑖𝑛𝑑𝑖𝑣í𝑑𝑢𝑜𝑠 𝑎 𝑒 𝑏;
𝑋 𝑎 = 𝑣𝑒𝑡𝑜𝑟 𝑑𝑒 𝑐𝑎𝑟𝑎𝑐𝑡𝑒𝑟í𝑠𝑡𝑖𝑐𝑎𝑠 𝑑𝑜 𝑖𝑛𝑑𝑖𝑣í𝑑𝑢𝑜 𝑎;
𝑋 𝑏 = 𝑣𝑒𝑡𝑜𝑟 𝑑𝑒 𝑐𝑎𝑟𝑎𝑐𝑡𝑒𝑟í𝑠𝑡𝑖𝑐𝑎𝑠 𝑑𝑜 𝑖𝑛𝑑𝑖𝑣í𝑑𝑢𝑜 𝑏;
𝑆 = 𝑚𝑎𝑡𝑟𝑖𝑧 𝑑𝑒 𝑣𝑎𝑟𝑖â𝑛𝑐𝑖𝑎 𝑎𝑚𝑜𝑠𝑡𝑟𝑎𝑙 𝑑𝑎 𝑝𝑜𝑝𝑢𝑙𝑎çã𝑜.
11. MEDIDAS DE
SIMILARIDADE
• As variáveis são agrupadas de acordo com
as medidas de correlação ou associação
apropriadas. O coeficiente de correlação é
uma medida de similaridade, enquanto que
a distância euclidiana é uma medida de
dissimilaridade;
Importante: quanto maior for a medida de
similaridade maior semelhança entre os
indivíduos.
12. Correlações apropriadas
• Variaríeis contínuas: Coeficiente de
correlação de Pearson (linear).
• Variáveis ordinais: Coeficiente de
Spearman. (posto)
• Variáveis nominais: Coeficiente Phi.
13. • Variáveis contínuas: características mensuráveis que assumem
valores em uma escala contínua (na reta real), para as quais valores
fracionais fazem sentido. Usualmente devem ser medidas através de
algum instrumento. Exemplos: peso (balança), altura (régua), tempo
(relógio), pressão arterial, idade.
• Variáveis Qualitativas (ou categóricas): são as características que
não possuem valores quantitativos, mas, ao contrário, são definidas
por várias categorias, ou seja, representam uma classificação dos
indivíduos. Podem ser nominais ou ordinais.
• Variáveis nominais: não existe ordenação dentre as categorias.
Exemplos: sexo, cor dos olhos, fumante/não fumante, doente/sadio.
• Variáveis ordinais: existe uma ordenação entre as categorias.
Exemplos: escolaridade (1o, 2o, 3o graus), estágio da doença
(inicial, intermediário, terminal), mês de observação (janeiro,
fevereiro,..., dezembro).
14. Definição de critérios de
agrupamento dos indivíduos
De cada um dos elementos
do cluster a cada um dos
restantes objetos.
16. Tipos de agrupamentos
• O agrupamento dos clusters podem ser realizados
através de dois métodos: hierárquico e não
hierárquico.
• Método Hierárquicos: que obrigam ao cálculo de
uma matriz de semelhança/distâncias. Permite a
obtenção de clusters, de sujeito e variáveis.
• Método não - hierárquicos: Se aplicam diretamente
sobre os dados originais e que partem de uma
repartição inicial dos indivíduos por um número de
grupos pré-definido. Não precisa de matriz de
dissemelhança.
17. Método Hierárquicos são subdivididos em
dois tipos: aglomerativos e divisivos
• Aglomerativo: são os mais comuns entre os métodos
hierárquicos. Nesse tipo de método inicia-se com
cada padrão formando seu próprio agrupamento e
gradualmente os grupos são unidos até que um único
agrupamento contendo todos os dados seja gerado
(Silva, 2005).
18. Método Hierárquicos
• Divisivo: esse método começa com um único
agrupamento formado por todos os padrões e
gradualmente vai dividindo os agrupamentos em
agrupamentos menores até que termine com um
agrupamento padrão. Os métodos divisivos são os
menos comuns entre os métodos hierárquicos devido
a sua ineficiência e exigem uma capacidade
computacional maior (Costa,1999).
19. Método Hierárquicos
• Nestes métodos os indivíduos são alocados nos
grupos em diferentes etapas, de modo hierárquico, o
resultado final é uma árvore de classificação. Entre
os critérios de junção :
• Vizinho mais próximo
• Vizinho mais distante
20. Método do vizinho mais próximo
• Também chamado de método do
encadeamento simples “single linkage
method”.
• Neste método calcula-se a matriz de
distâncias entre os ‘n’ indivíduos da
população, em seguida os indivíduos mais
próximos são agrupados.
21. Método do vizinho mais distante
• Também chamado de método do
encadeamento completo “complete linkage
method”.
• Este método é o inverso do vizinho mais
próximo. Calcula-se a matriz de distâncias
entre os ‘n’ indivíduos da população, em
seguida os indivíduos mais distantes são
agrupados.
22. • Método: vizinho mais próximo
• Dissimilaridade: distância euclidiana
• Dendrograma
Exemplo de agrupamento
23. • Matriz de distância euclidiana entre os ‘n’
indivíduos da população;
• Como d15 é a menor distância em D1, os
indivíduos 1 e 5 são agrupados.
Matriz de distância D1
Ind. (n) 1 2 3 4 5
1 0 5 10 7 1
2 0 5 2 6
3 0 3 11
4 0 8
5 0
24. • Distância euclidiana entre d15 e os demais
indivíduos da população ;
• O menor valor em D2 é D(2,4)=2, então os
indivíduos 2 e 4 são agrupados.
Matriz de distância D2
(15) 2 3 4
(15) 0 5 10 7
2 0 5 2
3 0 3
4 0
25. • Distância euclidiana entre d24 e os demais
indivíduos da população ;
• O menor valor em D3 é D(2,4)3 = 3, então
o indivíduo 3 é incluído no grupo de 2 e 4.
Matriz de distância D3
Ind. (15) (24) 3
(15) 0 5 10
(24) 0 3
3 0
26. • Distância euclidiana entre (234) e (15) ;
• O grupo (234) é incluído no grupo (15),
formando assim um único grupo. Fim do
agrupamento.
Matriz de distância D4
(15) (234)
(15) 0 5
(234) 0
27. • Tabela resumindo passos, grupos e
distâncias entre grupos.
Resumo do método do vizinho mais
próximo
PASSO GRUPOS DISTÂNCIA
1 1,5 1
2 2,4 2
3 24,3 3
4 15,234 5
28. Número de grupos
• Grupos constituem uma proposição sobre a
organização básica e desconhecida dos
dados;
• Os algoritmos de agrupamento não
apresentam solução para determinação do
número ideal de grupos;
• Uma maneira de determinar o número de
grupos é pelo exame do dendrograma.
29. Exame do dendrograma
• O dendrograma é um gráfico em forma de
árvore onde podemos observar alterações dos
níveis de similaridade para as sucessivas
etapas do agrupamento;
• O eixo vertical nível de similaridade;
• Eixo horizontal indivíduos;
• As linhas verticais partindo dos indivíduos
agrupados tem altura correspondente ao nível
que os indivíduos são considerados
semelhantes.
30. Exame do dendrograma
• No exemplo apresentado podemos observar
que o maior nível ocorreu na última etapa,
sugerindo a existência de dois grupos
homogêneos: (1,5) e (2,3,4).
31. Ajuste do agrupamento
• Devido a inexistência de um método para
selecionar a melhor técnica de agrupamento, é
importante avaliar o grau de ajuste do
agrupamento;
• Coeficiente de correlação cofenética (ccc),
proposto por Sokal & Rohlf (1962);
• Quanto maior ccc melhor agrupamento;
• ccc menor que 0,7 indica inadequação do
método de agrupamento (Rohlf, 1970).
32. • Mede o grau de ajuste entre a matriz de
dissimilaridade (matriz fenética F ou D1) e a matriz
resultante da simplificação devido ao método de
agrupamento (matriz cofenética C).
𝑐𝑐𝑐 =
𝐶𝑜𝑣 𝐹, 𝐶
𝑉 𝐹 ∙ 𝑉 𝐶
Quando ccc > 0,7 concluímos que o método de
agrupamento foi adequado.
Coeficiente de correlação
cofenética, ccc
33. • Sarle and Kuo (1993) teste de aproximação não
paramétrica para o número de grupos está
implementado no procedimento MODECLUS.
• Algumas vantagens do método:
1. Não pressupõe nenhuma distribuição ;
2. Robusto o suficiente para ser aplicado em
situações práticas;
3. Os dados podem ser vetor de características ou
distâncias.
Número de Grupos
34. Algoritmos de Análise de Agrupamentos:
• Os dois principais algoritmos de otimização
dos Métodos Hierárquicos são: AGNES e o
DIANA.
35. AGNES
• O AGNES (AGglomerative NESting), é um
algoritmo baseado no método hierárquico
aglomerativo, ou seja, no início cada objeto
forma um agrupamento e a cada nova
interação os agrupamentos mais próximos
são unidos, formando um só, de acordo com
um critério pré-estabelecido.
36. AGNES
• Entre os critérios de junção é possível citar
o que une os agrupamentos de acordo com a
média da dissimilaridade (average linkage)
entre os pontos de um agrupamento e outro,
o método do vizinho mais próximo (single
linkage) que usa a menor distância entre os
dois agrupamentos e o método do vizinho
mais longe (complete linkage) que usa a
maior distância entre os dois agrupamentos.
37. AGNES
• Comparado a outros algoritmos
aglomerativos, o AGNES apresenta as duas
vantagens: (1) utiliza um coeficiente que
mede a quantia de estruturas de
agrupamentos descobertas, que procura
minimizar as buscas e (2) a partir da árvore
gráfica usualmente usada para representá-lo
é possível prover novas representações.
38. DIANA
• O DIANA (DIvisive ANAlysis) é um
algoritmo hierárquico divisivo, ou seja, no
início todos os objetos estão no mesmo
agrupamento. A cada interação o
agrupamento é divido em outros dois, de
acordo com um critério pré-definido (os
mesmos do AGNES), até que cada
agrupamento contenha apenas uma
observação.
39. DIANA
• A escolha de qual agrupamento dividir se dá a cada
etapa do processo, sendo selecionado sempre o
agrupamento que tiver o maior diâmetro (maior
dissimilaridade entre qualquer duas de suas
observações). Para dividir o agrupamento selecionado,
o algoritmo primeiro procura pela observação mais
dissimilar dentro do grupo, esta observação será o
primeiro elemento do novo agrupamento. A seguir, ele
reagrupa as observações que porventura estejam mais
próximas do novo grupo do que do grupo original. O
resultado do processo é a divisão em dois novos
grupos.
40. Fases da análise de agrupamento
Fonte: Branco/Instituto Superior Técnico