1. 1
ANÁLISE ESTATÍSTICA DE DADOS
COM SPSS
Formadora: Zélia Barroso
E-mail: zeliabarroso.apeu@gmail.com
SEXTA
SESSÃO
04-02-2022
2. 2
Análise de Clusters
A Análise de Clusters é a designação genérica a um grupo de procedimentos de estatística
multivariada com o objectivo principal de organizar um conjunto de entidades (indivíduos ou
objectos), para o qual é conhecida informação detalhada, em grupos relativamente homogéneos.
3. 3
Análise de Clusters - método
Dado um conjunto de n objectos (pessoas, empresas, instituições, produtos,…), para os
quais existe informação, o método de análise de clusters procede ao agrupamento dos
mesmos em função da informação existente, de tal modo que:
– Objectos mais semelhantes ficam no mesmo cluster;
– Os mais dissemelhantes são agrupados em clusters diferentes;
QUESTÃO [importante]:
Como se mede semelhança entre entidades?
– Os objectos agrupados num cluster deverão apresentar uma homogeneidade interna
elevada (homogeneidade dentro do cluster);
– Os objectos agrupados em clusters diferentes deverão apresentar elevada
heterogeneidade (heterogeneidade entre clusters).
4. 4
Análise de Clusters - método
Na análise de clusters não há qualquer tipo de dependência entre as variáveis: os grupos
definem-se por si mesmo sem que haja uma relação causal entre as variáveis utilizadas. Os
métodos são exploratórios: a ideia é gerar hipóteses, em vez de testá-las. É necessária
uma validação posterior dos resultados através da aplicação de outros métodos estatísticos.
5. 5
Análise de Clusters – etapas
A análise de clusters compreende diversas etapas:
1. Selecção dos indivíduos / objectos a serem agrupados;
2. Definição de um conjunto de variáveis a partir das quais se fará o agrupamento;
3. Definição de uma medida de semelhança (distância) entre cada dois indivíduos;
4. Escolha de um critério de agregação, ou seja, definição de um algoritmo de
partição;
5. Validação dos resultados encontrados.
Formulação do problema: a tarefa mais importante da formulação do problema é a selecção
das variáveis em quem se baseia a agregação. A inclusão de uma variável irrelevante pode
distorcer os resultados.
As variáveis devem ser seleccionadas com base em estudos anteriores, com base numa
teoria, ou considerando as hipóteses que vão ser testadas.
6. 6
Análise de Clusters – como agrupar?
Medida de semelhança e dissemelhança para dados intervalares
É necessária uma medida que avalie a distância (dissemelhança) ou similaridade
entre sujeitos / objectos de forma a poder agrupá-los.
A medida mais utilizada é a distância Euclidiana (EUCLID) – a raiz quadrada da soma
dos quadrados das diferenças entre os valores para cada variável. Esta medida mede o
comprimento do segmento de recta que une duas observações.
Fórmula:
Exemplo:
7. 7
Análise de Clusters – como agrupar?
Outras medidas:
A medida de distância Euclidiana ao Quadrado (SEUCLID) – mede a distância entre dois
itens, x e y, correspondendo à soma dos quadrados das diferenças entre os valores para cada
variável. É a medida que o SPSS usa por default.
Fórmula:
Coeficiente de Jaccard, de Russel & Rao e medidas de associação binárias – quando os
sujeitos de uma amostra multivariada são caracterizados por variáveis nominais, as medidas
de distância métrica não são aplicáveis. Nestes casos, a solução é recorrer a medidas de
associação apropriadas para tabelas de contingência. Por exemplo dois sujeitos i e j são
caracterizados por p-variáveis nominais dicotómicas onde “+” e “-” representam,
respectivamente, a presença e a ausência do atributo da questão; o resumo do nº de
presenças e ausências dos atributos das variáveis sob estudo para cada sujeito i e j pode
fazer-se com a tabela de contingência:
8. 8
Análise de Clusters – como agrupar?
Procedimentos de agregação podem ser:
▪ Hierárquicos – são caracterizados por ter um desenvolvimento com uma estrutura em árvore
e compreendem métodos de ligação (linkage), de variância e de centróides. Dentro deles, os
métodos com melhor desempenho são o de Ward (variância) e o average linkage.
▪ Não-hierárquicos – são também referidos como métodos K-médias. Possuem as seguintes
desvantagens:
▪ O número de clusters tem que ser especificado à partida;
▪ A selecção de centros de cluster é arbitrária;
▪ Além disso, os resultados podem depender da selecção dos centros.
Muitos investigadores sugerem que os dois métodos sejam usados em sequência:
1. Um método hierárquico (Ward, average linkage) para obter o número de clusters e
centróides;
2. Depois, um método não hierárquico para encontrar os clusters óptimos.
9. 9
Como obter uma análise de Clusters no SPSS
Na barra de menus escolher:
Seleccionar as variáveis para a lista
10. 10
Como obter uma análise de Clusters no SPSS
É conveniente normalizar as variáveis de forma a estarem na mesma escala de medida.
Para isso: premir o botão Method… e em Standardize seleccionar Z scores.
11. 11
Análise de Clusters – como agrupar?
O método de agrupamento Hierárquico / Não hierárquico dos sujeitos em Clusters
No primeiro passo do nosso algoritmo, o primeiro Cluster é formado por dois ou mais sujeitos (ou
variáveis). A seguir é necessário definir as distâncias entre o Cluster (com mais de um sujeito) e os
restantes sujeitos:
▪ Menor distância (Single linkage ou nearest neighbor): menor distância entre todos os sujeitos dos
dois clusters.
▪ Maior distância (Complete linkage ou farthest-neighbor): maior distância entre todos os sujeitos
dos dois clusters.
▪ Distância média entre Clusters (Average linkage between groups): média das distancias de cada
um dos elementos constituintes de um Cluster a cada um dos restantes objectos.
▪ Método do Centróide (Centroid method): distância entre os centróides (médias de todos os
sujeitos em todas as variáveis).Depois, um modelo não hierárquico para encontrar os clusters
óptimos.
▪ Método de Ward: Minimizar a SQE dos clusters (i.e. minimizar a variabilidade dentro dos clusters
-> maximizar a variabilidade entre clusters).
12. 12
Como obter uma análise de Clusters no SPSS
Os procedimentos hierárquicos de análise de clusters produzem diagramas que
descrevem o processo de agregação. Para obter o dendograma, premir o botão Plots…
13. 13
Como obter uma análise de Clusters no SPSS
O calendário de agregação fornece informação sobre os objectos ou casos que são
combinados em cada estágio do processo hierárquico de agregação.
14. 14
Resultados da análise de Clusters no SPSS
Segue-se o resultado do calendário de agregação
obtido pelo exemplo do slide anterior.
Os casos 8 e 9 são combinados no
primeiro estágio.
Distância euclidiana entre
os casos 8 e 9.
A coluna Next Stage
indica o próximo estágio
em que o cluster é
combinado com outro. O
cluster composto pelos
casos 8 ou 9 surgirá
novamente no estágio 4.
A coluna Stage Cluster First Appears indica o estágio em
que um cluster é formado pela primeira vez..
Em agregações
hierárquicas, pode utilizar-
se a distância de
combinação dos clusters
como critério de
determinação do n.º de
clusters a escollher. Por
exemplo, no calendário de
agregação o valor da
coluna coefficients mais
do que duplica entre o
estágio 13 e 14. Assim,
sendo, podem seleccionar-
se 2 clusters – os
representados pelo caso 1
e 4.
15. 15
Resultados da análise de Clusters no SPSS
Segue-se o exemplo do Diagrama de icicle:
Os casos 8 e 9 são agrupados
e formam o primeiro cluster.
Os casos 14 e 7 são agrupados e
formam o segundo cluster.
Pelo digrama de icicle, os
primeiros casos a agrupar são o
8 e o 9 – correspondentes à
França e à Holanda – pois são
os que se encontram mais
próximos relativamente às
variáveis seleccionadas..
Seguidamente, agrupam-se os
casos 7 e 14. Depois agrupam-
se os clusters 5 e 12. O último
cluster é criado pela agregação
da China e da Zâmbia (clusters
4 e 15).
16. 16
Resultados da análise de Clusters no SPSS
Segue-se o exemplo do Dendograma:
A partir do dendograma podemos considerar dois clusters: o primeiro, composto pelos casos
8,9,6,7,14,5,12 e 4; o segundo, composto pelos casos 1, 3, 10, 2, 11, 13 e 15.
O Dendograma deve ser lido da
esquerda para a direita. A posição na
escala horizontal indica a distância a
que os clusters são agrupados.
Nos primeiros estágios, muitas linhas
têm magnitudes idênticas e por isso é
difícil saber a sequência pela qual os
primeiros clusters foram criados.
Pelo contrário, nos últimos estágios, a
distância a que os clusters são
combinados é, geralmente, grande.
Por isso, é mais fácil saber qual o
cluster a que um objecto pertence.
1º cluster
2º cluster
17. 17
Determinação dos centróides
O centróide de um cluster é o ponto médio das variáveis para todos os casos ou objectos
pertencentes a esse cluster. Os centróides dos clusters óptimos podem ser obtidos por um
procedimento K-médias.
18. 18
Determinação dos centróides
O primeiro cluster tem valores mais elevados do que o segundo cluster, para as variáveis
esperança média de vida feminina e percentagem de pessoas que lêem.
Por outro lado tem valores mais baixos para a variável crescimento anual da população.
Pode concluir-se que o primeiro cluster possui características comuns aos países
desenvolvidos, contrariamente ao segundo cluster que possui características de países em
desenvolvimento.
19. 19
ANÁLISE ESTATÍSTICA DE DADOS
COM SPSS
Formadora: Zélia Barroso
E-mail: zeliabarroso.apeu@gmail.com
SEXTA
SESSÃO
04-02-2022