SlideShare uma empresa Scribd logo
1 de 19
Baixar para ler offline
1
ANÁLISE ESTATÍSTICA DE DADOS
COM SPSS
Formadora: Zélia Barroso
E-mail: zeliabarroso.apeu@gmail.com
SEXTA
SESSÃO
04-02-2022
2
Análise de Clusters
A Análise de Clusters é a designação genérica a um grupo de procedimentos de estatística
multivariada com o objectivo principal de organizar um conjunto de entidades (indivíduos ou
objectos), para o qual é conhecida informação detalhada, em grupos relativamente homogéneos.
3
Análise de Clusters - método
Dado um conjunto de n objectos (pessoas, empresas, instituições, produtos,…), para os
quais existe informação, o método de análise de clusters procede ao agrupamento dos
mesmos em função da informação existente, de tal modo que:
– Objectos mais semelhantes ficam no mesmo cluster;
– Os mais dissemelhantes são agrupados em clusters diferentes;
QUESTÃO [importante]:
Como se mede semelhança entre entidades?
– Os objectos agrupados num cluster deverão apresentar uma homogeneidade interna
elevada (homogeneidade dentro do cluster);
– Os objectos agrupados em clusters diferentes deverão apresentar elevada
heterogeneidade (heterogeneidade entre clusters).
4
Análise de Clusters - método
Na análise de clusters não há qualquer tipo de dependência entre as variáveis: os grupos
definem-se por si mesmo sem que haja uma relação causal entre as variáveis utilizadas. Os
métodos são exploratórios: a ideia é gerar hipóteses, em vez de testá-las. É necessária
uma validação posterior dos resultados através da aplicação de outros métodos estatísticos.
5
Análise de Clusters – etapas
A análise de clusters compreende diversas etapas:
1. Selecção dos indivíduos / objectos a serem agrupados;
2. Definição de um conjunto de variáveis a partir das quais se fará o agrupamento;
3. Definição de uma medida de semelhança (distância) entre cada dois indivíduos;
4. Escolha de um critério de agregação, ou seja, definição de um algoritmo de
partição;
5. Validação dos resultados encontrados.
Formulação do problema: a tarefa mais importante da formulação do problema é a selecção
das variáveis em quem se baseia a agregação. A inclusão de uma variável irrelevante pode
distorcer os resultados.
As variáveis devem ser seleccionadas com base em estudos anteriores, com base numa
teoria, ou considerando as hipóteses que vão ser testadas.
6
Análise de Clusters – como agrupar?
Medida de semelhança e dissemelhança para dados intervalares
É necessária uma medida que avalie a distância (dissemelhança) ou similaridade
entre sujeitos / objectos de forma a poder agrupá-los.
A medida mais utilizada é a distância Euclidiana (EUCLID) – a raiz quadrada da soma
dos quadrados das diferenças entre os valores para cada variável. Esta medida mede o
comprimento do segmento de recta que une duas observações.
Fórmula:
Exemplo:
7
Análise de Clusters – como agrupar?
Outras medidas:
A medida de distância Euclidiana ao Quadrado (SEUCLID) – mede a distância entre dois
itens, x e y, correspondendo à soma dos quadrados das diferenças entre os valores para cada
variável. É a medida que o SPSS usa por default.
Fórmula:
Coeficiente de Jaccard, de Russel & Rao e medidas de associação binárias – quando os
sujeitos de uma amostra multivariada são caracterizados por variáveis nominais, as medidas
de distância métrica não são aplicáveis. Nestes casos, a solução é recorrer a medidas de
associação apropriadas para tabelas de contingência. Por exemplo dois sujeitos i e j são
caracterizados por p-variáveis nominais dicotómicas onde “+” e “-” representam,
respectivamente, a presença e a ausência do atributo da questão; o resumo do nº de
presenças e ausências dos atributos das variáveis sob estudo para cada sujeito i e j pode
fazer-se com a tabela de contingência:
8
Análise de Clusters – como agrupar?
Procedimentos de agregação podem ser:
▪ Hierárquicos – são caracterizados por ter um desenvolvimento com uma estrutura em árvore
e compreendem métodos de ligação (linkage), de variância e de centróides. Dentro deles, os
métodos com melhor desempenho são o de Ward (variância) e o average linkage.
▪ Não-hierárquicos – são também referidos como métodos K-médias. Possuem as seguintes
desvantagens:
▪ O número de clusters tem que ser especificado à partida;
▪ A selecção de centros de cluster é arbitrária;
▪ Além disso, os resultados podem depender da selecção dos centros.
Muitos investigadores sugerem que os dois métodos sejam usados em sequência:
1. Um método hierárquico (Ward, average linkage) para obter o número de clusters e
centróides;
2. Depois, um método não hierárquico para encontrar os clusters óptimos.
9
Como obter uma análise de Clusters no SPSS
Na barra de menus escolher:
Seleccionar as variáveis para a lista
10
Como obter uma análise de Clusters no SPSS
É conveniente normalizar as variáveis de forma a estarem na mesma escala de medida.
Para isso: premir o botão Method… e em Standardize seleccionar Z scores.
11
Análise de Clusters – como agrupar?
O método de agrupamento Hierárquico / Não hierárquico dos sujeitos em Clusters
No primeiro passo do nosso algoritmo, o primeiro Cluster é formado por dois ou mais sujeitos (ou
variáveis). A seguir é necessário definir as distâncias entre o Cluster (com mais de um sujeito) e os
restantes sujeitos:
▪ Menor distância (Single linkage ou nearest neighbor): menor distância entre todos os sujeitos dos
dois clusters.
▪ Maior distância (Complete linkage ou farthest-neighbor): maior distância entre todos os sujeitos
dos dois clusters.
▪ Distância média entre Clusters (Average linkage between groups): média das distancias de cada
um dos elementos constituintes de um Cluster a cada um dos restantes objectos.
▪ Método do Centróide (Centroid method): distância entre os centróides (médias de todos os
sujeitos em todas as variáveis).Depois, um modelo não hierárquico para encontrar os clusters
óptimos.
▪ Método de Ward: Minimizar a SQE dos clusters (i.e. minimizar a variabilidade dentro dos clusters
-> maximizar a variabilidade entre clusters).
12
Como obter uma análise de Clusters no SPSS
Os procedimentos hierárquicos de análise de clusters produzem diagramas que
descrevem o processo de agregação. Para obter o dendograma, premir o botão Plots…
13
Como obter uma análise de Clusters no SPSS
O calendário de agregação fornece informação sobre os objectos ou casos que são
combinados em cada estágio do processo hierárquico de agregação.
14
Resultados da análise de Clusters no SPSS
Segue-se o resultado do calendário de agregação
obtido pelo exemplo do slide anterior.
Os casos 8 e 9 são combinados no
primeiro estágio.
Distância euclidiana entre
os casos 8 e 9.
A coluna Next Stage
indica o próximo estágio
em que o cluster é
combinado com outro. O
cluster composto pelos
casos 8 ou 9 surgirá
novamente no estágio 4.
A coluna Stage Cluster First Appears indica o estágio em
que um cluster é formado pela primeira vez..
Em agregações
hierárquicas, pode utilizar-
se a distância de
combinação dos clusters
como critério de
determinação do n.º de
clusters a escollher. Por
exemplo, no calendário de
agregação o valor da
coluna coefficients mais
do que duplica entre o
estágio 13 e 14. Assim,
sendo, podem seleccionar-
se 2 clusters – os
representados pelo caso 1
e 4.
15
Resultados da análise de Clusters no SPSS
Segue-se o exemplo do Diagrama de icicle:
Os casos 8 e 9 são agrupados
e formam o primeiro cluster.
Os casos 14 e 7 são agrupados e
formam o segundo cluster.
Pelo digrama de icicle, os
primeiros casos a agrupar são o
8 e o 9 – correspondentes à
França e à Holanda – pois são
os que se encontram mais
próximos relativamente às
variáveis seleccionadas..
Seguidamente, agrupam-se os
casos 7 e 14. Depois agrupam-
se os clusters 5 e 12. O último
cluster é criado pela agregação
da China e da Zâmbia (clusters
4 e 15).
16
Resultados da análise de Clusters no SPSS
Segue-se o exemplo do Dendograma:
A partir do dendograma podemos considerar dois clusters: o primeiro, composto pelos casos
8,9,6,7,14,5,12 e 4; o segundo, composto pelos casos 1, 3, 10, 2, 11, 13 e 15.
O Dendograma deve ser lido da
esquerda para a direita. A posição na
escala horizontal indica a distância a
que os clusters são agrupados.
Nos primeiros estágios, muitas linhas
têm magnitudes idênticas e por isso é
difícil saber a sequência pela qual os
primeiros clusters foram criados.
Pelo contrário, nos últimos estágios, a
distância a que os clusters são
combinados é, geralmente, grande.
Por isso, é mais fácil saber qual o
cluster a que um objecto pertence.
1º cluster
2º cluster
17
Determinação dos centróides
O centróide de um cluster é o ponto médio das variáveis para todos os casos ou objectos
pertencentes a esse cluster. Os centróides dos clusters óptimos podem ser obtidos por um
procedimento K-médias.
18
Determinação dos centróides
O primeiro cluster tem valores mais elevados do que o segundo cluster, para as variáveis
esperança média de vida feminina e percentagem de pessoas que lêem.
Por outro lado tem valores mais baixos para a variável crescimento anual da população.
Pode concluir-se que o primeiro cluster possui características comuns aos países
desenvolvidos, contrariamente ao segundo cluster que possui características de países em
desenvolvimento.
19
ANÁLISE ESTATÍSTICA DE DADOS
COM SPSS
Formadora: Zélia Barroso
E-mail: zeliabarroso.apeu@gmail.com
SEXTA
SESSÃO
04-02-2022

Mais conteúdo relacionado

Semelhante a Sessao 6.pdf para aproveitametno em sessões

Apresentar dados na forma de distribuição de frequências
Apresentar dados na forma de distribuição de frequênciasApresentar dados na forma de distribuição de frequências
Apresentar dados na forma de distribuição de frequênciasdean dundas
 
Apresentar dados na forma de distribuição de frequências
Apresentar dados na forma de distribuição de frequênciasApresentar dados na forma de distribuição de frequências
Apresentar dados na forma de distribuição de frequênciasdean dundas
 
Análises agrupamento e dissimilaridade no Genes
Análises agrupamento e dissimilaridade no GenesAnálises agrupamento e dissimilaridade no Genes
Análises agrupamento e dissimilaridade no GenesCristiano Lemes da Silva
 
Agrupamento de sequências biológicas
Agrupamento de sequências biológicasAgrupamento de sequências biológicas
Agrupamento de sequências biológicasMarcos Castro
 
Analise de Cluster - CardSorting
Analise de Cluster  - CardSortingAnalise de Cluster  - CardSorting
Analise de Cluster - CardSortingLuiz Agner
 
Análise de Técnicas Computacionais para Classificação de Emoções
Análise de Técnicas Computacionais para Classificação de EmoçõesAnálise de Técnicas Computacionais para Classificação de Emoções
Análise de Técnicas Computacionais para Classificação de EmoçõesAdilmar Dantas
 
Probabilidade e Estatística - Aula 03
Probabilidade e Estatística - Aula 03Probabilidade e Estatística - Aula 03
Probabilidade e Estatística - Aula 03Augusto Junior
 
Clustering informatizado
Clustering  informatizadoClustering  informatizado
Clustering informatizadoDiêgo Maciel
 
Algoritmos de Clusterização
Algoritmos de ClusterizaçãoAlgoritmos de Clusterização
Algoritmos de ClusterizaçãoGabriel Peixe
 
Aprendizagem Automática
Aprendizagem AutomáticaAprendizagem Automática
Aprendizagem Automáticabutest
 
Data Mining - Clustering
Data Mining - ClusteringData Mining - Clustering
Data Mining - Clusteringiaudesc
 
Estatística completa
Estatística completaEstatística completa
Estatística completaRonne Seles
 
Analise Exploratoria Card Sorting
Analise Exploratoria Card SortingAnalise Exploratoria Card Sorting
Analise Exploratoria Card SortingLuiz Agner
 
Prof.Dr.Nilo antonio de Souza Sampaio
Prof.Dr.Nilo antonio de Souza SampaioProf.Dr.Nilo antonio de Souza Sampaio
Prof.Dr.Nilo antonio de Souza SampaioNilo Sampaio
 

Semelhante a Sessao 6.pdf para aproveitametno em sessões (20)

Trabalho e agrupamento.pdf
Trabalho e agrupamento.pdfTrabalho e agrupamento.pdf
Trabalho e agrupamento.pdf
 
Trabalho e agrupamento.pdf
Trabalho e agrupamento.pdfTrabalho e agrupamento.pdf
Trabalho e agrupamento.pdf
 
Trabalho e agrupamento.pdf
Trabalho e agrupamento.pdfTrabalho e agrupamento.pdf
Trabalho e agrupamento.pdf
 
Análise de agrupamentos
Análise de agrupamentosAnálise de agrupamentos
Análise de agrupamentos
 
Apresentar dados
Apresentar dadosApresentar dados
Apresentar dados
 
Apresentar dados na forma de distribuição de frequências
Apresentar dados na forma de distribuição de frequênciasApresentar dados na forma de distribuição de frequências
Apresentar dados na forma de distribuição de frequências
 
Apresentar dados na forma de distribuição de frequências
Apresentar dados na forma de distribuição de frequênciasApresentar dados na forma de distribuição de frequências
Apresentar dados na forma de distribuição de frequências
 
Análises agrupamento e dissimilaridade no Genes
Análises agrupamento e dissimilaridade no GenesAnálises agrupamento e dissimilaridade no Genes
Análises agrupamento e dissimilaridade no Genes
 
Agrupamento de sequências biológicas
Agrupamento de sequências biológicasAgrupamento de sequências biológicas
Agrupamento de sequências biológicas
 
Analise de Cluster - CardSorting
Analise de Cluster  - CardSortingAnalise de Cluster  - CardSorting
Analise de Cluster - CardSorting
 
Análise de Técnicas Computacionais para Classificação de Emoções
Análise de Técnicas Computacionais para Classificação de EmoçõesAnálise de Técnicas Computacionais para Classificação de Emoções
Análise de Técnicas Computacionais para Classificação de Emoções
 
ID3 Algorithm
ID3 AlgorithmID3 Algorithm
ID3 Algorithm
 
Probabilidade e Estatística - Aula 03
Probabilidade e Estatística - Aula 03Probabilidade e Estatística - Aula 03
Probabilidade e Estatística - Aula 03
 
Clustering informatizado
Clustering  informatizadoClustering  informatizado
Clustering informatizado
 
Algoritmos de Clusterização
Algoritmos de ClusterizaçãoAlgoritmos de Clusterização
Algoritmos de Clusterização
 
Aprendizagem Automática
Aprendizagem AutomáticaAprendizagem Automática
Aprendizagem Automática
 
Data Mining - Clustering
Data Mining - ClusteringData Mining - Clustering
Data Mining - Clustering
 
Estatística completa
Estatística completaEstatística completa
Estatística completa
 
Analise Exploratoria Card Sorting
Analise Exploratoria Card SortingAnalise Exploratoria Card Sorting
Analise Exploratoria Card Sorting
 
Prof.Dr.Nilo antonio de Souza Sampaio
Prof.Dr.Nilo antonio de Souza SampaioProf.Dr.Nilo antonio de Souza Sampaio
Prof.Dr.Nilo antonio de Souza Sampaio
 

Mais de JoaquimOliveiraBapti1 (7)

El rawet
El rawetEl rawet
El rawet
 
2008 2010-reformas-processo-orcamental-gestao-financas
2008 2010-reformas-processo-orcamental-gestao-financas2008 2010-reformas-processo-orcamental-gestao-financas
2008 2010-reformas-processo-orcamental-gestao-financas
 
Empresa pcg exercício
Empresa pcg exercícioEmpresa pcg exercício
Empresa pcg exercício
 
Slides parte 4
Slides parte 4Slides parte 4
Slides parte 4
 
Empresa pcg exercício (1)
Empresa pcg exercício (1)Empresa pcg exercício (1)
Empresa pcg exercício (1)
 
2º teste nov 2021
2º teste nov 20212º teste nov 2021
2º teste nov 2021
 
2º teste nov 2021 (1)
2º teste nov 2021 (1)2º teste nov 2021 (1)
2º teste nov 2021 (1)
 

Sessao 6.pdf para aproveitametno em sessões

  • 1. 1 ANÁLISE ESTATÍSTICA DE DADOS COM SPSS Formadora: Zélia Barroso E-mail: zeliabarroso.apeu@gmail.com SEXTA SESSÃO 04-02-2022
  • 2. 2 Análise de Clusters A Análise de Clusters é a designação genérica a um grupo de procedimentos de estatística multivariada com o objectivo principal de organizar um conjunto de entidades (indivíduos ou objectos), para o qual é conhecida informação detalhada, em grupos relativamente homogéneos.
  • 3. 3 Análise de Clusters - método Dado um conjunto de n objectos (pessoas, empresas, instituições, produtos,…), para os quais existe informação, o método de análise de clusters procede ao agrupamento dos mesmos em função da informação existente, de tal modo que: – Objectos mais semelhantes ficam no mesmo cluster; – Os mais dissemelhantes são agrupados em clusters diferentes; QUESTÃO [importante]: Como se mede semelhança entre entidades? – Os objectos agrupados num cluster deverão apresentar uma homogeneidade interna elevada (homogeneidade dentro do cluster); – Os objectos agrupados em clusters diferentes deverão apresentar elevada heterogeneidade (heterogeneidade entre clusters).
  • 4. 4 Análise de Clusters - método Na análise de clusters não há qualquer tipo de dependência entre as variáveis: os grupos definem-se por si mesmo sem que haja uma relação causal entre as variáveis utilizadas. Os métodos são exploratórios: a ideia é gerar hipóteses, em vez de testá-las. É necessária uma validação posterior dos resultados através da aplicação de outros métodos estatísticos.
  • 5. 5 Análise de Clusters – etapas A análise de clusters compreende diversas etapas: 1. Selecção dos indivíduos / objectos a serem agrupados; 2. Definição de um conjunto de variáveis a partir das quais se fará o agrupamento; 3. Definição de uma medida de semelhança (distância) entre cada dois indivíduos; 4. Escolha de um critério de agregação, ou seja, definição de um algoritmo de partição; 5. Validação dos resultados encontrados. Formulação do problema: a tarefa mais importante da formulação do problema é a selecção das variáveis em quem se baseia a agregação. A inclusão de uma variável irrelevante pode distorcer os resultados. As variáveis devem ser seleccionadas com base em estudos anteriores, com base numa teoria, ou considerando as hipóteses que vão ser testadas.
  • 6. 6 Análise de Clusters – como agrupar? Medida de semelhança e dissemelhança para dados intervalares É necessária uma medida que avalie a distância (dissemelhança) ou similaridade entre sujeitos / objectos de forma a poder agrupá-los. A medida mais utilizada é a distância Euclidiana (EUCLID) – a raiz quadrada da soma dos quadrados das diferenças entre os valores para cada variável. Esta medida mede o comprimento do segmento de recta que une duas observações. Fórmula: Exemplo:
  • 7. 7 Análise de Clusters – como agrupar? Outras medidas: A medida de distância Euclidiana ao Quadrado (SEUCLID) – mede a distância entre dois itens, x e y, correspondendo à soma dos quadrados das diferenças entre os valores para cada variável. É a medida que o SPSS usa por default. Fórmula: Coeficiente de Jaccard, de Russel & Rao e medidas de associação binárias – quando os sujeitos de uma amostra multivariada são caracterizados por variáveis nominais, as medidas de distância métrica não são aplicáveis. Nestes casos, a solução é recorrer a medidas de associação apropriadas para tabelas de contingência. Por exemplo dois sujeitos i e j são caracterizados por p-variáveis nominais dicotómicas onde “+” e “-” representam, respectivamente, a presença e a ausência do atributo da questão; o resumo do nº de presenças e ausências dos atributos das variáveis sob estudo para cada sujeito i e j pode fazer-se com a tabela de contingência:
  • 8. 8 Análise de Clusters – como agrupar? Procedimentos de agregação podem ser: ▪ Hierárquicos – são caracterizados por ter um desenvolvimento com uma estrutura em árvore e compreendem métodos de ligação (linkage), de variância e de centróides. Dentro deles, os métodos com melhor desempenho são o de Ward (variância) e o average linkage. ▪ Não-hierárquicos – são também referidos como métodos K-médias. Possuem as seguintes desvantagens: ▪ O número de clusters tem que ser especificado à partida; ▪ A selecção de centros de cluster é arbitrária; ▪ Além disso, os resultados podem depender da selecção dos centros. Muitos investigadores sugerem que os dois métodos sejam usados em sequência: 1. Um método hierárquico (Ward, average linkage) para obter o número de clusters e centróides; 2. Depois, um método não hierárquico para encontrar os clusters óptimos.
  • 9. 9 Como obter uma análise de Clusters no SPSS Na barra de menus escolher: Seleccionar as variáveis para a lista
  • 10. 10 Como obter uma análise de Clusters no SPSS É conveniente normalizar as variáveis de forma a estarem na mesma escala de medida. Para isso: premir o botão Method… e em Standardize seleccionar Z scores.
  • 11. 11 Análise de Clusters – como agrupar? O método de agrupamento Hierárquico / Não hierárquico dos sujeitos em Clusters No primeiro passo do nosso algoritmo, o primeiro Cluster é formado por dois ou mais sujeitos (ou variáveis). A seguir é necessário definir as distâncias entre o Cluster (com mais de um sujeito) e os restantes sujeitos: ▪ Menor distância (Single linkage ou nearest neighbor): menor distância entre todos os sujeitos dos dois clusters. ▪ Maior distância (Complete linkage ou farthest-neighbor): maior distância entre todos os sujeitos dos dois clusters. ▪ Distância média entre Clusters (Average linkage between groups): média das distancias de cada um dos elementos constituintes de um Cluster a cada um dos restantes objectos. ▪ Método do Centróide (Centroid method): distância entre os centróides (médias de todos os sujeitos em todas as variáveis).Depois, um modelo não hierárquico para encontrar os clusters óptimos. ▪ Método de Ward: Minimizar a SQE dos clusters (i.e. minimizar a variabilidade dentro dos clusters -> maximizar a variabilidade entre clusters).
  • 12. 12 Como obter uma análise de Clusters no SPSS Os procedimentos hierárquicos de análise de clusters produzem diagramas que descrevem o processo de agregação. Para obter o dendograma, premir o botão Plots…
  • 13. 13 Como obter uma análise de Clusters no SPSS O calendário de agregação fornece informação sobre os objectos ou casos que são combinados em cada estágio do processo hierárquico de agregação.
  • 14. 14 Resultados da análise de Clusters no SPSS Segue-se o resultado do calendário de agregação obtido pelo exemplo do slide anterior. Os casos 8 e 9 são combinados no primeiro estágio. Distância euclidiana entre os casos 8 e 9. A coluna Next Stage indica o próximo estágio em que o cluster é combinado com outro. O cluster composto pelos casos 8 ou 9 surgirá novamente no estágio 4. A coluna Stage Cluster First Appears indica o estágio em que um cluster é formado pela primeira vez.. Em agregações hierárquicas, pode utilizar- se a distância de combinação dos clusters como critério de determinação do n.º de clusters a escollher. Por exemplo, no calendário de agregação o valor da coluna coefficients mais do que duplica entre o estágio 13 e 14. Assim, sendo, podem seleccionar- se 2 clusters – os representados pelo caso 1 e 4.
  • 15. 15 Resultados da análise de Clusters no SPSS Segue-se o exemplo do Diagrama de icicle: Os casos 8 e 9 são agrupados e formam o primeiro cluster. Os casos 14 e 7 são agrupados e formam o segundo cluster. Pelo digrama de icicle, os primeiros casos a agrupar são o 8 e o 9 – correspondentes à França e à Holanda – pois são os que se encontram mais próximos relativamente às variáveis seleccionadas.. Seguidamente, agrupam-se os casos 7 e 14. Depois agrupam- se os clusters 5 e 12. O último cluster é criado pela agregação da China e da Zâmbia (clusters 4 e 15).
  • 16. 16 Resultados da análise de Clusters no SPSS Segue-se o exemplo do Dendograma: A partir do dendograma podemos considerar dois clusters: o primeiro, composto pelos casos 8,9,6,7,14,5,12 e 4; o segundo, composto pelos casos 1, 3, 10, 2, 11, 13 e 15. O Dendograma deve ser lido da esquerda para a direita. A posição na escala horizontal indica a distância a que os clusters são agrupados. Nos primeiros estágios, muitas linhas têm magnitudes idênticas e por isso é difícil saber a sequência pela qual os primeiros clusters foram criados. Pelo contrário, nos últimos estágios, a distância a que os clusters são combinados é, geralmente, grande. Por isso, é mais fácil saber qual o cluster a que um objecto pertence. 1º cluster 2º cluster
  • 17. 17 Determinação dos centróides O centróide de um cluster é o ponto médio das variáveis para todos os casos ou objectos pertencentes a esse cluster. Os centróides dos clusters óptimos podem ser obtidos por um procedimento K-médias.
  • 18. 18 Determinação dos centróides O primeiro cluster tem valores mais elevados do que o segundo cluster, para as variáveis esperança média de vida feminina e percentagem de pessoas que lêem. Por outro lado tem valores mais baixos para a variável crescimento anual da população. Pode concluir-se que o primeiro cluster possui características comuns aos países desenvolvidos, contrariamente ao segundo cluster que possui características de países em desenvolvimento.
  • 19. 19 ANÁLISE ESTATÍSTICA DE DADOS COM SPSS Formadora: Zélia Barroso E-mail: zeliabarroso.apeu@gmail.com SEXTA SESSÃO 04-02-2022