Aula da disciplina de Métodos e Técnicas de Análise da Informação para o Planejamento, Universidade Federal do ABC (UFABC), São Bernardo do Campo - SP, agosto de 2019
Gravação de aula disponível em: https://youtu.be/x7vZc-juuVY
Bases de dados disponíveis em: https://app.box.com/s/04py9qq5e2yumx6f2ivx5dpkddeotn0w
Análise de Agrupamentos em Dados de Origem e Destino no Município de São Paulo
1. ANÁLISE DE AGRUPAMENTOS
(Cluster Analysis)
Regionalização
Prática no Geoda
Vitor Vieira Vasconcelos
Flávia F. Feitosa
Métodos e Técnicas de Análise da Informação para o Planejamento
Agosto de 2019
2. • Análise de Agrupamentos
Medidas de similaridade
Métodos de agrupamento
o Em árvore (hierárquico)
o Médias K
o Regionalização - Skater
Prática no Geoda
Conteúdo
3. HAIR; BLACK; BABIN; ANDERSON; TATHAM. Análise
Multivariada de Dados. 6ª ed., 2009.
Capítulo 8 – Análise de Agrupamentos
Referência Principal
4. É uma técnica analítica pra identificar subgrupos
significativos de entidades homogêneas
(pessoas/objetos/lugares).
O objetivo é classificar uma amostra de entidades
em um número menor de grupos mutuamente
excludentes, com base nas similaridades entre as
entidades.
Busca por uma estrutura “natural” entre as
observações com base em um perfil multivariado.
HAIR; BLACK; BABIN; ANDERSON; TATHAM. Análise Multivariada de Dados. 6ª ed., 2009.
ANÁLISE DE AGRUPAMENTOS
5. Os agrupamentos resultantes de entidades devem
exibir elevada homogeneidade interna (dentro
dos agrupamentos) e elevada heterogeneidade
externa (entre agrupamentos).
ANÁLISE DE AGRUPAMENTOS
Idealmente, os
objetos dentro de um
agrupamento estarão
próximos quando
representados
graficamente, e
diferentes
agrupamentos estarão
distantes.
9. 1. Classificar os setores censitários de acordo com as
diferentes dimensões de justiça/injustiça ambiental.
2. Classificar os municípios de SP em função das diferentes
dimensões de violência contra a mulher
3. Classificar os bairros do ABC de acordo com a
quantidade/perfil dos lançamentos residenciais
4. Classificar os distritos de SP de acordo com as variáveis de
infraestrutura e entorno dos domicílios
5. …
Exemplos “inspirados” nos trabalhos
propostos pelos alunos
10. Conjunto de variáveis que representam as
características usadas para comparar objetos da
análise de agrupamentos. Deve ser especificado pelo
analista.
Exemplos considerando as propostas de trabalho
apresentadas ???
Variável Estatística de Agrupamento
12. Características da Análise
de Agrupamentos
1. É descritiva, não-teórica e não-inferencial
2. Sempre criará agrupamentos, independente da
existência real de alguma estrutura dos dados
3. Variedade de vias e critérios para a definição dos grupos,
o que possibilita a obtenção de soluções diferentes
4. Não é generalizável, pois é totalmente dependente das
variáveis usadas como base para a medida de
similaridade
15. 1. Medição de Similaridade
Agrupamentos são grupos de objetos semelhantes.
Precisamos, portanto, definir uma medida do grau de
similaridade/dissimilaridade entre os objetos.
É possível medir similaridade, por exemplo, de acordo com a
distância euclidiana entre cada par de observações.
16. 2. Formação de Agrupamentos
Definida a medida de similaridade a ser adotada,
precisamos formar agrupamentos com base na
similaridade de cada par de observações.
Esse procedimento deve determinar a pertinência de
cada observação para cada grupo formado.
17. 2. Formação de Agrupamentos
• Diminuir a variação entre agrupamentos
• Diminuir a variação dentro dos agrupamentos
18. 2. Formação de Agrupamentos
• Ligação entre grupos
1
2
1
2
1
2
1
2
3
4 5
3
4 5
3
4 5
3
4 5. .
Single-Linkage
Distância ao vizinho mais próximo
Complete-Linkage
Distância ao vizinho mais afastado
Average-Linkage
Distância média aos elementos
Centroid-linkage
Distância ao centro médio dos elementos
19. 3. Número de Agrupamentos
Quantos grupos usar?
1. Grupos que fazem sentido na hora de interpretar
2. Utilidade / tempo disponível do usuário
3. Menor variação dentro dos grupos
vs.
Maior variação entre os grupos
20. 3. Número de Agrupamentos
DILEMA
Menor nr. de agrupamentos &
Menor homogeneidade interna nos grupos
VS.
Maior nr. de agrupamentos &
Maior homogeneidade interna nos grupos
21. 3. Número de Agrupamentos
Procurar pelo “cotovelo”
Número de grupos
Variânciainternaaosgrupos
22. 3. Número de Agrupamentos
Indicadores
1. Variância interna entre os grupos
2. Distância entre os grupos
3. Variância interna
Variância interna + variância entre grupos
23. Métodos de Agrupamento
1. Agrupamento em árvore (tree clustering): método
aglomerativo hierárquico
2. K-médias (k-means): método não hierárquico por
repartição
3. Espacial – Regionalização via SKATER
25. Agrupamento em Árvore
Considere as seguintes observações:
Variável de
Agrupamento
Observação
A B C D E F G
Variável 1 (V1) 3 4 4 2 6 7 6
Variável 2 (V2) 2 5 7 7 6 7 4
HAIR; BLACK; BABIN; ANDERSON; TATHAM. Análise Multivariada de Dados. 6ª ed., 2009.
27. 0
2
4
6
8
0 2 4 6 8
V2
V1
D C
E
F
A
B
G
Agrupamento em Árvore
Como medimos similaridade?
Neste exemplo, utilizaremos a
distância euclidiana (linha reta)
entre cada par de observações
28. Matriz de Proximidade de Distâncias
Euclidianas entre Observações
Observação
A B C D E F G
A -
B 3,162 -
C 5,099 2,000 -
D 5,099 2,828 2,000 -
E 5,000 2,236 2,236 4,123 -
F 6,403 3,606 3,000 5,000 1,414 -
G 3,606 2,236 3,606 5,000 2,000 3,162 -
29. Matriz de Proximidade de Distâncias
Euclidianas entre Observações
Observação
A B C D E F G
A -
B 3,162 -
C 5,099 2,000 -
D 5,099 2,828 2,000 -
E 5,000 2,236 2,236 4,123 -
F 6,403 3,606 3,000 5,000 1,414 -
G 3,606 2,236 3,606 5,000 2,000 3,162 -
Menor Distância,
Maior Similaridade
30. Agrupamento em Árvore
(1) Identificar as observações mais próximas (E e F) e
combiná-las em um agrupamento
31. Agrupamento em Árvore
(2) Encontrar próximos pares de observações mais
semelhantes.
HAIR; BLACK; BABIN; ANDERSON; TATHAM. Análise Multivariada de Dados. 6ª ed., 2009.
34. Métodos de Agrupamento
1. Agrupamento em árvore (tree clustering): método
aglomerativo hierárquico
2. K-médias (k-means): método não hierárquico por
repartição
3. Espacial – Regionalização via SKATER
35. K-MÉDIAS
Gera k diferentes grupos com a maior distinção possível
entre eles.
Parte de k-conjuntos aleatórios e move os objetos entre
estes conjuntos com o objetivo de:
(1) Minimizar a variabilidade dentro dos conjuntos
(2) Maximizar a variabilidade entre conjuntos
37. Dados devem estar normalizados (por exemplo, entre 0 e 1) ou padronizados (z-escore)
38. Dados devem estar normalizados (por exemplo, entre 0 e 1) ou padronizados (z-escore)
39. Grupos de Entropia
• Grupos com poucos elementos, bastante diferentes
do restante da amostra
• Úteis para análise de valores atípicos
40. Métodos de Agrupamento
1. Agrupamento em árvore (tree clustering): método
aglomerativo hierárquico
2. K-médias (k-means): método não hierárquico por
repartição
3. Espacial – Regionalização via SKATER
41. Método Skater
Técnica:
Minimizar a variabilidade entre os agrupamentos, mas
mantendo a contiguidade de todos os elementos em cada
agrupamento
Resultado:
Regiões relativamente homogêneas espacialmente contínuas
Regionalização
Neves, M. C. Procedimentos Eficientes para Regionalização de Unidades Socioeconômicas em Bancos de Dados Geográficos.
Tese de Doutorado, INPE, 2003. Disponível em: http://www.dpi.inpe.br/gilberto/teses/tese_marcos.pdf
• Não pode haver elementos sem vizinhos
Ex: As feições formam uma região espacialmente contígua
43. Inicialmente associa-se "custos" às arestas
Os "custos" são calculados em função da similaridade
entre os geo-objetos
Depois são eliminadas as arestas de menor "custo"
48. Prática no GeoDa
Dados Origem e Destino 2007 – Município de São Paulo
Estabelecer grupos de zonas semelhantes quanto à
proporção de viagens do tipo:
V1: “transporte coletivo”
V2: “transporte individual”
V3: “transporte não motorizado”
Arquivo: OD2007_SP.shp
66. Trabalho Final
4. RESULTADOS E DISCUSSÃO
Apresentação e interpretação dos resultados
Preparação dos Dados e Análise Exploratório
• Seleção das Variáveis, Estatísticas Descritivas, Mapas, Gráficos, Análise de Correlação,
Transformação de Variáveis (se necessário), autocorrelação espacial
Análise de Regressão Clássica
• Escolha e Ajuste do Modelo de Regressão
• Diagnósticos para verificar se o modelo ajustado é adequado (não esqueça de incluir o
diagnóstico de autocorrelação espacial dos resíduos)
• Analisar se será necessária uma análise de regressão espacial:
- Os resíduos da regressão estão correlacionados espacialmente?
- O Teste de Multiplicadores de Lagrange indica que uma regressão espacial aprimoraria o
modelo?
- O Critério de Informação de Akaike indica que um modelo de regressão espacial seria mais
efetiva que a regressão convencional?
Análise de Regressão Espacial
• Escolha de uma ou mais técnicas de análise de regressão espacial (spatial lag, spatial error
e/ou GWR).
• Explicar a(s) técnica(s) escolhida(s), reportar os resultados da regressão e os diagnósticos.
Análise de Agrupamento e/ou Regionalização
• Obrigatório se não fizer a regressão espacial
• Opcional (bônus extra) se fizer também a regressão espacial