SlideShare uma empresa Scribd logo
1 de 66
Baixar para ler offline
ANÁLISE DE AGRUPAMENTOS
(Cluster Analysis)
Regionalização
Prática no Geoda
Vitor Vieira Vasconcelos
Flávia F. Feitosa
Métodos e Técnicas de Análise da Informação para o Planejamento
Agosto de 2019
• Análise de Agrupamentos
 Medidas de similaridade
 Métodos de agrupamento
o Em árvore (hierárquico)
o Médias K
o Regionalização - Skater
 Prática no Geoda
Conteúdo
HAIR; BLACK; BABIN; ANDERSON; TATHAM. Análise
Multivariada de Dados. 6ª ed., 2009.
Capítulo 8 – Análise de Agrupamentos
Referência Principal
É uma técnica analítica pra identificar subgrupos
significativos de entidades homogêneas
(pessoas/objetos/lugares).
O objetivo é classificar uma amostra de entidades
em um número menor de grupos mutuamente
excludentes, com base nas similaridades entre as
entidades.
Busca por uma estrutura “natural” entre as
observações com base em um perfil multivariado.
HAIR; BLACK; BABIN; ANDERSON; TATHAM. Análise Multivariada de Dados. 6ª ed., 2009.
ANÁLISE DE AGRUPAMENTOS
Os agrupamentos resultantes de entidades devem
exibir elevada homogeneidade interna (dentro
dos agrupamentos) e elevada heterogeneidade
externa (entre agrupamentos).
ANÁLISE DE AGRUPAMENTOS
Idealmente, os
objetos dentro de um
agrupamento estarão
próximos quando
representados
graficamente, e
diferentes
agrupamentos estarão
distantes.
Agrupamentos com mais de
duas variáveis
http://www.vias.org/science_cartoons/cluster_analysis.html
Agrupamentos usando
dados espaciais
1. Classificar os setores censitários de acordo com as
diferentes dimensões de justiça/injustiça ambiental.
2. Classificar os municípios de SP em função das diferentes
dimensões de violência contra a mulher
3. Classificar os bairros do ABC de acordo com a
quantidade/perfil dos lançamentos residenciais
4. Classificar os distritos de SP de acordo com as variáveis de
infraestrutura e entorno dos domicílios
5. …
Exemplos “inspirados” nos trabalhos
propostos pelos alunos
Conjunto de variáveis que representam as
características usadas para comparar objetos da
análise de agrupamentos. Deve ser especificado pelo
analista.
Exemplos considerando as propostas de trabalho
apresentadas ???
Variável Estatística de Agrupamento
Procedimentos para Análise de
Agrupamento
Características da Análise
de Agrupamentos
1. É descritiva, não-teórica e não-inferencial
2. Sempre criará agrupamentos, independente da
existência real de alguma estrutura dos dados
3. Variedade de vias e critérios para a definição dos grupos,
o que possibilita a obtenção de soluções diferentes
4. Não é generalizável, pois é totalmente dependente das
variáveis usadas como base para a medida de
similaridade
Como agrupar esses
elementos?
Família
Simpsons
Funcionários
da escola
Mulheres Homens
QUESTÕES-CHAVE
1. Como medir similaridade?
2. Como formar os agrupamentos?
3. Quantos grupos formar?
1. Medição de Similaridade
Agrupamentos são grupos de objetos semelhantes.
Precisamos, portanto, definir uma medida do grau de
similaridade/dissimilaridade entre os objetos.
É possível medir similaridade, por exemplo, de acordo com a
distância euclidiana entre cada par de observações.
2. Formação de Agrupamentos
Definida a medida de similaridade a ser adotada,
precisamos formar agrupamentos com base na
similaridade de cada par de observações.
Esse procedimento deve determinar a pertinência de
cada observação para cada grupo formado.
2. Formação de Agrupamentos
• Diminuir a variação entre agrupamentos
• Diminuir a variação dentro dos agrupamentos
2. Formação de Agrupamentos
• Ligação entre grupos
1
2
1
2
1
2
1
2
3
4 5
3
4 5
3
4 5
3
4 5. .
Single-Linkage
Distância ao vizinho mais próximo
Complete-Linkage
Distância ao vizinho mais afastado
Average-Linkage
Distância média aos elementos
Centroid-linkage
Distância ao centro médio dos elementos
3. Número de Agrupamentos
Quantos grupos usar?
1. Grupos que fazem sentido na hora de interpretar
2. Utilidade / tempo disponível do usuário
3. Menor variação dentro dos grupos
vs.
Maior variação entre os grupos
3. Número de Agrupamentos
DILEMA
Menor nr. de agrupamentos &
Menor homogeneidade interna nos grupos
VS.
Maior nr. de agrupamentos &
Maior homogeneidade interna nos grupos
3. Número de Agrupamentos
Procurar pelo “cotovelo”
Número de grupos
Variânciainternaaosgrupos
3. Número de Agrupamentos
Indicadores
1. Variância interna entre os grupos
2. Distância entre os grupos
3. Variância interna
Variância interna + variância entre grupos
Métodos de Agrupamento
1. Agrupamento em árvore (tree clustering): método
aglomerativo hierárquico
2. K-médias (k-means): método não hierárquico por
repartição
3. Espacial – Regionalização via SKATER
Agrupamento em Árvore
https://www.cs.us.es/~fran/curso_unia/clustering.html
Agrupamento em Árvore
Considere as seguintes observações:
Variável de
Agrupamento
Observação
A B C D E F G
Variável 1 (V1) 3 4 4 2 6 7 6
Variável 2 (V2) 2 5 7 7 6 7 4
HAIR; BLACK; BABIN; ANDERSON; TATHAM. Análise Multivariada de Dados. 6ª ed., 2009.
Agrupamento em Árvore
0
2
4
6
8
0 2 4 6 8
V2
V1
D C
E
F
A
B
G
0
2
4
6
8
0 2 4 6 8
V2
V1
D C
E
F
A
B
G
Agrupamento em Árvore
Como medimos similaridade?
Neste exemplo, utilizaremos a
distância euclidiana (linha reta)
entre cada par de observações
Matriz de Proximidade de Distâncias
Euclidianas entre Observações
Observação
A B C D E F G
A -
B 3,162 -
C 5,099 2,000 -
D 5,099 2,828 2,000 -
E 5,000 2,236 2,236 4,123 -
F 6,403 3,606 3,000 5,000 1,414 -
G 3,606 2,236 3,606 5,000 2,000 3,162 -
Matriz de Proximidade de Distâncias
Euclidianas entre Observações
Observação
A B C D E F G
A -
B 3,162 -
C 5,099 2,000 -
D 5,099 2,828 2,000 -
E 5,000 2,236 2,236 4,123 -
F 6,403 3,606 3,000 5,000 1,414 -
G 3,606 2,236 3,606 5,000 2,000 3,162 -
Menor Distância,
Maior Similaridade
Agrupamento em Árvore
(1) Identificar as observações mais próximas (E e F) e
combiná-las em um agrupamento
Agrupamento em Árvore
(2) Encontrar próximos pares de observações mais
semelhantes.
HAIR; BLACK; BABIN; ANDERSON; TATHAM. Análise Multivariada de Dados. 6ª ed., 2009.
Dendograma
Dendograma
7 grupos 6 grupos 2 grupos
Métodos de Agrupamento
1. Agrupamento em árvore (tree clustering): método
aglomerativo hierárquico
2. K-médias (k-means): método não hierárquico por
repartição
3. Espacial – Regionalização via SKATER
K-MÉDIAS
Gera k diferentes grupos com a maior distinção possível
entre eles.
Parte de k-conjuntos aleatórios e move os objetos entre
estes conjuntos com o objetivo de:
(1) Minimizar a variabilidade dentro dos conjuntos
(2) Maximizar a variabilidade entre conjuntos
K-MÉDIAS
MINIMIZAR
VARIÂNCIAS
INTRA-GRUPOS
MAXIMIZAR
VARIÂNCIAS
INTER-GRUPOS
Dados devem estar normalizados (por exemplo, entre 0 e 1) ou padronizados (z-escore)
Dados devem estar normalizados (por exemplo, entre 0 e 1) ou padronizados (z-escore)
Grupos de Entropia
• Grupos com poucos elementos, bastante diferentes
do restante da amostra
• Úteis para análise de valores atípicos
Métodos de Agrupamento
1. Agrupamento em árvore (tree clustering): método
aglomerativo hierárquico
2. K-médias (k-means): método não hierárquico por
repartição
3. Espacial – Regionalização via SKATER
Método Skater
Técnica:
Minimizar a variabilidade entre os agrupamentos, mas
mantendo a contiguidade de todos os elementos em cada
agrupamento
Resultado:
Regiões relativamente homogêneas espacialmente contínuas
Regionalização
Neves, M. C. Procedimentos Eficientes para Regionalização de Unidades Socioeconômicas em Bancos de Dados Geográficos.
Tese de Doutorado, INPE, 2003. Disponível em: http://www.dpi.inpe.br/gilberto/teses/tese_marcos.pdf
• Não pode haver elementos sem vizinhos
Ex: As feições formam uma região espacialmente contígua
Árvore Geradora Mínima
Regionalização
 Inicialmente associa-se "custos" às arestas
 Os "custos" são calculados em função da similaridade
entre os geo-objetos
 Depois são eliminadas as arestas de menor "custo"
Árvore Geradora Mínima
Regionalização
 Procedimento de poda procura obter:
- regiões mais homogêneas
- mais equilibradas em termos de números de geo-
objetos por região.
Árvore Geradora Mínima
Regionalização
Árvore Geradora Mínima
Regionalização
Prática no GeoDa
Dados Origem e Destino 2007 – Município de São Paulo
Estabelecer grupos de zonas semelhantes quanto à
proporção de viagens do tipo:
V1: “transporte coletivo”
V2: “transporte individual”
V3: “transporte não motorizado”
Arquivo: OD2007_SP.shp
ANÁLISE EXPLORATÓRIA
Explore > 3D Scatterplot
ANÁLISE EXPLORATÓRIA
Explore > 3D Scatterplot
AGRUPAMENTO EM ÁRVORE
Clusters > Hierarchical
Para que todas as
variáveis tenham a
mesma influência
5 grupos 6 grupos
5 grupos 6 grupos
5 grupos 6 grupos
K-MÉDIAS
Clusters > K-means
K-MÉDIAS
K-MÉDIAS
Usar coordenadas como
variáveis de agrupamento
Criar matriz de vizinhança:
Tools > Weights Manager > Create
ID = Zona
Queen de ordem 1
SKATER
Clusters > Skater
SKATER
Parâmetro mínimo
(ex: população)
Área mínima
SKATER
Trabalho Final
4. RESULTADOS E DISCUSSÃO
 Apresentação e interpretação dos resultados
 Preparação dos Dados e Análise Exploratório
• Seleção das Variáveis, Estatísticas Descritivas, Mapas, Gráficos, Análise de Correlação,
Transformação de Variáveis (se necessário), autocorrelação espacial
 Análise de Regressão Clássica
• Escolha e Ajuste do Modelo de Regressão
• Diagnósticos para verificar se o modelo ajustado é adequado (não esqueça de incluir o
diagnóstico de autocorrelação espacial dos resíduos)
• Analisar se será necessária uma análise de regressão espacial:
- Os resíduos da regressão estão correlacionados espacialmente?
- O Teste de Multiplicadores de Lagrange indica que uma regressão espacial aprimoraria o
modelo?
- O Critério de Informação de Akaike indica que um modelo de regressão espacial seria mais
efetiva que a regressão convencional?
 Análise de Regressão Espacial
• Escolha de uma ou mais técnicas de análise de regressão espacial (spatial lag, spatial error
e/ou GWR).
• Explicar a(s) técnica(s) escolhida(s), reportar os resultados da regressão e os diagnósticos.
 Análise de Agrupamento e/ou Regionalização
• Obrigatório se não fizer a regressão espacial
• Opcional (bônus extra) se fizer também a regressão espacial

Mais conteúdo relacionado

Mais procurados

Análise Espacial Baseada em Localização
Análise Espacial Baseada em LocalizaçãoAnálise Espacial Baseada em Localização
Análise Espacial Baseada em LocalizaçãoVitor Vieira Vasconcelos
 
Georreferenciamento de Bases Cartográficas
Georreferenciamento de Bases CartográficasGeorreferenciamento de Bases Cartográficas
Georreferenciamento de Bases CartográficasVitor Vieira Vasconcelos
 
Análise de Eventos Pontuais - Distância padrão, Agregação, Mapas de Kernel, P...
Análise de Eventos Pontuais - Distância padrão, Agregação, Mapas de Kernel, P...Análise de Eventos Pontuais - Distância padrão, Agregação, Mapas de Kernel, P...
Análise de Eventos Pontuais - Distância padrão, Agregação, Mapas de Kernel, P...Vitor Vieira Vasconcelos
 
Mapas de Kernel: Conceitos e Aplicações
Mapas de Kernel: Conceitos e AplicaçõesMapas de Kernel: Conceitos e Aplicações
Mapas de Kernel: Conceitos e AplicaçõesAnderson Medeiros
 
QGIS 2.8: Substituição de Pixels Negativos no MDE
QGIS 2.8: Substituição de Pixels Negativos no MDEQGIS 2.8: Substituição de Pixels Negativos no MDE
QGIS 2.8: Substituição de Pixels Negativos no MDEJorge Santos
 
Análise de Agrupamentos e Regionalização
Análise de Agrupamentos e RegionalizaçãoAnálise de Agrupamentos e Regionalização
Análise de Agrupamentos e RegionalizaçãoVitor Vieira Vasconcelos
 
Mapas Coropléticos e de Símbolos Proporcionais
Mapas Coropléticos e de Símbolos ProporcionaisMapas Coropléticos e de Símbolos Proporcionais
Mapas Coropléticos e de Símbolos ProporcionaisVitor Vieira Vasconcelos
 
Aula de topografia 1 - módulo 1 - Engenharia civil
Aula de topografia 1 - módulo 1 - Engenharia civilAula de topografia 1 - módulo 1 - Engenharia civil
Aula de topografia 1 - módulo 1 - Engenharia civildebvieir
 
Operações com dados espaciais (Vetor) em R
Operações com dados espaciais (Vetor) em ROperações com dados espaciais (Vetor) em R
Operações com dados espaciais (Vetor) em RVitor Vieira Vasconcelos
 
Geoprocessamento Parte1
Geoprocessamento Parte1Geoprocessamento Parte1
Geoprocessamento Parte1INPE
 
Análise espacial de doenças transmissíveis
Análise espacial de doenças transmissíveisAnálise espacial de doenças transmissíveis
Análise espacial de doenças transmissíveisVitor Vieira Vasconcelos
 

Mais procurados (20)

Dados espaciais
Dados espaciaisDados espaciais
Dados espaciais
 
Autocorrelação espacial
Autocorrelação espacialAutocorrelação espacial
Autocorrelação espacial
 
Krigagem e Geovisualização Multivariada
Krigagem e Geovisualização MultivariadaKrigagem e Geovisualização Multivariada
Krigagem e Geovisualização Multivariada
 
Interpolação e Geoestatística em R
Interpolação e Geoestatística em RInterpolação e Geoestatística em R
Interpolação e Geoestatística em R
 
Análise Espacial Baseada em Localização
Análise Espacial Baseada em LocalizaçãoAnálise Espacial Baseada em Localização
Análise Espacial Baseada em Localização
 
Elaboração de Mapas no QGIS
Elaboração de Mapas no QGISElaboração de Mapas no QGIS
Elaboração de Mapas no QGIS
 
Dados espaciais em R
Dados espaciais em RDados espaciais em R
Dados espaciais em R
 
Georreferenciamento de Bases Cartográficas
Georreferenciamento de Bases CartográficasGeorreferenciamento de Bases Cartográficas
Georreferenciamento de Bases Cartográficas
 
Regressão Espacial
Regressão EspacialRegressão Espacial
Regressão Espacial
 
Análise de Eventos Pontuais - Distância padrão, Agregação, Mapas de Kernel, P...
Análise de Eventos Pontuais - Distância padrão, Agregação, Mapas de Kernel, P...Análise de Eventos Pontuais - Distância padrão, Agregação, Mapas de Kernel, P...
Análise de Eventos Pontuais - Distância padrão, Agregação, Mapas de Kernel, P...
 
Mapas de Kernel: Conceitos e Aplicações
Mapas de Kernel: Conceitos e AplicaçõesMapas de Kernel: Conceitos e Aplicações
Mapas de Kernel: Conceitos e Aplicações
 
Dados espaciais em R (2020)
Dados espaciais em R (2020)Dados espaciais em R (2020)
Dados espaciais em R (2020)
 
Sensoriamento Remoto em R
Sensoriamento  Remoto em RSensoriamento  Remoto em R
Sensoriamento Remoto em R
 
QGIS 2.8: Substituição de Pixels Negativos no MDE
QGIS 2.8: Substituição de Pixels Negativos no MDEQGIS 2.8: Substituição de Pixels Negativos no MDE
QGIS 2.8: Substituição de Pixels Negativos no MDE
 
Análise de Agrupamentos e Regionalização
Análise de Agrupamentos e RegionalizaçãoAnálise de Agrupamentos e Regionalização
Análise de Agrupamentos e Regionalização
 
Mapas Coropléticos e de Símbolos Proporcionais
Mapas Coropléticos e de Símbolos ProporcionaisMapas Coropléticos e de Símbolos Proporcionais
Mapas Coropléticos e de Símbolos Proporcionais
 
Aula de topografia 1 - módulo 1 - Engenharia civil
Aula de topografia 1 - módulo 1 - Engenharia civilAula de topografia 1 - módulo 1 - Engenharia civil
Aula de topografia 1 - módulo 1 - Engenharia civil
 
Operações com dados espaciais (Vetor) em R
Operações com dados espaciais (Vetor) em ROperações com dados espaciais (Vetor) em R
Operações com dados espaciais (Vetor) em R
 
Geoprocessamento Parte1
Geoprocessamento Parte1Geoprocessamento Parte1
Geoprocessamento Parte1
 
Análise espacial de doenças transmissíveis
Análise espacial de doenças transmissíveisAnálise espacial de doenças transmissíveis
Análise espacial de doenças transmissíveis
 

Semelhante a Análise de Agrupamentos em Dados de Origem e Destino no Município de São Paulo

Sessao 6.pdf para aproveitametno em sessões
Sessao 6.pdf para aproveitametno em sessõesSessao 6.pdf para aproveitametno em sessões
Sessao 6.pdf para aproveitametno em sessõesJoaquimOliveiraBapti1
 
Análise de Clusters - White Paper ELOGroup
Análise de Clusters - White Paper ELOGroupAnálise de Clusters - White Paper ELOGroup
Análise de Clusters - White Paper ELOGroupEloGroup
 
Analise Exploratoria Card Sorting
Analise Exploratoria Card SortingAnalise Exploratoria Card Sorting
Analise Exploratoria Card SortingLuiz Agner
 
ASOCEU PORTUGAL - Lesson 2 - Data Analysis (slides)
ASOCEU PORTUGAL - Lesson 2 - Data Analysis (slides)ASOCEU PORTUGAL - Lesson 2 - Data Analysis (slides)
ASOCEU PORTUGAL - Lesson 2 - Data Analysis (slides)A Scuola di OpenCoesione
 
Analise de Cluster - CardSorting
Analise de Cluster  - CardSortingAnalise de Cluster  - CardSorting
Analise de Cluster - CardSortingLuiz Agner
 
Recursos do Ambiente R para a Análise de Clusters
Recursos do Ambiente R para a Análise de ClustersRecursos do Ambiente R para a Análise de Clusters
Recursos do Ambiente R para a Análise de ClustersRodrigo Nunes
 
Método quantitativo-finalizado- slides
Método quantitativo-finalizado- slidesMétodo quantitativo-finalizado- slides
Método quantitativo-finalizado- slidesEmanuele Chaia
 
Análises agrupamento e dissimilaridade no Genes
Análises agrupamento e dissimilaridade no GenesAnálises agrupamento e dissimilaridade no Genes
Análises agrupamento e dissimilaridade no GenesCristiano Lemes da Silva
 
Agrupamento de sequências biológicas
Agrupamento de sequências biológicasAgrupamento de sequências biológicas
Agrupamento de sequências biológicasMarcos Castro
 
EstatíStica Aula 00
EstatíStica Aula 00EstatíStica Aula 00
EstatíStica Aula 00educacao f
 
Dados
DadosDados
Dadosunesp
 
Clustering informatizado
Clustering  informatizadoClustering  informatizado
Clustering informatizadoDiêgo Maciel
 
Data Mining - Clustering
Data Mining - ClusteringData Mining - Clustering
Data Mining - Clusteringiaudesc
 
Analise de dados ccill end
Analise de dados ccill endAnalise de dados ccill end
Analise de dados ccill endcruz ant
 

Semelhante a Análise de Agrupamentos em Dados de Origem e Destino no Município de São Paulo (20)

Sessao 6.pdf para aproveitametno em sessões
Sessao 6.pdf para aproveitametno em sessõesSessao 6.pdf para aproveitametno em sessões
Sessao 6.pdf para aproveitametno em sessões
 
Análise de Clusters - White Paper ELOGroup
Análise de Clusters - White Paper ELOGroupAnálise de Clusters - White Paper ELOGroup
Análise de Clusters - White Paper ELOGroup
 
Analise de clusters
Analise de clustersAnalise de clusters
Analise de clusters
 
Analise Exploratoria Card Sorting
Analise Exploratoria Card SortingAnalise Exploratoria Card Sorting
Analise Exploratoria Card Sorting
 
kNN Algorithm
kNN AlgorithmkNN Algorithm
kNN Algorithm
 
ASOCEU PORTUGAL - Lesson 2 - Data Analysis (slides)
ASOCEU PORTUGAL - Lesson 2 - Data Analysis (slides)ASOCEU PORTUGAL - Lesson 2 - Data Analysis (slides)
ASOCEU PORTUGAL - Lesson 2 - Data Analysis (slides)
 
Analise de Cluster - CardSorting
Analise de Cluster  - CardSortingAnalise de Cluster  - CardSorting
Analise de Cluster - CardSorting
 
Recursos do Ambiente R para a Análise de Clusters
Recursos do Ambiente R para a Análise de ClustersRecursos do Ambiente R para a Análise de Clusters
Recursos do Ambiente R para a Análise de Clusters
 
Clustering (Agrupamento)
Clustering (Agrupamento)Clustering (Agrupamento)
Clustering (Agrupamento)
 
ID3 Algorithm
ID3 AlgorithmID3 Algorithm
ID3 Algorithm
 
Agrupamento com K-Means
Agrupamento com K-MeansAgrupamento com K-Means
Agrupamento com K-Means
 
Método quantitativo-finalizado- slides
Método quantitativo-finalizado- slidesMétodo quantitativo-finalizado- slides
Método quantitativo-finalizado- slides
 
Cluster analysis TDC POA 2017
Cluster analysis  TDC POA 2017Cluster analysis  TDC POA 2017
Cluster analysis TDC POA 2017
 
Análises agrupamento e dissimilaridade no Genes
Análises agrupamento e dissimilaridade no GenesAnálises agrupamento e dissimilaridade no Genes
Análises agrupamento e dissimilaridade no Genes
 
Agrupamento de sequências biológicas
Agrupamento de sequências biológicasAgrupamento de sequências biológicas
Agrupamento de sequências biológicas
 
EstatíStica Aula 00
EstatíStica Aula 00EstatíStica Aula 00
EstatíStica Aula 00
 
Dados
DadosDados
Dados
 
Clustering informatizado
Clustering  informatizadoClustering  informatizado
Clustering informatizado
 
Data Mining - Clustering
Data Mining - ClusteringData Mining - Clustering
Data Mining - Clustering
 
Analise de dados ccill end
Analise de dados ccill endAnalise de dados ccill end
Analise de dados ccill end
 

Mais de Vitor Vieira Vasconcelos

Relationships among socioeconomic affluence, yard management, and biodiversity
Relationships among socioeconomic affluence, yard management, and biodiversityRelationships among socioeconomic affluence, yard management, and biodiversity
Relationships among socioeconomic affluence, yard management, and biodiversityVitor Vieira Vasconcelos
 
Fishbanks! Jogo de simulação de gestão de recursos renováveis
Fishbanks! Jogo de simulação de gestão de recursos renováveisFishbanks! Jogo de simulação de gestão de recursos renováveis
Fishbanks! Jogo de simulação de gestão de recursos renováveisVitor Vieira Vasconcelos
 
Regimes de Apropriação de Recursos Naturais
Regimes de Apropriação de Recursos NaturaisRegimes de Apropriação de Recursos Naturais
Regimes de Apropriação de Recursos NaturaisVitor Vieira Vasconcelos
 
Relações entre sistemas naturais e sociais
Relações entre sistemas naturais e sociaisRelações entre sistemas naturais e sociais
Relações entre sistemas naturais e sociaisVitor Vieira Vasconcelos
 
Recursos Naturais e Serviços Ecossistêmicos
Recursos Naturais e Serviços EcossistêmicosRecursos Naturais e Serviços Ecossistêmicos
Recursos Naturais e Serviços EcossistêmicosVitor Vieira Vasconcelos
 
Bases teóricas e conceituais do Planejamento e da Política Ambiental
Bases teóricas e conceituais do Planejamento e da Política AmbientalBases teóricas e conceituais do Planejamento e da Política Ambiental
Bases teóricas e conceituais do Planejamento e da Política AmbientalVitor Vieira Vasconcelos
 

Mais de Vitor Vieira Vasconcelos (20)

Relationships among socioeconomic affluence, yard management, and biodiversity
Relationships among socioeconomic affluence, yard management, and biodiversityRelationships among socioeconomic affluence, yard management, and biodiversity
Relationships among socioeconomic affluence, yard management, and biodiversity
 
Fishbanks! Jogo de simulação de gestão de recursos renováveis
Fishbanks! Jogo de simulação de gestão de recursos renováveisFishbanks! Jogo de simulação de gestão de recursos renováveis
Fishbanks! Jogo de simulação de gestão de recursos renováveis
 
Regimes de Apropriação de Recursos Naturais
Regimes de Apropriação de Recursos NaturaisRegimes de Apropriação de Recursos Naturais
Regimes de Apropriação de Recursos Naturais
 
Recursos Comuns e Tragédia dos Comuns
Recursos Comuns e Tragédia dos ComunsRecursos Comuns e Tragédia dos Comuns
Recursos Comuns e Tragédia dos Comuns
 
Relações entre sistemas naturais e sociais
Relações entre sistemas naturais e sociaisRelações entre sistemas naturais e sociais
Relações entre sistemas naturais e sociais
 
Valoração de Serviços Ecossistêmicos
Valoração de Serviços EcossistêmicosValoração de Serviços Ecossistêmicos
Valoração de Serviços Ecossistêmicos
 
Recursos Naturais e Serviços Ecossistêmicos
Recursos Naturais e Serviços EcossistêmicosRecursos Naturais e Serviços Ecossistêmicos
Recursos Naturais e Serviços Ecossistêmicos
 
Bases teóricas e conceituais do Planejamento e da Política Ambiental
Bases teóricas e conceituais do Planejamento e da Política AmbientalBases teóricas e conceituais do Planejamento e da Política Ambiental
Bases teóricas e conceituais do Planejamento e da Política Ambiental
 
Planejamento territorial
Planejamento territorialPlanejamento territorial
Planejamento territorial
 
Coremática e Mapeamento Participativo
Coremática e Mapeamento ParticipativoCoremática e Mapeamento Participativo
Coremática e Mapeamento Participativo
 
Cartografia Social
Cartografia SocialCartografia Social
Cartografia Social
 
MIgrações
MIgraçõesMIgrações
MIgrações
 
Conflitos fundiários
Conflitos fundiáriosConflitos fundiários
Conflitos fundiários
 
Conflitos Territoriais
Conflitos TerritoriaisConflitos Territoriais
Conflitos Territoriais
 
Chácara Baronesa - Haras São Bernardo
Chácara Baronesa - Haras São BernardoChácara Baronesa - Haras São Bernardo
Chácara Baronesa - Haras São Bernardo
 
Governo e Território
Governo e TerritórioGoverno e Território
Governo e Território
 
Segregação e Interação Territorial
Segregação e Interação TerritorialSegregação e Interação Territorial
Segregação e Interação Territorial
 
Território e Poder
Território e PoderTerritório e Poder
Território e Poder
 
Lugar, Ambiente, Paisagem e Sentimento
Lugar, Ambiente, Paisagem e SentimentoLugar, Ambiente, Paisagem e Sentimento
Lugar, Ambiente, Paisagem e Sentimento
 
Interpretação do Espaço
Interpretação do EspaçoInterpretação do Espaço
Interpretação do Espaço
 

Análise de Agrupamentos em Dados de Origem e Destino no Município de São Paulo

  • 1. ANÁLISE DE AGRUPAMENTOS (Cluster Analysis) Regionalização Prática no Geoda Vitor Vieira Vasconcelos Flávia F. Feitosa Métodos e Técnicas de Análise da Informação para o Planejamento Agosto de 2019
  • 2. • Análise de Agrupamentos  Medidas de similaridade  Métodos de agrupamento o Em árvore (hierárquico) o Médias K o Regionalização - Skater  Prática no Geoda Conteúdo
  • 3. HAIR; BLACK; BABIN; ANDERSON; TATHAM. Análise Multivariada de Dados. 6ª ed., 2009. Capítulo 8 – Análise de Agrupamentos Referência Principal
  • 4. É uma técnica analítica pra identificar subgrupos significativos de entidades homogêneas (pessoas/objetos/lugares). O objetivo é classificar uma amostra de entidades em um número menor de grupos mutuamente excludentes, com base nas similaridades entre as entidades. Busca por uma estrutura “natural” entre as observações com base em um perfil multivariado. HAIR; BLACK; BABIN; ANDERSON; TATHAM. Análise Multivariada de Dados. 6ª ed., 2009. ANÁLISE DE AGRUPAMENTOS
  • 5. Os agrupamentos resultantes de entidades devem exibir elevada homogeneidade interna (dentro dos agrupamentos) e elevada heterogeneidade externa (entre agrupamentos). ANÁLISE DE AGRUPAMENTOS Idealmente, os objetos dentro de um agrupamento estarão próximos quando representados graficamente, e diferentes agrupamentos estarão distantes.
  • 6. Agrupamentos com mais de duas variáveis
  • 7.
  • 9. 1. Classificar os setores censitários de acordo com as diferentes dimensões de justiça/injustiça ambiental. 2. Classificar os municípios de SP em função das diferentes dimensões de violência contra a mulher 3. Classificar os bairros do ABC de acordo com a quantidade/perfil dos lançamentos residenciais 4. Classificar os distritos de SP de acordo com as variáveis de infraestrutura e entorno dos domicílios 5. … Exemplos “inspirados” nos trabalhos propostos pelos alunos
  • 10. Conjunto de variáveis que representam as características usadas para comparar objetos da análise de agrupamentos. Deve ser especificado pelo analista. Exemplos considerando as propostas de trabalho apresentadas ??? Variável Estatística de Agrupamento
  • 11. Procedimentos para Análise de Agrupamento
  • 12. Características da Análise de Agrupamentos 1. É descritiva, não-teórica e não-inferencial 2. Sempre criará agrupamentos, independente da existência real de alguma estrutura dos dados 3. Variedade de vias e critérios para a definição dos grupos, o que possibilita a obtenção de soluções diferentes 4. Não é generalizável, pois é totalmente dependente das variáveis usadas como base para a medida de similaridade
  • 14. QUESTÕES-CHAVE 1. Como medir similaridade? 2. Como formar os agrupamentos? 3. Quantos grupos formar?
  • 15. 1. Medição de Similaridade Agrupamentos são grupos de objetos semelhantes. Precisamos, portanto, definir uma medida do grau de similaridade/dissimilaridade entre os objetos. É possível medir similaridade, por exemplo, de acordo com a distância euclidiana entre cada par de observações.
  • 16. 2. Formação de Agrupamentos Definida a medida de similaridade a ser adotada, precisamos formar agrupamentos com base na similaridade de cada par de observações. Esse procedimento deve determinar a pertinência de cada observação para cada grupo formado.
  • 17. 2. Formação de Agrupamentos • Diminuir a variação entre agrupamentos • Diminuir a variação dentro dos agrupamentos
  • 18. 2. Formação de Agrupamentos • Ligação entre grupos 1 2 1 2 1 2 1 2 3 4 5 3 4 5 3 4 5 3 4 5. . Single-Linkage Distância ao vizinho mais próximo Complete-Linkage Distância ao vizinho mais afastado Average-Linkage Distância média aos elementos Centroid-linkage Distância ao centro médio dos elementos
  • 19. 3. Número de Agrupamentos Quantos grupos usar? 1. Grupos que fazem sentido na hora de interpretar 2. Utilidade / tempo disponível do usuário 3. Menor variação dentro dos grupos vs. Maior variação entre os grupos
  • 20. 3. Número de Agrupamentos DILEMA Menor nr. de agrupamentos & Menor homogeneidade interna nos grupos VS. Maior nr. de agrupamentos & Maior homogeneidade interna nos grupos
  • 21. 3. Número de Agrupamentos Procurar pelo “cotovelo” Número de grupos Variânciainternaaosgrupos
  • 22. 3. Número de Agrupamentos Indicadores 1. Variância interna entre os grupos 2. Distância entre os grupos 3. Variância interna Variância interna + variância entre grupos
  • 23. Métodos de Agrupamento 1. Agrupamento em árvore (tree clustering): método aglomerativo hierárquico 2. K-médias (k-means): método não hierárquico por repartição 3. Espacial – Regionalização via SKATER
  • 25. Agrupamento em Árvore Considere as seguintes observações: Variável de Agrupamento Observação A B C D E F G Variável 1 (V1) 3 4 4 2 6 7 6 Variável 2 (V2) 2 5 7 7 6 7 4 HAIR; BLACK; BABIN; ANDERSON; TATHAM. Análise Multivariada de Dados. 6ª ed., 2009.
  • 26. Agrupamento em Árvore 0 2 4 6 8 0 2 4 6 8 V2 V1 D C E F A B G
  • 27. 0 2 4 6 8 0 2 4 6 8 V2 V1 D C E F A B G Agrupamento em Árvore Como medimos similaridade? Neste exemplo, utilizaremos a distância euclidiana (linha reta) entre cada par de observações
  • 28. Matriz de Proximidade de Distâncias Euclidianas entre Observações Observação A B C D E F G A - B 3,162 - C 5,099 2,000 - D 5,099 2,828 2,000 - E 5,000 2,236 2,236 4,123 - F 6,403 3,606 3,000 5,000 1,414 - G 3,606 2,236 3,606 5,000 2,000 3,162 -
  • 29. Matriz de Proximidade de Distâncias Euclidianas entre Observações Observação A B C D E F G A - B 3,162 - C 5,099 2,000 - D 5,099 2,828 2,000 - E 5,000 2,236 2,236 4,123 - F 6,403 3,606 3,000 5,000 1,414 - G 3,606 2,236 3,606 5,000 2,000 3,162 - Menor Distância, Maior Similaridade
  • 30. Agrupamento em Árvore (1) Identificar as observações mais próximas (E e F) e combiná-las em um agrupamento
  • 31. Agrupamento em Árvore (2) Encontrar próximos pares de observações mais semelhantes. HAIR; BLACK; BABIN; ANDERSON; TATHAM. Análise Multivariada de Dados. 6ª ed., 2009.
  • 33. Dendograma 7 grupos 6 grupos 2 grupos
  • 34. Métodos de Agrupamento 1. Agrupamento em árvore (tree clustering): método aglomerativo hierárquico 2. K-médias (k-means): método não hierárquico por repartição 3. Espacial – Regionalização via SKATER
  • 35. K-MÉDIAS Gera k diferentes grupos com a maior distinção possível entre eles. Parte de k-conjuntos aleatórios e move os objetos entre estes conjuntos com o objetivo de: (1) Minimizar a variabilidade dentro dos conjuntos (2) Maximizar a variabilidade entre conjuntos
  • 37. Dados devem estar normalizados (por exemplo, entre 0 e 1) ou padronizados (z-escore)
  • 38. Dados devem estar normalizados (por exemplo, entre 0 e 1) ou padronizados (z-escore)
  • 39. Grupos de Entropia • Grupos com poucos elementos, bastante diferentes do restante da amostra • Úteis para análise de valores atípicos
  • 40. Métodos de Agrupamento 1. Agrupamento em árvore (tree clustering): método aglomerativo hierárquico 2. K-médias (k-means): método não hierárquico por repartição 3. Espacial – Regionalização via SKATER
  • 41. Método Skater Técnica: Minimizar a variabilidade entre os agrupamentos, mas mantendo a contiguidade de todos os elementos em cada agrupamento Resultado: Regiões relativamente homogêneas espacialmente contínuas Regionalização Neves, M. C. Procedimentos Eficientes para Regionalização de Unidades Socioeconômicas em Bancos de Dados Geográficos. Tese de Doutorado, INPE, 2003. Disponível em: http://www.dpi.inpe.br/gilberto/teses/tese_marcos.pdf • Não pode haver elementos sem vizinhos Ex: As feições formam uma região espacialmente contígua
  • 43.  Inicialmente associa-se "custos" às arestas  Os "custos" são calculados em função da similaridade entre os geo-objetos  Depois são eliminadas as arestas de menor "custo"
  • 45.  Procedimento de poda procura obter: - regiões mais homogêneas - mais equilibradas em termos de números de geo- objetos por região.
  • 48. Prática no GeoDa Dados Origem e Destino 2007 – Município de São Paulo Estabelecer grupos de zonas semelhantes quanto à proporção de viagens do tipo: V1: “transporte coletivo” V2: “transporte individual” V3: “transporte não motorizado” Arquivo: OD2007_SP.shp
  • 52. Para que todas as variáveis tenham a mesma influência
  • 53.
  • 54.
  • 55.
  • 56. 5 grupos 6 grupos
  • 57. 5 grupos 6 grupos
  • 58. 5 grupos 6 grupos
  • 62.
  • 63. Criar matriz de vizinhança: Tools > Weights Manager > Create ID = Zona Queen de ordem 1 SKATER
  • 64. Clusters > Skater SKATER Parâmetro mínimo (ex: população) Área mínima
  • 66. Trabalho Final 4. RESULTADOS E DISCUSSÃO  Apresentação e interpretação dos resultados  Preparação dos Dados e Análise Exploratório • Seleção das Variáveis, Estatísticas Descritivas, Mapas, Gráficos, Análise de Correlação, Transformação de Variáveis (se necessário), autocorrelação espacial  Análise de Regressão Clássica • Escolha e Ajuste do Modelo de Regressão • Diagnósticos para verificar se o modelo ajustado é adequado (não esqueça de incluir o diagnóstico de autocorrelação espacial dos resíduos) • Analisar se será necessária uma análise de regressão espacial: - Os resíduos da regressão estão correlacionados espacialmente? - O Teste de Multiplicadores de Lagrange indica que uma regressão espacial aprimoraria o modelo? - O Critério de Informação de Akaike indica que um modelo de regressão espacial seria mais efetiva que a regressão convencional?  Análise de Regressão Espacial • Escolha de uma ou mais técnicas de análise de regressão espacial (spatial lag, spatial error e/ou GWR). • Explicar a(s) técnica(s) escolhida(s), reportar os resultados da regressão e os diagnósticos.  Análise de Agrupamento e/ou Regionalização • Obrigatório se não fizer a regressão espacial • Opcional (bônus extra) se fizer também a regressão espacial