SlideShare uma empresa Scribd logo
1 de 66
Baixar para ler offline
ANÁLISE DE AGRUPAMENTOS
(Cluster Analysis)
Regionalização
Prática no Geoda
Vitor Vieira Vasconcelos
Flávia F. Feitosa
Métodos e Técnicas de Análise da Informação para o Planejamento
Agosto de 2019
• Análise de Agrupamentos
 Medidas de similaridade
 Métodos de agrupamento
o Em árvore (hierárquico)
o Médias K
o Regionalização - Skater
 Prática no Geoda
Conteúdo
HAIR; BLACK; BABIN; ANDERSON; TATHAM. Análise
Multivariada de Dados. 6ª ed., 2009.
Capítulo 8 – Análise de Agrupamentos
Referência Principal
É uma técnica analítica pra identificar subgrupos
significativos de entidades homogêneas
(pessoas/objetos/lugares).
O objetivo é classificar uma amostra de entidades
em um número menor de grupos mutuamente
excludentes, com base nas similaridades entre as
entidades.
Busca por uma estrutura “natural” entre as
observações com base em um perfil multivariado.
HAIR; BLACK; BABIN; ANDERSON; TATHAM. Análise Multivariada de Dados. 6ª ed., 2009.
ANÁLISE DE AGRUPAMENTOS
Os agrupamentos resultantes de entidades devem
exibir elevada homogeneidade interna (dentro
dos agrupamentos) e elevada heterogeneidade
externa (entre agrupamentos).
ANÁLISE DE AGRUPAMENTOS
Idealmente, os
objetos dentro de um
agrupamento estarão
próximos quando
representados
graficamente, e
diferentes
agrupamentos estarão
distantes.
Agrupamentos com mais de
duas variáveis
http://www.vias.org/science_cartoons/cluster_analysis.html
Agrupamentos usando
dados espaciais
1. Classificar os setores censitários de acordo com as
diferentes dimensões de justiça/injustiça ambiental.
2. Classificar os municípios de SP em função das diferentes
dimensões de violência contra a mulher
3. Classificar os bairros do ABC de acordo com a
quantidade/perfil dos lançamentos residenciais
4. Classificar os distritos de SP de acordo com as variáveis de
infraestrutura e entorno dos domicílios
5. …
Exemplos “inspirados” nos trabalhos
propostos pelos alunos
Conjunto de variáveis que representam as
características usadas para comparar objetos da
análise de agrupamentos. Deve ser especificado pelo
analista.
Exemplos considerando as propostas de trabalho
apresentadas ???
Variável Estatística de Agrupamento
Procedimentos para Análise de
Agrupamento
Características da Análise
de Agrupamentos
1. É descritiva, não-teórica e não-inferencial
2. Sempre criará agrupamentos, independente da
existência real de alguma estrutura dos dados
3. Variedade de vias e critérios para a definição dos grupos,
o que possibilita a obtenção de soluções diferentes
4. Não é generalizável, pois é totalmente dependente das
variáveis usadas como base para a medida de
similaridade
Como agrupar esses
elementos?
Família
Simpsons
Funcionários
da escola
Mulheres Homens
QUESTÕES-CHAVE
1. Como medir similaridade?
2. Como formar os agrupamentos?
3. Quantos grupos formar?
1. Medição de Similaridade
Agrupamentos são grupos de objetos semelhantes.
Precisamos, portanto, definir uma medida do grau de
similaridade/dissimilaridade entre os objetos.
É possível medir similaridade, por exemplo, de acordo com a
distância euclidiana entre cada par de observações.
2. Formação de Agrupamentos
Definida a medida de similaridade a ser adotada,
precisamos formar agrupamentos com base na
similaridade de cada par de observações.
Esse procedimento deve determinar a pertinência de
cada observação para cada grupo formado.
2. Formação de Agrupamentos
• Diminuir a variação entre agrupamentos
• Diminuir a variação dentro dos agrupamentos
2. Formação de Agrupamentos
• Ligação entre grupos
1
2
1
2
1
2
1
2
3
4 5
3
4 5
3
4 5
3
4 5. .
Single-Linkage
Distância ao vizinho mais próximo
Complete-Linkage
Distância ao vizinho mais afastado
Average-Linkage
Distância média aos elementos
Centroid-linkage
Distância ao centro médio dos elementos
3. Número de Agrupamentos
Quantos grupos usar?
1. Grupos que fazem sentido na hora de interpretar
2. Utilidade / tempo disponível do usuário
3. Menor variação dentro dos grupos
vs.
Maior variação entre os grupos
3. Número de Agrupamentos
DILEMA
Menor nr. de agrupamentos &
Menor homogeneidade interna nos grupos
VS.
Maior nr. de agrupamentos &
Maior homogeneidade interna nos grupos
3. Número de Agrupamentos
Procurar pelo “cotovelo”
Número de grupos
Variânciainternaaosgrupos
3. Número de Agrupamentos
Indicadores
1. Variância interna entre os grupos
2. Distância entre os grupos
3. Variância interna
Variância interna + variância entre grupos
Métodos de Agrupamento
1. Agrupamento em árvore (tree clustering): método
aglomerativo hierárquico
2. K-médias (k-means): método não hierárquico por
repartição
3. Espacial – Regionalização via SKATER
Agrupamento em Árvore
https://www.cs.us.es/~fran/curso_unia/clustering.html
Agrupamento em Árvore
Considere as seguintes observações:
Variável de
Agrupamento
Observação
A B C D E F G
Variável 1 (V1) 3 4 4 2 6 7 6
Variável 2 (V2) 2 5 7 7 6 7 4
HAIR; BLACK; BABIN; ANDERSON; TATHAM. Análise Multivariada de Dados. 6ª ed., 2009.
Agrupamento em Árvore
0
2
4
6
8
0 2 4 6 8
V2
V1
D C
E
F
A
B
G
0
2
4
6
8
0 2 4 6 8
V2
V1
D C
E
F
A
B
G
Agrupamento em Árvore
Como medimos similaridade?
Neste exemplo, utilizaremos a
distância euclidiana (linha reta)
entre cada par de observações
Matriz de Proximidade de Distâncias
Euclidianas entre Observações
Observação
A B C D E F G
A -
B 3,162 -
C 5,099 2,000 -
D 5,099 2,828 2,000 -
E 5,000 2,236 2,236 4,123 -
F 6,403 3,606 3,000 5,000 1,414 -
G 3,606 2,236 3,606 5,000 2,000 3,162 -
Matriz de Proximidade de Distâncias
Euclidianas entre Observações
Observação
A B C D E F G
A -
B 3,162 -
C 5,099 2,000 -
D 5,099 2,828 2,000 -
E 5,000 2,236 2,236 4,123 -
F 6,403 3,606 3,000 5,000 1,414 -
G 3,606 2,236 3,606 5,000 2,000 3,162 -
Menor Distância,
Maior Similaridade
Agrupamento em Árvore
(1) Identificar as observações mais próximas (E e F) e
combiná-las em um agrupamento
Agrupamento em Árvore
(2) Encontrar próximos pares de observações mais
semelhantes.
HAIR; BLACK; BABIN; ANDERSON; TATHAM. Análise Multivariada de Dados. 6ª ed., 2009.
Dendograma
Dendograma
7 grupos 6 grupos 2 grupos
Métodos de Agrupamento
1. Agrupamento em árvore (tree clustering): método
aglomerativo hierárquico
2. K-médias (k-means): método não hierárquico por
repartição
3. Espacial – Regionalização via SKATER
K-MÉDIAS
Gera k diferentes grupos com a maior distinção possível
entre eles.
Parte de k-conjuntos aleatórios e move os objetos entre
estes conjuntos com o objetivo de:
(1) Minimizar a variabilidade dentro dos conjuntos
(2) Maximizar a variabilidade entre conjuntos
K-MÉDIAS
MINIMIZAR
VARIÂNCIAS
INTRA-GRUPOS
MAXIMIZAR
VARIÂNCIAS
INTER-GRUPOS
Dados devem estar normalizados (por exemplo, entre 0 e 1) ou padronizados (z-escore)
Dados devem estar normalizados (por exemplo, entre 0 e 1) ou padronizados (z-escore)
Grupos de Entropia
• Grupos com poucos elementos, bastante diferentes
do restante da amostra
• Úteis para análise de valores atípicos
Métodos de Agrupamento
1. Agrupamento em árvore (tree clustering): método
aglomerativo hierárquico
2. K-médias (k-means): método não hierárquico por
repartição
3. Espacial – Regionalização via SKATER
Método Skater
Técnica:
Minimizar a variabilidade entre os agrupamentos, mas
mantendo a contiguidade de todos os elementos em cada
agrupamento
Resultado:
Regiões relativamente homogêneas espacialmente contínuas
Regionalização
Neves, M. C. Procedimentos Eficientes para Regionalização de Unidades Socioeconômicas em Bancos de Dados Geográficos.
Tese de Doutorado, INPE, 2003. Disponível em: http://www.dpi.inpe.br/gilberto/teses/tese_marcos.pdf
• Não pode haver elementos sem vizinhos
Ex: As feições formam uma região espacialmente contígua
Árvore Geradora Mínima
Regionalização
 Inicialmente associa-se "custos" às arestas
 Os "custos" são calculados em função da similaridade
entre os geo-objetos
 Depois são eliminadas as arestas de menor "custo"
Árvore Geradora Mínima
Regionalização
 Procedimento de poda procura obter:
- regiões mais homogêneas
- mais equilibradas em termos de números de geo-
objetos por região.
Árvore Geradora Mínima
Regionalização
Árvore Geradora Mínima
Regionalização
Prática no GeoDa
Dados Origem e Destino 2007 – Município de São Paulo
Estabelecer grupos de zonas semelhantes quanto à
proporção de viagens do tipo:
V1: “transporte coletivo”
V2: “transporte individual”
V3: “transporte não motorizado”
Arquivo: OD2007_SP.shp
ANÁLISE EXPLORATÓRIA
Explore > 3D Scatterplot
ANÁLISE EXPLORATÓRIA
Explore > 3D Scatterplot
AGRUPAMENTO EM ÁRVORE
Clusters > Hierarchical
Para que todas as
variáveis tenham a
mesma influência
5 grupos 6 grupos
5 grupos 6 grupos
5 grupos 6 grupos
K-MÉDIAS
Clusters > K-means
K-MÉDIAS
K-MÉDIAS
Usar coordenadas como
variáveis de agrupamento
Criar matriz de vizinhança:
Tools > Weights Manager > Create
ID = Zona
Queen de ordem 1
SKATER
Clusters > Skater
SKATER
Parâmetro mínimo
(ex: população)
Área mínima
SKATER
Trabalho Final
4. RESULTADOS E DISCUSSÃO
 Apresentação e interpretação dos resultados
 Preparação dos Dados e Análise Exploratório
• Seleção das Variáveis, Estatísticas Descritivas, Mapas, Gráficos, Análise de Correlação,
Transformação de Variáveis (se necessário), autocorrelação espacial
 Análise de Regressão Clássica
• Escolha e Ajuste do Modelo de Regressão
• Diagnósticos para verificar se o modelo ajustado é adequado (não esqueça de incluir o
diagnóstico de autocorrelação espacial dos resíduos)
• Analisar se será necessária uma análise de regressão espacial:
- Os resíduos da regressão estão correlacionados espacialmente?
- O Teste de Multiplicadores de Lagrange indica que uma regressão espacial aprimoraria o
modelo?
- O Critério de Informação de Akaike indica que um modelo de regressão espacial seria mais
efetiva que a regressão convencional?
 Análise de Regressão Espacial
• Escolha de uma ou mais técnicas de análise de regressão espacial (spatial lag, spatial error
e/ou GWR).
• Explicar a(s) técnica(s) escolhida(s), reportar os resultados da regressão e os diagnósticos.
 Análise de Agrupamento e/ou Regionalização
• Obrigatório se não fizer a regressão espacial
• Opcional (bônus extra) se fizer também a regressão espacial

Mais conteúdo relacionado

Mais procurados

Análise espacial de doenças transmissíveis
Análise espacial de doenças transmissíveisAnálise espacial de doenças transmissíveis
Análise espacial de doenças transmissíveisVitor Vieira Vasconcelos
 
Análise Espacial Baseada em Localização
Análise Espacial Baseada em LocalizaçãoAnálise Espacial Baseada em Localização
Análise Espacial Baseada em LocalizaçãoVitor Vieira Vasconcelos
 
Análise de Eventos Pontuais - Distância padrão, Agregação, Mapas de Kernel, P...
Análise de Eventos Pontuais - Distância padrão, Agregação, Mapas de Kernel, P...Análise de Eventos Pontuais - Distância padrão, Agregação, Mapas de Kernel, P...
Análise de Eventos Pontuais - Distância padrão, Agregação, Mapas de Kernel, P...Vitor Vieira Vasconcelos
 
Cap1 - Parte 1 - Variáveis
Cap1 - Parte 1 - VariáveisCap1 - Parte 1 - Variáveis
Cap1 - Parte 1 - VariáveisRegis Andrade
 
Bancos de Dados Geográficos
Bancos de Dados GeográficosBancos de Dados Geográficos
Bancos de Dados GeográficosSuzana Viana Mota
 
1a lista de exercícios 2014
1a lista de exercícios 20141a lista de exercícios 2014
1a lista de exercícios 2014Fábio Gama
 
Geovisualização Multivariada, Temporal e de Incerteza
Geovisualização Multivariada, Temporal e de IncertezaGeovisualização Multivariada, Temporal e de Incerteza
Geovisualização Multivariada, Temporal e de IncertezaVitor Vieira Vasconcelos
 
Conceitos de estatística espacial
Conceitos de estatística espacialConceitos de estatística espacial
Conceitos de estatística espacialunesp
 

Mais procurados (20)

Análise espacial de doenças transmissíveis
Análise espacial de doenças transmissíveisAnálise espacial de doenças transmissíveis
Análise espacial de doenças transmissíveis
 
Análise de Agrupamentos (Clusters)
Análise de Agrupamentos (Clusters)Análise de Agrupamentos (Clusters)
Análise de Agrupamentos (Clusters)
 
Análise Espacial Baseada em Localização
Análise Espacial Baseada em LocalizaçãoAnálise Espacial Baseada em Localização
Análise Espacial Baseada em Localização
 
Regressão Espacial
Regressão EspacialRegressão Espacial
Regressão Espacial
 
Análise Espacial Baseada em Distância
Análise Espacial Baseada em DistânciaAnálise Espacial Baseada em Distância
Análise Espacial Baseada em Distância
 
Análise Espacial de Eventos Pontuais
Análise Espacial de Eventos PontuaisAnálise Espacial de Eventos Pontuais
Análise Espacial de Eventos Pontuais
 
Análise de Pontos em R
Análise de Pontos em RAnálise de Pontos em R
Análise de Pontos em R
 
Dados espaciais em R (2020)
Dados espaciais em R (2020)Dados espaciais em R (2020)
Dados espaciais em R (2020)
 
Geocodificação de Endereços
Geocodificação de EndereçosGeocodificação de Endereços
Geocodificação de Endereços
 
Conceitos Básicos de Estatística II
Conceitos Básicos de Estatística IIConceitos Básicos de Estatística II
Conceitos Básicos de Estatística II
 
Análise de Eventos Pontuais - Distância padrão, Agregação, Mapas de Kernel, P...
Análise de Eventos Pontuais - Distância padrão, Agregação, Mapas de Kernel, P...Análise de Eventos Pontuais - Distância padrão, Agregação, Mapas de Kernel, P...
Análise de Eventos Pontuais - Distância padrão, Agregação, Mapas de Kernel, P...
 
Cap1 - Parte 1 - Variáveis
Cap1 - Parte 1 - VariáveisCap1 - Parte 1 - Variáveis
Cap1 - Parte 1 - Variáveis
 
Bancos de Dados Geográficos
Bancos de Dados GeográficosBancos de Dados Geográficos
Bancos de Dados Geográficos
 
1a lista de exercícios 2014
1a lista de exercícios 20141a lista de exercícios 2014
1a lista de exercícios 2014
 
Manipulação de dados no SPSS e QGIS
Manipulação de dados no SPSS e QGISManipulação de dados no SPSS e QGIS
Manipulação de dados no SPSS e QGIS
 
Multivariate data analysis
Multivariate data analysisMultivariate data analysis
Multivariate data analysis
 
Regressão Linear I
Regressão Linear IRegressão Linear I
Regressão Linear I
 
Geovisualização Multivariada, Temporal e de Incerteza
Geovisualização Multivariada, Temporal e de IncertezaGeovisualização Multivariada, Temporal e de Incerteza
Geovisualização Multivariada, Temporal e de Incerteza
 
Conceitos de estatística espacial
Conceitos de estatística espacialConceitos de estatística espacial
Conceitos de estatística espacial
 
Elaboração de Mapas no QGIS
Elaboração de Mapas no QGISElaboração de Mapas no QGIS
Elaboração de Mapas no QGIS
 

Semelhante a Análise de Agrupamentos em Dados de Origem e Destino no Município de São Paulo

Sessao 6.pdf para aproveitametno em sessões
Sessao 6.pdf para aproveitametno em sessõesSessao 6.pdf para aproveitametno em sessões
Sessao 6.pdf para aproveitametno em sessõesJoaquimOliveiraBapti1
 
Análise de Clusters - White Paper ELOGroup
Análise de Clusters - White Paper ELOGroupAnálise de Clusters - White Paper ELOGroup
Análise de Clusters - White Paper ELOGroupEloGroup
 
Analise Exploratoria Card Sorting
Analise Exploratoria Card SortingAnalise Exploratoria Card Sorting
Analise Exploratoria Card SortingLuiz Agner
 
ASOCEU PORTUGAL - Lesson 2 - Data Analysis (slides)
ASOCEU PORTUGAL - Lesson 2 - Data Analysis (slides)ASOCEU PORTUGAL - Lesson 2 - Data Analysis (slides)
ASOCEU PORTUGAL - Lesson 2 - Data Analysis (slides)A Scuola di OpenCoesione
 
Analise de Cluster - CardSorting
Analise de Cluster  - CardSortingAnalise de Cluster  - CardSorting
Analise de Cluster - CardSortingLuiz Agner
 
Recursos do Ambiente R para a Análise de Clusters
Recursos do Ambiente R para a Análise de ClustersRecursos do Ambiente R para a Análise de Clusters
Recursos do Ambiente R para a Análise de ClustersRodrigo Nunes
 
Método quantitativo-finalizado- slides
Método quantitativo-finalizado- slidesMétodo quantitativo-finalizado- slides
Método quantitativo-finalizado- slidesEmanuele Chaia
 
Análises agrupamento e dissimilaridade no Genes
Análises agrupamento e dissimilaridade no GenesAnálises agrupamento e dissimilaridade no Genes
Análises agrupamento e dissimilaridade no GenesCristiano Lemes da Silva
 
Agrupamento de sequências biológicas
Agrupamento de sequências biológicasAgrupamento de sequências biológicas
Agrupamento de sequências biológicasMarcos Castro
 
EstatíStica Aula 00
EstatíStica Aula 00EstatíStica Aula 00
EstatíStica Aula 00educacao f
 
Dados
DadosDados
Dadosunesp
 
Clustering informatizado
Clustering  informatizadoClustering  informatizado
Clustering informatizadoDiêgo Maciel
 
Data Mining - Clustering
Data Mining - ClusteringData Mining - Clustering
Data Mining - Clusteringiaudesc
 
Analise de dados ccill end
Analise de dados ccill endAnalise de dados ccill end
Analise de dados ccill endcruz ant
 

Semelhante a Análise de Agrupamentos em Dados de Origem e Destino no Município de São Paulo (20)

Sessao 6.pdf para aproveitametno em sessões
Sessao 6.pdf para aproveitametno em sessõesSessao 6.pdf para aproveitametno em sessões
Sessao 6.pdf para aproveitametno em sessões
 
Análise de Clusters - White Paper ELOGroup
Análise de Clusters - White Paper ELOGroupAnálise de Clusters - White Paper ELOGroup
Análise de Clusters - White Paper ELOGroup
 
Analise de clusters
Analise de clustersAnalise de clusters
Analise de clusters
 
Analise Exploratoria Card Sorting
Analise Exploratoria Card SortingAnalise Exploratoria Card Sorting
Analise Exploratoria Card Sorting
 
kNN Algorithm
kNN AlgorithmkNN Algorithm
kNN Algorithm
 
ASOCEU PORTUGAL - Lesson 2 - Data Analysis (slides)
ASOCEU PORTUGAL - Lesson 2 - Data Analysis (slides)ASOCEU PORTUGAL - Lesson 2 - Data Analysis (slides)
ASOCEU PORTUGAL - Lesson 2 - Data Analysis (slides)
 
Analise de Cluster - CardSorting
Analise de Cluster  - CardSortingAnalise de Cluster  - CardSorting
Analise de Cluster - CardSorting
 
Recursos do Ambiente R para a Análise de Clusters
Recursos do Ambiente R para a Análise de ClustersRecursos do Ambiente R para a Análise de Clusters
Recursos do Ambiente R para a Análise de Clusters
 
Clustering (Agrupamento)
Clustering (Agrupamento)Clustering (Agrupamento)
Clustering (Agrupamento)
 
ID3 Algorithm
ID3 AlgorithmID3 Algorithm
ID3 Algorithm
 
Agrupamento com K-Means
Agrupamento com K-MeansAgrupamento com K-Means
Agrupamento com K-Means
 
Método quantitativo-finalizado- slides
Método quantitativo-finalizado- slidesMétodo quantitativo-finalizado- slides
Método quantitativo-finalizado- slides
 
Cluster analysis TDC POA 2017
Cluster analysis  TDC POA 2017Cluster analysis  TDC POA 2017
Cluster analysis TDC POA 2017
 
Análises agrupamento e dissimilaridade no Genes
Análises agrupamento e dissimilaridade no GenesAnálises agrupamento e dissimilaridade no Genes
Análises agrupamento e dissimilaridade no Genes
 
Agrupamento de sequências biológicas
Agrupamento de sequências biológicasAgrupamento de sequências biológicas
Agrupamento de sequências biológicas
 
EstatíStica Aula 00
EstatíStica Aula 00EstatíStica Aula 00
EstatíStica Aula 00
 
Dados
DadosDados
Dados
 
Clustering informatizado
Clustering  informatizadoClustering  informatizado
Clustering informatizado
 
Data Mining - Clustering
Data Mining - ClusteringData Mining - Clustering
Data Mining - Clustering
 
Analise de dados ccill end
Analise de dados ccill endAnalise de dados ccill end
Analise de dados ccill end
 

Mais de Vitor Vieira Vasconcelos

Relationships among socioeconomic affluence, yard management, and biodiversity
Relationships among socioeconomic affluence, yard management, and biodiversityRelationships among socioeconomic affluence, yard management, and biodiversity
Relationships among socioeconomic affluence, yard management, and biodiversityVitor Vieira Vasconcelos
 
Fishbanks! Jogo de simulação de gestão de recursos renováveis
Fishbanks! Jogo de simulação de gestão de recursos renováveisFishbanks! Jogo de simulação de gestão de recursos renováveis
Fishbanks! Jogo de simulação de gestão de recursos renováveisVitor Vieira Vasconcelos
 
Regimes de Apropriação de Recursos Naturais
Regimes de Apropriação de Recursos NaturaisRegimes de Apropriação de Recursos Naturais
Regimes de Apropriação de Recursos NaturaisVitor Vieira Vasconcelos
 
Relações entre sistemas naturais e sociais
Relações entre sistemas naturais e sociaisRelações entre sistemas naturais e sociais
Relações entre sistemas naturais e sociaisVitor Vieira Vasconcelos
 
Recursos Naturais e Serviços Ecossistêmicos
Recursos Naturais e Serviços EcossistêmicosRecursos Naturais e Serviços Ecossistêmicos
Recursos Naturais e Serviços EcossistêmicosVitor Vieira Vasconcelos
 
Bases teóricas e conceituais do Planejamento e da Política Ambiental
Bases teóricas e conceituais do Planejamento e da Política AmbientalBases teóricas e conceituais do Planejamento e da Política Ambiental
Bases teóricas e conceituais do Planejamento e da Política AmbientalVitor Vieira Vasconcelos
 
Operações com dados espaciais (Vetor) em R
Operações com dados espaciais (Vetor) em ROperações com dados espaciais (Vetor) em R
Operações com dados espaciais (Vetor) em RVitor Vieira Vasconcelos
 

Mais de Vitor Vieira Vasconcelos (20)

Relationships among socioeconomic affluence, yard management, and biodiversity
Relationships among socioeconomic affluence, yard management, and biodiversityRelationships among socioeconomic affluence, yard management, and biodiversity
Relationships among socioeconomic affluence, yard management, and biodiversity
 
Fishbanks! Jogo de simulação de gestão de recursos renováveis
Fishbanks! Jogo de simulação de gestão de recursos renováveisFishbanks! Jogo de simulação de gestão de recursos renováveis
Fishbanks! Jogo de simulação de gestão de recursos renováveis
 
Regimes de Apropriação de Recursos Naturais
Regimes de Apropriação de Recursos NaturaisRegimes de Apropriação de Recursos Naturais
Regimes de Apropriação de Recursos Naturais
 
Recursos Comuns e Tragédia dos Comuns
Recursos Comuns e Tragédia dos ComunsRecursos Comuns e Tragédia dos Comuns
Recursos Comuns e Tragédia dos Comuns
 
Relações entre sistemas naturais e sociais
Relações entre sistemas naturais e sociaisRelações entre sistemas naturais e sociais
Relações entre sistemas naturais e sociais
 
Valoração de Serviços Ecossistêmicos
Valoração de Serviços EcossistêmicosValoração de Serviços Ecossistêmicos
Valoração de Serviços Ecossistêmicos
 
Recursos Naturais e Serviços Ecossistêmicos
Recursos Naturais e Serviços EcossistêmicosRecursos Naturais e Serviços Ecossistêmicos
Recursos Naturais e Serviços Ecossistêmicos
 
Bases teóricas e conceituais do Planejamento e da Política Ambiental
Bases teóricas e conceituais do Planejamento e da Política AmbientalBases teóricas e conceituais do Planejamento e da Política Ambiental
Bases teóricas e conceituais do Planejamento e da Política Ambiental
 
Planejamento territorial
Planejamento territorialPlanejamento territorial
Planejamento territorial
 
Coremática e Mapeamento Participativo
Coremática e Mapeamento ParticipativoCoremática e Mapeamento Participativo
Coremática e Mapeamento Participativo
 
Cartografia Social
Cartografia SocialCartografia Social
Cartografia Social
 
MIgrações
MIgraçõesMIgrações
MIgrações
 
Conflitos fundiários
Conflitos fundiáriosConflitos fundiários
Conflitos fundiários
 
Conflitos Territoriais
Conflitos TerritoriaisConflitos Territoriais
Conflitos Territoriais
 
Chácara Baronesa - Haras São Bernardo
Chácara Baronesa - Haras São BernardoChácara Baronesa - Haras São Bernardo
Chácara Baronesa - Haras São Bernardo
 
Governo e Território
Governo e TerritórioGoverno e Território
Governo e Território
 
Segregação e Interação Territorial
Segregação e Interação TerritorialSegregação e Interação Territorial
Segregação e Interação Territorial
 
Território e Poder
Território e PoderTerritório e Poder
Território e Poder
 
Operações com dados espaciais (Vetor) em R
Operações com dados espaciais (Vetor) em ROperações com dados espaciais (Vetor) em R
Operações com dados espaciais (Vetor) em R
 
Lugar, Ambiente, Paisagem e Sentimento
Lugar, Ambiente, Paisagem e SentimentoLugar, Ambiente, Paisagem e Sentimento
Lugar, Ambiente, Paisagem e Sentimento
 

Análise de Agrupamentos em Dados de Origem e Destino no Município de São Paulo

  • 1. ANÁLISE DE AGRUPAMENTOS (Cluster Analysis) Regionalização Prática no Geoda Vitor Vieira Vasconcelos Flávia F. Feitosa Métodos e Técnicas de Análise da Informação para o Planejamento Agosto de 2019
  • 2. • Análise de Agrupamentos  Medidas de similaridade  Métodos de agrupamento o Em árvore (hierárquico) o Médias K o Regionalização - Skater  Prática no Geoda Conteúdo
  • 3. HAIR; BLACK; BABIN; ANDERSON; TATHAM. Análise Multivariada de Dados. 6ª ed., 2009. Capítulo 8 – Análise de Agrupamentos Referência Principal
  • 4. É uma técnica analítica pra identificar subgrupos significativos de entidades homogêneas (pessoas/objetos/lugares). O objetivo é classificar uma amostra de entidades em um número menor de grupos mutuamente excludentes, com base nas similaridades entre as entidades. Busca por uma estrutura “natural” entre as observações com base em um perfil multivariado. HAIR; BLACK; BABIN; ANDERSON; TATHAM. Análise Multivariada de Dados. 6ª ed., 2009. ANÁLISE DE AGRUPAMENTOS
  • 5. Os agrupamentos resultantes de entidades devem exibir elevada homogeneidade interna (dentro dos agrupamentos) e elevada heterogeneidade externa (entre agrupamentos). ANÁLISE DE AGRUPAMENTOS Idealmente, os objetos dentro de um agrupamento estarão próximos quando representados graficamente, e diferentes agrupamentos estarão distantes.
  • 6. Agrupamentos com mais de duas variáveis
  • 7.
  • 9. 1. Classificar os setores censitários de acordo com as diferentes dimensões de justiça/injustiça ambiental. 2. Classificar os municípios de SP em função das diferentes dimensões de violência contra a mulher 3. Classificar os bairros do ABC de acordo com a quantidade/perfil dos lançamentos residenciais 4. Classificar os distritos de SP de acordo com as variáveis de infraestrutura e entorno dos domicílios 5. … Exemplos “inspirados” nos trabalhos propostos pelos alunos
  • 10. Conjunto de variáveis que representam as características usadas para comparar objetos da análise de agrupamentos. Deve ser especificado pelo analista. Exemplos considerando as propostas de trabalho apresentadas ??? Variável Estatística de Agrupamento
  • 11. Procedimentos para Análise de Agrupamento
  • 12. Características da Análise de Agrupamentos 1. É descritiva, não-teórica e não-inferencial 2. Sempre criará agrupamentos, independente da existência real de alguma estrutura dos dados 3. Variedade de vias e critérios para a definição dos grupos, o que possibilita a obtenção de soluções diferentes 4. Não é generalizável, pois é totalmente dependente das variáveis usadas como base para a medida de similaridade
  • 14. QUESTÕES-CHAVE 1. Como medir similaridade? 2. Como formar os agrupamentos? 3. Quantos grupos formar?
  • 15. 1. Medição de Similaridade Agrupamentos são grupos de objetos semelhantes. Precisamos, portanto, definir uma medida do grau de similaridade/dissimilaridade entre os objetos. É possível medir similaridade, por exemplo, de acordo com a distância euclidiana entre cada par de observações.
  • 16. 2. Formação de Agrupamentos Definida a medida de similaridade a ser adotada, precisamos formar agrupamentos com base na similaridade de cada par de observações. Esse procedimento deve determinar a pertinência de cada observação para cada grupo formado.
  • 17. 2. Formação de Agrupamentos • Diminuir a variação entre agrupamentos • Diminuir a variação dentro dos agrupamentos
  • 18. 2. Formação de Agrupamentos • Ligação entre grupos 1 2 1 2 1 2 1 2 3 4 5 3 4 5 3 4 5 3 4 5. . Single-Linkage Distância ao vizinho mais próximo Complete-Linkage Distância ao vizinho mais afastado Average-Linkage Distância média aos elementos Centroid-linkage Distância ao centro médio dos elementos
  • 19. 3. Número de Agrupamentos Quantos grupos usar? 1. Grupos que fazem sentido na hora de interpretar 2. Utilidade / tempo disponível do usuário 3. Menor variação dentro dos grupos vs. Maior variação entre os grupos
  • 20. 3. Número de Agrupamentos DILEMA Menor nr. de agrupamentos & Menor homogeneidade interna nos grupos VS. Maior nr. de agrupamentos & Maior homogeneidade interna nos grupos
  • 21. 3. Número de Agrupamentos Procurar pelo “cotovelo” Número de grupos Variânciainternaaosgrupos
  • 22. 3. Número de Agrupamentos Indicadores 1. Variância interna entre os grupos 2. Distância entre os grupos 3. Variância interna Variância interna + variância entre grupos
  • 23. Métodos de Agrupamento 1. Agrupamento em árvore (tree clustering): método aglomerativo hierárquico 2. K-médias (k-means): método não hierárquico por repartição 3. Espacial – Regionalização via SKATER
  • 25. Agrupamento em Árvore Considere as seguintes observações: Variável de Agrupamento Observação A B C D E F G Variável 1 (V1) 3 4 4 2 6 7 6 Variável 2 (V2) 2 5 7 7 6 7 4 HAIR; BLACK; BABIN; ANDERSON; TATHAM. Análise Multivariada de Dados. 6ª ed., 2009.
  • 26. Agrupamento em Árvore 0 2 4 6 8 0 2 4 6 8 V2 V1 D C E F A B G
  • 27. 0 2 4 6 8 0 2 4 6 8 V2 V1 D C E F A B G Agrupamento em Árvore Como medimos similaridade? Neste exemplo, utilizaremos a distância euclidiana (linha reta) entre cada par de observações
  • 28. Matriz de Proximidade de Distâncias Euclidianas entre Observações Observação A B C D E F G A - B 3,162 - C 5,099 2,000 - D 5,099 2,828 2,000 - E 5,000 2,236 2,236 4,123 - F 6,403 3,606 3,000 5,000 1,414 - G 3,606 2,236 3,606 5,000 2,000 3,162 -
  • 29. Matriz de Proximidade de Distâncias Euclidianas entre Observações Observação A B C D E F G A - B 3,162 - C 5,099 2,000 - D 5,099 2,828 2,000 - E 5,000 2,236 2,236 4,123 - F 6,403 3,606 3,000 5,000 1,414 - G 3,606 2,236 3,606 5,000 2,000 3,162 - Menor Distância, Maior Similaridade
  • 30. Agrupamento em Árvore (1) Identificar as observações mais próximas (E e F) e combiná-las em um agrupamento
  • 31. Agrupamento em Árvore (2) Encontrar próximos pares de observações mais semelhantes. HAIR; BLACK; BABIN; ANDERSON; TATHAM. Análise Multivariada de Dados. 6ª ed., 2009.
  • 33. Dendograma 7 grupos 6 grupos 2 grupos
  • 34. Métodos de Agrupamento 1. Agrupamento em árvore (tree clustering): método aglomerativo hierárquico 2. K-médias (k-means): método não hierárquico por repartição 3. Espacial – Regionalização via SKATER
  • 35. K-MÉDIAS Gera k diferentes grupos com a maior distinção possível entre eles. Parte de k-conjuntos aleatórios e move os objetos entre estes conjuntos com o objetivo de: (1) Minimizar a variabilidade dentro dos conjuntos (2) Maximizar a variabilidade entre conjuntos
  • 37. Dados devem estar normalizados (por exemplo, entre 0 e 1) ou padronizados (z-escore)
  • 38. Dados devem estar normalizados (por exemplo, entre 0 e 1) ou padronizados (z-escore)
  • 39. Grupos de Entropia • Grupos com poucos elementos, bastante diferentes do restante da amostra • Úteis para análise de valores atípicos
  • 40. Métodos de Agrupamento 1. Agrupamento em árvore (tree clustering): método aglomerativo hierárquico 2. K-médias (k-means): método não hierárquico por repartição 3. Espacial – Regionalização via SKATER
  • 41. Método Skater Técnica: Minimizar a variabilidade entre os agrupamentos, mas mantendo a contiguidade de todos os elementos em cada agrupamento Resultado: Regiões relativamente homogêneas espacialmente contínuas Regionalização Neves, M. C. Procedimentos Eficientes para Regionalização de Unidades Socioeconômicas em Bancos de Dados Geográficos. Tese de Doutorado, INPE, 2003. Disponível em: http://www.dpi.inpe.br/gilberto/teses/tese_marcos.pdf • Não pode haver elementos sem vizinhos Ex: As feições formam uma região espacialmente contígua
  • 43.  Inicialmente associa-se "custos" às arestas  Os "custos" são calculados em função da similaridade entre os geo-objetos  Depois são eliminadas as arestas de menor "custo"
  • 45.  Procedimento de poda procura obter: - regiões mais homogêneas - mais equilibradas em termos de números de geo- objetos por região.
  • 48. Prática no GeoDa Dados Origem e Destino 2007 – Município de São Paulo Estabelecer grupos de zonas semelhantes quanto à proporção de viagens do tipo: V1: “transporte coletivo” V2: “transporte individual” V3: “transporte não motorizado” Arquivo: OD2007_SP.shp
  • 52. Para que todas as variáveis tenham a mesma influência
  • 53.
  • 54.
  • 55.
  • 56. 5 grupos 6 grupos
  • 57. 5 grupos 6 grupos
  • 58. 5 grupos 6 grupos
  • 62.
  • 63. Criar matriz de vizinhança: Tools > Weights Manager > Create ID = Zona Queen de ordem 1 SKATER
  • 64. Clusters > Skater SKATER Parâmetro mínimo (ex: população) Área mínima
  • 66. Trabalho Final 4. RESULTADOS E DISCUSSÃO  Apresentação e interpretação dos resultados  Preparação dos Dados e Análise Exploratório • Seleção das Variáveis, Estatísticas Descritivas, Mapas, Gráficos, Análise de Correlação, Transformação de Variáveis (se necessário), autocorrelação espacial  Análise de Regressão Clássica • Escolha e Ajuste do Modelo de Regressão • Diagnósticos para verificar se o modelo ajustado é adequado (não esqueça de incluir o diagnóstico de autocorrelação espacial dos resíduos) • Analisar se será necessária uma análise de regressão espacial: - Os resíduos da regressão estão correlacionados espacialmente? - O Teste de Multiplicadores de Lagrange indica que uma regressão espacial aprimoraria o modelo? - O Critério de Informação de Akaike indica que um modelo de regressão espacial seria mais efetiva que a regressão convencional?  Análise de Regressão Espacial • Escolha de uma ou mais técnicas de análise de regressão espacial (spatial lag, spatial error e/ou GWR). • Explicar a(s) técnica(s) escolhida(s), reportar os resultados da regressão e os diagnósticos.  Análise de Agrupamento e/ou Regionalização • Obrigatório se não fizer a regressão espacial • Opcional (bônus extra) se fizer também a regressão espacial