Conceitos de Estatística
Espacial
Ecologia de Populações
Conceitos Básicos
• A estatística espacial difere da estatística‘ordinária’
devido a inclusão de propriedades de localização.
• Isso torna a estatística espacial mais complexa.
• O texto de Bailey e Gatrell (1995) proporciona uma
introdução boa, e eles identificam quatro
categorias:
– Dados de padrões de pontos;
– Dados contínuos espacialmente;
– Dados de área; e
– Dados de interação.
• Existe uma correspondência obvia com os
modelos conceituais.
Níveis de Escala
• Dados de atributos podem ser classificados pela
escala de mensuração:
– Nominal: 1=fêmeas, 2=machos.
– Ordinal: 1= boa, 2= média, 3=pobre.
– Intervalo (razão +): graus Centigrado,
porcentagem.
• Bailey e Gatrell classificam as técnicas por
propósito:
– Visualização
– Exploração
– Modelagem – envolvida em toda inferência
estatística e teste de hipóteses)
Variáveis Aleatórios
• Os modelos estatísticos lidam com fenômenos que
são estocásticos (= sujeito a incerteza).
• O variável aleatório Y tem valores que são
sujeitos a incerteza (mas não precisa ser
aleatório).
• A distribuição de valores possíveis forma a
distribuição de probabilidades, e são
representadas por uma função fY(y)
• Os variáveis aleatórios podem ser discretos ou
contínuos.
Probabilidades
• A probabilidade de que y fica entre a e b é:
• se Y é discreto
• se Y é contínuo (densidade de
probabilidade)
• A probabilidade cumulativa (ou função da
distribuição) FY é descrita como:
• se Y é discreto
• se Y é contínuo
 
b
ay
Y yf
 
b
a
Y dyyf
   

y
u
YY ufyF
   duufyF
y
YY  

Valores Esperados
• O valor esperado de Y é a média E(Y):
•
ou
• O valor esperado é uma função de Y, como g(Y):
•
ou
• A variância é: VAR(Y) = S([Y - E(Y)]2)
• A raiz quadrada dessa e o desvio padrão (sY)
   



y
Y yfyYE .
   


 dyyfyYE Y.
      yfygYgE Y.
      dyyfygYgE Y


 .
Probabilidade Conjunta
• Pode ser generalizada a situações em quais existem
mais de um variável aleatório.
• Distribuição de probabilidade conjunta (ou
densidade): fXY(x,y)
• Covariância: COV(X,Y) = S((X - E(X)).(Y - E(Y)))
• Correlação: rX,Y = COV(X,Y) / sX.sy
• Independência: Nenhum variável afeita o outro. A
probabilidade conjunta é o produto das
probabilidades individuais:
• fXY(x,y)=fX(x).fY(y)
Modelos Estatísticos
• Um modelo estatístico especifica a distribuição de
probabilidades do fenômeno sendo modelado.
• Se modelamos a densidade populacional numa
região R existe uma distribuição de probabilidades
para cada localização s (no qual s é i, vetor de 2x1
de pares de coordenados x,y). Os pontos individuais
podem ser referenciados como s1, s2 ....
• O conjunto inteiro de variáveis aleatórios forma um
processo espacial estocástico.
• A distribuição de probabilidades para os pontos
próximos provavelmente será mais similar do que
para pontos mais distantes. Por isso, os variáveis
aleatórios provavelmente não são independentes.
Especificando Modelos
• Para especificar um modelo é necessário especificar
sua distribuição de probabilidades. Por o modelo de
densidades precisamos especificar a distribuição
conjunta de cada conjunto possível de variáveis
aleatórios.
• Para uma densidade igual: fY(y) = 1/6
• Para modelos mais complexos (como densidade)
podemos usar os dados observados: (y1, y2, …)
• Esses dados formam uma realização , ou um
resultado da distribuição conjunta de probabilidades
{Y1, Y2, …}
• Um dos conjuntos de dados resulta em quase nada.
Ainda com mais observações precisamos fazer
premissas razoáveis, baseadas na teoria ou nas
observações anteriores.
Especificando Modelos
• As premissas podem ser expressadas em termos
gerais (como a distribuição normal ou um modelo de
regressão) com parâmetros não especificados.
• O modelo pode ser ajustado usando os dados
observados para estimar os parâmetros.
• Após avaliação do modelo pode tomar a decisão de
mudar sua forma geral.
Um Modelo de Regressão
• Para ilustrar, para modelar nossos dados de
densidade podemos usar as premissas de:
– Os variáveis aleatórios {Y(s), s  R} são
independentes;
– Os variáveis têm a mesma distribuição, mas
médias diferentes;
– As médias são uma função linear simples de sua
localização: E(Y(s)) = b0 + b1s1 + b2s2;
– Cada Y(s) tem uma distribuição normal ao redor
da média com a mesma variância s2.
• Essas premissas permitem a avaliação dos
parâmetros dos dados disponíveis.
Maximum Likelihood
• O método mais comum é de maximum likelihood.
• Podemos escrever a forma geral da distribuição
conjunta de probabilidades, como. f(y1,y2, … yn; q )
na qual q é um vetor dos parâmetros - (b0, b1, b2, s2)
do modelo de regressão.
• Por que temos os valores atuais de y1… yn, essa
distribuição conjunta de probabilidades é a
probabilidade de obter os valores atuais. Isso é a
likelihood e geralmente é representada como L(y1,
y2, … yn; q).
• O objetivo é identificar os valores do parâmetro q que
maximizam L. Na prática geralmente maximizamos o
logaritmo de L (log likelihood) representado como
l(y1, y2, … yn; q).
Estimação de Parâmetros
• Essa é a técnica básica, mas a estimação atual pode
ser mais complicada.
• A estimação dos parâmetros da regressão linear
múltipla envolve as premissas de independência,
distribuições normais e variâncias iguais reduz a 0
usando o método de quadrados mínimos
ordinários.
• Relaxando a independência e variâncias iguais,
ainda podemos usar os quadrados mínimos
generalizados.
• Os erros padrões proporcionam uma medida da
confiabilidade de cada estimativa de parâmetros.
• As razões de likelihood podem ser usados para
comparar modelos alternativos.
Teste de Hipótese
• O teste de hipótese envolve comparando o ajuste de
dois modelos, um dos quais incorpora as premissas
da hipótese, e outro que incorpora um conjunto
menos específico de premissas.
• Toda modelagem envolve inevitavelmente algumas
premissas sobre os fenômenos sob estudo. Por
isso, os testes de hipótese sempre envolve a
comparação do ajuste de um modelo hipotético com
um modelo alternativo que também incorpora
premissas, mas de natureza mais geral.
•
Modelagem de Dados
Espaciais
• Os dados espaciais frequentemente demonstram
uma correlação espacial (ou autocorrelação). A
premissa da independência pode ser irreal.
• Podemos distinguir entre:
– Efeitos da primeira ordem: variação da média
devido a tendência global;
– Efeitos da segunda ordem: causados pela
correlação espacial.
• Os problemas reais geralmente envolvem uma
mistura dos efeitos da primeira e segunda ordem.
Modelagem de Dados Espaciais
• Para permitir efeitos da segunda ordem, os modelos
espaciais podem precisar adotar a premissa de uma
estrutura de covariância.
• Os efeitos da segunda ordem podem ser modelados
como um processo espacial estacionário. como
– As propriedades estatísticas (média, variância)
são independentes de sua localização absoluta;
– A covariância depende somente da localização
relativa.
• Um processo é isotrópico se é estacionário, e a
covariância depende somente da distancia e não de
direção.
• Se a média, variância ou covariância ‘desvia’ na área
de estudo, o processo é não estacionário ou exibe
uma heterogeneidade.
Modelagem de Dados
Espaciais
• A heterogeneidade da média, combinada com a
estacionaridade nos efeitos da segunda ordem, é
uma premissa útil na modelagem espacial.
• A modelagem de um processo espacial
frequentemente tende proceder após a identificação
de qualquer tendência heterogênea do valor médio e
depois modelando os ‘resíduos', ou desvios da
tendência como um processo estacionário.
Regressão Ponderada
Geograficamente
• Covariados podem ser incorporados num modelo de
regressão múltipla pela forma geral:
• O modelo tem como premissa que os coeficientes
são homogêneos ou estacionários.
• Fotheringham et al. propuseram um modelo
alternativo:
• Para ajustar o modelo, existe a premissa que os
parâmetros não são estacionários mas funções de
localização.
• Os parâmetros podem ser mapeados.
 
k
iikki xy bb0
    
k
iikiikiii xvuvuy bb ,,0
Técnicas de Padrões de
Pontos
• As técnicas de padrões de pontos incluem:
– Analise de parcelas
– Estimação de Kernel
– Analise do vizinho mais próximo
– Funções K
• Normalmente usadas para testar a hipótese nula
de aleatoriedade espacial completa (como
processo de Poisson homogêneo), mas também
pode examinar o processo Poisson heterogêneo.
Dados Contínuos
Espacialmente
• Técnicas para explorar os dados de campo.
• As vezes chamada geoestatística.
– Médias espaciais movidizas
– Analise da superfície de tendência
– Triangulação de Delauney / polígonos de Thiesen / TINs
– Estimação de Kernel (para volores de pontos de
amostragem)
– Variogramas / covariogramas / krigagem
– Analise de componentes principais / analise de fatores
– Analise de Procrustes
– Analise de cluster
– Correlação canônica
Dados de Área
• Técnicas para a analise de dados de área (como
atributos de polígonos) incluem:
– Médias espaciais movidizas
– Estimação de Kernel
– Autocorrelação espacial (I de Moran, c de Geary)
– Correlação e regressão espacial
• Os modelos lineares generalizados proporcionam
uma família de técnicas que lidam com tipos
especiais de dados: como contagens (regressão
de Poisson) e proporções (regressão logística).
• As técnicas Bayesianas são frequentemente
usadas para modelar taxas a base de números
pequenos.
Dados de Interação Espacial
• As técnicas de modelagem das interações espaciais
se baseiam principalmente em algum variante do
modelo de gravidade.
• Esse modelo postula que a quantidade de interação
entre dois lugares é uma função de seus tamanhos
(medido usando um métrico apropriado) e é
inversamente relacionado a distancia entre eles.
Software
• ArcGIS. Geostatistical Analyst.
• Idrisi. GIS.
• S-Plus. O add on de S+SpatialStats.
• R. R é uma versão livre de S-Plus. .
• BUGS. Software para estatística Bayesiana.
WinBUGS incluía um subconjunto GeoBUGS.

Conceitos de estatística espacial

  • 1.
  • 2.
    Conceitos Básicos • Aestatística espacial difere da estatística‘ordinária’ devido a inclusão de propriedades de localização. • Isso torna a estatística espacial mais complexa. • O texto de Bailey e Gatrell (1995) proporciona uma introdução boa, e eles identificam quatro categorias: – Dados de padrões de pontos; – Dados contínuos espacialmente; – Dados de área; e – Dados de interação. • Existe uma correspondência obvia com os modelos conceituais.
  • 3.
    Níveis de Escala •Dados de atributos podem ser classificados pela escala de mensuração: – Nominal: 1=fêmeas, 2=machos. – Ordinal: 1= boa, 2= média, 3=pobre. – Intervalo (razão +): graus Centigrado, porcentagem. • Bailey e Gatrell classificam as técnicas por propósito: – Visualização – Exploração – Modelagem – envolvida em toda inferência estatística e teste de hipóteses)
  • 4.
    Variáveis Aleatórios • Osmodelos estatísticos lidam com fenômenos que são estocásticos (= sujeito a incerteza). • O variável aleatório Y tem valores que são sujeitos a incerteza (mas não precisa ser aleatório). • A distribuição de valores possíveis forma a distribuição de probabilidades, e são representadas por uma função fY(y) • Os variáveis aleatórios podem ser discretos ou contínuos.
  • 5.
    Probabilidades • A probabilidadede que y fica entre a e b é: • se Y é discreto • se Y é contínuo (densidade de probabilidade) • A probabilidade cumulativa (ou função da distribuição) FY é descrita como: • se Y é discreto • se Y é contínuo   b ay Y yf   b a Y dyyf      y u YY ufyF    duufyF y YY   
  • 6.
    Valores Esperados • Ovalor esperado de Y é a média E(Y): • ou • O valor esperado é uma função de Y, como g(Y): • ou • A variância é: VAR(Y) = S([Y - E(Y)]2) • A raiz quadrada dessa e o desvio padrão (sY)        y Y yfyYE .        dyyfyYE Y.       yfygYgE Y.       dyyfygYgE Y    .
  • 7.
    Probabilidade Conjunta • Podeser generalizada a situações em quais existem mais de um variável aleatório. • Distribuição de probabilidade conjunta (ou densidade): fXY(x,y) • Covariância: COV(X,Y) = S((X - E(X)).(Y - E(Y))) • Correlação: rX,Y = COV(X,Y) / sX.sy • Independência: Nenhum variável afeita o outro. A probabilidade conjunta é o produto das probabilidades individuais: • fXY(x,y)=fX(x).fY(y)
  • 8.
    Modelos Estatísticos • Ummodelo estatístico especifica a distribuição de probabilidades do fenômeno sendo modelado. • Se modelamos a densidade populacional numa região R existe uma distribuição de probabilidades para cada localização s (no qual s é i, vetor de 2x1 de pares de coordenados x,y). Os pontos individuais podem ser referenciados como s1, s2 .... • O conjunto inteiro de variáveis aleatórios forma um processo espacial estocástico. • A distribuição de probabilidades para os pontos próximos provavelmente será mais similar do que para pontos mais distantes. Por isso, os variáveis aleatórios provavelmente não são independentes.
  • 9.
    Especificando Modelos • Paraespecificar um modelo é necessário especificar sua distribuição de probabilidades. Por o modelo de densidades precisamos especificar a distribuição conjunta de cada conjunto possível de variáveis aleatórios. • Para uma densidade igual: fY(y) = 1/6 • Para modelos mais complexos (como densidade) podemos usar os dados observados: (y1, y2, …) • Esses dados formam uma realização , ou um resultado da distribuição conjunta de probabilidades {Y1, Y2, …} • Um dos conjuntos de dados resulta em quase nada. Ainda com mais observações precisamos fazer premissas razoáveis, baseadas na teoria ou nas observações anteriores.
  • 10.
    Especificando Modelos • Aspremissas podem ser expressadas em termos gerais (como a distribuição normal ou um modelo de regressão) com parâmetros não especificados. • O modelo pode ser ajustado usando os dados observados para estimar os parâmetros. • Após avaliação do modelo pode tomar a decisão de mudar sua forma geral.
  • 11.
    Um Modelo deRegressão • Para ilustrar, para modelar nossos dados de densidade podemos usar as premissas de: – Os variáveis aleatórios {Y(s), s  R} são independentes; – Os variáveis têm a mesma distribuição, mas médias diferentes; – As médias são uma função linear simples de sua localização: E(Y(s)) = b0 + b1s1 + b2s2; – Cada Y(s) tem uma distribuição normal ao redor da média com a mesma variância s2. • Essas premissas permitem a avaliação dos parâmetros dos dados disponíveis.
  • 12.
    Maximum Likelihood • Ométodo mais comum é de maximum likelihood. • Podemos escrever a forma geral da distribuição conjunta de probabilidades, como. f(y1,y2, … yn; q ) na qual q é um vetor dos parâmetros - (b0, b1, b2, s2) do modelo de regressão. • Por que temos os valores atuais de y1… yn, essa distribuição conjunta de probabilidades é a probabilidade de obter os valores atuais. Isso é a likelihood e geralmente é representada como L(y1, y2, … yn; q). • O objetivo é identificar os valores do parâmetro q que maximizam L. Na prática geralmente maximizamos o logaritmo de L (log likelihood) representado como l(y1, y2, … yn; q).
  • 13.
    Estimação de Parâmetros •Essa é a técnica básica, mas a estimação atual pode ser mais complicada. • A estimação dos parâmetros da regressão linear múltipla envolve as premissas de independência, distribuições normais e variâncias iguais reduz a 0 usando o método de quadrados mínimos ordinários. • Relaxando a independência e variâncias iguais, ainda podemos usar os quadrados mínimos generalizados. • Os erros padrões proporcionam uma medida da confiabilidade de cada estimativa de parâmetros. • As razões de likelihood podem ser usados para comparar modelos alternativos.
  • 14.
    Teste de Hipótese •O teste de hipótese envolve comparando o ajuste de dois modelos, um dos quais incorpora as premissas da hipótese, e outro que incorpora um conjunto menos específico de premissas. • Toda modelagem envolve inevitavelmente algumas premissas sobre os fenômenos sob estudo. Por isso, os testes de hipótese sempre envolve a comparação do ajuste de um modelo hipotético com um modelo alternativo que também incorpora premissas, mas de natureza mais geral. •
  • 15.
    Modelagem de Dados Espaciais •Os dados espaciais frequentemente demonstram uma correlação espacial (ou autocorrelação). A premissa da independência pode ser irreal. • Podemos distinguir entre: – Efeitos da primeira ordem: variação da média devido a tendência global; – Efeitos da segunda ordem: causados pela correlação espacial. • Os problemas reais geralmente envolvem uma mistura dos efeitos da primeira e segunda ordem.
  • 16.
    Modelagem de DadosEspaciais • Para permitir efeitos da segunda ordem, os modelos espaciais podem precisar adotar a premissa de uma estrutura de covariância. • Os efeitos da segunda ordem podem ser modelados como um processo espacial estacionário. como – As propriedades estatísticas (média, variância) são independentes de sua localização absoluta; – A covariância depende somente da localização relativa. • Um processo é isotrópico se é estacionário, e a covariância depende somente da distancia e não de direção. • Se a média, variância ou covariância ‘desvia’ na área de estudo, o processo é não estacionário ou exibe uma heterogeneidade.
  • 17.
    Modelagem de Dados Espaciais •A heterogeneidade da média, combinada com a estacionaridade nos efeitos da segunda ordem, é uma premissa útil na modelagem espacial. • A modelagem de um processo espacial frequentemente tende proceder após a identificação de qualquer tendência heterogênea do valor médio e depois modelando os ‘resíduos', ou desvios da tendência como um processo estacionário.
  • 18.
    Regressão Ponderada Geograficamente • Covariadospodem ser incorporados num modelo de regressão múltipla pela forma geral: • O modelo tem como premissa que os coeficientes são homogêneos ou estacionários. • Fotheringham et al. propuseram um modelo alternativo: • Para ajustar o modelo, existe a premissa que os parâmetros não são estacionários mas funções de localização. • Os parâmetros podem ser mapeados.   k iikki xy bb0      k iikiikiii xvuvuy bb ,,0
  • 19.
    Técnicas de Padrõesde Pontos • As técnicas de padrões de pontos incluem: – Analise de parcelas – Estimação de Kernel – Analise do vizinho mais próximo – Funções K • Normalmente usadas para testar a hipótese nula de aleatoriedade espacial completa (como processo de Poisson homogêneo), mas também pode examinar o processo Poisson heterogêneo.
  • 20.
    Dados Contínuos Espacialmente • Técnicaspara explorar os dados de campo. • As vezes chamada geoestatística. – Médias espaciais movidizas – Analise da superfície de tendência – Triangulação de Delauney / polígonos de Thiesen / TINs – Estimação de Kernel (para volores de pontos de amostragem) – Variogramas / covariogramas / krigagem – Analise de componentes principais / analise de fatores – Analise de Procrustes – Analise de cluster – Correlação canônica
  • 21.
    Dados de Área •Técnicas para a analise de dados de área (como atributos de polígonos) incluem: – Médias espaciais movidizas – Estimação de Kernel – Autocorrelação espacial (I de Moran, c de Geary) – Correlação e regressão espacial • Os modelos lineares generalizados proporcionam uma família de técnicas que lidam com tipos especiais de dados: como contagens (regressão de Poisson) e proporções (regressão logística). • As técnicas Bayesianas são frequentemente usadas para modelar taxas a base de números pequenos.
  • 22.
    Dados de InteraçãoEspacial • As técnicas de modelagem das interações espaciais se baseiam principalmente em algum variante do modelo de gravidade. • Esse modelo postula que a quantidade de interação entre dois lugares é uma função de seus tamanhos (medido usando um métrico apropriado) e é inversamente relacionado a distancia entre eles.
  • 23.
    Software • ArcGIS. GeostatisticalAnalyst. • Idrisi. GIS. • S-Plus. O add on de S+SpatialStats. • R. R é uma versão livre de S-Plus. . • BUGS. Software para estatística Bayesiana. WinBUGS incluía um subconjunto GeoBUGS.