O documento discute a aplicação de índices estatísticos como o Índice de Morisita e o teste de Durbin-Watson para análise de padrões espaciais em dados ecológicos. O Índice de Morisita é usado para determinar se o padrão espacial de plantas em um cerrado é aleatório, agregado ou regular, enquanto o teste de Durbin-Watson detecta autocorrelação espacial em dados coletados ao longo de uma transecção. O documento fornece exemplos numéricos destes
Análise espacial e teste DW aplicados a dados ecológicos
1. Índice de Morisita, teste de Durbin-
Watson, estatística circular e
geoestatística aplicados a dados
ecológicos
Dr. Luis Fernando Alberti
Os tópicos abordados nos presentes slides [e mais outros tópicos
adicionais] farão parte de um futuro livro a ser publicado pelo autor.
2.
3. Índice de Morisita
Pergunta:
O padrão espacial dos
indivíduos de Campomanesia
pubescens no cerrado é
aleatório, agregado ou regular?
(Morisita é mais recomendado
nesse caso)
Maasaki Morisita
Fonte:
http://gap.entclub.o
rg/taxonomists/Mo
risita/index.html
7. Resposta: utilizar o Índice de Morisita (1959)*
Morisita, M. (1959). "Measuring of the dispersion and
analysis of distribution patterns". Memoires of the Faculty of
Science, Kyushu University, Series E. Biology. 2: 215–235.
*Há também o Índice padronizado de Morisita
[http://en.wikipedia.org/wiki/Taylor%27s_law
] que é menos sensível ao N amostral e ao tamanho das
unidades amostrais utilizadas na amostragem das plantas. É
um pouco mais trabalhoso de calcular, mas é mais confiável.
8. Para pensar: Índices são realmente
confiáveis? É confiável reduzir toda a
informação ecológica em um único
número? Com. pess. de Peter Feinsinger
O padrão temporal da floração do cacau é aleatória,
agregada ou regular?
(Morisita é menos recomendado nesse caso)
Análises de dados espaciais muito mais confiáveis: para
autocorrelação - teste de Breusch-Pagan, teste Q de Box Ljung,
teste ‘m’ de Durbin, tópicos a serem abordados em palestras
futuras.
Fonte: http://www.newsbiscuit.com/2007/10/03/bushs-thoughts-no-longer-with-dead-soldiers-
families-211/
9. Índice de Morisita conforme Poole (1974) e Sakai et al. (1999):
I= , em que:
– ni = número de indivíduos na i-ésima amostra;
– n = número total de indivíduos em todas as amostras;
– N = número de amostras (datas de coleta).
Se I for igual a 1, o padrão fenológico da fenofase é aleatório. Se I >1, o padrão é agregado
ou sazonal, e, se I <1, o padrão é regular. A significância do I pode ser testada usando-se a
estatística F como segue:
F =
O valor de F calculado é comparado com o F tabelado com N-1 graus de liberdade no
numerador e ∞ (infinito) no denominador.
H0 = O padrão não é sazonal / H1 (caso de rejeitar H0): O padrão é sazonal.
ni(ni 1)
n(n 1)
x Ni 1
N
I (n 1) N n
N 1
Poole RW. 1974. An introduction to quantitative ecology. New York: McGraw-Hill.
Sakai S, Momose K, Yumoto T, Nagamitsu T, Nagamasu H, Hamid AA, Nakashizuka T. 1999.
Plant reproductive phenology over four years including an episode of general flowering in a
lowland dipterocarp forest, Sarawak, Malaysia. Am. J. of Bot. 86:1414–1436.
10. Exemplo do uso do Índice de Morisita (Id) em fenologia:
Uma floresta apresenta o seguinte número de árvores com
flores:
Id = [10 (10 – 1 )] + [9 ( 9 – 1 )] + ... + [8 ( 8 – 1 )]
____________________________________ x 12
(10 + 9 + ... + 8 = 53) x ( 53 - 1)
Id = 314 / 2756 x 12
Id = 1,3672
Id > 1 = padrão sazonal, Id ~ 1 = padrão aleatório, Id < 1, padrão regular.
Id = padrão agregado ou sazonal.
Significância estatística:
F calculado = Id ( 53 – 1 ) + 12 – 53 / 12 - 1
F calculado = 2,7359
Meses do ano de 2001 j f m a m j j a s o n d
Núm. de árvores com flores 10 9 8 5 2 1 1 1 1 3 4 8
Índice padronizado de Morisita I.C.
11. numerador colunas
denominador
linhas
1 2 3 4 5 6 7 8 9 10 12 15 20 24 30 40 60 120 ∞
40 2.835 2.44 2.23 2.09 2 1.93 1.87 1.83 1.79 1.76 1.71 1.66 1.61 1.57 1.54 1.51 1.47 1.42 1.38
60 2.791 2.39 2.18 2.04 1.95 1.87 1.82 1.77 1.74 1.71 1.66 1.6 1.54 1.51 1.48 1.44 1.4 1.35 1.29
120 2.748 2.35 2.13 1.99 1.9 1.82 1.77 1.72 1.68 1.65 1.6 1.55 1.48 1.45 1.41 1.37 1.32 1.26 1.19
∞ 2.706 2.3 2.08 1.94 1.85 1.77 1.72 1.67 1.63 1.6 1.55 1.49 1.42 1.38 1.34 1.3 1.24 1.17 1
F tabelado (12° no num. e infinitos ° de lib. no den.) para 0.05 de
prob. de erro = 1,55
Se F calculado > F tabelado, o Id é significativo.
Tabela do teste F para P de erro de 0,05
2,73 > 1,55, o Id é significativo.
Conclusão: A frutificação da floresta é sazonal, (se rejeita H0,
consequent. Se aceita H1) ou seja, a floração se concentra em
uma única estação do ano (verão).
12. O teste de Durbin-Watson [DW](figura 1):
Figura 1. James Durbin e G.S. Watson
Fonte:
http://en.wikipedia.org/wiki/James
_Durbin;
http://www.latrobe.edu.au/mathem
atics-and-statistics/about-the-
department/watson-lecture
Forma poderosa de
detectar autocorrelação
espacial em dados
coletados em linha
[transecções] por meio
de regressão.
13. Mas o que é autocorrelação? É a propriedade de variáveis
aleatórias separadas por uma dada distância possuírem
pares de valores mais ou menos similares do que seria
esperado em pares de observações aleatoriamente
associadas (Legendre 1998). Ou seja, é a falta de
independência entre os erros de dados de campo devido à
proximidade geográfica. Uma característica dos dados
autocorrelacionados é a presença de manchas com valores
similares de uma determinada variável y (Legendre et al.
2002.
Legendre P & Legendre L. 1998. Numerical ecology (2ed).
Elsevier.
Legendre P, Dale MRT, Fortin M, Gurevitch J, Hohn M & Myers
D. 2002. The consequences of spatial structure for the design and
analysis of ecological field surveys. Ecography 25: 601–615.
14. Mais algumas ideias: Na autocorrelação, valores da variável
y próximos (região de influência do processo que gera
autocorrelação em y) determinam mais o valor de y
observado no centro geográfico da avaliação y do que
valores de outras variáveis.
Diz-se que o valor da variável y num dado local resulta de
um processo dinâmico intrínseco a própria variável y
(Legendre et al. 2002),
Note que estruturas espaciais (dependência espacial) nos
dados podem ser obtidas sem terem sido causadas por
processo de autocorrelação, o que é uma diferença sutil e
difícil de perceber na prática. Na dependência espacial um
valor da variável y é mais correlacionado com valores de
outras variáveis no espaço do que com um valor de y
próximo.
15. Swihart RK & Slade NA 1985.
Tests for independence of
observations in animal movements.
Ecology 66: 1176-1184.
Levich RM & Rizzo RC. 1998.
Alternative tests for time series
dependence based on autocorrelation
coefficients. Symposium on Global
Integration and Competition,
sponsored by the Center for Japan-
U.S. Business and Economic Studies,
Stern School of Business, New York
University, March 27-28, 1997.
O teste DW foi desenvolvido
sobre a razão de Von Neumann
V por J. Durbin e G.S. Watson
em 1950 (Swihart & Slade 1985)
e testa a significância estatística
do valor Д associado ao
coeficiente de autocorrelação
rho () dos erros de uma
regressão linear simples.
Segundo Levich & Rizzo (1998)
é o teste de hipótese sobre
autocorrelação mais conhecido
no mundo.
16. Exemplo numérico:
O teste DW utiliza os erros da regressão linear simples de
uma variável aleatória y [circunferência a altura do peito de
uma planta - cab] em função das distâncias lineares
acumuladas onde cada cab foi obtido.
Cab (y) Distância (x)
4 31,2
4,5 51,2
3,5 54,9
4 59,9
2,5 63
3,5 65,9
4 70,2
6 74,8
4 81,3
2,5 84,6
17. A regressão linear simples (RLS, tabela 1, figura 2) é o
modelo mais simples que se pode ajustar a dados ecológicos.
Consiste de uma reta que passa entre os pontos observados
(●) de forma a minimizar seus erros em relação aos valores
estimados pelo modelo, aqui representados por (O). Por
convenção, na maioria dos trabalhos científicos, os valores de
saída do modelo são representados pela própria reta. A
representação na Figura 2 visa facilitar o entendimento de
como é calculado o erro. O modelo linear simples y’= a+bx +
eij é composto em ordem de importância, pelo coeficiente
angular b (ou inclinação da reta), coeficiente linear a (ou
média) e o erro eij, que é a distancia entre um valor
observado (●) e o valor estimado (O) pelo modelo na Figura
2.
Atenção: o teste DW é inválido para modelos sem o termo a! Isso
é fácil de resolver: sempre inclua o intercepto a nos modelos...
18. Os erros indicam o quanto a reta da RLS se aproxima em
descrever o fenômeno observado e, além disso, descrevem
fenômenos não planejados (fatores alinhados) que podem
estar ocorrendo no experimento, como manchas nos valores
de y que podem possui os mais variados significados
ecológicos. Para simplificar o entendimento tudo o que foi
observado no campo está em fonte normal e o que foi
estimado está em itálico. As pequenas diferenças entre o a
da tabela 1 e da figura 2 se deve a arredondamentos.
19. Cálculo da regressão linear simples.
Na tabela 1 se encontram os dados de (y) cab de
Psychotria leiocarpa em função da distância (x) entre
as plantas em Santa Rita do Sapucaí, Minas Gerais,
Brasil bem como uma coluna chamada ‘P’ que
enumera o passo a passo que deve ser seguido nos
cálculos do modelo linear simples de regressão do
cab em função da distância.
20. Tabela 1. Passos (P) a serem seguidos nos cálculos do modelo linear simples de
regressão do cab em função da distância, tamanho da amostra N, cab (y),
distância (x), y2, x2, x*y, y’(y estimado pelo modelo), eij erros da regressão, somas
de y, x, y2, x2 e x*y, médias ȳ e 𝒙 de y e x, Syy, Sxx, Sxy, b, a e a reta da regressão
linear simples modelando a cab como função da distância das plantas de
Psychotria leiocarpa em Santa Rita do Sapucaí, Minas Gerais – Brasil.
21. As colunas y2, x2, x*y são potencias e multiplicações dos valores de x
e y nas linhas 1 a 10 e constituem o passo inicial (1) dos cálculos. As
somas de todos os valores das colunas y, x, y2, x2 e x*y estão na linha
número 2 dos passos dos cálculos. Após o cálculo das somas procede-
se o cálculo das médias y e x (passo 3). Com os resultados dos passos
2 e 3 se calcula Syy e Sxx, Sxy, cujos valores calculados estão em
cinza claro na tabela. Os coeficientes b e a são calculados com as
fórmulas b=
𝒙 𝒊
𝑵
𝒊=𝟏 𝒚𝒊−𝐍𝒙 𝒚
𝒙 𝒊
𝟐−𝐍𝒙 𝟐𝑵
𝒊=𝟏
e a= ȳ-(b𝒙), que constituem um conjunto de
equações visando minimizar os erros, resolvidas nos passos 5 e 6 com
os valores das médias de y e x (ȳ e 𝒙), em cinza escuro na tabela. Os
dados de Syy em negrito serão necessários para o cálculo do
coeficiente de determinação R2. Substituindo-se x= 31,2 no modelo y’
= 4,1685-0,005x obtemos y’= 4,0125, ou seja, o y estimado pelo
modelo. Ao subtrairmos o valor estimado y’= 4,0125 do valor
observado de y= 4 obtemos o erro et-1 da figura 2, que é o mesmo
erro eij na tabela 1). Como podemos ver na figura 2 esse erro é bem
pequeno, na ordem de 0,0125 unidades de cab, ou seja, 0,0125 cm.
22. Figura 2. Dados observados (●), valores estimados (O) e erros quaisquer eij de um
modelo linear simples do tipo y’= a – bx + eij com b = -0,005 e a= 4,168 calculado para
os dados de (y) cab de plantas de Psychotria leiocarpa em função da distância (x) entre
as plantas submetidas ao tratamento IC, em Santa Rita do Sapucaí, Minas Gerais –
Brasil. Os erros et, et-1 e eT são o erro na segunda planta (ou segunda posição espacial,
segunda amostra, segunda planta, etc em estudos de ecologia), o erro na posição
espacial anterior (primeira planta) e o erro da última planta, respectivamente,
considerando o eixo x como sendo um sentido de amostragem (curso d’água = > topo
da colina, por exemplo).
23. A interpretação mais simples do significado dos erros da
regressão é a seguinte: se todos os eij fossem = 0 os valores
observados seriam iguais aos valores estimados. Nesse caso,
a reta descreveria precisamente o fenômeno observado. Tal
caso é muito raro. Na prática os valores estimados
geralmente destoam dos valores observados e rendem as
mais diversas interpretações, como discutido por Anscombe
(1973).
Anscombe FJ. 1973. Graphs in statistical analysis. American
Statistician 27:17-21.
A seguir… O teste DW: 1° valor de Д, etc.
obtidos com base nos erros.
24. O valor de Д do teste DW em questão é calculado pela
fórmula Д =[ 𝒆 𝒕 − 𝒆 𝒕−𝟏
𝟐
]/𝑻
𝒕=𝟐 [ 𝒆 𝒕
𝟐
]𝑻
𝒕=𝟏 , onde o termo
𝒆 𝒕 − 𝒆 𝒕−𝟏
𝟐𝑻
𝒕=𝟐 nos instrui a fazer o cálculo dentro do
parêntesis (erro na amostra 2 menos erro na amostra 1 e eleve o
resultado ao quadrado), desde o erro número 2 até o último
erro, ou seja, repita a instrução para todos os demais pares de
erros vizinhos em x (retorne a figura 2). O cálculo é feito a partir
do erro número dois, pois o erro número 1 não pode ser subtraído
de um erro número zero, que sequer existe. Ou seja, o erro 1 não
tem um par... O termo et é o erro numa posição espacial (ou
temporal) qualquer, et-1 é o erro na posição espacial anterior; O
termo 𝒆 𝒕
𝟐𝑻
𝒕=𝟏 : instrui a elevar cada erro ao quadrado, desde o
primeiro até o último erro. Portanto, a fórmula representa a soma
das variâncias dos erros dos pares de vizinhos mais próximos
dividido pela soma dos quadrados de cada erro, do primeiro até o
último par de erros e erros, respectivamente.
25. Diferentemente da maioria dos testes estatísticos, os valores
tabelados de d (minúsculo) do teste de DW são organizados
na forma de um intervalo de confiança, ou seja, d tabelado é
uma região de certeza e não um único valor como no teste F
(figura 3). Isso ocorre porque os valores d tabelado são
calculados com base nos dados observados e não refletem, a
rigor, todas as situações teóricas possíveis de d.
Figura 3. obtenção de d tabelado para k=1 regressor [excluindo o intercepto] e n= 10
amostras = dL = 0,604 e dU = 1,001.
26. A hipótese H0 testada no teste DW é de que = 0 (ausência
de autocorrelação dos erros) e a hipótese alternativa Ha é de
que #0. Note que o coeficiente pode assumir valores
positivos e negativos. A hipótese H0 é testada ao se comparar
os valores calculados de Д com os valores teóricos tabelados
de ‘d’ para diversas combinações de N amostral, número de
coeficientes na regressão etc. Para se comparar Д com ‘d’
quando for negativo devemos transformar Д em Д’ através
da simples fórmula Д’= 4- Д. Ao se rejeitar H0 com um
valor de > 0 se conclui que os erros estão positivamente
correlacionados e com < 0 se conclui que os erros estão
negativamente correlacionados. Portanto, três situações
podem ocorrer:
1. Д > dU (do inglês d Upper).
27. Nesse caso, se aceita H0, não difere de zero, o que evidencia
ausência de autocorrelação dos erros no tempo t, para o qual
o teste foi originalmente desenvolvido. Nesse caso as
amostras são independentes.
2. Д < dL (d Lower), rejeita-se a hipótese nula de que = 0.
Logo a autocorrelação # 0 (difere de zero, podendo ser + ou
-, como explicado acima) e
3. dL < Д < dU, ou seja, Д está numa região em que não há
certeza sobre seu significado! Diz-se que o teste DW é
inconclusivo nesse caso e mais amostras são necessárias para
se tirar uma conclusão definitiva (Neter et al. 2004). Uma
opção prática no caso do teste DW possuir resultados
indeterminados é não rejeitar H0 (assumir que não há
autocorrelação dos erros).
28. Neter J, Kutner MH, Nachtsheim CJ & Wasserman W. 2004. Applied linear regression
models (4 ed.). Chicago, McGraw Hill/Irwin.
Cálculo do Д do teste de Durbin-Watson para os
dados da regressão linear simples nos slides acima
descrita:
A tabela 2 contém os dados do cab, as distâncias x, os erros
eij, idênticos aos valores calculados na tabela 1 mais os
termos (et-et-1), ( et-et-1)2, et
2 e Д , necessário para solucionar
a fórmula Д =[ 𝒆 𝒕 − 𝒆 𝒕−𝟏
𝟐
]/𝑻
𝒕=𝟐 [ 𝒆 𝒕
𝟐
]𝑻
𝒕=𝟏 .
29. Tabela 2. Dados de cab (y), distâncias x, erros eij, termos (et-
et-1), ( et-et-1)2, et
2 e Д , referentes as plantas de Psychotria
leiocarpa.
De posse do Д podemos agora contrastá-lo com os valores
tabelados da figura 3:
30. Д T ou N Д’ dL dU
Comparação de
Д com dL e dU
conclusão
Probabilidade de
erro=>
1% 1%
Aceita-se H0= = 0 =
ausência de
autocorrelação dos
erros
1,70 10 0,60 1,00
1,70>dU
Relembrando a
figura 3 temos: dL =
0,604 e dU = 1,001.
31. Com todas as informações tabeladas e lembrando das três
situações possíveis [e das hipóteses já mencionadas]temos
a seguinte conclusão: aceita-se H0 se conclui que a série de
dados de cap y em função da distância x é uma série sem
autocorrelação.
Nota: Os valores de dL e dU são valores tabelados para T graus de
liberdade (o tamanho da amostra N, ‘n’ minúsculo na figura 3 cuja fonte
é Savin & White 1977,
https://www3.nd.edu/~wevans1/econ30331/Durbin_Watson_tables.pdf ) e
k graus de liberdade (o número e coeficientes angulares b). É necessário
bastante atenção ao ler os valores nas tabelas disponíveis na internet,
pois algumas fornecem o valor de ‘d’ considerando o intercepto, o que
nos faria coletar dL e dU na coluna k’=2 ao invés de k’*=1. Em
http://www.stanford.edu/~clint/bench/dwcrit.htm existem tabelas para
valores altos de N e k. As colunas k’= 2 a k’= 7 são utilizadas em modelos
do y= a+ bx+ cx2+ ...+ gxn (regressão múltipla).
32. Epílogo: cálculo de rho []:
O é calculado por meio da fórmula =
𝒆 𝒕 − 𝒆 𝒆 𝒕+𝟏 − 𝒆𝑻−𝟏
𝒕=𝟏 𝒆 𝒕 − 𝒆 𝟐𝑻
𝒕=𝟏 (adaptado de
Levich & Rizzo 1998 e Kuan 2003, pg. 9 para o caso de se
utilizar uma sequencia de valores de erros), onde 𝒆 𝒕 − 𝒆
é o erro número 1 menos a média dos erros, a qual é
sempre zero, 𝒆 𝒕+𝟏 − 𝒆 é o erro número dois menos a
média dos erros, 𝒆 𝒕 − 𝒆 𝟐 é a variância do erro número 1.
Não é necessário se calcular rho para se saber se os dados
possuem autocorrelação espacial. Mas é interessante para
se saber o sinal da mesma e a sua magnitude. O
procedimento segue abaixo, a título de curiosidade.
33. O termo 𝑻−𝟏
𝒕=𝟏 nos instrui somar no numerador o
resultado dentro dos parêntesis do primeiro até o
penúltimo erro e o termo 𝑻
𝒕=𝟏 nos instrui a calcular a
variância de et até o último erro, no denominador. Uma
vez que a média dos erros da regressão é sempre zero,
se poderia simplificar a fórmula acima para =
𝒆 𝒕 𝒆 𝒕+𝟏
𝑻−𝟏
𝒕=𝟏 𝒆 𝒕
𝟐𝑻
𝒕=𝟏 . Na tabela 3 há um exemplo
numérico completo para calcular para os erros da
tabela 1 e 2, considerando a fórmula completa =
𝒆 𝒕 − 𝒆 𝒆 𝒕+𝟏 − 𝒆𝑻−𝟏
𝒕=𝟏 𝒆 𝒕 − 𝒆 𝟐𝑻
𝒕=𝟏 . No livro de
Legendre (1998) há um bom exemplo numérico de
como se calcula .
Kuan C. 2003. Lecture on time series diagnostic tests.
Institute of Economics Academia Sinica.
34. Tabela 3. Exemplo numérico do cálculo de . O símbolo eij
denota os erros da regressão e 𝒆 𝒕 − 𝒆 𝒆 𝒕+𝟏 − 𝒆 é a
diferença entre o erro e a sua média. O valor obtido é
multiplicado pela diferença entre o erro seguinte e a sua
média. A média dos erros é sempre zero. O termo 𝒆 𝒕 − 𝒆 𝟐
denota a diferença entre o erro e a sua média elevados ao
quadrado, ou seja, a variância do erro. O coeficiente é
obtido ao se dividir a soma de todos 𝒆 𝒕 − 𝒆 𝒆 𝒕+𝟏 − 𝒆 pela
soma de todos 𝒆 𝒕 − 𝒆 𝟐
.
36. Onde ler [também foram as fontes das informações aqui
escritas]:
Batschelet I. 1981. Circular statistics in biology. New York,
Academic Press.
Fisher NI. 1993. Statistical analysis of circular data. Cambridge,
Cambridge University Press.
Morellato LPC, Alberti LF, Hudson IL. 2010. Applications of
circular statistics in plant phenology: a case studies approach. In:
Keatley M.; Hudson IL. (org.). Phenological Research: Methods
for Environmental and Climate Change Analysis. Springer
Verlag.
Zar JH. 1996. Biostatistical analysis. New Jersey, Prentice-Hall.
37. Aplicações:
Modelagem da direção de origem / dispersão de pragas
agronômicas, incêndios, polinizadores. Padrão temporal dos
mesmos. Padrão temporal da fenologia de plantas.
38. Ambrosius Theodosius
Macrobius c. 400 DC =>
Inclinação das órbitas
planetárias em função do tempo
(fonte: Fisher 1993;
wikipedia.org)
Histórico
39. + Edmund
Halley c 1701
=> Declinação magnética.
+ John Mitchel 1767 => Separação
angular entre estrelas.
+ Playfair 1802 => Média circular é
diferente de média linear.
+ Nightingale
1858. 800p.
Rose diagram
ou Coxcomb +Von Mises 1918
(fonte Fisher 1993;
wikipedia.org)
41. 0
90
180
270
Dados na escala circular: Dados circulares pertencem a uma
medida de escala circular com intervalos iguais sem ponto zero.
Fonte: programa Oriana:
http://www.kovcomp.co.uk/ori
ana/ A seguir: alguns cálculos e
noções básicas de parâmetros
na escala circular e seu
comparativo com a escala
linear.
Quais programas eu
posso utilizar para
fazer cálculos
utilizando est. circ.?
ORIANA4.0
BIOSTAT 5.0
42. E a média como fica?
trigonometria
Seja 10°, 30° e 350°,
a média circular é:
X = 10 ° +30 ° +350 ° /3 = 130 °
Errado!!!!!!!!!!
ā = 10°
?
?
Fonte:
http://www.google.com.br/url?sa=i&
rct=j&q=&esrc=s&source=images&
cd=&docid=qeAdGqdWhmeUyM&t
bnid=Ke4XeE8oxOG0XM:&ved=0C
AUQjRw&url=http%3A%2F%2Fk
ungfumoviemadness.com%2Fkill-
bill-volume-
2%2F&ei=ME75UbeQBYTc8ATK5
YFQ&bvm=bv.49967636,d.dmg&psi
g=AFQjCNEYX_O1rltpuOfEd0-
0jPTKwD63fg&ust=13753793648380
68
43. r =
r = 0,9595
y=
y = 0,5 /3
y = 0,1666
x =
x = 2,83/3
x = 0,945
Média circular
Seja 10°, 30° e 350° ( ), a média circular é:
in
N
1i
sen/1
in
N
1i
cos/1
yx
22
(
i
Agora:
cos ā = x /r
cos ā = 0,945 /0,9595
= 0,98
sen ā = y /r
sen ā = 0,1666 /0,9595
= 0,17 ver próximo slide...
44. Qual ā tem sen = 0,17
e cos 0,98?
O angulo 10 °
Filosofia: entrar
num terreno onde os
ângulos são
tratáveis, calcular a
média e depois
retornar aos ângulos
para expressar a
média em graus.
45. Dados agrupados (com freqüências)
Exemplo: vários indivíduos com flor em cada data do ano... A média circular neste
caso é calculada de modo análogo ao exemplo anterior, com a única diferença
que cada sen e cos de devem ser multiplicados pela sua respectiva
freqüência.
i
Fonte: Zar 1996
46. O Teste de
Rayleigh
detectar padrões direcionais de expansão
de galáxias ou impactos de meteoros;
Atualmente => direção: da migração de
borboletas, dos ventos e da dispersão de
sementes; hora do dia (visitas de pássaros)
Uso em fenologia: Davies & Ashton (1999)
Brasil: Morellato et al. (1989, 2000)
John Willian Strutt
Premissas:
Os dados devem ser:
Unimodais.
Grupos menores de 12 => rc. Ver pág. 38
Batschelet (1985).
Fonte: wikipedia
47. r = , onde:
2. cálculo de x, y, e r. Com as fórmulas:
x = e y =
= arc TAN (y/x) se x > 0 e = 180 + arcTAN(y/x ) se x <0
Teste de Rayleigh – Exemplo: Sp X floresceu entre 12 e 18.09.2002 (Davies & Ashton 1999):
1. Converter datas em graus. Obtenção do .
Se 365 dias = 360 então o dia 12.09 equivale ao 220° dia do ano e ao grau 22055’53’’.
Repete-se o raciocínio para 13.09 e assim por diante.
in
N
1i
cos/1 in
N
1i
sen/1
3. Primeiro, achar x e y, com o auxílio de :
y = (1/7)*(–4,8184, que é o somatório de todos os senos dos ângulos que correspondem as datas
com flor)
= -0,6883
x = -0,7246
= Como x<0, usamos a fórmula do médio a direita e então obtemos: 22331’42’’
r = 0,9994!!!! Conclusão: evento extremamente sazonal!!!
yx
22
(
i
i
i
= ângulo do evento fenológico i, ou seja 22055’53’’, para o dia 12.09.
n = número de datas de atividade fenológica (7 no caso, pois de 12-18 são 7 dias)
r = é o vetor que mede a concentração temporal da atividade fenológica e varia de 0-1.
= é o ângulo médio de ocorrência da fenofase, o qual pode ser convertido para data
de novo, mostrando a data média do evento.
48. Davies, S.J. & P.S. Ashton (1999) Phenology and fecundity in 11 sympatric pioneer
species of Macaranga in Borneo. American Journal of Botany 86: 1786-1795.
49. Teste do padrão [uniforme ou não (sazonal)]
dos dados em torno da circunferência com base
no vetor r.
Filosofia: considerando as distribuições teóricas de dados
dos vetores r [todas as situações possíveis] tabeladas, o quão
fora do comum é a nossa situação calculada com base nos
nossos dados quando contrastada com a distribuição
conhecida?
50. Exemplos de distribuições teóricas de dados
[parâmetros (r), estatísticas (u)]:
Função Bessel: α=0
Fdp Von Mises
Ex.: Tikhonov/Von Mises
51. Significância Estatística de r do Exemplo “Sp X floresceu
entre 12 e 18.09.2002” dos slides acima:
z= n*r2 ; z = 7* (0,9994)2; z= 6,99
Ztab. (α 0,05; n) = 2,88
z calc.>Z tab. Então: Valor do vetor r > do que seria
esperado por mera chance em uma população Von Mises de
Vetores r.
REJEITA-SE H0, ACEITA-SE H1
P= eraiz{[1+4n+4(n2 => é r ao quadrado-R2)]}-(1+2n)
R= n*r
R= 7*0,9994
R= 6,9958
P= eraiz{[1+28+4(49-48,94)]}-(1+14)
P= eraiz{[29+4(0,06)]}-(15)
P= 1,48*10-5
O que faz sentido, pois z calculado é = 6,99 > ztab. Para p<0,001
52.
53. Teste dos espaços de S. Rao Jammalamadaka
http://www.pstat.ucsb.edu/faculty/jammalam/html/favorite/test.htm
Jammalamadaka
Sreenivasa Rao
0
90
180
270
Premissa: dados
NÃO agrupados
pg.67 Batschelet
O problema: dados bimodais
A solução: PhD. Thesis do Rao:
Rao, J.S. (1969). Some contributions to the analysis of circular
data. Ph.D. thesis, Indian Statistical Institute, Calcutta.
http://pt.starwars.wikia.co
m/wiki/Esp%C3%A9cie_d
e_Yoda
54. Idéia: alta sazonalidade significa pequenos
espaços (em °s) entre os ângulos.
Então: Se vc tem 10 ângulos e eles forem
sazonais, poderá haver 300 ° separando este
grupo de ângulos do resto da O.
O resto é traduzir isso em matemática
Rao JS. 1972. Some variants of chi-square for testing uniformity on
the circle. Zeitschrift für wahrscheinlichkeitstheorie und verwandte
gebiete 22:33-44.
55. Exemplo: As visitas dos morcegos em Atalea são uniformemente distribuídas (HO) ao longo das 24 horas do
dia? Meia noite = 0°, 6 a.m. = 90°. Cada minuto = 360°/(24h * 60’) = 0.25°.
Ima observ. Time ângulo Ti (10-5) |Ti-L| (5-24)
1 12:20 AM ~5° 5 ° 5 19
2 12:40 AM ~10° 10 0 24
3 12:40 AM 10 2 22
4 12:48 AM 12 5 19
5 1:08 AM 17 68 44
6 5:40 AM 85 5 19
7 6:00 AM 90 9 15
8 6:36 AM 99 1 23
9 6:40 AM 100 10 14
10 7:20 AM 110 43 19
11 10:12 AM 153 80 56
12 3:32 PM 233 2 22
13 3:40 PM 235 61 37
14 7:44 PM 296 35 11
15 10:04 PM 331
360-
331+5=34
10
n=15
diferentes
ângulos
ângulos Sigma= 354
L = 360° / 15 = 24°
~ modelo nulo
Ti = f i+1 – f; = 10-5
Ti-L = 5-24°
= | -19 |; =19
Se utilizar módulo( || ) U = 0.5 *
sigma
U||= 0,5 . 354
U||= 177
Fonte: http://www.pstat.ucsb.edu/faculty/jammalam/html/favorite/test.htm
Se utilizar só +
= U= sigma
Obs.: ∑ti=360
57. Teste X2
Premissa:
1. Dados agrupados
podendo ser com
diferentes intervalos
~ fenologia
2. Freqüências
esperadas >4.
pg.72 Batschelet
Graus de liberdade
Valor do X2 =>
coluna
v = nº de grupos -1
=> linha
X2=66
v=11
P<0,002
Pág.333
Distribuição
regular
Fonte: Zar (1996)
58. MÉTODOS GRÁFICOS: 1. Teste de Hodges-Ajne (H)
O princípio é semelhante ao teste de Rao. Desconheço softwares que calculem
H. Calcular ‘no braço’ é difícil com N grande, pois é um método gráfico.
Único ex.: Srygley & Oliveira (2001).
Conceito de Hodges: Qual a linha que divide a circunferência de modo que
deixe menos dados em um de seus lados?
Premissa: dados não agrupados.
P = 21-n n! / n! (n-m)!
n = n amostral
m = número mínimo
de ângulos
contidos em 180 °
22
8/2 A
e
A
P
)2(2 mn
n
A
n> 50
59. 2. Range Test (w) ~ Rao, só que utiliza o comprimento do
menor arco envolvndo a amostra como estatística. W= 123-23°
= 100°… Batschelet pág. 70
Premissas gerais: independência
Estatística circular ou séries temporais?
Anos inteiros jan dez
3. Kuiper Test ~ Kolmogorov-
Smirnov Batschelet pág. 76
Vn=D+ + D-
K= n0,5Vn
Frequências acumuladas
Range & Kuiper: dados não
agrupados ou g<5°
D+
D-
Rao, J.S. (1976). Some tests
based on arc-lengths for the
circle. Sankhya: The Indian
Journal of Statistics, Ser.
B(4), 38, 329-338.
Fonte: wikipedia
60. Sincronia
=> Não possui **. rs possui.
Índice de Sincronia (Xi) de Augspurger (1981, 1983),
Bianchini et al (2006)
Xi = , em que :
– Xi = índice de sincronia do indivíduo i;
– ej = número de datas onde os indivíduos i e j estão em floração ou qualquer
outra fenofase juntos sendo que i é diferente de j (indivíduos diferentes)
– fi = numero de meses onde o indivíduo i está em floração;
– n = número de indivíduos (total) que floresceram no período.
Se Xi for igual a 1, a sincronia é perfeita. Se Xi = 0 não há sincronia.
Sincronia da população: Z = , em que:
– Z = índice de sincronia da população ;
–Xi = índice de sincronia do indivíduo i;
i)(j
))1(/(1
n
1j
ejnfi
n
1i
/1 Xin
Carol Augspurger
http://www.life.illinois.edu/plantbio/People/F
aculty/Augspurger.htm
61. Geoestatística
Fontes: Krige DG. 1951. A statistical approach to
some basic mine valuation problems on the
Witwatersrand. J. of the Chem., Metal. and Mining
Soc. of South Africa 52: 119–139.
Matheron G. 1962. Traité de géostatistique appliquée.
Editions Technip.
http://w3eos.whoi.edu/12.747/resources/pract_geostat/
pg1979_latex.pdf
62. Geoestatística – Considera não somente os valores, mas também as direções
e distâncias entre os pontos de coleta de dados.
Aplicações: distribuição de solos, climas, espécies, pragas, incêndios,
avalanches, enchentes, poluentes, PAR, etc. tudo o que pode ser modelado no
espaço geográfico...
Um exemplo muito simples mostra a diferença entre a estatística e a
geoestatística:
Amostra 1: 1 – 7 – 3 – 6 – 2 – 9 – 4 – 8 – 5
Amostra 2: 1 – 3 – 5 – 7 – 9 – 8 – 6 – 4 – 2
Sob a ótica da estatística
clássica a média e a variância
são idênticas para as duas
amostragens.
Entretanto, segundo a avaliação no
espaço, a primeira amostra possui um
comportamento muito errático,
enquanto a segunda amostra
apresenta uma uniformidade espacial.
Fonte: wikipedia
63. Na estatística tradicional se pode
estimar o valor da variável Y
através de uma equação. Significado
quantitativo de X1 e X2
precisa normalidade e
independência
Núm. ind. com flores = -10.0876+1.3814*x
6 7 8 9 10 11 12 13 14 15
C. dia
-2
0
2
4
6
8
10
12
Núm.ind.comflores Na Geoestatística se pode estimar o
valor da variável Y num ponto no
espaço através de krigagem.
Significado direcional de X1 e X2
não precisa normalidade e
independência
Krigagem precisa de dependência!
http://casoilresource.lawr.ucdavis.edu/drupal/files/images/elevation_OK.jpg
Mais importante em regressão é o eixo x Anscombe (1974)
64. ONDE LER: Krige DG. 1951. A statistical approach to some basic
mine valuation problems on the Witwatersrand. J. of the Chem.,
Metal. and Mining Soc. of South Africa 52: 119–139.
Matheron G. 1962. Traité de géostatistique appliquée. Editions
Technip.
LIVRO CLÁSSICO DE ISOBEL CLARK SOBRE
GEOESTATÍSTICA GRÁTIS:
Fonte: http://w3eos.whoi.edu/12.747/resources/pract_geostat/pg1979_latex.pdf
65. O SEMIVARIOGRAMA ~ Durbin-Watson: é um gráfico de
variação.
Filosofia: quanto mais próximos os pontos x e x+h, menor a
variância das medições de Y (ou Z) entre os pontos. h = distância
Repetindo o raciocínio para diversos pares de pontos
separados pela mesma distância e plotando cada
variância obtida em Y e as distâncias em X, se obtém
um gráfico chamado semivariograma que descreve a
variância em função das distâncias.
66. Devemos repetir o cálculo de
para todas as distâncias?
Não, pois quanto mais distante,
menor o n amostral e menor a
confiabilidade dos resultados
Interpretação: Variância
pequena em Y: pontos
próximos => alta dependência
espacial.
Variância alta em Y: pontos
distantes =>baixa dependência
espacial
A distancia quando a variância
alta se estabiliza é o “sill” (C).
C pode ser estimado via
modelos teóricos prontos (a
dir. ) ou se pode achar um
modelo via regressão.
Fonte: http://www.my-
montage.net/category/comedy/
what-am-i-thinking/
69. A próxima etapa
consiste em modelar
o semivariograma
por meio de
MODELOS GUIA ou
por meio de equações
de regressão
(geralmente não
linear**) e definir as
distâncias seguras de
coleta de dados.
**Avaliadas por índice de
Furnival etc. cuja
complicação transcende
os propósitos deste curso.
71. Modelo guia de Matheron: ~ a distribuição Normal na estatística
tradicional ~ às curvas espécie área... Determina a distância
segura para evitar a dependência das amostras.
a = área e influência: a partir da qual a independência é alcançada.
72. É possível calcular vários planos para o semivariograma.
Neste caso o mesmo é mais poderoso que o Durbin-Watson
tradicional. Pois considera pontos mais distantes enquanto
o DW considera pontos vizinhos.
73. Deve-se ter em mente a possível ocorrência de tendência,
oscilações periódicas, etc. e saber quais fenômenos poderiam
gerar tais padrões. No caso de log-linearidade, é preciso calcular
um semivariograma relativo. Seria semelhante ao que ocorre em
uma ANCOVA...
NUNCA esquecer dos metadados, ou seja, coordenadas, clima,
propriedade privada, parque, data de coleta etc...
“Nugget effect” (efeito do ouro) é quando não há qualquer
padrão no semivariograma. A variância descreve o fenômeno tão
bem quanto o variograma.
Em alguns casos, se pode modelar os resultados do variograma
por meio de regressão múltipla!
A interpretação do variograma passa por uma revisão detalhada
de todos os possíveis fenômenos descritos pelo mesmo.
74. Exemplo de tendência
Importante: semivariograma não possui estatística associada, ou
seja, um semivariograma não pode ser significativo/não
significativo.
75. E aqui?
Caos. Não se pode arriscar muito, pois em distâncias muito
próximas a zero comportamento de Y é imprevisível pois a
maioria da variância está entre zero e 13 m.
77. Krigagem (interpolação):
Forma de obter o valor de um ponto inexistente por meio da
interpolação dos valores próximos pesando (w) sua
contribuição com, geralmente, o inverso da distância.
É útil no caso de se querer saber um valor no campo, onde
não foram coletados dados ou para traçar “curvas de nível”
ou nos mapas de modelagem sobre clima (cenários de
aquecimento global), modelos de clima, distribuição de
espécies, etc...
Mais detalhes no livro do Clark (1979) e o livro do Leonardo
Silva Andriotti “fundamentos de estatística e geoestatística”.
79. ÍNDICE DE MORAN
(IM)
O primeiro fornece um único valor de I, que se
próximo a zero indica baixa autocorrelação dos
dados de uma forma geral.
Basicamente de dois tipos:
1. coordenadas XYZ
2. pontos aleatórios obtidos por GPS
Fonte: wikipedia
80. O segundo é muito similar ao
semivariograma.
Programas: Clusterseer, ARCGIS, GEODA
http://www.terraseer.com/
http://www.terraseer.com/products_clusterseer.php
Cálculo: índice do tipo 1:
81. Exemplo do IM com dados obtidos na forma de
coordenadas XYZ em plano irregular:
Matriz de adjacências w
Z +4.55 +5.54
+2.24 -5.15 +9.02
+3.10 -4.39 -2.09
Z +0.46 -3.06
linha x coluna y z
1 2 4.55
1 3 5.54
2 1 2.24
2 2 -5.15
2 3 9.02
3 1 3.1
3 2 -4.39
3 3 -2.09
4 2 0.46
4 3 -3.06
coluna 1 coluna 2 coluna 3
linha 1
linha 2
linha 3
linha 4
Tabulação simples
Indica elementos que devem ser
incluídos ou excluídos no cálculos
dos pesos W. se pode atribuir pesos
0,9 ao invés de 1 ou zero.
O somatório dos pesos é 26!
http://www.spatialanalysisonline.com/output/html/Globalspatialautocorrelation.html
82. Matriz de variância/covariância
Diferença ponto 1 = (Z(i) – mean)
= 2,24-1,02
= 1,22
Variância ponto 1 = (Z(i) – mean)^2
= (2,24-1,02)^2
= 1,48
Co-variância ponto 1,2= (Z(1)-mean).(Z(2)-mean)
= (1,22).(2,08) = 2,53
83. Multiplicação das matrizes COV * W:
célula 1,1 = 0*0 = 0
célula 1,2 = 1*2,53 = 2,53
<= Somatório da
linha 1
IM= (10*16,19)
(26*196,6)
= 0,03
84. Tipo 2 de IM: Tratamento de pontos aleatórios obtidos por
GPS
Exemplo:
Breshears DD. Rich PM , Fairley JB, Campbell K. 1997.
Overstory-imposed heterogeneity in solar radiation and soil
moisture in a semiarid Wodland. Ecol Appl 7:1201-1215.
86. Obrigado!
Blagodarya
Dòjeh
Tusind tak
Dank u zeer
Thank you
Merci beaucoup
Tausend Dank
rav todot
Makasih ya
Grazie
Arigatō
Kamsahamnida
Tusen Takk
Spasibo!
Thank ye, ta
Muchas gracias
O autor no passado recente [foto de 2006]
The autor [picture took in 2006]
A river dirty...