1. O documento apresenta conceitos básicos de probabilidade e estatística, incluindo variáveis aleatórias, população, amostra, distribuições estatísticas e regressão.
2. Aborda métodos de ajuste de distribuições teóricas como normal, log-normal e Gumbel a dados reais e conceitos como função de probabilidade, tempo de retorno e correlação.
3. Discutem testes para verificar a homogeneidade de séries temporais e regressão para relacionar variáveis.
3. 3
Conceitos básicos
{ Variável aleatória: não possui um explicação determinista
da sua ocorrência: P. Ex. a precipitação de um local; qual
o número que sairá numa roleta
{ População é o universo de possibilidades de ocorrência de
uma variável aleatória. P. ex. num dado são seis
possibilidades, sendo que cada número tem igual chance
de ocorrer. A população estatística é o total de ocorrência
e as estatísticas da população mostram que cada número
tem igual probabilidade.
{ Amostra é a quantidade de resultados que me permite
estimar as estatísticas da população. Por ex. após jogar o
dado 1000 vezes é possível determinar qual a
probabilidade de ocorrer cada um dos número e
certamente será 1/6, mas se tivesse jogado o dado
apenas 10 vezes, provavelmente minha estimativa da
probabilidade seria errada porque minha amostra é
pequena.
4. 4
conceitos
{ Estatísticas: uma variável aleatória tem várias
estatísticas que a caracterizam como: média,
desvio padrão, assimetria, etc.
{ A média pode ser aritmética, geométrica, etc.A
média aritmética que simplesmente é a média dos
valores da amostra;
{ o desvio padrão retrata a distribuição dos valores
da variável com relação a média. Quanto maio o
valor, maior a dispersão com relação a média;
{ A assimetria retrata como os dados se distribuem
com relação a média. Uma assimetria positiva
mostra que a maioria da freqüência do valores
fica são maiores que a média.
6. 6
Conceitos básicos
{ Risco: é a possibilidade de ocorrência de valores
da variável aleatória fora do planejado. Por ex.
qual o risco de ocorrência de um número do dado
maior que 4?
{ Incerteza é o erro da diferença entre as
estatísticas da amostra e da população na
estimativa do risco. Para o exemplo anterior se
tivéssemos estimado (a partir de amostra
pequena) que a probabilidade do número cinco e
do número seis eram respectivamente: 1,1/6 e
1,2/6. O risco estimado seria de 2,2/6 e a
incerteza = 0,2/6.
{ Em hidrologia a incerteza pode estar na medida
das vazões, no processamento dos dados, no
tamanho da amostra e na metodologia.
7. 7
Conceitos
{ Variável estacionária: uma variável é
estacionária quando as suas estatísticas
não variam com o tempo e não-
estacionária no caso contrário. Ex. a
mudança da média do escoamento de uma
bacia urbana devido a impermeabilização;
aumento ou diminuição da vazão de
estiagem depois da construção de uma
barragem.
{ Hidrologia estocástica: trata da estatística
temporal. Conceitos de probabilidade para
avaliar a variabilidade temporal de uma
variável aletória.
8. 8
Conceitos
{ Probabilidade e tempo de retorno: A probabilidade é a
chance de ocorrência de uma variável. Esta
probabilidade pode ser cumulativa ou individual. Ex. A
probabilidade de sair o número 3 é de 1/6 a chance de
que ocorra uma número maior que 3 é de 3/6 ou ½.
{ O tempo de retorno (utilizado em hidrologia) retrata a
freqüência seqüencial de ocorrência de valores. Ex. o
número 3, em média, ocorre a cada seis jogadas.
{ Portanto TR = 1/P
{ Em hidrologia é utilizado para caracterizar a freqüência
de repetição de um evento. Ex. Uma inundação que
tem a chance de ser maior ou igual num ano qualquer
de 0,05 ou 5%, tem um tempo de retorno de 1/0,05 =
20 anos. Significa que, em média, a inundação
ocorrerá a cada 20 anos. Não significa repetição cíclica.
9. 9
Função de probabilidade e função de
distribuição
f(x)
x
F(x)
x
Função de
distribuição
Função de
probabilidade
10. 10
Condições
{ Valores independentes: os valores da amostra
não devem apresentar correlação entre si. P. ex.
Numa amostra de vazões máximas anuais, o
valor de cada ano não devem ter correlação com
o do ano seguinte. Por isto que os valores são
escolhidos dentro do ano hidrológico.
{ Variável estacionária: as estatísticas da série não
podem se alterar ao longo do tempo.
{ Amostra representativa: as estatísticas da
amostras devem ser representativas da
população. O número de anos de uma amostra de
valores é importante, mas não significa tudo.
11. 11
Exemplo de Blumenau
Cheias máximas em Blumenau:
1852 – 16,52 m
1880 – 17,10 m
1911 – 16,90 m
1983 - 15,34 m
1984 – 15,50 m
Entre 1911 e 1983 não houve nenhuma
inundação com cota maior que 12,90 m,
período pouco representativo
12. 12
Distribuição de freqüência
{ Procedimentos
empíricos:
(a)para uma
amostra muito
grande pode-se
utilizar a
classificação em
intervalos e obter
um histograma de
freqüência
13. 13
Função de distribuição empírica
1
n
m
)
Q
q
(
P m
+
=
≥ Normal
12
,
0
n
44
,
0
m
)
Q
q
(
P
+
−
=
≥ Gumbel
{ Ajuste gráfico aos pontos das equações de
posição de locação ou plotagem
Onde m é ordem dos valores (decrescente) da amostra
N é o tamanho da amostra.
14. 14
Exemplo de ajuste empírico
Para uma amostra de vazões médias de um rio dado pelo
seguinte:
Ano Vazão ordem Vazão P T.R.
(m3/s) (m3/s) %
1983 22 1 27 10 10
1984 14 2 22 20 5
1985 17 3 17 30 3,3
1986 7 4 16 40 2,5
1987 12 5 14 50 2,0
1988 27 6 13 60 1,66
1989 16 7 12 70 1,45
1990 13 8 9 80 1,25
1991 9 9 7 90 1,1
Q
TR
●
●
●
●
●
●
●
●
●
A vazão média tem chance de 10% de
ser maior que 27 m3/s em um ano
qualquer ou com risco de 10 anos
15. 15
Distribuições teóricas
{ Normal (simétrica e utilizada para vazões
médias ou precipitações médias)
{ Log-Normal (vazões máximas)
{ Gumbel (extremo tipo I) (vazões máximas)
{ Extremo Tipo III (vazões mínimas)
{ Log Pearson Tipo III (vazões máximas)
adotada em alguns países como padrão .
Utiliza três parâmetros.
{ Na equação de Gumbel é utilizada uma
variável y ; y = -ln-ln(1-P), que permite
linearizar a escala.
16. 16
Distribuição de Gumbel
A função de distribuição é
P(Q≥ Qo) = 1 -
y = (Q - µ)/α
α = 0,78 s
µ = Xm - 0,5772 α
onde Xm é a média e s o desvio padrão das
vazões
P(Q ≥ Qo) = equação de
posição de plotagem
e e
- -y
0,12
+
N
0,44
-
i
18. 18
Vazões mínimas
{ Influência do
aqüífero
{ A curva de
probabilidade tende
a apresentar
curvatura inferior;
{ Cuidados na
extrapolação
• • •
•
• • •
• • • •
• • • •
•
Probabilidade %
Vazão
19. 19
Regressão e correlação
{ Regressão é a equação que relaciona as variáveis y=F(x);
{ Correlação é qualidade do ajuste da função a um conjunto
de dados;
{ ajuste de uma equação a um conjunto de dados é
diferente da regressão estatística. O ajuste não tem
compromisso estatístico, mas a representatividade dos
pontos. P. Ex. o ajuste de uma reta a dois pontos garante
que os pontos estarão na função e o grau de liberdade =
n-p+1 (número de pontos; p=parâmetros da equação) é
igual a zero.
{ O ajuste estatístico deve procurar ter o maior grau de
liberdade, que é o tamanho efetivo da amostra.
{ Um ajuste de um polinômio de ordem 5, que possui 6
parâmetros, pode ser ajustado a 6 seis pontos com grau
de liberdade zero, portanto a função passa por todos os
pontos
20. 20
Função básica de regressão
• • •
• •
• • •
• •
• • •
• •
• • •
• •
• • •
• •
• • •
• •
• • •
• •
• • •
• •
• •
y
yi
σ2
σ2
x
xi
Y = f(x1, x2, ....xn; a1,a2,...an)+ e
Onde y é variável dependente, f é a função de regressão, xi são
as variáveis independentes, ai são os parâmetros; e é o erro
21. 21
Regressão linear
Y = a. x + b + e
0
).
b
)
i
(
ax
)
i
(
yo
(
2
b
e
0
)
i
(
x
).
b
)
i
(
ax
)
i
(
yo
(
2
a
e
=
−
−
=
∂
∂
=
−
−
=
∂
∂
∑
∑
b
●
a
e
x
y
Mínimos quadrados: minimiza a
diferença quadrática dos erros
e =S [yo(i)- yc(i)]2
e =S [yo(i) – ax(i)-b]2
x
.
a
y
b
)
x
xi
(
)
y
yi
(
)
y
xi
(
a 2
−
=
−
−
−
=
∑
∑
22. 22
Correlação
{ Correlação R (-) { Correlação positiva
y
x
● ●
● ●
●
●
y
x
●
●
●
●
●
A correlação indica a qualidade do ajuste e o
coeficiente de correlação é seu indicador
23. 23
Coeficiente de determinação R2
2
y
2
2
s
s
1
R −
=
S2 = variância dos erros do modelo
Sy2 = variância dos valores observados
Para a reta p=1; n-p-1 = graus de
liberdade. Quando p=0 o R2 é tendencioso
1
p
n
)
yci
yoi
(
s
2
−
−
−
=
∑
1
n
)
y
yoi
(
s
2
y
−
−
=
∑
24. 24
Outras regressões
b
x
a
x
a
x
a
y n
n +
+
+
= ......
2
2
1
1
n
a
n
a
a
x
x
Cx
y ....
. 2
1
2
1
=
n
n x
a
x
a
x
a
C
y ln
..........
ln
.
ln
ln
ln 2
2
1
1 +
+
+
+
=
25. 25
Combinação de regressões
Número de regressões possíveis 2p
p = número de variáveis.
Exemplo para 2 variáveis.
y = b
y = a1x1 +b
y = a2x2 +b
y= a1x1 + a2x2 + b
26. 26
Exemplo
N
úm
ero de
variáveis
V
ariáveisindependentes R2
N
ão-tendencioso
σf
5 Á
readedrenagem
,precipitaçãom
édia
anual,declividade,densidadededre-
nagem
,com
prim
ento. 0,811 1,36
4 Á
readedrenagem
,Precipitaçãom
édia
anual,declividadeed.dedrenagem 0,820 1,35
3 Á
readedrenagem
,precipitaçãom
édia
anual,densidadededrenagem 0,828 1,34
2 Á
readedrenagemeprecipitaçãom
é-
diaanual
0,793 1,38
1 Á
readedrenagem 0,564 1,60
273
,
0
517
,
3
636
,
0
.
.
.
4
,
0 DD
PA
A
Qm =
0,7
0,75
0,8
0,85
0,9
0,95
1 2 3 4 5
número de parâmetros
R
27. 27
Algumas regras
•O número de variáveis p deve ser escolhida de
forma parcimoniosa. Muitas variáveis com
pouco ganho na correlação não contribui
porque dificulta o usuário e diminui o grau de
liberdade do modelo;
• A amostra é NV = N
NV = N -
- p
p -
-1
1.
. Um regressão com
3 variáveis independentes com 9 postos pode
ter uma correlação alta, mas a amostra real é de
apenas 5 valores, ou numa região com 5 postos
e 4 variáveis a amostra é O !!!!!!!!!!!!
28. 28
SÉRIES HOMOGÊNEAS
1. Teste de hipótese para verificar se duas séries
são homogêneas ou se alterações antrópicas
tornaram as séries não - homogêneas.
Testes paramétricos e não - paramétricos
2. Testes paramétricos: média e desvio padrão.
Baseia-se na hipótese de que as médias e o
desvio padrão das duas séries são iguais
com um determinado nível de significância.
30. 30
Exemplo
Série de vazões mínimas de 7 dias de um
posto com 27 anos. Deseja-se verificar se
após treze anos houve alteração na média e
desvio padrão da série.
Teste da variância
6
,
1
)
82
,
22
86
,
28
( 2
=
=
c
F
F (0,05, 12,13) = 2,5, como F(tabela) > Fc a hipótese é aceita
Teste da média 26
,
0
)
14
1
13
1
(
)
2
14
13
521
832
(
64
,
96
85
,
85
2
/
1
2
/
1
=
+
−
+
+
−
=
t
Com N1 + N2 -1 = 25 e 5% t(tabela ) = 2,05; t(tabela) >tc, a hipótese é aceita
31. 31
Preenchimento de séries
{ Com modelo hidrológico
{ com regressão entre postos vizinhos
Ne > N1. Outro critério R > 0,85 para
contribuir com melhoria
)
1
(
2
1 2
1
2
2
1
R
N
N
N
N
Ne
−
−
+
+
=
Considere uma série com 15 anos. Deseja-se estendê-la por 12
anos, resultando 27 anos. O coeficiente R = 0,78. Da equação
obtêm-se Ne = 19,7 anos > 15, o que atende o primeiro
critério.