TÉCNICAS ESTATÍSTICAS APLICADAS EM CLIMATOLOGIASimone E. Teleginski FerrazDepartamento de Física - UFSM
INTRODUÇÃOOs métodos e técnicas estatísticas são utilizados em Climatologia basicamente para analisar o tempo passado com o objetivo de inferir sobre o provável comportamento futuro de alguma variável.A aplicação de técnicas estatísticas tem a vantagem de compactar o enorme volume de dados, medidos, por exemplo, em uma estação, em uma simples tabela ou uma equação, capaz de resumir todas as informações de modo a facilitar as inferências sobre os dados.
UM POUCO DE HISTÓRIASurgiu na Antigüidade e se desenvolveu paralelamente à própria civilização humana. Há mais de 3.000 anos AC, os antigos egípcios deixaram dados estatísticos sobre seus povos gravados em monumentos históricos daquela época, principalmente nas famosas pirâmides.Os chineses realizaram um censo demográfico no ano 2.275 AC e, bem mais tarde, os romanos no ano 556 AC, também realizaram trabalho bastante semelhante.
Nessas épocas, os censos concentravam-se basicamente no levantamento do número de habitantes, nascimentos, óbitos e forças guerreiras, pois seus objetivos eram voltados a fornecer dados confiáveis aos então governantes.Na era Cristã, principalmente no primeiro milênio, houve também diversos censos demográficos, notadamente em Israel e alguns países do ocidente.
Entretanto, a partir do século XVI, a estatística começou a ganhar importância, passando a ser estudada por matemáticos e filósofos e, conseqüentemente, foi introduzida nos currículos das universidades.  DEFINIÇÃOÉ uma coleção de métodos para planejar experimentos, obter dados e organizá-los, resumi-los, analisá-los, interpretá-los e deles extrair conclusões.
CONCEITOS IMPORTANTES População: é uma coleção completa de todos os elementos a serem estudados. Ex: conhecer a altura de todos os habitantes do Brasil.Amostra: é uma sub-coleção de elementos extraídos de uma população. Ex: conhecer a altura de um conjunto de habitantes do Brasil.Quando o estudo trata de dados meteorológicos, temos em mãos uma amostra, pois não conhecemos a população, pois não há o registro contínuo dos dados desde a origem do planeta.
Quando trabalhamos com amostras, os resultados obtidos nos cálculos estatísticos são utilizados para fazer inferências (generalizações) sobre a população. Exemplo:Cera e Ferraz, 2007
DISTRIBUIÇÃO DE FREQUÊNCIAS
DISTRIBUIÇÃO DE FREQUÊNCIAS Precisamos manipular grande quantidade de dados.Estes devem ser organizados de tal forma a facilitar o trabalho do investigador do fenômeno. Devemos dispô-los de forma que consigamos extrair de maneira fácil informações como: maior e menor temperatura, quantos dias tiveram temperaturas acima ou abaixo de um determinado valor, etc. Para tanto, é elaborado uma distribuição de freqüências.
A distribuição de frequências é uma tabela que relaciona categorias ou classes de valores, juntamente com contagens ou frequências do número de valores que se enquadram em cada categoria. A distribuição de frequências pode ser representada através de um histograma, que é um gráfico cujas bases são os limites das classes e as alturas são as frequências.
ELABORAÇÃO DE UMA DF
Passo 1: Ordenar os elementos dos dados brutos em ordem crescente, indicando a freqüência absoluta de cada elemento.    Dados brutos:São as observações.   Freqüência absoluta:número de vezes que um valor aparece num conjunto de dados.Passo 2: Determinar o número de intervalos de classe (K) – Usar regra de Sturges:K = 1+3,3 (log10 n)K = 1+3,3 (log10 31)K = 1+3,3 (1,49)K = 5,9  6Portanto, a distribuição de freqüências será constituída de 6 intervalos de classe.
Passo 3: Determinar a amplitude dos intervalos de classe (h):Sendo K o número de intervalos de classe e xmáxe xmínsão respectivamente o maior e o menor valor do conjunto de dados.h  1,7
MEDIDAS DE POSIÇAO OU DE TENDÊNCIA CENTRAL
MEDIDAS DE TENDÊNCIA CENTRALÉ impossível manipularmos todos os elementos da seqüência de dados, a não ser que sejam poucos. É importante sabermos onde os valores da seqüência se concentram, facilitando assim a análise.  As medidas de posição ou de tendência central possibilitam determinar o valor localizado no centro ou no meio de um conjunto de dados.Há diferentes maneiras de definir o centro de um conjunto de dados, assim, há diferentes definições de medidas de tendência central como: média, mediana, moda e ponto médio.
MÉDIA ARITMÉTICAValor obtido somando-se todos os elementos do conjunto e dividindo-se a soma pelo número total de elementos. sendo  a média aritmética, xi os dados do conjunto amostral e n o número de valores.A média aritmética depende de todos os valores da série e qualquer alteração de um deles altera seu valor. Esta medida é influenciada por valores extremos, podendo, em alguns casos, não representar a série.
MÉDIA HARMÔNICAUsada como medida de tendência central para conjuntos de dados que consistem em taxas de variação, como por exemplo velocidades. Obtém-se a média harmônica dividindo-se o número n de valores pela soma dos inversos de todos os valores.
MÉDIA GEOMÉTRICA Mais usada na administração e na economia para achar taxas médias de variação, de crescimento, ou razões médias. Dados n valores (todos positivos), a média aritmética é a raiz nmado seu produto.Por exemplo, determina-se a média geométrica de 2, 4, 10 multiplicando-se os três valores – o que dá 80, e tomando-se a raiz cúbica do resultado (porque há três valores). O resultado é 4,3.
MÉDIA QUADRÁTICAÉ utilizada em geral em experimentos físicos. Em sistemas de distribuição de energia, por exemplo, as tensões e correntes são em geral dadas em termos de sua média quadrática. Eleva-se cada valor ao quadrado, soma-se os resultados, divide-se o total pelo número n de valores e toma-se a raiz quadrada do resultado.Por exemplo, a média quadrática de 2, 4, 10 é 6,3.
MEDIANAÉ o elemento que ocupa a posição central de uma série de dados. Para encontrá-la os dados devem estar dispostos em ordem crescente ou decrescente. Se a série tiver um número ímpar de dados o valor que estiver ocupando o meio da série será a mediana.Se tiver um número par de dados deve-se extrair a média aritmética dos dois valores centrais, uma vez que, o valor correspondente a mediana acha-se entre eles.A mediana dos dados fornecidos na tabela 1 corresponde a 20,9ºC.
MODAValor que ocorre com maior freqüência.Identificada apenas observando-se a série nos casos de dados não agrupados. Quando a série possuir dois valores com a mesma freqüência máxima, cada um deles é uma moda, e o conjunto diz-se bimodal. Se mais de dois valores ocorrerem com a mesma freqüência máxima, o conjunto é multimodal. A tabela 1 é multimodal, pois cinco valores (18,3; 18,9; 21,2; 22,4 e 23,2) aparecem com a mesma freqüência máxima.
PONTO MÉDIOO ponto médio é o valor que está a meio caminho entre o maior e o menor valor da série de dados. Para obtê-lo, somamos esses valores extremos e dividimos o resultado por 2, como na expressão a seguir :O ponto médio dos dados da tabela 1 é:
MEDIDAS DE DISPERSÃO OU DE VARIABILIDADE
MEDIDAS DE DISPERSÃOVimos que um conjunto de valores pode ser sintetizado, por meio de procedimentos matemáticos, em poucos valores representativos. Tais valores podem servir de comparação para dar a posição de qualquer elemento do conjunto.Mas não é o bastante dar uma das medidas de posição para caracterizar perfeitamente um conjunto de valores, pois, mesmo sabendo, por exemplo, que a temperatura média de duas cidades é a mesma, e igual a 24ºC, ainda assim somos levados a pensar a respeito do clima dessas cidades.
Em uma delas a temperatura poderá variar entre limites de muito calor e de muito frio e, haver, ainda, uma temperatura média de 24ºC. A outra poderá ter uma variação pequena de temperatura, mas mantendo uma média de 24ºC.Vemos, então, que a média – ainda que considerada como um número que tem a faculdade de representar uma série de valores – não pode, por si mesma, destacar o grau de homogeneidade ou heterogeneidade que existe entre os valores que compõem um conjunto.
Exemplo:X: 70, 70, 70, 70, 70Y: 68, 69, 70, 71, 72Z: 5, 15, 50, 120, 160Entretanto, é fácil notar que o conjunto x é mais homogêneo que os conjuntos y e z, já que todos os valores são iguais a média.O conjunto y, por sua vez, é mais homogêneo que o conjunto z, pois há menor diversificação entre cada um de seus valores e a média é representativa.Média aritmética = 70
Chamando de dispersão a maior ou menor diversificação dos valores de uma variável em torno de um valor de tendência central.Podemos dizer que o conjunto x apresenta dispersão ou variabilidade nula e que o conjunto y apresenta uma distribuição ou variabilidade menor que o conjunto z.Portanto, para qualificar os valores de uma dada variável, a Estatística recorre às seguintes medidas de dispersão: amplitude total, desvio-padrão e a variância.
AMPLITUDE TOTALÉa diferença entre o maior e o menor valor deste. Para calculá-la, basta subtrair o menor valor do maior.Quanto maior a amplitude total de um conjunto de dados, maior é a dispersão ou variabilidade dos valores.A amplitude total da tabela é: AT = 25,1 – 16,1 = 9º CÉ instável, pois se deixa influenciar pelos valores extremos, que são, na sua maioria, devidos ao acaso.
DESVIO-PADRÃOO desvio-padrão e a variância são medidas que fogem a essa falha, pois levam em consideração a totalidade dos valores da variável em estudo, o que faz delas índices de variabilidade bastante estáveis e, por isso mesmo, os mais geralmente empregados.  Assim, pode-se definir o desvio-padrão como uma medida da magnitude do espalhamento ou dispersão dos dados em relação à média da série.
O cálculo do desvio-padrão amostral (s) é:Para o desvio-padrão populacional () é:Observa-se que para a população    é substituído por  e n-1 por N. Uma regra que auxilia na interpretação do valor de um desvio-padrão é a regra empírica, aplicável somente a conjuntos de dados aproximadamente em forma de sino.
A REGRA 68-95-99
A REGRA 68-95-99 PARA OS DADOS DA TABELA
VARIÂNCIAÉ uma medida estatística da dispersão dos dados em torno da média de um conjunto de dados. É obtida quando não extraímos a raiz quadrada do desvio-padrão. A variância amostral é definida como:a variância populacional é:A variância dos dados da tabela 1 é 4,86º C.
SEPARATRIZES
SEPARATRIZESA mediana caracteriza uma série de valores devido à sua posição central. Além disso, ela separa a série em dois grupos que apresentam o mesmo número de valores. Existem outras medidas que não são medidas de tendência central, mas estão ligadas à mediana relativamente à sua segunda característica, já que se baseiam na sua posição na série.
Essa medidas denominadas de quantis ou fractis, são juntamente com a mediana, conhecidas pelo nome genérico de separatrizes.O quantil, por sua vez, é o nome genérico para outras medidas, como as que dividem o conjunto de dados em 4, 10 ou 100 partes, por exemplo. Estas são denominadas de quartil, decil e percentil, respectivamente.
Os três quartis Q1, Q2 e Q3 dividem o conjunto dos dados em quatro subconjuntos de tal forma que:Os decis dividem o conjunto de dados em 10 partes iguais. Os nove decis D1, D2, D3,..., D9 são tais que 10% dos elementos situam-se abaixo de D1, 10% entre D1 e D2 e assim por diante. A mediana é o quinto decil.Os percentis dividem o conjunto dos dados ordenados em 100 partes iguais. A mediana é o qüinquagésimo percentil.
OBTENÇÃO DOS QUANTIS1. dispor os dados em ordem crescente;2. colocar um n° de ordem para cada valor (i=1, ..., i=N);3. determinar a ordem quantílica: Pi=i/(N+1)4. calcular o quantilQ(P) para uma ordem quantílicaPi:a) se P coincidir com algum Pi já obtido, então: Q(P)=Q(Pi)=yib) se P não coincidir, haverá um índice i tal que Pi<P<Pi+1, onde Q(P) será obtido por interpolação, onde: Q(P)=yi+{[P-Pi]/[Pi+1-Pi]}*[yi+1-yi]
Exemplo:Dados: 104, 5, 43, 123, 58, 63, 12, 71 e 32; O quartil inferior Q(0,25),o superior Q(0,75) e o primeiro tercil Q(0,333) são:
Q(0,25)=[Q(0,20)+Q(0,30)]=(12+32)/2=22Q(25%) = 22Q(0,75)=[Q(0,70)+Q(0,80)]=(71+104)/2=87,5Q(75%)=87,5O primeiro tercil está entre 30% e 40%, cujos quantis respectivos são 32 e 43, portanto:Q(P)=yi+{[P-Pi]/[Pi+1-Pi]}*[yi+1-yi]Q(33,3%)=32+{[33,3-30]/40,0-30,0]}*[43-32]=32+(3,3/10,0)*11 = 35,63
ANÁLISE DE SÉRIES TEMPORAIS
SÉRIE TEMPORALÉum conjunto cronológico (ordenado no tempo) de observações, por ex.: registros de temperatura diária de uma cidade, as vendas diárias de uma loja, a temperatura de um paciente a cada hora, entre outros.A análise de tais dados tem por objetivo determinar se eles apresentam algum padrão não-aleatório. Por vezes, o que se deseja é, realmente localizar esses padrões não-aleatórios, que podem então ser usados para predições quanto ao futuro.
Outras vezes, o objetivo é constatar a ausência de padrões não aleatórios. Nesses casos, os padrões não-aleatórios são encarados como um sinal de que determinado sistema ou processo está fora de controle.  A análise de séries temporais (AST) tem grande importância como informação para a previsão do futuro. O estudo do comportamento das variações ocorridas no passado em dados de interesse permite-nos prever as variações que poderão ocorrer no futuro.
OBJETIVOS DA ASTDescrição: consiste em conhecermos o comportamento de uma ST. O primeiro passo na análise é elaborar o gráfico da série temporal com o objetivo de observar as principais propriedades da série como: tendência, ciclo sazonal e valores extremos (valores que não parecem consistentes com os demais).Explicação: quando as observações são tomadas de duas ou mais variáveis, podemos estar interessados em saber se a variação de uma série pode explicar a variação das outras.
OBJETIVOS DA ASTPrevisão: dada uma série temporal observada, pode-se querer prever os valores futuros desta.Controle: implica na geração de séries temporais para medir a qualidade de um processo. Exemplo: medir o peso de um determinado produto após ser embalado para o consumo. Isto tem como objetivo saber se está sendo embalado com excesso ou falta.
SÉRIES TEMPORAIS E ESPACIAISQuando medidas em um ponto fixo sobre um período de tempo, a série é chamada de série temporal. Medidas em um tempo fixo sobre uma série de localidades no espaço originam uma série espacial. Ambas as séries fornecem medidas de uma variável dependente tal como a temperatura ou umidade como função de uma variável independente, tal como o tempo, t, ou local, x.
SÉRIES CONTÍNUAS E DISCRETASUma série temporal é dita contínua quando as observações são feitas continuamente no tempo.A série temporal constituída por medidas tomadas em intervalos de tempo espaçados regularmente, até um número finito de N dados é denominada série discreta.O período total de medidas em uma série discreta é P = Nt, ou seja, o número total de dados multiplicado pelo intervalo de tempo em que os dados são medidos.
FUNÇÕES DETERMINÍSTICAS E NÃO-DETERMINÍSTICAS Uma série temporal pode ser uma função x aleatória ou não-determinística de uma variável independente t. Na maioria das situações, a função x(t) será uma função do tempo, mas em outras situações pode ser uma função de outro parâmetro físico, como por exemplo, do espaço. Uma característica das séries temporais é que seu comportamento futuro não pode ser previsto exatamente, como seria o caso de uma função ‘determinística’ do tempo.
 Se medirmos a temperatura do ar todos os dias e verificarmos a presença de um ciclo diurno.Entretanto, não conseguimos determinar uma relação determinística que possa ser ajustada a cada intervalo dessa série de dados porque diversos fatores podem estar causando variações nessa medida (exemplo, nebulosidade, entradas de frentes, alteração dos ventos por circulações locais, etc.). Se compararmos uma série temporal de temperatura em um determinado sítio em dois anos distintos, podemos verificar visualmente que esses dois trechos da série não se parecem um com outro.
PROCESSOS ESTOCÁSTICOS Como diferentes secções de uma série temporal se parecem uma com a outra apenas nas suas propriedades médias, é necessário descrever essas séries por leis de probabilidades ou modelos. Assim, os valores possíveis das séries temporais a um dado tempo t são descritos por uma variável aleatória x(t) e sua associada distribuição de probabilidades.O conjunto ordenado de variáveis aleatórias {x(t)} em associação com sua distribuição de probabilidades é chamado de processo estocástico.
ESTACIONARIDADELinha preta: diferentes secções são ‘parecidas’  processo estacionárioLinha vermelha:tendência de aumento  processo não-estacionárioe de desmatamento são ditas não-estacionárias.
Na prática, as séries são usualmente de três tipos:Séries que exibem propriedades de estacionaridade em longo período, (ex: saídas de geradores de ruído).Séries que possuem uma razoável estacionaridade em períodos curtos, (ex: medidas de turbulência na atmosfera, etc.).Séries que são não estacionárias, no sentido que suas propriedades estão continuamente mudando com o tempo, (ex: temperatura em altas e médias latitudes, ventos, etc.).
A maior parte dos métodos que trata com não-estacionaridade de séries temporais está baseada em técnicas para remover ou filtrar a parte não-estacionária, deixando apenas a parte que pode ser tratada como estacionária. Em climatologia, utilizamos esse tipo de técnica quando desejamos conhecer o comportamento das anomalias de uma determinada variável.
Uma maneira de resolver este problema é processar os dados de forma que permitam que uma subseqüente estacionaridade seja assumida. Por exemplo: gerar uma nova série com média constante igual a zero. 	A fim de produzir uma série com média e variância constante, seria necessário transformar essas anomalias em anomalias normalizadas:
Por exemplo: em latitudes médias as temperaturas tendem a ser mais frias durante o inverno e a sua variabilidade mais alta. 	Uma aproximação possível para transformar séries de temperaturas mensais em uma série (aproximadamente) estacionária seria calcular as 12 médias mensais e os 12 desvios-padrão e então aplicar anterior usando diferentes médias e desvios-padrão para o mês do calendário apropriado.
ELEMENTOS DAS STTendência: descreve um movimento suave, a longo prazo, dos dados, para cima ou para baixo. Podem estar relacionadas ao crescimento populacional de uma região, ao aumento das temperaturas devido ao efeito do aquecimento global, entre outros.Variações cíclicas: existe um padrão cíclico quando as variações apresentam certo grau de regularidade, entretanto com período diferente de um ano. São exemplos de ciclos: as manchas solares, a demanda de bens duráveis, etc.
Variações sazonais: os fenômenos sazonais estão associados às estações do ano. A diferença entre o sazonal e o cíclico é o tempo entre duas cristas consecutivas; no caso dos ciclos, esse tempo é diferente de um ano; no sazonal é de um ano. O ciclo sazonal também pode receber a denominação de ciclo anual. Como exemplo de eventos sazonais pode-se citar a variação da temperatura ao longo do ano, os artigos de estação, como, sorvetes e ovos de páscoa, entre outros.
Variações irregulares: são variações aleatórias, que não apresentam regularidade. Como por exemplo, nas medidas horárias de temperatura do ar sabemos que ao longo de 24 horas teremos a influência do ciclo diário de insolação (componente conhecida), entretanto, vários outros fatores (componentes desconhecidas) estarão influenciando as medidas, como nebulosidade e ventos, sem que possamos saber a contribuição efetiva destes.
DECOMPOSIÇÃO DAS ST EMTENDÊNCIA E SAZONALIDADEA tendência pode ser isolada de uma série através da análise de regressão linear simples ou da análise de regressão não linear simples, dependendo do conjunto de dados.
REGRESSÃO LINEAR SIMPLESEste é o tipo de regressão mais usado na prática. Para tanto, uma reta é ajustada ao conjunto de dados e, após, subtraída do mesmo. As equações de regressão linear são as seguintes:
Exemplo:
Substituindo os valores acima nas equações de a e b:
SÉRIE FINAL SEM TENDÊNCIA
VARIAÇÕES SAZONAISNos estudos climatológicos é interessante remover a componente sazonal das séries temporais, pois ela é muito intensa, principalmente nas regiões extratropicais, o que acaba mascarando as outras componentes das séries. Para removê-la um método usado é o da subtração das normais.
SÉRIE FINAL SEM SAZONALIDADE
ANÁLISE HARMÔNICA
ANÁLISE HARMÔNICAA análise harmônica consiste da representação de flutuações ou variações em uma série temporal que se originou da adição de uma série de funções seno e cosseno. Estas funções trigonométricas são “harmônicos” que são escolhidos como tendo freqüências que são múltiplas da freqüência “fundamental” determinada pelo tamanho amostral da série de dados. 
FUNÇÃO SENO OU COSSENO
REPRESENTAÇÃO DE UMA ST COM UMA FUNÇÃO HARMÔNICATrês dificuldades: 1) O argumento de uma função trigonométrica é um ângulo, enquanto os dados da série são função do tempo.2) As funções cosseno e seno flutuam entre +1 e -1, enquanto os dados geralmente flutuam entre diferentes limites. 3) A função cosseno tem máximo valor para  = 0 e  = 2. Ambos seno e cosseno podem assim estar posicionados arbitrariamente na horizontal com respeito aos dados.
A solução para o primeiro problema aparece quando consideramos o comprimento dos dados (n) como constituindo um ciclo completo, ou período fundamental. Uma vez que o período fundamental corresponde a 360º ou 2 radianos em medida angular, é fácil reescalar proporcionalmente o tempo à medida angular usando:
Os outros doisproblemas são resolvidos deslocando a função seno para cima/baixo, e então “esticando” ou “comprimindo” verticalmente até que seu intervalo corresponda ao dos dados. Mas como?Uma vez que a média de uma onda seno pura é zero, simplesmente adicionar o valor médio da série de dados ao seno assegura que o mesmo irá flutuar em torno do valor médio. O “esticamento” pode ser obtido pela multiplicação por uma constante C1 que é conhecida como amplitude.  
TRANSFORMAÇÃO DE UM COSSENO NUMA ST
PASSO A PASSOTemos o gráfico dos 12 meses, de janeiro a dezembro (linha com ). A temperatura média anual é 46,1 °F (linha contínua horizontal). A temperatura média mais quente é 68,8°F em julho e a mais fria é 22.2°F em janeiro.A curva na parte inferior (linha com ▲) é a função cosseno.A linha com ◊ mostra a curva deslocada para o nível da temperatura média anual. O estiramento aproximado foi feito escolhendo como C1 a metade da diferença entre os dois valores extremos.
PASSO A PASSOFinalmente a curva precisa ser deslocada para a direita, de modo a coincidir com os dados. O máximo da série de dados ocorre em julho, então, calculando o deslocamento da fase:O resultado é a aplicação deste valor em (linha com *):
DIVERSOS HARMÔNICOS
Como vimos os fenômenos meteorológicos podem ser compostos por diversos harmônicos ou variabilidades, no próximo item vamos ver algumas dessa variabilidades.
OBRIGADA!Simone E. Teleginski FerrazDepartamento de Física – UFSMsimonefe@pq.cnpq.br

XVII SAMET -2ª feira - Mini-curso [Dra. Simone Ferraz]

  • 1.
    TÉCNICAS ESTATÍSTICAS APLICADASEM CLIMATOLOGIASimone E. Teleginski FerrazDepartamento de Física - UFSM
  • 2.
    INTRODUÇÃOOs métodos etécnicas estatísticas são utilizados em Climatologia basicamente para analisar o tempo passado com o objetivo de inferir sobre o provável comportamento futuro de alguma variável.A aplicação de técnicas estatísticas tem a vantagem de compactar o enorme volume de dados, medidos, por exemplo, em uma estação, em uma simples tabela ou uma equação, capaz de resumir todas as informações de modo a facilitar as inferências sobre os dados.
  • 3.
    UM POUCO DEHISTÓRIASurgiu na Antigüidade e se desenvolveu paralelamente à própria civilização humana. Há mais de 3.000 anos AC, os antigos egípcios deixaram dados estatísticos sobre seus povos gravados em monumentos históricos daquela época, principalmente nas famosas pirâmides.Os chineses realizaram um censo demográfico no ano 2.275 AC e, bem mais tarde, os romanos no ano 556 AC, também realizaram trabalho bastante semelhante.
  • 4.
    Nessas épocas, oscensos concentravam-se basicamente no levantamento do número de habitantes, nascimentos, óbitos e forças guerreiras, pois seus objetivos eram voltados a fornecer dados confiáveis aos então governantes.Na era Cristã, principalmente no primeiro milênio, houve também diversos censos demográficos, notadamente em Israel e alguns países do ocidente.
  • 5.
    Entretanto, a partirdo século XVI, a estatística começou a ganhar importância, passando a ser estudada por matemáticos e filósofos e, conseqüentemente, foi introduzida nos currículos das universidades. DEFINIÇÃOÉ uma coleção de métodos para planejar experimentos, obter dados e organizá-los, resumi-los, analisá-los, interpretá-los e deles extrair conclusões.
  • 6.
    CONCEITOS IMPORTANTES População:é uma coleção completa de todos os elementos a serem estudados. Ex: conhecer a altura de todos os habitantes do Brasil.Amostra: é uma sub-coleção de elementos extraídos de uma população. Ex: conhecer a altura de um conjunto de habitantes do Brasil.Quando o estudo trata de dados meteorológicos, temos em mãos uma amostra, pois não conhecemos a população, pois não há o registro contínuo dos dados desde a origem do planeta.
  • 7.
    Quando trabalhamos comamostras, os resultados obtidos nos cálculos estatísticos são utilizados para fazer inferências (generalizações) sobre a população. Exemplo:Cera e Ferraz, 2007
  • 8.
  • 9.
    DISTRIBUIÇÃO DE FREQUÊNCIASPrecisamos manipular grande quantidade de dados.Estes devem ser organizados de tal forma a facilitar o trabalho do investigador do fenômeno. Devemos dispô-los de forma que consigamos extrair de maneira fácil informações como: maior e menor temperatura, quantos dias tiveram temperaturas acima ou abaixo de um determinado valor, etc. Para tanto, é elaborado uma distribuição de freqüências.
  • 10.
    A distribuição defrequências é uma tabela que relaciona categorias ou classes de valores, juntamente com contagens ou frequências do número de valores que se enquadram em cada categoria. A distribuição de frequências pode ser representada através de um histograma, que é um gráfico cujas bases são os limites das classes e as alturas são as frequências.
  • 12.
  • 13.
    Passo 1: Ordenaros elementos dos dados brutos em ordem crescente, indicando a freqüência absoluta de cada elemento. Dados brutos:São as observações. Freqüência absoluta:número de vezes que um valor aparece num conjunto de dados.Passo 2: Determinar o número de intervalos de classe (K) – Usar regra de Sturges:K = 1+3,3 (log10 n)K = 1+3,3 (log10 31)K = 1+3,3 (1,49)K = 5,9  6Portanto, a distribuição de freqüências será constituída de 6 intervalos de classe.
  • 14.
    Passo 3: Determinara amplitude dos intervalos de classe (h):Sendo K o número de intervalos de classe e xmáxe xmínsão respectivamente o maior e o menor valor do conjunto de dados.h  1,7
  • 15.
    MEDIDAS DE POSIÇAOOU DE TENDÊNCIA CENTRAL
  • 16.
    MEDIDAS DE TENDÊNCIACENTRALÉ impossível manipularmos todos os elementos da seqüência de dados, a não ser que sejam poucos. É importante sabermos onde os valores da seqüência se concentram, facilitando assim a análise. As medidas de posição ou de tendência central possibilitam determinar o valor localizado no centro ou no meio de um conjunto de dados.Há diferentes maneiras de definir o centro de um conjunto de dados, assim, há diferentes definições de medidas de tendência central como: média, mediana, moda e ponto médio.
  • 17.
    MÉDIA ARITMÉTICAValor obtidosomando-se todos os elementos do conjunto e dividindo-se a soma pelo número total de elementos. sendo a média aritmética, xi os dados do conjunto amostral e n o número de valores.A média aritmética depende de todos os valores da série e qualquer alteração de um deles altera seu valor. Esta medida é influenciada por valores extremos, podendo, em alguns casos, não representar a série.
  • 18.
    MÉDIA HARMÔNICAUsada comomedida de tendência central para conjuntos de dados que consistem em taxas de variação, como por exemplo velocidades. Obtém-se a média harmônica dividindo-se o número n de valores pela soma dos inversos de todos os valores.
  • 19.
    MÉDIA GEOMÉTRICA Maisusada na administração e na economia para achar taxas médias de variação, de crescimento, ou razões médias. Dados n valores (todos positivos), a média aritmética é a raiz nmado seu produto.Por exemplo, determina-se a média geométrica de 2, 4, 10 multiplicando-se os três valores – o que dá 80, e tomando-se a raiz cúbica do resultado (porque há três valores). O resultado é 4,3.
  • 20.
    MÉDIA QUADRÁTICAÉ utilizadaem geral em experimentos físicos. Em sistemas de distribuição de energia, por exemplo, as tensões e correntes são em geral dadas em termos de sua média quadrática. Eleva-se cada valor ao quadrado, soma-se os resultados, divide-se o total pelo número n de valores e toma-se a raiz quadrada do resultado.Por exemplo, a média quadrática de 2, 4, 10 é 6,3.
  • 21.
    MEDIANAÉ o elementoque ocupa a posição central de uma série de dados. Para encontrá-la os dados devem estar dispostos em ordem crescente ou decrescente. Se a série tiver um número ímpar de dados o valor que estiver ocupando o meio da série será a mediana.Se tiver um número par de dados deve-se extrair a média aritmética dos dois valores centrais, uma vez que, o valor correspondente a mediana acha-se entre eles.A mediana dos dados fornecidos na tabela 1 corresponde a 20,9ºC.
  • 22.
    MODAValor que ocorrecom maior freqüência.Identificada apenas observando-se a série nos casos de dados não agrupados. Quando a série possuir dois valores com a mesma freqüência máxima, cada um deles é uma moda, e o conjunto diz-se bimodal. Se mais de dois valores ocorrerem com a mesma freqüência máxima, o conjunto é multimodal. A tabela 1 é multimodal, pois cinco valores (18,3; 18,9; 21,2; 22,4 e 23,2) aparecem com a mesma freqüência máxima.
  • 23.
    PONTO MÉDIOO pontomédio é o valor que está a meio caminho entre o maior e o menor valor da série de dados. Para obtê-lo, somamos esses valores extremos e dividimos o resultado por 2, como na expressão a seguir :O ponto médio dos dados da tabela 1 é:
  • 24.
    MEDIDAS DE DISPERSÃOOU DE VARIABILIDADE
  • 25.
    MEDIDAS DE DISPERSÃOVimosque um conjunto de valores pode ser sintetizado, por meio de procedimentos matemáticos, em poucos valores representativos. Tais valores podem servir de comparação para dar a posição de qualquer elemento do conjunto.Mas não é o bastante dar uma das medidas de posição para caracterizar perfeitamente um conjunto de valores, pois, mesmo sabendo, por exemplo, que a temperatura média de duas cidades é a mesma, e igual a 24ºC, ainda assim somos levados a pensar a respeito do clima dessas cidades.
  • 26.
    Em uma delasa temperatura poderá variar entre limites de muito calor e de muito frio e, haver, ainda, uma temperatura média de 24ºC. A outra poderá ter uma variação pequena de temperatura, mas mantendo uma média de 24ºC.Vemos, então, que a média – ainda que considerada como um número que tem a faculdade de representar uma série de valores – não pode, por si mesma, destacar o grau de homogeneidade ou heterogeneidade que existe entre os valores que compõem um conjunto.
  • 27.
    Exemplo:X: 70, 70,70, 70, 70Y: 68, 69, 70, 71, 72Z: 5, 15, 50, 120, 160Entretanto, é fácil notar que o conjunto x é mais homogêneo que os conjuntos y e z, já que todos os valores são iguais a média.O conjunto y, por sua vez, é mais homogêneo que o conjunto z, pois há menor diversificação entre cada um de seus valores e a média é representativa.Média aritmética = 70
  • 28.
    Chamando de dispersãoa maior ou menor diversificação dos valores de uma variável em torno de um valor de tendência central.Podemos dizer que o conjunto x apresenta dispersão ou variabilidade nula e que o conjunto y apresenta uma distribuição ou variabilidade menor que o conjunto z.Portanto, para qualificar os valores de uma dada variável, a Estatística recorre às seguintes medidas de dispersão: amplitude total, desvio-padrão e a variância.
  • 29.
    AMPLITUDE TOTALÉa diferençaentre o maior e o menor valor deste. Para calculá-la, basta subtrair o menor valor do maior.Quanto maior a amplitude total de um conjunto de dados, maior é a dispersão ou variabilidade dos valores.A amplitude total da tabela é: AT = 25,1 – 16,1 = 9º CÉ instável, pois se deixa influenciar pelos valores extremos, que são, na sua maioria, devidos ao acaso.
  • 30.
    DESVIO-PADRÃOO desvio-padrão ea variância são medidas que fogem a essa falha, pois levam em consideração a totalidade dos valores da variável em estudo, o que faz delas índices de variabilidade bastante estáveis e, por isso mesmo, os mais geralmente empregados. Assim, pode-se definir o desvio-padrão como uma medida da magnitude do espalhamento ou dispersão dos dados em relação à média da série.
  • 31.
    O cálculo dodesvio-padrão amostral (s) é:Para o desvio-padrão populacional () é:Observa-se que para a população é substituído por  e n-1 por N. Uma regra que auxilia na interpretação do valor de um desvio-padrão é a regra empírica, aplicável somente a conjuntos de dados aproximadamente em forma de sino.
  • 32.
  • 33.
    A REGRA 68-95-99PARA OS DADOS DA TABELA
  • 34.
    VARIÂNCIAÉ uma medidaestatística da dispersão dos dados em torno da média de um conjunto de dados. É obtida quando não extraímos a raiz quadrada do desvio-padrão. A variância amostral é definida como:a variância populacional é:A variância dos dados da tabela 1 é 4,86º C.
  • 35.
  • 36.
    SEPARATRIZESA mediana caracterizauma série de valores devido à sua posição central. Além disso, ela separa a série em dois grupos que apresentam o mesmo número de valores. Existem outras medidas que não são medidas de tendência central, mas estão ligadas à mediana relativamente à sua segunda característica, já que se baseiam na sua posição na série.
  • 37.
    Essa medidas denominadasde quantis ou fractis, são juntamente com a mediana, conhecidas pelo nome genérico de separatrizes.O quantil, por sua vez, é o nome genérico para outras medidas, como as que dividem o conjunto de dados em 4, 10 ou 100 partes, por exemplo. Estas são denominadas de quartil, decil e percentil, respectivamente.
  • 38.
    Os três quartisQ1, Q2 e Q3 dividem o conjunto dos dados em quatro subconjuntos de tal forma que:Os decis dividem o conjunto de dados em 10 partes iguais. Os nove decis D1, D2, D3,..., D9 são tais que 10% dos elementos situam-se abaixo de D1, 10% entre D1 e D2 e assim por diante. A mediana é o quinto decil.Os percentis dividem o conjunto dos dados ordenados em 100 partes iguais. A mediana é o qüinquagésimo percentil.
  • 39.
    OBTENÇÃO DOS QUANTIS1.dispor os dados em ordem crescente;2. colocar um n° de ordem para cada valor (i=1, ..., i=N);3. determinar a ordem quantílica: Pi=i/(N+1)4. calcular o quantilQ(P) para uma ordem quantílicaPi:a) se P coincidir com algum Pi já obtido, então: Q(P)=Q(Pi)=yib) se P não coincidir, haverá um índice i tal que Pi<P<Pi+1, onde Q(P) será obtido por interpolação, onde: Q(P)=yi+{[P-Pi]/[Pi+1-Pi]}*[yi+1-yi]
  • 40.
    Exemplo:Dados: 104, 5,43, 123, 58, 63, 12, 71 e 32; O quartil inferior Q(0,25),o superior Q(0,75) e o primeiro tercil Q(0,333) são:
  • 41.
    Q(0,25)=[Q(0,20)+Q(0,30)]=(12+32)/2=22Q(25%) = 22Q(0,75)=[Q(0,70)+Q(0,80)]=(71+104)/2=87,5Q(75%)=87,5Oprimeiro tercil está entre 30% e 40%, cujos quantis respectivos são 32 e 43, portanto:Q(P)=yi+{[P-Pi]/[Pi+1-Pi]}*[yi+1-yi]Q(33,3%)=32+{[33,3-30]/40,0-30,0]}*[43-32]=32+(3,3/10,0)*11 = 35,63
  • 42.
  • 43.
    SÉRIE TEMPORALÉum conjuntocronológico (ordenado no tempo) de observações, por ex.: registros de temperatura diária de uma cidade, as vendas diárias de uma loja, a temperatura de um paciente a cada hora, entre outros.A análise de tais dados tem por objetivo determinar se eles apresentam algum padrão não-aleatório. Por vezes, o que se deseja é, realmente localizar esses padrões não-aleatórios, que podem então ser usados para predições quanto ao futuro.
  • 44.
    Outras vezes, oobjetivo é constatar a ausência de padrões não aleatórios. Nesses casos, os padrões não-aleatórios são encarados como um sinal de que determinado sistema ou processo está fora de controle. A análise de séries temporais (AST) tem grande importância como informação para a previsão do futuro. O estudo do comportamento das variações ocorridas no passado em dados de interesse permite-nos prever as variações que poderão ocorrer no futuro.
  • 45.
    OBJETIVOS DA ASTDescrição:consiste em conhecermos o comportamento de uma ST. O primeiro passo na análise é elaborar o gráfico da série temporal com o objetivo de observar as principais propriedades da série como: tendência, ciclo sazonal e valores extremos (valores que não parecem consistentes com os demais).Explicação: quando as observações são tomadas de duas ou mais variáveis, podemos estar interessados em saber se a variação de uma série pode explicar a variação das outras.
  • 46.
    OBJETIVOS DA ASTPrevisão:dada uma série temporal observada, pode-se querer prever os valores futuros desta.Controle: implica na geração de séries temporais para medir a qualidade de um processo. Exemplo: medir o peso de um determinado produto após ser embalado para o consumo. Isto tem como objetivo saber se está sendo embalado com excesso ou falta.
  • 47.
    SÉRIES TEMPORAIS EESPACIAISQuando medidas em um ponto fixo sobre um período de tempo, a série é chamada de série temporal. Medidas em um tempo fixo sobre uma série de localidades no espaço originam uma série espacial. Ambas as séries fornecem medidas de uma variável dependente tal como a temperatura ou umidade como função de uma variável independente, tal como o tempo, t, ou local, x.
  • 48.
    SÉRIES CONTÍNUAS EDISCRETASUma série temporal é dita contínua quando as observações são feitas continuamente no tempo.A série temporal constituída por medidas tomadas em intervalos de tempo espaçados regularmente, até um número finito de N dados é denominada série discreta.O período total de medidas em uma série discreta é P = Nt, ou seja, o número total de dados multiplicado pelo intervalo de tempo em que os dados são medidos.
  • 49.
    FUNÇÕES DETERMINÍSTICAS ENÃO-DETERMINÍSTICAS Uma série temporal pode ser uma função x aleatória ou não-determinística de uma variável independente t. Na maioria das situações, a função x(t) será uma função do tempo, mas em outras situações pode ser uma função de outro parâmetro físico, como por exemplo, do espaço. Uma característica das séries temporais é que seu comportamento futuro não pode ser previsto exatamente, como seria o caso de uma função ‘determinística’ do tempo.
  • 50.
    Se medirmosa temperatura do ar todos os dias e verificarmos a presença de um ciclo diurno.Entretanto, não conseguimos determinar uma relação determinística que possa ser ajustada a cada intervalo dessa série de dados porque diversos fatores podem estar causando variações nessa medida (exemplo, nebulosidade, entradas de frentes, alteração dos ventos por circulações locais, etc.). Se compararmos uma série temporal de temperatura em um determinado sítio em dois anos distintos, podemos verificar visualmente que esses dois trechos da série não se parecem um com outro.
  • 51.
    PROCESSOS ESTOCÁSTICOS Comodiferentes secções de uma série temporal se parecem uma com a outra apenas nas suas propriedades médias, é necessário descrever essas séries por leis de probabilidades ou modelos. Assim, os valores possíveis das séries temporais a um dado tempo t são descritos por uma variável aleatória x(t) e sua associada distribuição de probabilidades.O conjunto ordenado de variáveis aleatórias {x(t)} em associação com sua distribuição de probabilidades é chamado de processo estocástico.
  • 52.
    ESTACIONARIDADELinha preta: diferentessecções são ‘parecidas’  processo estacionárioLinha vermelha:tendência de aumento  processo não-estacionárioe de desmatamento são ditas não-estacionárias.
  • 53.
    Na prática, asséries são usualmente de três tipos:Séries que exibem propriedades de estacionaridade em longo período, (ex: saídas de geradores de ruído).Séries que possuem uma razoável estacionaridade em períodos curtos, (ex: medidas de turbulência na atmosfera, etc.).Séries que são não estacionárias, no sentido que suas propriedades estão continuamente mudando com o tempo, (ex: temperatura em altas e médias latitudes, ventos, etc.).
  • 54.
    A maior partedos métodos que trata com não-estacionaridade de séries temporais está baseada em técnicas para remover ou filtrar a parte não-estacionária, deixando apenas a parte que pode ser tratada como estacionária. Em climatologia, utilizamos esse tipo de técnica quando desejamos conhecer o comportamento das anomalias de uma determinada variável.
  • 55.
    Uma maneira deresolver este problema é processar os dados de forma que permitam que uma subseqüente estacionaridade seja assumida. Por exemplo: gerar uma nova série com média constante igual a zero. A fim de produzir uma série com média e variância constante, seria necessário transformar essas anomalias em anomalias normalizadas:
  • 56.
    Por exemplo: emlatitudes médias as temperaturas tendem a ser mais frias durante o inverno e a sua variabilidade mais alta. Uma aproximação possível para transformar séries de temperaturas mensais em uma série (aproximadamente) estacionária seria calcular as 12 médias mensais e os 12 desvios-padrão e então aplicar anterior usando diferentes médias e desvios-padrão para o mês do calendário apropriado.
  • 57.
    ELEMENTOS DAS STTendência:descreve um movimento suave, a longo prazo, dos dados, para cima ou para baixo. Podem estar relacionadas ao crescimento populacional de uma região, ao aumento das temperaturas devido ao efeito do aquecimento global, entre outros.Variações cíclicas: existe um padrão cíclico quando as variações apresentam certo grau de regularidade, entretanto com período diferente de um ano. São exemplos de ciclos: as manchas solares, a demanda de bens duráveis, etc.
  • 58.
    Variações sazonais: osfenômenos sazonais estão associados às estações do ano. A diferença entre o sazonal e o cíclico é o tempo entre duas cristas consecutivas; no caso dos ciclos, esse tempo é diferente de um ano; no sazonal é de um ano. O ciclo sazonal também pode receber a denominação de ciclo anual. Como exemplo de eventos sazonais pode-se citar a variação da temperatura ao longo do ano, os artigos de estação, como, sorvetes e ovos de páscoa, entre outros.
  • 59.
    Variações irregulares: sãovariações aleatórias, que não apresentam regularidade. Como por exemplo, nas medidas horárias de temperatura do ar sabemos que ao longo de 24 horas teremos a influência do ciclo diário de insolação (componente conhecida), entretanto, vários outros fatores (componentes desconhecidas) estarão influenciando as medidas, como nebulosidade e ventos, sem que possamos saber a contribuição efetiva destes.
  • 60.
    DECOMPOSIÇÃO DAS STEMTENDÊNCIA E SAZONALIDADEA tendência pode ser isolada de uma série através da análise de regressão linear simples ou da análise de regressão não linear simples, dependendo do conjunto de dados.
  • 61.
    REGRESSÃO LINEAR SIMPLESEsteé o tipo de regressão mais usado na prática. Para tanto, uma reta é ajustada ao conjunto de dados e, após, subtraída do mesmo. As equações de regressão linear são as seguintes:
  • 62.
  • 63.
    Substituindo os valoresacima nas equações de a e b:
  • 64.
  • 65.
    VARIAÇÕES SAZONAISNos estudosclimatológicos é interessante remover a componente sazonal das séries temporais, pois ela é muito intensa, principalmente nas regiões extratropicais, o que acaba mascarando as outras componentes das séries. Para removê-la um método usado é o da subtração das normais.
  • 66.
    SÉRIE FINAL SEMSAZONALIDADE
  • 67.
  • 68.
    ANÁLISE HARMÔNICAA análiseharmônica consiste da representação de flutuações ou variações em uma série temporal que se originou da adição de uma série de funções seno e cosseno. Estas funções trigonométricas são “harmônicos” que são escolhidos como tendo freqüências que são múltiplas da freqüência “fundamental” determinada pelo tamanho amostral da série de dados. 
  • 69.
  • 70.
    REPRESENTAÇÃO DE UMAST COM UMA FUNÇÃO HARMÔNICATrês dificuldades: 1) O argumento de uma função trigonométrica é um ângulo, enquanto os dados da série são função do tempo.2) As funções cosseno e seno flutuam entre +1 e -1, enquanto os dados geralmente flutuam entre diferentes limites. 3) A função cosseno tem máximo valor para  = 0 e  = 2. Ambos seno e cosseno podem assim estar posicionados arbitrariamente na horizontal com respeito aos dados.
  • 71.
    A solução parao primeiro problema aparece quando consideramos o comprimento dos dados (n) como constituindo um ciclo completo, ou período fundamental. Uma vez que o período fundamental corresponde a 360º ou 2 radianos em medida angular, é fácil reescalar proporcionalmente o tempo à medida angular usando:
  • 72.
    Os outros doisproblemassão resolvidos deslocando a função seno para cima/baixo, e então “esticando” ou “comprimindo” verticalmente até que seu intervalo corresponda ao dos dados. Mas como?Uma vez que a média de uma onda seno pura é zero, simplesmente adicionar o valor médio da série de dados ao seno assegura que o mesmo irá flutuar em torno do valor médio. O “esticamento” pode ser obtido pela multiplicação por uma constante C1 que é conhecida como amplitude.  
  • 73.
    TRANSFORMAÇÃO DE UMCOSSENO NUMA ST
  • 74.
    PASSO A PASSOTemoso gráfico dos 12 meses, de janeiro a dezembro (linha com ). A temperatura média anual é 46,1 °F (linha contínua horizontal). A temperatura média mais quente é 68,8°F em julho e a mais fria é 22.2°F em janeiro.A curva na parte inferior (linha com ▲) é a função cosseno.A linha com ◊ mostra a curva deslocada para o nível da temperatura média anual. O estiramento aproximado foi feito escolhendo como C1 a metade da diferença entre os dois valores extremos.
  • 75.
    PASSO A PASSOFinalmentea curva precisa ser deslocada para a direita, de modo a coincidir com os dados. O máximo da série de dados ocorre em julho, então, calculando o deslocamento da fase:O resultado é a aplicação deste valor em (linha com *):
  • 76.
  • 77.
    Como vimos osfenômenos meteorológicos podem ser compostos por diversos harmônicos ou variabilidades, no próximo item vamos ver algumas dessa variabilidades.
  • 78.
    OBRIGADA!Simone E. TeleginskiFerrazDepartamento de Física – UFSMsimonefe@pq.cnpq.br