SlideShare uma empresa Scribd logo
1 de 126
Baixar para ler offline
Proyecto CONICYT/BID 51/94
Desarrollo de metodologías orientadas al
control de calidad e imputación de datos
faltantes en parámetros meteorológicos
Informe final
Julio 1999
ii
INDICE
1. RESUMEN.................................................................................................................................................................................... 1
1.1- RESUMEN EJECUTIVO................................................................................................................................................................... 1
1.2- RESUMEN TÉCNICO ...................................................................................................................................................................... 2
1.3- RECONOCIMIENTOS Y AGRADECIMIENTOS................................................................................................................................... 3
2. INTRODUCCIÓN ...................................................................................................................................................................... 4
2.1- PLANTEO DEL PROBLEMA............................................................................................................................................................ 4
2.2- ANTECEDENTES DEL PROBLEMA ................................................................................................................................................. 6
3. DESCRIPCIÓN DE LOS DATOS DISPONIBLES............................................................................................................... 10
3.1. CARACTERÍSTICAS DEL BANCO DE DATOS DE LLUVIA DIARIA...................................................................... 10
3.1.1- CARACTERÍSTICAS DE LA CUENCA ESTUDIADA...................................................................................................................... 10
3.1.1.1 - Introducción.................................................................................................................................................................. 10
3.1.1.2 - Descripción Climática .................................................................................................................................................. 10
3.1.1.3 - Información Meteorológica. ........................................................................................................................................ 11
3.1.1.4 - Factores climáticos....................................................................................................................................................... 12
3.1.1.5 - Formación de Precipitaciones...................................................................................................................................... 13
3.1.2 - LA LLUVIA EN LA CUENCA: ESTRUCTURA Y ESTACIONALIDAD............................................................................................. 13
3.1.2.1 - Aproximaciones metodológicas para determinar estructuras...................................................................................... 13
3.1.2.2 - Estacionalidad............................................................................................................................................................... 18
3.2. CARACTERÍSTICAS DEL BANCO DE DATOS DE VIENTO HORARIO................................................................. 22
3.2.1- CARACTERÍSTICAS DE LA REGIÓN ESTUDIADA........................................................................................................................ 22
3.2.1.1 - Introducción.................................................................................................................................................................. 22
3.2.1.2 - Descripción Climática .................................................................................................................................................. 22
3.2.1.3 - Información Meteorológica. ........................................................................................................................................ 22
3.2.1.4 - Régimen Eólico. ............................................................................................................................................................ 23
3.3 - CARACTERÍSTICAS DEL BANCO DE DATOS DE NIVELES .................................................................................. 25
3.3.1 - CARACTERÍSTICAS DE LA CUENCA ESTUDIADA................................................................................................... 25
.1.1 - Introducción ....................................................................................................................................................................... 25
.1.2 - Descripción Climática ....................................................................................................................................................... 25
.1.3 - Información Hidrológica. ................................................................................................................................................. 25
.1.4 - Régimen hidrológico.......................................................................................................................................................... 26
3.4. CARACTERÍSTICAS DEL BANCO DE DATOS DE EVAPORACIÓN DIARIA....................................................... 27
3.4.1- CARACTERÍSTICAS DE LA REGIÓN ESTUDIADA........................................................................................................................ 28
3.4.1.1 - Introducción.................................................................................................................................................................. 28
3.4.1.2 - Descripción Climática .................................................................................................................................................. 28
3.4.1.3 - Información Meteorológica. ........................................................................................................................................ 28
3.4.1.4 - Régimen de Evaporación. ............................................................................................................................................. 29
4. IMPUTACIÓN DE AUSENCIAS............................................................................................................................................ 31
4.1 - MÉTODOS EN LOS QUE SE TIENE EN CUENTA ÚNICAMENTE LA INFORMACIÓN HISTÓRICA........................................................ 31
4.1.1 - Por interpolación temporal entre registros:.................................................................................................................... 31
4.1.2 - Promedio juliano: ............................................................................................................................................................ 31
4.1.3 - Promedio global de la estación: ...................................................................................................................................... 32
4.1.4 - Valor aleatorio sorteado uniformemente entre los registros disponibles de la estación:............................................... 32
4.1.5 - Valor modal de la serie:................................................................................................................................................... 32
4.2- MÉTODOS EN LOS QUE SE TIENE EN CUENTA ÚNICAMENTE LA INFORMACIÓN REGIONAL ......................................................... 33
4.2.1 - Imputación dinámica (“Hot - Deck”):............................................................................................................................. 33
4.2.2 - Vecino geográficamente más cercano:............................................................................................................................ 33
4.2.3- Vecino más cercano por Criterio de Expertos: ................................................................................................................ 33
4.2.4 - Promedio espacial correspondiente al día de la ausencia:............................................................................................. 34
4.2.5 - Promedio espacial ponderado correspondiente al día de la ausencia: .......................................................................... 35
iii
4.2.6 - Métodos basados en la pseudo-distancia de Kulback-Leibler:....................................................................................... 35
4.2.7 - Mínimos Cuadrados:........................................................................................................................................................ 37
4.2.8 - Mínimo Error Promedio:................................................................................................................................................. 38
4.2.9 - Mínimo Error Promedio Robusto:................................................................................................................................... 38
4.2.10 - Mínimo Percentil 95: ..................................................................................................................................................... 38
4.2.11 - Métodos robustos de ajuste: Least Median of Squares (LMS):..................................................................................... 39
4.2.12 - Métodos robustos de ajuste: Least Trimmed Squares (LTS):........................................................................................ 39
4.2.13 - Métodos de imputación basados en redes neuronales: ................................................................................................. 39
4.2.14 - Funciones Climatológicas de Interpolación (GANDIN):.............................................................................................. 43
4.3- MÉTODOS EN LOS QUE SE TIENE EN CUENTA LA INFORMACIÓN REGIONAL E HISTÓRICA........................................................... 50
4.3.1 - Promedio ponderado arbitrariamente:............................................................................................................................ 50
4.3.2 - Condicionamiento según el estado del día anterior:...................................................................................................... 51
4.3.3 - Interpolación temporal de coeficientes principales:........................................................................................................ 52
5. CONTROL DE CALIDAD....................................................................................................................................................... 54
5.1- CONSIDERACIONES GENERALES................................................................................................................................................ 54
5.1.1 - Necesidad de una depuración progresiva........................................................................................................................ 54
5.1.2 - Metodología y criterios para la comparación de los distintos métodos aplicados. ............................................... 54
5.2- MÉTODOS UTILIZADOS PARA LA DETECCIÓN DE ERRORES......................................................................................................... 58
5.2.1 - Breve síntesis del Análisis de Componentes Principales (ACP) ..................................................................................... 61
5.2.2 - Datos marginales en la distribución univariada ............................................................................................................. 61
5.1.3 - Datos marginales en la distribución multivariada .......................................................................................................... 62
5.2.4 - Método de Hawkins.......................................................................................................................................................... 63
5.2.5 - Otros métodos basados en la distancia de Mahalanobis................................................................................................. 64
5.2.5.1 - Covarianza de Determinante Mínimo (MCD) y Elipsoide de Volumen Mínimo (MVE).............................................................66
5.2.5.2 - Estimador-S y Estimador-M de T(X) y C(X).................................................................................................................................66
5.2.5.3 - Método de Hadi (1994)...................................................................................................................................................................67
5.2.6 - Método de las redes neuronales....................................................................................................................................... 69
5.2.7 - Método de la verosimilitud de la validación cruzada...................................................................................................... 70
5.2.8 - Método del gradiente admisible....................................................................................................................................... 71
5.2.9 - Método de la curvatura admisible ................................................................................................................................... 72
5.2.10 - Método del producto de gradientes admisibles ............................................................................................................. 72
5.2.11 - Modelado de la distribución (sólo lluvia)...................................................................................................................... 72
6 - RESULTADOS OBTENIDOS................................................................................................................................................ 77
6.1 LLUVIA DIARIA............................................................................................................................................................................ 77
6.1.1 Generación de ausencias.................................................................................................................................................... 77
6.1.2 Imputación de valores ausentes.......................................................................................................................................... 78
6.1.3 Generación de errores aleatorios ...................................................................................................................................... 82
6.1.4 Detección de valores erróneos........................................................................................................................................... 82
6.2 VIENTO DE SUPERFICIE HORARIO ................................................................................................................................................ 89
6.2.1 Generación de ausencias.................................................................................................................................................... 89
6.2.2 Imputación de valores ausentes: caso de las componentes ............................................................................................... 90
6.2.3 Imputación de valores ausentes: comparación datos originales vs. componentes............................................................ 90
6.2.4 Generación de errores: caso de las componentes ............................................................................................................. 94
6.2.5 Detección de valores erróneos: caso de las componentes................................................................................................. 95
6.3 NIVELES DIARIOS ........................................................................................................................................................................ 99
6.3.1 Imputación de valores ausentes........................................................................................................................................ 100
6.3.2 Generación de errores aleatorios .................................................................................................................................... 101
6.3.3 Detección de valores erróneos......................................................................................................................................... 103
6.4 EVAPOTRANSPIRACIÓN ............................................................................................................................................................. 104
6.4.1 Imputación de valores ausentes........................................................................................................................................ 104
6.4.2 Generación de errores aleatorios .................................................................................................................................... 106
6.4.3 Detección de valores erróneos......................................................................................................................................... 106
6.5 TRATAMIENTO DE DATOS DE NIVEL MEDIANTE MODELOS DE SERIES TEMPORALES................................. 108
6.5.1-Transformación estacionaria........................................................................................................................................... 108
6.5.2- Modelo ARIMA estimado................................................................................................................................................ 108
6.5.3- Modelo ARCH estimado ................................................................................................................................................. 108
7- REFERENCIAS....................................................................................................................................................................... 110
iv
8 - DOCUMENTOS Y PUBLICACIONES ANEXAS............................................................................................................. 113
8.1- ANÁLISIS DE LA SERIE TEMPORAL DE NIVELES
8.2- LOOKING INSIDE THE ANN "BLACK BOX"... (1999)
8.3- A NEW TECHNIQUE FOR IMPUTATION OF MULTIVARIATE TIME SERIES... (1998)
8.4- AN ERROR MODEL FOR DAILY RAIN RECORDS... (1998)
8.5- QUALITY OF GEOGRAPHIC DATA: DETECTION OF OUTLIERS... (1997)
8.6- APPLICATION OF ANN TO THE PREDICTION OF MISSING DAILY... (1997)
8.7- COMPARACIÓN DE METODOLOGÍAS PARA LA IMPUTACIÓN DE LA LLUVIA... (1996)
8.8- ANÁLISE DE UMA METODOLOGIA PARA O RECHEIO... (1996)
8.9- ESTACIONALIDAD Y MODELIZACIÓN PROBABILÍSTICA DE LA LLUVIA DIARIA... (1995)
9 - OTROS ANEXOS
9.1- DATOS DEL PROYECTO
9.2- METAS PREVISTAS Y LOGRADAS: CUMPLIMIENTO DEL PLAN DE TRABAJO
9.3- ACTIVIDADES DESARROLLADAS SEGÚN LAS ENUMERADAS EN EL PROYECTO)
9.4- FUNDAMENTACIÓN DE CUALQUIER DESVIACIÓN DE OBJETIVOS
9.5- RECURSOS MATERIALES
9.6 - RECURSOS HUMANOS
9.6.1 Integración original del equipo de trabajo
9.6.2 Capacidad generada
9.6.3 Clasificar el equipo de investigación en alguna de las siguientes categorías, y fundamentarlo
9.6.4 Si corresponde, indicar interrelacionamiento o convenios institucionales
9.7- IMPACTO DE LOS RESULTADOS OBTENIDOS A NIVEL DE:
9.7.1 Publicaciones
9.7.2 Convenios, asesoramientos, etc.
9.7.3 Definir los resultados obtenidos según su alcance a nivel local, regional o internacional
9.7.4 Clasificarlos como importantes en:
1
1. RESUMEN
1.1- Resumen ejecutivo
Se presentan a continuación los resultados obtenidos en el marco del proyecto
BID/CONICYT 51/94. Los mismos se pueden sintetizar en:
1. la construcción de las bases de datos conteniendo todos los datos pluviométricos de UTE y de
la DNM correspondientes respectivamente a la cuenca del Río Negro y a la cuenca del Santa
Lucía, para un período de 30 años; los datos de viento de superficie para el período 1979-
1991, así como los registros de escalas en tres puntos de la cuenca del Río Negro, para el
período 1975-1991.
2. la realización de una depuración primaria de dichos datos, cotejándolos manualmente con los
de las planillas de la DNM y de la UTE.
3. diversos análisis estadísticos de los datos disponibles, que se detallarán a posteriori.
4. la implementación de más de una treintena de alternativas metodológicas para imputar valores
ausentes, algunas tomadas de la literatura y otras producto de los trabajos realizados.
5. la realización de simulaciones comparativas, calificando a los métodos por diferentes criterios
de éxito (error medio cuadrático, error promedio, etc.)
6. la implementación de numerosos métodos conocidos, y desarrollo de otros nuevos, para la
detección de errores (de digitación) en los datos.
7. la realización de estudios comparativos por la vía de métodos de Monte Carlo para la
comparación del desempeño relativos de los métodos utilizados para la detección de errores.
Se diseñaron estadísticos originales que permiten clasificar un método como mejor que otro
para los bancos de datos estudiados.
8. se realizó el estudio de la “estructura” general de la lluvia en la cuenca y por estación en el
período de 30 años. Para ello se utilizan por un lado técnicas de análisis multiway y por otro
criterios de relaciones entre la distribución de lluvia de las distintas estaciones. Se buscan
relaciones de tipo lineal y no lineal. Basada en la unidad mes, debido a las condicionantes de
la Base de Datos considerada se llega a una “estacionalidad” por estación y para la cuenca. Se
analiza además la evolución, cuando es posible, en el período considerado.
9. la construcción de un modelo probabilístico basado en la información de distribución de lluvia
del día anterior y la de otras estaciones el mismo día, para las diferentes estructuras
estacionales detectadas en el punto anterior. Con él se obtendrán distribuciones condicionadas
de lluvia para cada estación pluviométrica y para la cuenca en su conjunto para la estructura
estacional detectada en el punto anterior. El modelo así obtenido brindará información en
términos probabilísticos que permitirá mejorar la eficiencia de los indicadores y además
responderá en modo adecuado a demandas de información histórica sobre la probabilidad de
que haya llovido y cuánto en una zona determinada, fuera de las estaciones pluviométricas o
meteorológicas.
10.como indicadores de éxito del proyecto, se deben mencionar los varios artículos presentados y
aceptados en congresos internacionales, así como una tesis de doctorado.
2
1.2- Resumen técnico
El proyecto tenía varios objetivos que se han cumplido apropiadamente. En lo que
respecta a la imputación de valores ausentes, se ensayaron un cúmulo de alternativas tomadas de
la literatura, o desarrolladas específicamente para este trabajo. Ello hace de este documento una
referencia muy importante en términos del estado del arte en el tema, y para las variables
consideradas. Los métodos fueron aplicados simultáneamente a un mismo banco de datos, en el
que se le eliminó temporalmente una fracción de la población, y los valores imputados fueron
comparados contra ellos. La bondad de la imputación fue evaluada con al menos cinco
estadísticos: error cuadrático medio, error promedio, y tres percentiles de la distribución del error
absoluto tomados al 75, 85 y 95%. Ello permitió manejar apropiadamente el hecho que ningún
banco de datos puede asumirse libre de errores, y los últimos tres estadísticos son inmunes a
ellos.
En el experimento fueron analizados métodos tradicionales, en los que típicamente el
valor ausente es sustituído por una combinación lineal de los datos presentes. También fueron
considerados métodos no lineales de varios tipos, poco tratados en la literatura meteorológica,
que permitieron ilustrar el buen desempeño de las redes neuronales artificiales. Se estima que
esto es un aporte significativo del proyecto.
Para cada parámetro hidrometeorológico considerado, el orden de precedencia entre los
métodos dependió del estadístico seleccionado para la medida de bondad de la imputación. Los
resultados fueron claros: entre los mejores métodos siempre hubo una red neuronal, que tiende a
producir resultados más robustos (i.e. con mejores percentiles) que los otros métodos, a expensas
de un mayor error cuadrático medio. Dependiendo del problema, otros métodos también costosos
funcionaron bien, como ser los métodos lineales que minimizan los percentiles o la suma parcial
de errores al cuadrado. Considerando únicamente los métodos más simples, se debe mencionar el
buen desempeño de aquellos derivados de la Interpolación Objetiva, y los vinculados al Análisis
de Componentes Principales.
Un aspecto metodológico que no fue suficientemente tratado es que en la práctica, el
usuario debe imputar un único banco de datos. Por ello, hay que tomar con cuidado el orden de
precedencia que se establece, ya que el mismo se deriva de una simulación de Monte Carlo. Que
los resultados que se presentan indiquen que el método A es mejor que el método B, debe
interpretarse como que, en valor esperado, A se comportará mejor que B. Ello no obsta a que, en
un caso concreto, el orden no sea el mostrado por la mayoría de las simulaciones. Si este
comentario se analiza a la escala de datos individuales, no puede concluírse que para imputar una
ausencia en concreto, el método A sea mejor que el B. Ello puede estar afectado en gran medida
por los datos disponibles, etc. por lo que debería ser considerada la posibilidad de asociar al valor
imputado algún indicador de confiabilidad. En este aspecto, las redes neuronales vuelven a
mostrarse mejor posicionadas, ya que como se presentará luego, las mismas pueden servir
simultáneamente como fórmulas de regresión y como detectores de casos sospechosos, propiedad
que no es compartida con otros métodos, que eventualmente (Rousseeuw, 1991) deben
combinarse con métodos específicos de detección de errores.
3
El otro objetivo del proyecto era la comparación de métodos de detección de errores
(también denominados outliers en la literatura estadística). A esos efectos, no sólo se relevó la
literatura existente y se implementaron la mayor parte de los métodos allí descritos, sino que fue
necesario proponer métricas para calificar un método como mejor que otro. Esto fue otro aporte
original del proyecto. Nuevamente los métodos (ahora originales) asociados a las redes
neuronales tuvieron un excelente desempeño. Entre los métodos más económicos, se señala el
propuesto por Hawkins, 1974, y el propuesto por López, 1994a, que fueron además los aplicados
en etapas tempranas del proyecto para depurar el banco de datos de lluvia y de viento de
superficie, con buenos resultados.
Los resultados señalados permiten concluir que las redes neuronales son una herramienta
válida para encarar tanto la imputación como la detección de errores, con la ventaja de ser
aplicables simultáneamente a ambos problemas sin más cálculos. En contrapartida, con las
técnicas disponibles al momento de iniciarse la investigación, las redes deben ser tentativamente
diseñadas en forma arbitraria, y además los algoritmos de optimización disponibles quedaban
fácilmente atrapados en óptimos locales.
1.3- Reconocimientos y agradecimientos
Han colaborado directamente en este proyecto los siguientes investigadores (orden
alfabético):
Bidegain, Mario
Biurrun, Jorge
Blanco, Jorge
Camaño, Gabriel
De los Santos, Hugo
Fontana, Héctor
Grosskoff, Rosa
Gutiérrez, Celina
López, Carlos
Sabiguero, Ariel
Los coordinadores han sido: por la Dirección Nacional de Meteorología M.Sc. Mario
Bidegain, y por el Instituto de Estadística de la Facultad de Ciencias Económicas el Dr. Jorge
Blanco. El responsable científico del proyecto fue el Dr. Ing. Carlos López.
Se agradece la colaboración de UTE y del resto del personal de la DNM para el acceso en
diversas etapas del proyecto a los registros originales en papel. Además de los equipos adquiridos
por el proyecto, se hizo uso extensivo de las facilidades disponibles en nuestros respectivos
departamentos, y otras originadas en el marco de los proyectos CONICYT/BID 180/92 e INCO-
DC 87/96, así como de equipos del departamento de Geoinformática del Royal Institute of
Technology, Estocolmo, Suecia.
4
2. INTRODUCCIÓN
2.1- Planteo del Problema
El proyecto tiene como objetivo el estudio de diferentes técnicas aplicables
fundamentalmente (pero no en forma excluyente) a datos meteorológicos, para resolver los
problemas principales que se detallan a continuación:
a) detectar errores aleatorios en un banco de datos existente
b) señalar valores sospechosos en el momento de su ingreso al banco de datos
c) imputar o asignar valores para los datos ausentes, tanto en tiempo real como en el
propio banco (entendiéndose como tiempo real, la ejecución de las tareas
mencionadas en lapsos comparables con el insumido en el ingreso de la
información).
En la mayoría de los bancos de datos existentes en nuestro país no hay implementados
mecanismos de control de la calidad de los datos o bien sólo existen controles de validación por
rango: los datos son aceptados si están dentro de un intervalo prefijado. A nivel internacional,
únicamente en los grandes centros de asimilación de datos se aplican controles más sofisticados.
La corrección de los errores de la base en momento de procederse a su utilización, o bien
ocasiona costos adicionales de depuración de los mismos cada vez que se van a procesar los datos
(estimación de estadísticas descriptivas, elaboración de modelos, proyecciones, predicciones, etc.),
o bien incorporan errores quizá importantes en los resultados del procesamiento.
En efecto, en toda operación de medida existen inevitablemente errores, tanto sistemáticos
como aleatorios. Asimismo, los registros tomados usualmente son posteriormente transcritos a un
banco de datos antes de su uso, por lo que se agregan nuevas formas de error, generadas en tiempo
de ingreso o proceso de la información.
El orden de magnitud de los errores depende de muchos parámetros, y de la propia variable.
Por ejemplo, como caso extremo, Slanina et. al., 1990, da cuenta que en la medida de trazadores de
contaminantes los instrumentos suelen equivocarse por exceso, y los errores pueden llegar a ser del
100 al 500%, para las trazas de cadmio, zinc, arsénico, etc.
Otro aspecto del problema es el efecto secundario que pueden tener esos errores, cuando por
ejemplo son usados en la toma de decisiones.
Según Husain, 1989, "...el fracaso de muchos proyectos de abultado presupuesto puede ser
atribuído en parte, a la imprecisión de la información hidrológica manejada...". Sin necesidad de
hablar de fracaso, el diseño de los diques de una presa, de los muelles de un puerto o de la
operación diaria del sistema eléctrico nacional, descansa en mayor o menor medida, en datos
recogidos en forma rutinaria por organismos especializados.
5
El efecto por errores en los datos sobre los costos iniciales, o sobre los costos operativos,
puede ser muy significativo, según los casos.
Como ejemplos, la decisión de verter agua en una represa, o el sobredimensionado de una
boya petrolera (Reolón, 1992), le pueden costar a la empresa o al país cantidades que no son
fácilmente estimables. En otras aplicaciones se intenta modelar matemáticamente algún fenómeno.
Una etapa obligatoria es la de calibración o ajuste de parámetros empíricos del mismo. Esta
actividad requiere atención a potenciales errores que se puedan deslizar en el proceso, los que
deberían ser detectados tempranamente. Sin embargo, en muchos casos resulta imposible en la
práctica analizar manualmente una secuencia de miles de n-uplas de datos. Por ello es usual que en
estos casos se definan y calculen a partir de los mismos variables resumen como la media, valor
máximo, valores extremos con período de retorno dado, desviación estándar, sesgo, etc. para
realizar un manejo más simple de los mismos.
El trabajar con valores promedio oculta en el conjunto, tanto aquellos eventos nítidamente
erróneos como otros más sutiles, sesgando el valor de los estimadores en forma descontrolada.
En el caso de los fenómenos que responden a leyes lineales, tales estadísticos pueden no ser
afectados significativamente por errores pequeños. Sin embargo, muchos fenómenos interesantes e
importantes no caen dentro de esa categoría, y modelar o calcular las n-uplas de datos con errores
puede implicar sensibles diferencias en los resultados.
Otra categoría importante es la de aquellos estudios que analizan la evolución temporal de
los parámetros. En estos casos, el efecto de un error aislado persiste durante cierto tiempo,
perturbando quizá significativamente los resultados en tal intervalo. Por ejemplo al estudiar la
dispersión de contaminantes en la atmósfera un error aislado en la dirección del viento, traslada el
campo de contaminantes afectando de forma irreversible cualquier cálculo al menos durante algún
tiempo hasta que se renueve la masa de aire. Otro caso más grave es el de un error en el cálculo del
caudal de un río que aporta a una represa; esta última que oficia de acumulador no puede eliminar
de forma alguna un volumen de aporte ficticio, por lo que sesga definitivamente el nivel del
embalse en lo sucesivo.
En general, el tratamiento de ausencias en los bancos de datos es un problema recurrente en
todo estudio vinculado tanto a fenómenos naturales como a otras áreas, puesto que típicamente todo
estudio asume como hipótesis que las series en que se basa están completas, imputándose caso a
caso (con técnicas no siempre demasiado depuradas), alterando quizás resultados o generando
errores adicionales.
Si bien muchos problemas no requieren de la imputación de todos los datos faltantes, los
cálculos suelen ser muy sensibles a los errores si existen pocos registros (Kennedy, 1989).
Cualquier método para asignar valores faltantes debe preservar las características principales
del banco y ofrecer garantías de no disminuir los niveles de calidad del mismo.
6
Debe considerarse asimismo la posibilidad de trabajar con distintos niveles de precisión a
los efectos de la imputación de valores faltantes. Habrá estudios que sean más sensibles que otros a
los datos ausentes y para los cuales se deba asignar valores confiables a registros incompletos.
Debido a ello, la posibilidad de asignar valores, dando una estimación del error cometido
(objetivo c) ) es de gran interés en la aplicación.
Corresponde señalar que ninguna de las aseveraciones realizadas es específica de los
parámetros meteorológicos. El mismo problema puede observarse en bancos de datos
socioeconómicos u de otra índole, y similares inconvenientes se presentan en ellos.
Para los problemas enumerados, se han ensayado y puesto a punto diferentes algoritmos ya
existentes e implementado nuevos, que tienen en cuenta la correlación en el espacio y/o en el
tiempo de los registros. En este informe se presenta el caso de la lluvia diaria, un campo con
apreciable correlación espacial y débil correlación temporal. Se solicitó a las instituciones
interesadas (UTE, DNM) que suministraran bancos de datos, recibiéndose de la primera el banco de
datos del Río Negro, y de la segunda, la parte correspondiente a la cuenca del Río Santa Lucía.
2.2- Antecedentes del Problema
Para la detección rutinaria de datos anómalos en el área meteorológica, el único antecedente
nacional conocido consiste en las recomendaciones realizadas por la Dirección de Climatología y
Documentación de la Dirección Nacional de Meteorología (DNM, 1988). En general se basan en un
control por rango admisible para cada parámetro. A nivel regional la situación es similar
(Núñez, 1994)
A nivel internacional, existen trabajos (Sevruk, 1982) que proponen procedimientos para
corregir errores sistemáticos en cada estación. Se requiere conocer, entre otros, la velocidad del
viento, la intensidad de la lluvia, la temperatura y humedad del aire, etc.
Con respecto a los errores aleatorios, la tendencia es comparar las medidas con un modelo
del fenómeno (p. ej.: Francis, 1986; Hollingsworth et al., 1986). Este último asevera que para el
caso del viento, las diferencias entre observaciones y predicciones tienen aproximadamente una
distribución normal. En ese caso, es relativamente fácil detectar los datos anómalos y separarlos
para un análisis a posteriori. Como desventaja debe señalarse el importante volumen de
información requerido, así como los altos costos computacionales involucrados, dado que es
necesario modelar (eventualmente por separado) los diferentes parámetros, utilizando métodos
específicos para cada uno.
En los grandes centros mundiales de asimilación de datos se utilizan sistemáticamente
métodos más complejos de control de calidad. Ellos requieren de un volumen de información sólo
disponible allí mismo (Gandin, 1988; Di Mego, 1988, Parrish, 1992). Por tanto, si bien son
métodos conocidos, resultan inaplicables en general para otro tipo de parámetros, e incluso en las
presentes condiciones no podrían ser usados por los organismos nacionales competentes. Los
7
recursos humanos e informáticos constituyen una limitante insalvable en este sentido. Gandin, 1988
reconoce que parte significativa de los errores detectados pertenecen a países en desarrollo, donde
los recursos afectados a la toma de datos son significativamente menores que en otros países.
Si se prescinde o se desconoce la relación física que debería ligar a las variables, los
métodos puramente estadísticos son una alternativa a evaluar. Barnett et al., 1984 efectúa una
síntesis de distintas técnicas aplicables para el abordaje de este problema.
Para el caso univariado, los controles por rango si bien necesarios se han revelado como
insuficientes. Existen extensiones aplicables a este tipo de series como los métodos de detección
basados en estimadores robustos (Goyeneche et. al., 1989).
Para el caso multivariado, Barnett et al., 1984 distingue dos grandes líneas
metodológicas, según que la función de distribución de la muestra se suponga conocida, o no.
La primera de ellas corresponde a los llamados Tests de discordancia, que agrupa una serie
de técnicas aplicables según la forma en que se distribuyen los datos muestreados, y requieren
conocer -o poder estimar- los parámetros de la distribución. Existen también antecedentes
vinculados al caso en que la distribución teórica responda a un tipo de ley y los datos muestreados a
otra, como es el caso del planteo de O'Hagan, 1990. Allí el hecho que una de las distribuciones sea
normal y la otra de tipo t habilita al uso de cierta metodología para poner en evidencia los datos
anómalos. El problema aquí tratado no es abordable a partir de este tipo de métodos, puesto que las
hipótesis no son lo suficientemente generales para aplicarlas a una variedad de parámetros
importante.
La segunda línea identificada por Barnett corresponde a lo que se ha dado en llamar
Métodos informales. Estos prescinden de los aspectos formales de la distribución de los datos, y
apuntan a explotar ciertas propiedades de los mismos. En este grupo se encuentran los métodos de
detección de marginales, fijando un rango de probabilidad; los métodos gráficos, basados en la
búsqueda de puntos alejados de la nube de datos; la aplicación de métodos de correlación
(Gnanadesikan et al., 1972); la búsqueda de distancias generalizadas representativas, técnicas
asociadas con el análisis de conglomerados (cluster analysis) (ver por ejemplo, Fernau et al., 1990)
y análisis de componentes principales (ACP), entre otros.
Un antecedente muy específico respecto al ACP lo presenta el trabajo de Hawkins, 1974. En
él se comparan cuatro indicadores o estadísticos, diseñados para resaltar datos anómalos. Hawkins
asume que cada observación tiene distribución normal, por lo que su hipótesis no es aplicable en
general (no la cumple, por ejemplo, la lluvia diaria); sin embargo, los conceptos por él vertidos son
similares a los manejados en López et. al., 1994a, 1993a y 1996.
Bajo hipótesis muy generales, existen también una variedad de métodos que se basan en la
distancia de Mahalanobis como indicador de fiabilidad, y que difieren en la forma de estimar la
matriz de covarianza y el valor esperado. Entre ellos, se encuentran los descritos en Rousseeuw,
1991; Rousseeuw et al., 1987, 1990; Rocke, 1996; Rocke et al., 1987; Hadi, 1992, 1994, etc.
8
A modo de conclusión, la opinión de un experto reconocido como el Dr. Gandin (Gandin,
1988) debe ser citada. El autor asevera que tradicionalmente, el problema de control de calidad de
la información ha sido relegado en las prioridades de investigación, por ser (erróneamente)
considerado un problema puramente técnico, que se agota en la detección de los mismos.
Con respecto a los datos ausentes, en el campo de la Meteorología son práctica corriente
métodos de análisis objetivo (ver Haagenson, 1982, Johnson, 1982, etc.), que permiten generar un
campo interpolado a partir de datos irregularmente distribuídos. Ello permitiría calcular los valores
faltantes, a partir de los existentes.
Otras veces se utilizan magnitudes derivadas, y no el dato en bruto. Por ejemplo, para el
cálculo de lluvia media sobre una región, existen métodos como el de los polígonos de Thiessen
(Jácome Sarmento et al., 1990) que no requieren en principio, de un banco de datos completo.
Ambas situaciones han llevado a que el tema del tratamiento o eliminación de ausencias
haya sido también relegado, lo que se refleja en lo escaso de los trabajos específicos en la literatura
especializada consultada.
En la mayoría de los casos prácticos, el dato ausente es simplemente ignorado, (bajo la
hipótesis implícita que estas ausencias son al azar) o se aplican técnicas ad-hoc (interpolación
lineal, sustitución por el más próximo) que luego no son documentadas en el trabajo final. En
cualquier caso, se afecta a la población en forma arbitraria, en base a hipótesis que rara vez son
evaluadas.
El tema en cambio, es de gran interés en el área de la Estadística y las Ciencias Sociales en
general, pudiéndose encontrar en libros específicos (Rubin, 1987) citas a volúmenes producidos por
grupos de trabajo dedicados al tópico.
Existen métodos de imputación más o menos sofisticados. Entre éstos últimos, se puede
citar el utilizado por la Oficina del Censo de los EE.UU. (Rubin, 1987). El mismo consiste en
asignar al dato ausente un valor tomado al azar de entre los restantes eventos que tienen idéntica
respuesta en el resto del cuestionario. Si eventualmente no existiese otro igual, o bien se relativiza
esa exigencia, admitiendo que alguna o algunas respuestas no lo sean, o bien, se introduce una
"distancia" entre cuestionarios, y se busca aquel que diste menos.
Otro método también simple, es el de hacer una regresión sobre el conjunto de datos,
ajustando un modelo sencillo. Típicamente, se utilizan mínimos cuadrados (total o parcialmente) o
componentes principales, métodos que Stone et al., 1990 presenta desde una perspectiva integrada.
Los propuestos en Rousseeuw et al., 1987; Rousseeuw, 1984; Hawkins, 1993, 1994a, 1994b
tienen la particularidad de producir una regresión lineal diseñada para ser apropiada aún en la
presencia de un grupo considerable de errores arbitrariamente grandes, propiedad muy
importante en la práctica ya que los bancos de datos no pueden asumirse libre de errores en
ninguna instancia.
9
Todos los métodos considerados producen una única alternativa: para cada ausencia se
propone una única imputación. Según Rubin, 1987, ".. es intuitivamente claro que imputar la
predicción 'óptima' para cada ausencia subestimará la variabilidad...". Existe, sin embargo, la
posibilidad de imputar más de un valor para una misma ausencia. Así Rubin presenta una variedad
de técnicas, algunas excesivamente especializadas, para su aplicación en encuestas. Como idea
general, se propone crear para cada ausencia, un número m (pequeño) de alternativas, y considerar
que se dispone de m conjuntos completos diferentes. Para el caso en que la tasa de ausencias es
baja, el método funciona razonablemente bien, requiriéndose sin embargo más espacio (para
guardar las múltiples imputaciones) y más tiempo de cálculo (para procesar los diferentes conjuntos
completos generados).
Como caso particular, tanto para la detección de errores, como para la imputación de
ausencias en un banco de datos hidrológicos, se pueden encontrar a nivel nacional los trabajos de
Silveira et al., 1991, y los de López et al., 1994a y 1994b. En ellos se describen resultados exitosos
para el parámetro lluvia diaria, utilizando métodos que podrían ser aplicables a otros casos.
Los mismos métodos han sido ensayados sobre un banco de datos de viento y presión
atmosférica a nivel del mar (López et. al., 1993a) y fueron comparados en ese caso, con los
resultados derivados de la aplicación del método de Interpolación Optima (Gandin, 1963, 1988)
entre otros. Los resultados obtenidos con los métodos no tradicionales propuestos fueron
sensiblemente mejores, en los experimentos presentados.
El método de detección de errores basado en el ACP también ha sido ensayado sobre
modelos digitales de terreno, en experimentos controlados (López, 1997a, 2000).
10
3. DESCRIPCIÓN DE LOS DATOS DISPONIBLES
3.1. CARACTERÍSTICAS DEL BANCO DE DATOS DE LLUVIA DIARIA
3.1.1- Características de la Cuenca estudiada
3.1.1.1 - Introducción
La Cuenca hidrográfica del Rio Santa Lucía, con una superficie de 13600 km 2
, está situada en la
región sur del Uruguay, aproximadamente entre los 55° y 57° de longitud oeste y 33°40’ y 34°50’ latitud
sur.
Las cuchillas o sucesión de cerros que sirven de límite a la Cuenca no superan los 300 metros. La
vegetación predominante es la pradera y los pocos árboles y arbustos se encuentran a lo largo de los ríos y
arroyos.
El Río Santa Lucía, de 225 km de largo es el más importante del sur del país, sus dos principales
contribuyentes son el Río San José, de 111 km y el Santa Lucía chico, de 122 km.
3.1.1.2 - Descripción Climática
El clima de esta región es templado húmedo sin estación seca. Le corresponde la categoría Cfa en
la clasificación climática de Koeppen. Las temperaturas medias anuales son de 17°C. Los extremos de
temperatura anuales son importantes con máximas absolutas de 43°C y mínimas absolutas de -8°C.
Las precipitaciones totales anuales estan situadas en los 1000 mm. Se observa un máximo de unos
1100 mm. sobre las nacientes del Río San José y un mínimo de 900 en el sureste de la cuenca junto al Río
de la Plata. Las precipitaciones presentan sin embargo una gran variabilidad interanual, con años muy
lluviosos, por ejemplo 1959 con 1600 mm. y muy secos, por ejemplo 1916 con 500 mm.
El mes más lluvioso es marzo, con 100 mm. y el menos lluvioso es julio con 75 mm., la diferencia
entre ambos (25 mm.) indica la regularidad de las precipitaciones a lo largo del año.
La humedad relativa de la cuenca presenta un valor medio anual de 70%, y oscila entre 60% en
diciembre y enero y 78% en junio.
11
3.1.1.3 - Información Meteorológica.
Las medidas de la precipitación en la cuenca se realizan por medio de una red pluviométrica que
consta de unas 50 estaciones, en general atendidas por personal del Ministerio del Interior y de A.F.E.
(Ferrocarriles del Estado).
La distribución espacial no homogénea de los pluviómetros en la cuenca obedece a que fueron
establecidos a lo largo de las líneas férreas (estaciones del ferrocarril) y en poblados (comisarías). A este
hecho hay que sumar a mediados de la década del ochenta el cierre de la mayoría de las estaciones del
ferrocarril y por lo tanto la ausencia de observaciones pluviométricas a partir de esas fechas.
En este Proyecto se han seleccionado 10 estaciones pluviométricas, con información en el período
1960 - 1990. En la Tabla 1 y en la Figura 1 se indican algunas de sus características y su localización
geográfica.
N° Nombre Latitud Longitud Elevación
2436 Puntas de Sauce 33°50'S 57°01'W 120 mts
2486 Pintos 33°54'S 56°50'W 100 mts
2549 Barriga Negra 33°56'S 55°07'W 95 mts
2588 Casupá 34°06'S 55°39'W 124 mts
2662 Cufré 34°13'S 57°07'W 92 mts
2707 Raigón 34°21'S 56°39'W 37 mts
2714 San Ramón 34°18'S 55°58'W 70 mts
2719 Ortiz 34°17'S 55°23'W 115 mts
2816 Joanicó 34°36'S 56°11'W 35 mts
2846 Olmos 34°44'S 55°54'W 40 mts
Tabla 1 Listado de las estaciones pluviométricas con información en el período 1960 - 1990
La información de las otras variables atmosféricas (temperatura, humedad, presión atmosférica,
evaporación, viento, horas de sol, etc.) es obtenida en las Estaciones Meteorológicas de la Cuenca,
pertenecientes a la Dirección Nacional de Meteorología, que son:
N° Nombre Latitud Longitud Elevación Período
86580 Carrasco 34°50'S 56°00'W 33 mts 1947 - Presente
86585 Prado 34°51'S 56°12'W 16 mts 1901 - Presente
86575 Melilla 34°47'S 56° 15'W 49 mts 1951 - Presente
86568 Libertad 34°41'S 56°32'W 21 mts 1977- Presente
86545 Florida 34°04'S 56° 14'W 92 mts 1987 - Presente
Tabla 2 Estaciones meteorológicas próximas a la zona de estudio
La información en estas Estaciones Meteorológicas es relevada en forma horaria, transfiriéndose
vía telefónica a Montevideo, y es utilizada en la elaboración del pronóstico del tiempo, y también en la
obtención de estadísticas climáticas de valores esperados acumulados, medios y extremos.
12
100 km
2436
2486 2549
2588
2662
2707
2714 2719
2816
2846
2436
2486 2549
2588
2662
2707
2714 2719
2816
2846
Figura 1 Localización de las estaciones pluviométricas utilizadas
3.1.1.4 - Factores climáticos
Diversos factores tanto geográficos, oceanográficos y meteorológicos influyen en el clima de la
Cuenca.
La Cuenca se sitúa integramente en la zona templada del hemisferio sur. La poca extension y la
ausencia de sistemas orográficos importantes, determinan que las temperaturas medias mensuales sean
homogéneas y suaves (entre 10°C y 25°C todo el año).
La corriente oceánica de Brasil, transporta aguas de origen tropical, y su transporte calórico
produce una aumento de la temperatura del aire, y un aporte importante de vapor de agua a la
atmósfera. La corriente de las Malvinas transporta aguas frías desde el sur produciendo una estabilidad
en las capas bajas de la atmósfera.
El anticiclón semipermanente del Atlántico Sur ejerce una gran influencia en el tiempo
atmosférico que se desarrolla sobre el Uruguay. La circulación generada por este anticiclón produce
vientos del sector noreste al este, aportando masas de aire de caracter tropical y húmedas.
También el anticiclón semipermanente del Pacifico Sur, con su circulación del sur al suroeste
sobre el país, aporta principalmente durante el invierno, masas de aire frías y en general secas.
La depresión térmico-orográfica del noroeste argentino, produce en determinadas situaciones
aporte de aire muy húmedo y cálido desde el Chaco, principalmente en el verano.
13
3.1.1.5 - Formación de Precipitaciones
Las masas de aire portadoras de humedad necesitan ciertos mecanismos dinámicos para producir
precipitaciones.
El principal mecanismo de producción de lluvias sobre la cuenca son los pasajes de sistemas
frontales o frentes. Las principales masas de aire presentes sobre el país son la masas de aire tropical
con un gran contenido de vapor de agua, y las masas de aire polar de carácter frío y seco. La zona de
transición entre dos masas de aire de diferentes características define una zona frontal, que está
asociada en general a precipitaciones.
Se estima el pasaje de unos 70 a 80 frentes fríos en el año que provocan precipitaciones en
zonas y cantidades variables. El volumen de las precipitaciones depende del contenido de agua
precipitable en la masa de aire húmedo.
Otro mecanismo de precipitación es el ascenso de aire producido por una depresión o ciclón
dinámico y su pasaje sobre la cuenca, este tipo de perturbación produce en general precipitaciones muy
importantes en volumen, afecta un área limitada, y está asociada a vientos fuertes y tormentas severas.
3.1.2 - La lluvia en la Cuenca: estructura y estacionalidad
El objetivo perseguido en esta etapa es el de determinar, si existe, una estructura de la lluvia en
la cuenca durante los treinta años considerados. De lo contrario caracterizar las variaciones que se han
producido en dicha estructura en el período. Este aspecto tiene indirecta relación con el objetivo
primordial del proyecto, pero asume gran importancia a la hora del conocimiento del fenómeno y
permitirá aceptar o rechazar diferentes hipótesis realizadas en uno y otro sentido, al mismo tiempo que
mejorar la eficiencia de cualquier modelo que se pretenda utilizar para analizar el fenómeno..
En cuanto a la estacionalidad, aquí entendida como comportamiento diferenciado de algunos
meses del año respecto a otros, en relación a la distribución de la lluvia, será de utilidad inmediata para
la construcción del modelo que se plantea en el punto 8. del Resumen, y para mejorar la eficiencia de
los diferentes estimadores que ha desarrollado el proyecto.
3.1.2.1 - Aproximaciones metodológicas para determinar estructuras.
En este sentido se han desarrollado dos líneas de trabajo diferenciadas. Por una parte se utilizan
algunas de las técnicas para el análisis de datos multivariados multiway y en otras se buscan relaciones
lineales y no lineales en el tiempo y en el espacio.
14
3.1.2.1.1 - Métodos Multivariados Multiway
Con el objetivo de ubicar al lector en el significado de la primera aproximación metodológica se
realiza una presentación resumida y elemental de algunos métodos multiway en particular, precedida,
por una breve presentación general de los métodos a más de dos vías.
El análisis multivariado clásico extrae generalmente información de una tradicional matriz 2-
way (2 vías) de datos.
{ }X x
x x x
x x x
x x x
ij
n
n
n n nn
= =












11 12 1
21 22 2
1 2
L
L
L L L L
L
donde xij es el valor que toma la variable j en la unidad i. Las dos vías están aquí representadas por las
“unidades” y las “variables”.
Un ejemplo de 3-way de datos esta dado por: { }X xijk= donde xijk es el valor que toma la
variable j (j=1,...J) en la unidad i (i=1,...I) en la ocasión k (k=1,...K), considerando que son las mismas
variables y unidades en cada ocasión.
En general p-way data pueden ser representados por: { }X xi ip
= 1 L donde cada dato elemental
xi i p1 ... se clasifica de acuerdo a p ways como por ejemplo, unidades, variables, tiempos, áreas,
categorías de variables, etc... En modo general se puede distinguir entre:
i) Arrays de p-way datos si todas las combinaciones de diferentes índices se encuentran
presentes. Un ejemplo de array a 3-way es del tipo “unidades× variables × ocasiones” donde
se consideran las mismas unidades y las mismas variables en cada ocasión.
ii) Sets de p-way datos. No todas las combinaciones de los valores de diferentes índices se
encuentran presentes. En el caso de 3-way “unidades× variables× ocasiones” cambian o las
variables o las unidades en cada ocasión.
En el caso que nos ocupa se pueden conformar arrays o sets de múltiples formas. Uno
particularmente interesante para medir el comportamiento estructural de la lluvia en el período de los
últimos treinta años es la matriz “estaciones pluviométricas× unidades de tiempo (ej.
meses)× distribución de lluvia”. Para constituir arrays en este caso se debe considerar solamente las
unidades de tiempo con información completa, estando en las demás situaciones frente a sets.
Del enfoque general a p-way nos interesa en este momento solamente el de 3-way en la
situación “unidades× variables× ocasiones” que es el que concretamente se aplica en la presente
investigación. Veamos una síntesis de algunos enfoques metodológicos aquí aplicados lo que no
significa para nada un desarrollo exhaustivo de las aproximaciones multiway.
15
3.1.2.1.1.1 - Modelos multilineales
Los modelos multilineales fueron considerados por Kruskal (1984) . Se incluyen dentro de los
llamados modelos estructurales descriptivos. Dentro de los más utilizados para el análisis de datos a 3-
way se destacan los siguientes:
a) Modelo Cuadrilineal
Modelo Tucker 3 (Tucker, 1963, 1964, 1966; Kroonenberg, 1983):
x m a b c gijk ijk ip jq k r pqr
r
R
q
Q
p
P
≈ =
===
∑∑∑ 111
donde el significado de los parámetros es el siguiente::
aip= puntaje de la unidad i en relación a la dimensión latente (“componente ideal”) p,
bjq = puntaje de la variable j en relación a la dimensión latente q,
ckr = puntaje de la ocasión k relativa a la dimensión latente r;
gpqr = puntaje conjunto de la genérica terna (p,q,r) de las componentes ideales de los tres modos (p-
ésima para las unidades, q-ésima para las variables y r-ésima para las ocasiones). Este parámetro es una
medida de la interacción triple entre las tres genéricas dimensiones latentes. El conjunto de las gpqr
forman la llamada CORE MATRIX.
b) Modelo Trilineal: Modelo Tucker 2.
x m a b gijk ijk ip jq pqk
q
Q
p
P
≈ =
==
∑∑ 11
Aquí el componente ideal de las ocasiones se omite y gpqk conforma la CORE MATRIX
extendida.
c) PARAFAC (Harshman, 1970)
x m a b cijk ijk ip jp kp
p
P
≈ =
=
∑1
Este puede ser considerado como el Modelo Tucker 3 con una CORE MATRIX superidéntica.
d) Componentes Principales Simultáneas. Kiers y Ten Berge ( 1989)
Esta es una generalización del Análisis de Componentes Principales para la situación donde las
mismas variables se observan en dos o más poblaciones. La generalización se obtiene considerando
16
ACP para cada población bajo la condición de que las matrices de pesos de componentes deben ser
iguales para cada análisis.
3.1.2.1.1.2 - Estrategias de análisis multifase.
Estos métodos se aplican generalmente a arrays o sets 3-way. { }X X X Xk K= 1 ,L L
Primera Fase: Interestructura
A cada matriz Xk se asocia un elemento Ek el cual caracteriza sus estructuras, en el caso de un
método típico de esta familia llamado STATIS (Escoufier, 1973, 1977, Lavit, 1988, 1994) Ek es un
operador lineal (matriz) Ak
Se realiza un análisis simultáneo de los Ek . En STATIS se realiza un análisis de componentes
principales en relación a las matrices Ak organizadas de la siguiente manera:
( )A vecA vecA vecAK= 1 2 L
donde vecAk es la vectorización de Ak .
Los puntajes Ok se obtienen a partir del análisis de los Ek . En STATIS los puntajes se obtienen
a través de los componentes principales de las columnas de A (llamadas ocasiones).
Segunda Fase: Compromiso
Se calcula un elemento “medio” de los Ek que representa el conjunto de las Xk . En STATIS un
“operador medio” A*
(media ponderada de los Ak con pesos dados por el primer autovector obtenido
del ACP de A).
Se realiza un análisis de E*
obteniendo puntajes Ui,Vj . En STATIS el ACP de A y el
subsiguiente cálculo de puntajes para unidades y variables.
Tercera Fase: Intraestructura
Basándose en el análisis de compromiso E*
, se obtienen los puntajes para unidades y variables
en las diferentes ocasiones( )U Vi
k
j
k
, . En STATIS unidades y variables están geométricamente
representadas por los distintos ejes principales calculados con el ACP de A*
.
3.1.2.1.2. - Analisi Fattoriale Dinamica (AFD)
Un método que está fuera de las clasificaciones anteriores es el “Analisi Fattoriale Dinamica”
(Coppi-Zanella 1978, Coppi-Corazziari 1995) .
17
Esta metodología permite analizar array 3-way del tipo unidades× variables× tiempos, donde
estos últimos están ordenados y juegan el rol de ocasiones. Es un método aplicable a variables
cuantitativas.
Se analizan tres tipos de variabilidades, estructural, dinámica, y la interacción entre ellas.
Los tres aspectos son analizados en AFD mediante la conjunción de una modelización basada en
técnicas factoriales y regresivas.
3.1.2.1.3 - Relaciones mediante discrepancia logarítmica
Otro modo de construir matrices de proximidades, se basó en la discrepancia logarítmica de
Kulback- Leibler.
Para poder aplicar esta discrepancia fue necesario en primer lugar construir las distribuciones de
lluvia diarias para cada estación. Se consideró una distribución común para todas las estaciones que
reúne la doble condición de ser adecuada a los datos disponibles y brindar información mejorada
respecto a la simple dicotomía llueve- no llueve, aunque no sea la óptima por estación.
Los intervalos elegidos fueron [0], (0, 7], (7, 17], >17mm.
Luego de codificada la información diaria por estación en esos cuatro intervalos, se agrupó por
mes, obteniendo de hecho la distribución de la lluvia, por estación, para todos los eneros, todos los
febreros, etc del período de años considerado.
A continuación se calculó la discrepancia de Kulback- Leibler de las distribuciones de las demás
estaciones a la considerada en cada caso para los diferentes meses. Se obtiene así para cada mes las
estaciones más cercanas en distribución según la discrepancia logarítmica.
En el caso concreto, la expresión general de Kulback se transforma en:
δ p p p
p
p
i
i
i
i
∧
∧
=





 = ∑/ ln
1
8
donde:
pi = probabilidad del intervalo i en la estación considerada, para el mes dado.
pi
∧
= probabilidad del intervalo i para cada una de las otras 8 estaciones para el mes dado.
Se construyen con estas discrepancias nueve matrices, una para cada estación, del tipo (12 × 8 )
conformadas con las distancias de las otras ocho a la estación considerada, en cada uno de los meses
del año. También aquí, como en el caso de las relaciones lineales, se construyeron además matrices de
(12× 3) donde en lugar de considerar las distancias de la totalidad de las estaciones se consideran
solamente las tres más cercanas.
18
3.1.2.1.3.1 - Menor distancia mensual de una estación a otra.
Conjuntamente con el proceso anterior se realizó, siempre mediante la discrepancia de Kulback-
Leibler y las correlaciones, la búsqueda de la estaciones más cercanas a cada estación en los diferentes
meses del año. También se dividió el período de treinta años en tres y se analizaron meses y trimestres
para saber si hubo cambios en la distancia a la media general del período lo que sería otro indicativo de
cambio de estructura.
En cuanto a las estación por mes más cercana se procedió de la siguiente manera. Se realizó la
distribución por mes, con los intervalos antes considerados, de la lluvia para cada estación. Luego se
tomó la distribución de cada estación como la verdadera, es decir la pi de la expresión de la
discrepancia y se halló la discrepancia de cada una de las otras a la considerada. Se obtiene así una
medida de cual es el orden de distancia de las diferentes estaciones a la considerada para cada mes lo
que será luego de gran utilidad en la construcción del modelo que se plantea en el numeral 8 del Indice.
3.1.2.1.3.2 - Distancia a nivel de Estación
Finalmente se consideró un último procedimiento para el análisis de estructuras. Este fue
construir las discrepancias de Kulback- Leibler por estación y para cada mes respecto a la distribución
media o marginal de la estación en todo el período. La diferencia esencial de este método respecto a los
anteriores es que no se tiene en cuenta la relación de una estación con las demás sino cada una consigo
misma. Con el vector de distancias se agruparon luego los meses.
3.1.2.2 - Estacionalidad
Conjuntamente con los métodos multiway descriptos se utilizaron otra serie de técnicas para
agrupar meses de similar comportamiento de la lluvia en cada una de las estaciones y en la cuenca en
su conjunto.
3.1.2.2.1 - Métodos de relación entre las estaciones pluviométricas
En este sentido se consideraron dos tipos de relaciones. En primer lugar las correlaciones
lineales de tipo Pearson entre las lluvias en los diferentes meses en el período, y por otro mediante el
análisis de la discrepancia logarítmica de Kulback-Leibler entre las distribuciones de lluvia en las
diferentes estaciones.
3.1.2.2.1.1 - Relaciones Lineales entre pluviómetros.
Se parte en primer lugar de la matriz original de datos,
19
{ }X x
x x x
x x x
x x x
ij
j
n
I I Ij
= =












11 12 1
21 22 2
1 2
L
L
L L L L
L
donde el término genérico{ }xij representa el volumen en mm de lluvia caída el día i en la estación j. Es
decir que la matriz tiene tantas filas como días de información de lluvia se tienen (treinta años) y tantas
columnas como estaciones pluviométricas consideradas (nueve).
Se considera como unidad mínima el mes. A esto se llega luego de varias pruebas buscando la
mínima unidad posible, La decisión de considerar el mes se alcanza en razón de la calidad de
información disponible y teniendo en cuenta la particular distribución de la lluvia por día donde en
aproximadamente un 80 % de ellos , el valor es cero.
Se construye una matriz de correlación de Pearson para cada mes del año. Esta matriz es:
{ }R r
r r r
r r r
r r r
ij
j
n
I I Ij
= =












11 12 1
21 22 2
1 2
L
L
L L L L
L
donde{ }rij es el coeficiente de correlación de Pearson entre las precipitaciones de las estaciones i y j en
el mes considerado.
Con estas correlaciones se construyen nueve matrices, una por cada estación pluviométrica, de
12× 8, donde cada fila indica las correlaciones para un mes dado de la estación considerada con las
demás.
El objetivo del procedimiento es analizar las alteraciones que se producen en el año en las
correlaciones lineales entre la lluvia medida en una cierta estación y en las demás. Se está buscaron las
estaciones más correlacionadas linealmente y como varían en el transcurso de los meses. Este
procedimiento se realizó también agrupando en los siguientes trimestres:
Diciembre, Enero, Febrero
Marzo, Abril, Mayo.
Junio, Julio, Agosto.
Setiembre, Octubre, Noviembre.
Además de considerar matrices de 12× 8, se consideraron matrices 12× 3 , donde se tenían en
cuenta aquellas tres estaciones que durante el año estaban más correlacionadas a la considerada. Esto se
buscó construyendo un ranking de estaciones.
20
Una vez construídas las matrices de interés se aplicaron diversos métodos de cluster analysis
(análisis de conglomerados) buscando encontrar agrupamientos de meses según similares
comportamientos de las correlaciones de una estación con las demás.
Los algoritmos de clasificación considerados se basaron en la distancia de Mahalanobis y fueron
los de Ward, Centroide y Complete. De acuerdo a los resultados obtenidos con los diferentes métodos
se buscó determinar una agrupación para cada estación. Los resultados se resumen en la tabla 3.
Estación Número de grupos Agrupación de meses
2436 4 (5,6,8,9,11) (10,12,1) (3,4) (2,7)
2486 4 (2,5,8,9,10) (3,7,12) (4,6) (1,11)
2549 3 (4,6,9) (2,5,7,12) (1,2,4,10,11)
2588 4 (10,12,4) (11,3,9) (7,1) (8,6,2,5)
2662 3 (1,6,7,10,11) (4,5,8,9) (2,3,12)
2707 3 (4,6,8) (2,7,3,10,5) (11,12,9,1)
2714 3 (2,3,5,7,10) (1,4,6,12) (8,9,11)
2719 4 (8,9,10,12) (1,6,7) (2,4,5) (3,11)
2816 3 (2,5,8,9) (3,6,7,10) (1,4,11,12)
Tabla 3 Agrupación de meses por estación
3.1.2.2.1.2 - Discrepancias logarítmicas estacionales globales
Para hacer posible la agrupación de meses no ya por pluviómetro, sino en general para toda la
cuenca, se busca la distribución por mes de la lluvia, en los cuatro intervalos considerados para toda la
cuenca de Santa Lucía. Luego se construye una matriz de 13× 4 donde las primeras doce filas son la
distribución por meses de la lluvia y la última la distribución media. Se calcula Kulback- Leibler de
cada mes a la media y luego se agrupa por cercanías. La estacionalidad obtenida para toda la cuenca fue
la siguiente:
a) Abril, Setiembre, Octubre.
b) Mayo, Junio.
c) Agosto, Noviembre.
d) Febrero, Julio.
e) Diciembre, Enero, Marzo.
22
3.2. CARACTERÍSTICAS DEL BANCO DE DATOS DE VIENTO
HORARIO
3.2.1- Características de la región estudiada
3.2.1.1 - Introducción
La región comprendida al sur del Río Negro tiene una superficie aproximada de 95000 km2
, que
representa el 53% de la superficie del País. Esta región está limitada al oeste por el Río Uruguay, por el
suroeste y sur por el Río de la Plata, al sureste por el Océano Atlántico, y al este por el Río Yaguarón y la
Laguna Merin.
Las cuchillas o sucesión de cerros son los principales obstáculos orográficos pero no superan en
promedio los 300 metros excepto en casos muy aislados (Cerro de las Animas y Pan de Azucar en
Maldonado). La vegetación predominante es la pradera y la vegetación más densa (árboles y arbustos) se
encuentran a lo largo de los ríos y arroyos.
3.2.1.2 - Descripción Climática
El clima de esta región es templado húmedo sin estación seca. Le corresponde la categoría Cfa en
la clasificación climática de Koeppen. Las temperaturas medias anuales son de 17.0°C. Los extremos de
temperatura anuales son importantes con máximas absolutas de 41°C y mínimas absolutas de -8°C.
Las precipitaciones totales anuales medias están situadas en los 1200 mm. Se observa un máximo
al noreste de unos 1300 mm. sobre el Río Negro y un mínimo de 1100 en el sur de la región junto al Río
de la Plata.
La humedad relativa de la región presenta un valor medio anual de 75%, y oscila entre 66% en
diciembre y enero y 82% en junio y julio.
3.2.1.3 - Información Meteorológica.
La disponibilidad de registros de viento en formato magnético restringió el período a manipular.
En la zona norte del país la densidad de estaciones meteorológicas es comparable a la zona sur, pero en
muchos casos las series son más cortas, o contienen únicamente registros cada 8 horas, aspectos ambos
que implica una restricción a los fines de este proyecto.
La información en estas Estaciones Meteorológicas es relevada en forma horaria,
transfiriéndose vía telefónica a Montevideo, y es utilizada en la elaboración del pronóstico del tiempo,
y también en la obtención de estadísticas climáticas de valores esperados acumulados, medios y
extremos.
Las medidas de la viento de superficie horario fueron tomadas por la Dirección Nacional de
Meteorología. Se seleccionaron cinco estaciones localizadas en el sur del Uruguay. Su identificación y
localización se esquematizan en la Tabla 4 y Figura 2, respectivamente
23
N° Nombre Latitud Longitud
86595 Punta del Este 34°58'S 54°57'W
86580 Carrasco 34°50'S 56°00'W
86500 Treinta y Tres 33°13'S 54°23'W
86460 Paso de los Toros 32°48'S 56°31'W
86440 Melo 32°22'S 54°11'W
Tabla 4 Listado de las estaciones meteorológicas con registros horarios en el período 1979-1991
+
+
+ +
Punta del EsteCarrasco
+
Treinta y Tres
Melo
Paso de los Toros
BRAZIL
ARGENTINA
ATLANTIC OCEAN100 km
Figura 2 Localización de las estaciones meteorológicas con registros de viento de superficie
seleccionadas para este trabajo
3.2.1.4 - Régimen Eólico.
La circulación atmosférica es el resultado de desequilibrios energéticos ocurridos en el seno de
la misma. La circulación atmosférica en su más amplio sentido incluye todas las escalas de movimiento
(macroescala, mesoescala y microescala). La circulación está dada por la presencia de los llamados
sistemas de tiempo atmosféricos semipermanentes y dinámicos, estos pueden ser cerrados (ciclones,
anticlones) y abiertos (vaguadas, dorsales), tal como se observan en un mapa meteorológico.
La circulación de la atmosfera es la responsable del transporte de ciertas cantidades (energía,
momento, vapor) y del cambio en las condiciones del tiempo sobre los diferentes lugares del planeta.
La atmósfera cumple con la condición de equilibrio hidrostático por lo tanto las velocidades
verticales son de orden mucho menor que las velocidades horizontales (en la escala macro), y por lo
24
tanto se puede aproximar el estudio de los movimientos tridimensionales de la atmósfera con planos
horizontales en la vertical.
La atmósfera libre en la escala sinóptica ( ≈ 200 a 2000 km) cumple con el llamado equilibrio
geostrófico, que resulta de un equilibrio de fuerzas entre la fuerza de Coriolis, y la fuerza del gradiente
de presión.
La dirección de los vientos predominantes sobre la región en estudio (Ver figura 3) están
determinados por la circulación del noreste que establece el Anticiclón semipermanente del Atlántico.
Sin embargo el debilitamiento del mismo por alejamiento de la costa o desplazamiento hacia el norte
determina la aparición de vientos del oeste en superficie característicos de la época invernal. Asimismo
los vientos observados junto a la costa del Río de la Plata y Océano Atlántico están influenciados por
factores de circulación locales como es la brisa marina y terrestre. Esta determina la rotación durante el
día del viento desde una componente norte a una del sureste que va disminuyendo a medida que el
calentamiento del suelo por la radiación solar comienza a disminuir. Las velocidades medias anuales
van desde unos 6 m/s en la costa sureste hasta mínimos relativos de 3.5 m/s en la cuenca de la Laguna
Merín. En general se observan velocidades medias mensuales mas o menos constantes durante todo el
año, pero se destaca la primavera con velocidades medias de 6.5 m/s en el sur y 4.8 m/s en la Laguna
Merín.
Fig. 3 Campo de Presión atmosférica en superficie
Media anual en hPa. (1982-1993)
25
3.3 - CARACTERÍSTICAS DEL BANCO DE DATOS DE NIVELES
3.3.1 - CARACTERÍSTICAS DE LA CUENCA ESTUDIADA
3.3.1.1 - Introducción
La Cuenca hidrográfica del Río Negro tiene una superficie de 69900 km2
, que representa el 39%
de la superficie del País, a la que deben sumarse 3125 km2
que se ubican en territorio brasileño. Su
cuenca está limitada al oeste por las cuchillas Negra y de Haedo que las separan de la cuenca del Río
Uruguay, al este por la cuchilla Grande y al sur por las cuchillas Grande inferior y del Bizcocho. En el
norte esta separada parcialmente del Brasil por la cuchilla de Santa Ana.
La longitud total del río Negro es de unos 850 km y sus principales afluentes son el río
Tacuarembó, ubicado en la parte superior de la cuenca, y el río Yí que incorpora sus aguas al Negro
inferior. Todos los ríos son de alimentación pluvial únicamente y no poseen a lo largo de sus cursos, lagos
o lagunas naturales que regulen sus escurrimientos. Los ríos en general tienen pendientes suaves, pues no
existen sistemas orográficos importantes. El río Negro tiene en su recorrido solamente unos 100 km sobre
la cota de 100 m. y la mayor parte de la cuenca discurre por debajo de esa cota hasta su desembocadura.
Los cauces suelen presentar un lecho menor, por el que escurren el caudal de base, alimentado por el agua
subterránea, y un lecho mayor por el que corren las crecidas. En este último por causa de la humedad del
suelo y la temperatura ambiente adecuada existe vegetación consistente en bosque de tipo galería
conformado por árboles y arbustos.
3.3.1.2 - Descripción Climática
El clima de esta región es templado húmedo sin estación seca. Le corresponde la categoría Cfa en
la clasificación climática de Koeppen. Las temperaturas medias anuales son de 17.7°C. Los extremos de
temperatura anuales son importantes con máximas absolutas de 41°C y mínimas absolutas de -8°C.
Las precipitaciones totales anuales medias están situadas en los 1250 mm. Se observa un máximo
de unos 1400 mm. sobre las nacientes del Río Cuñapirú y un mínimo de 1100 en el sur de la cuenca junto
a la divisoria de aguas con la cuenca del Río Santa Lucía. Los meses más lluviosos son febrero y marzo,
con 125 mm. y el menos lluvioso es agosto con 90 mm., la diferencia entre ambos (35 mm.) indica la
regularidad de las precipitaciones a lo largo del año.
La humedad relativa de la cuenca presenta un valor medio anual de 74%, y oscila entre 65% en
diciembre y enero y 82% en junio y julio.
3.3.1.3 - Información Hidrológica.
La información para el estudio de niveles del Río Negro, consistió en:
26
- series diarias del nivel del río ( en metros ) en Paso Pereira (182800), Paso Aguiar (182500) y
Paso Mazangano (182400), que constituyen tres puestos de medición, ubicados en el
departamento de Tacuarembó (ver Tabla 5) y ordenados de oeste a este sobre el curso del río.
- los datos corresponden al período 1975-1990 y en general las series incluyen tres mediciones
diarias en cada lugar. Fueron proporcionadas dos versiones de la información para dos de los tres
puestos, presentándose alguna diferencia en ellas, habiéndose depurado la base de los errores más
obvios.
- la cobertura de la información es parcial y existen datos faltantes tanto a nivel de conjuntos de
días contiguos, de días aislados y de las mediciones a través del mismo día. Los vacíos de
información en general no son coincidentes en fecha, a través de los tres puestos de medición.
Teniendo en cuenta que el objetivo del trabajo es el análisis de series diarias, se seleccionó la
primera de las tres mediciones de cada día, cuando la misma existía. En su defecto, se consideró la
segunda o tercer medición del día, en ese orden, según la disponibilidad del dato.
De este modo, se construyeron tres series con datos diarios, donde los datos faltantes pasaron a ser
los días en los que no se había realizado ninguna de las tres mediciones previstas. La mayor parte del
trabajo que se describirá se realizó trabajando sobre la serie de Paso Pereira en razón de su menor cantidad
de datos ausentes.
A diferencia de los parámetros lluvia y viento, no se tuvo acceso permanente a los registros
originales en papel, salvo en un corto período al principio del proyecto, por lo que no fue posible encarar
una comparación con los datos en papel como la que se hizo en los otros casos.
N° Nombre Latitud Longitud Area
Cuenca
182800 Paso Pereira 32°26'S 55°14'W 11800 km
182500 Paso Aguiar 32°17'S 54°50'W 8300 km
182400 Paso Mazangano 32°05'S 54°42'W 6650 km
Tabla 5 Referencias de las estaciones hidrológicas utilizadas.
La información corresponde al período 1975 - 1990
3.3.1.4 - Régimen hidrológico.
Los caudales medios mensuales del río Negro, observados en Paso de los Toros, muestra
dos épocas bien definidas: una de creciente, de abril a octubre, y otra de aguas bajas, de noviembre a
marzo. El mes con menor caudal medio es enero y en cuanto a caudales máximos, los meses de julio y
27
setiembre tienen valores casi idénticos. El caudal medio anual es de unos 600 m3
/s, pero el caudal
experimenta fuertes variaciones no sólo a nivel diario sino también mensual.
Los niveles extremos registrados se ubican en el intervalo 0 a 13.7 m. La serie está aparentemente
afectada por varios outliers, por lo que los valores extremos deben tomarse con cautela. Los percentiles 5
y 95 % de los valores valen 0.2100 y 6.7205 m respectivamente.
Figura 4 Promedio de los niveles diarios observados en cada mes para el período 1975-1990 en Paso
Pereira.
Según se indica en la figura 4 el mes con nivel promedio máximo es agosto, y el más bajo en
enero. Las diferencias son del orden de 4.5 veces, indicando la variabilidad de los niveles a lo largo del
año. Los registros de setiembre, al igual que los de agosto, tienen una distribución bimodal, aspecto que
no se repite en octubre quien exhibe una distribución mucho más uniforme.
28
3.4. CARACTERÍSTICAS DEL BANCO DE DATOS DE
EVAPORACIÓN DIARIA
3.4.1- Características de la región estudiada
3.4.1.1 - Introducción
La región comprendida al sur del Río Negro tiene una superficie aproximada de 95000 km2
, que
representa el 53% de la superficie del País. Esta región está limitada al oeste por el Río Uruguay, por el
suroeste y sur por el Río de la Plata, al sureste por el Oceano Atlántico, y al este por el Río Yaguarón y la
Laguna Merin.
Las cuchillas o sucesión de cerros son los principales obstáculos orográficos pero no superan en
promedio los 300 metros excepto en casos muy aislados (Cerro de las Animas y Pan de Azúcar en
Maldonado). La vegetación predominante es la pradera y la vegetación más densa (árboles y arbustos) se
encuentran a lo largo de los ríos y arroyos.
3.4.1.2 - Descripción Climática
El clima de esta región es templado húmedo sin estación seca. Le corresponde la categoría Cfa en
la clasificación climática de Koeppen. Las temperaturas medias anuales son de 17.0°C. Los extremos de
temperatura anuales son importantes con máximas absolutas de 41°C y mínimas absolutas de -8°C.
Las precipitaciones totales anuales medias están situadas en los 1200 mm. Se observa un máximo
al noreste de unos 1300 mm. sobre el Río Negro y un mínimo de 1100 en el sur de la región junto al Río
de la Plata.
La evaporación medida a través del Tanque tipo “A” tiene valores anuales acumulados de 1800
mm. sobre Mercedes (oeste de la región) y un valor acumulado mínimo menor de 1500 mm. sobre el
litoral del Océano Atlántico.
3.4.1.3 - Información Meteorológica.
El período a estudiar de registros de evaporación acumulada diaria en formato magnético se
restringió al período del 1 Enero de 1986 al 31 de diciembre de 1990. Dentro de la región la densidad de
estaciones meteorológicas que constan de Tanque de evaporación del tipo “A” se restringe a siete.
La información en estas Estaciones Meteorológicas es relevada en forma diaria, transfiriéndose
vía telefónica a Montevideo, y es utilizada en la elaboración de balances hídricos semanales, y también
en la obtención de estadísticas climáticas de valores esperados acumulados, medios y extremos.
Las medidas de evaporación acumulada diaria fueron tomadas por la Dirección Nacional de
Meteorología. Se seleccionaron siete estaciones localizadas en el sur del Uruguay. Su identificación y
localización se esquematizan en la Tabla 6 y Figura 5, respectivamente
29
N° Nombre Latitud Longitud
86440 Melo 32°22'S 54°11'W
86490 Mercedes 33°15 S 58°04’W
86500 Treinta y Tres 33°13'S 54°23'W
86532 Trinidad 33°32’S 56°55’W
86565 Rocha 34°29’S 54°18’W
86568 Libertad 34°41'S 56°32’W
86585 Prado 34°51’S 56°12’W
Tabla 6 Listado de las estaciones meteorológicas con registros diarios de evaporación acumulada
para el período 1986-1990
Figura 5 Localización de las estaciones meteorológicas con registros de evaporación diaria
seleccionadas para este trabajo
3.4.1.4 - Régimen de Evaporación.
El vapor de agua de la atmósfera proviene casi exclusivamente de los procesos de evaporación
ocurridos en la superficie de nuestro planeta. La mayor parte de esa evaporación, cerca del 85% en
promedio, ocurre sobre los océanos, y una proporción no despreciable ocurre sobre los continentes. La
vegetación tiene un rol fundamental en la transferencia de vapor de agua a la atmósfera, las plantas se
comportan como una especie de mecha, entre el subsuelo, que es el reservorio de agua líquida, y la
atmósfera. El término “evapotranspiración” designa la cantidad de vapor de agua transferida a la
atmósfera tanto por evaporación directa a nivel del suelo como por la transpiración de los órganos
aéreos de las plantas. La noción de evapotranspiración potencial ha sido introducida por el climatólogo
americano Thornthwaite, y expresa la evapotraspiración máxima ourrida desde una superficie vegetal
que no tiene restricciones al suministo de agua. En estas condiciones la evapotranspiracion potencial
puede ser considerada independiente de la especie vegetal que constituye la cobertura como asimismo
de la naturaleza del suelo y finalmente como una función de las condiciones energéticas y dinámicas de
30
la atmósfera.
El Tanque evaporimétrico tipo “A” fue desarrollado por el Weather Bureau (U.S.A.) para
viabilizar estudios sobre el desarrollo de métodos para estimar la evaporación sobre lagos y
relacionarlos con los datos meteorológicos normalmente recolectados. Como las redes de observación
con Tanque evaporimétrico son en general muy dispersas e incompletas, se han desarrollado métodos
de extrapolación.
31
4. IMPUTACIÓN DE AUSENCIAS
4.1 - Métodos en los que se tiene en cuenta únicamente la información
histórica
Se entiende por ello, que se está imputando usando exclusivamente datos
provenientes del análisis de la serie temporal de la propia estación.
Además, en general, se indicará:
h = día en que se presenta la ausencia.
Xh
*
= valor a imputar el día de la ausencia (h).
Con respecto al informe de avance, se han agregado los métodos que asignan el
valor modal, y la interpolación temporal de scores principales.
4.1.1 - Por interpolación temporal entre registros:
Cuando falte el dato correspondiente a un día determinado se buscan los días
anterior y posterior más próximos, en los que se tenga dato medido en esa estación, y se
interpola linealmente.
4.1.2 - Promedio juliano:
Siempre con los valores cronológicos de lluvia por estación, se considera la base
de registros pluviométricos como la replicación de un mismo fenómeno con ciclo anual
(la variable es entonces la lluvia diaria del calendario juliano) y se utiliza como valor
para imputar los huecos el valor de dicha variable, estimado a partir de la media.
Así por ejemplo, el día 15 de enero, se calculará el promedio en la estación de
todos los registros que se tengan (para ese día del calendario juliano y para esa estación)
y con dicho valor se imputarán todas las ausencias correspondientes al 15 de enero para
algún año en esa estación.
Algoritmo:
Programa: julmean.m
Xt : registro pluviométrico correspondiente al día t en la estación considerada.
Si la estación donde hay un hueco es la j-ésima, y h ddmmaa=
X X
X
card B
h
j t
t B
*
( )
= =
∈
∑ , donde
{ }B t t ddmmyy en la estación j= =: ; (día y mes coinciden con los de h)
32
4.1.3 - Promedio global de la estación:
Los datos de lluvia correspondientes a cada pluviómetro son considerados como
una serie temporal, cuyo promedio en el período (treinta años para el caso de la lluvia)
es el valor que se utilizará para imputar todas las ausencias correspondientes a la
estación.
Se tendrá pues una constante por estación, con la que se rellenarán los datos
faltantes en la misma.
Algoritmo:
Programa: staverage.m
Xt : registro pluviométrico correspondiente al día t en la estación considerada.
Para cada estación j, se calcula:
X
X
card A
j t
A
= ∑ ( )
{ }
X
X
card A
j
A t X en la estación j
t
t
t A
t
=
=
= ∃
∈
∑ ( )
,2,...
:
1 10
X Xt
h j
= , si la ausencia h correspondió a la estación j.
4.1.4 - Valor aleatorio sorteado uniformemente entre los registros disponibles de la
estación:
Considerando nuevamente el fenómeno de lluvia por estación, este método
imputa un valor elegido al azar dentro de los registros históricos conocidos (de los
treinta años) correspondientes a dicha estación.
Algoritmo:
Programa: dispara.m
Xt : registro pluviométrico correspondiente al día t en la estación considerada.
X random X t Ah t
*
( , )= ∈ , si la ausencia h correspondió a la estación j.
}{A t X en la estación jt= ∃:
4.1.5 - Valor modal de la serie:
Este es un método muy sencillo, que asigna para cada estación su valor más
probable. En el caso de la lluvia diaria en Uruguay, este valor es siempre 0 mm/día.
Algoritmo:
Programa: nollovio.m
33
Xt : registro pluviométrico correspondiente al día t en la estación considerada.
X al X t Ah t
*
mod ( , )= ∈ , si la ausencia h correspondió a la estación j.
}{A t X en la estación jt= ∃:
4.2- Métodos en los que se tiene en cuenta únicamente la información
regional
En este caso, se utiliza únicamente información recabada simultáneamente, sin
usar información de los días precedentes.
4.2.1 - Imputación dinámica (“Hot - Deck”):
Este método de asignación dinámica asigna información a grupos de datos cuando
dicha información no está disponible, se desconoce o es incorrecta (y debe cambiarse).
Dicho método fue preparado por la Oficina del Censo de los Estados Unidos y
posteriormente fue perfeccionado por otros.
Básicamente, en el método de asignación dinámica se usa la información
conocida acerca de individuos con características similares para determinar la
información "más apropiada" cuando se desconoce parte (o partes) de una información
similar sobre otros individuos.
4.2.2 - Vecino geográficamente más cercano:
Por este método, dada la ausencia el día h para la estación j y dados los
registros disponibles de las otras estaciones de la cuenca para ese día, se imputa el valor
correspondiente a la que está más próxima a la estación j (desde un punto de vista
geográfico).
Algoritmo:
Programa: vecidist.m
Xt
j
: registro pluviométrico correspondiente al día t en la estación j .
X Xh h
k*
= , siendo k la estación geográficamente más próxima donde hay registro
4.2.3- Vecino más cercano por Criterio de Expertos:
Por este método, dada la ausencia el día h para la estación j y dados los
registros disponibles de las otras estaciones de la cuenca para ese día, se imputa el valor
correspondiente a la que está más próxima a la estación j , definiendo la proximidad a
partir de una jerarquía establecida por expertos, en base a conocimientos meteorológicos
de la zona en estudio.
Algoritmo:
Programa: veciconf.m
34
Xt
j
: registro pluviométrico correspondiente al día t en la estación j .
X Xh h
k*
= , siendo k la estación más próxima, según el Criterio de Expertos, donde hay
registro.
4.2.4 - Promedio espacial correspondiente al día de la ausencia:
Este método tiene en cuenta la variable lluvia en su comportamiento espacial
únicamente. Si se tienen n estaciones, se considera la serie temporal del vector n-
dimensional de lluvias, y en caso de ausencias para un día h (dimensión del vector
correspondiente menor que n), en todas las coordenadas faltantes se imputa el
promedio de las coordenadas conocidas.
Por tanto, el valor a imputar será el promedio aritmético entre todas las
estaciones donde hay registro, calculado sobre los valores observados para el día h
correspondiente a la ausencia.
Algoritmo:
Programa: daymean.m
Xt
j
: registro pluviométrico correspondiente al día t en la estación j .
Si se define: ( )X X X Xt t t t= 1 2 10
, ,K en el hueco:
dim Xh( )<10, ( )X X X X Xh h h h
j
h
*
, ,= 1 2 10
L L y
X X
X
card C
h
j h
i
t C
= =
∈
∑ ( )
, y { }C i X ih
i
= ∃ ∀ =: , , ,1 2 10L
Comentarios: la entropía estadística y los resultados de estos métodos
Si se tiene:
X X Xn1 2, ,L posibles estados excluyentes de una variable X
p p pn1 2, ,L las probabilidades asociadas a dichos estados
Para eventos independientes, la entropía estadística se define por:
( )H p p p p pn i i
i
i n
1 2
1
, , logL = −
=
=
∑ , con pi
i
i n
=
=
=
∑ 1
1
.
De acuerdo con la definición, se observa:
1) H(1)=0 (la entropía de un suceso cierto es nula).
2) Grandes valores de incertidumbre se obtienen cuando las probabilidades de
todos los estados posibles de la variable X son iguales:
p
n
i ni = ∀ =
1
1 2, , ,L
35
En efecto: ( )H p p p
n n
nn
i
i n
1 2
1
1 1
, , log logL = − =
=
=
∑
Se considera ahora la cantidad de lluvia en la posición P y la correspondiente a
la posición P d+ . A partir de ellas, se define una variable ( ) ( ) ( )X d X P X P d= − + , que
será una variable aleatoria con distintas probabilidades según la distancia d . Para cada
d , se estima la densidad de la variable aleatoria ( )X d por medio del histograma de
frecuencias relativas, estableciéndose entonces la entropía H para cada distancia d .
Realizados los cálculos correspondientes, se obtiene un valor mínimo para la
entropía que supera 0 6, , y una distancia mínima inter-pluviómetros de más de 18 km,
por lo que se concluye que es razonable esperar que los métodos que estén basados
únicamente en información regional (o geográfica), no den muy buenos resultados para
el relleno de datos faltantes.
4.2.5 - Promedio espacial ponderado correspondiente al día de la ausencia:
Al igual que el anterior, este método tiene en cuenta la variable lluvia en su
comportamiento espacial únicamente. Si se tienen n estaciones, se considera la serie
temporal del vector n-dimensional de lluvias, y en caso de ausencias para un día h
(dimensión del vector correspondiente menor que n), en todas las estaciones faltantes se
imputa una media ponderada de los registros de las estaciones conocidas. Para el
método de Cressman los pesos de la ponderación de la lectura j-ésima para imputar la i-
ésima estación son inversamente proporcionales al cuadrado de la distancia dij. El
método es lineal.
Algoritmo:
Programa: cressman2.m
Xt
j
: registro pluviométrico correspondiente al día t en la estación j .
Si se define: ( )X X X Xt t t t= 1 2 10
, ,K en el hueco:
dim Xh( )<N, ( )X X X X Xh h h h
j
h
*
, ,= 1 2 10
L L y
X X
X
card C
h
j h
i
t C
= =
∈
∑ ( )
, y { }C i X ih
i
= ∃ ∀ =: , , ,1 2 10L
4.2.6 - Métodos basados en la pseudo-distancia de Kulback-Leibler:
Distancia de Kulback- Leibler.
Cuando se trató la estructura y estacionalidad se consideró la estimación de la
discrepancia de Kulback- Leibler. Veamos ahora la definición concreta de dicha pseudo-
distancia o discrepancia.
36
DEFINICIÓN:
Se define la distancia de Kulback-Leibler entre dos funciones de distribución, como el
valor:
( )
[ ]
ρ
µ
F G
L
f x
g x
f x d x L
f x
g x
F dx si F G
otro caso
N NF F
,
( )
( )
( )
( )
( )
( ) ,
,
=
= <<
∞




∫ ∫
Observación:
Esta distancia es una pseudo-distancia, dado que no cumple con la propiedad de
simetría. ( ( ) ( )ρ ρF G G F, ,≠ ), por lo que el cálculo de la misma da resultados distintos
según la estación que se elija como de referencia.
4.2.6.1- Imputación por la estación “Kulback-Leibler más próxima”, sin
restricciones:
Algoritmo:
Programa: kulback.m
Este método calcula los histogramas de frecuencias relativas en cada una de las
estaciones para luego, eligiendo una como la más verosímil, ranquear el resto según su
proximidad a la escogida, en base a la distancia de Kulback-Leibler.
La variable es el registro diario en el pluviómetro:
Xt
j
: registro pluviométrico correspondiente al día t en la estación j .
En base a esa jerarquía de estaciones establecida, es que se imputarán los datos
faltantes:
- supóngase que en el día h hay un hueco en la estación i ,
- que se estableció una jerarquía de las restantes estaciones en base a la
distancia de Kulback-Leibler a la estación i: ( ) ( ) ( )ρ ρ ρi j i j i jn, , ,1 2< < L ,
- entonces, el valor a imputar vendrá dado por:
X Xh h
j*
= 1
, si hay registro en la estación j1 para el día h.
- de no existir registro para ese día en la estación más próxima, se va
recorriendo la jerarquía de estaciones establecida, hasta obtener un dato para
ese día.
Cabe señalar que se trabaja en la intersección de soportes de los histogramas (de
diez intervalos de clase cada uno de ellos), en el supuesto de que las distribuciones son
absolutamente continuas la una respecto de la otra.
37
4.2.6.2- Imputación por la estación “Kulback-Leibler más próxima”,
eliminando días secos:
Algoritmo:
Programa: kulback0.m
El método difiere del anteriormente descrito, únicamente en lo que a la
construcción de histogramas se refiere: la variable ya no es el registro puro (que puede
ser nulo), sino que es el registro del día cuando efectivamente hubo lluvia medible.
Xt
j
: registro pluviométrico no nulo correspondiente al día t en la estación j .
4.2.6.3- Imputación por la estación “Kulback-Leibler más próxima”, con
restricciones:
Algoritmo:
Programa: kulbackm.m
Finalmente, este método, trabaja con la variable registro del día cuando
efectivamente hubo lluvia medible, sólo que, en momentos de construirse los
histogramas, se les exige que cada intervalo de clase acumule como mínimo un 0.05 de
las observaciones
.
Xt
j
: registro pluviométrico no nulo correspondiente al día t en la estación j .
4.2.7 - Mínimos Cuadrados:
El objetivo del método es imputar los datos ausentes, usando una combinación
lineal de los datos presentes del día, con un error cuadrático mínimo.
Algoritmo:
Programa: mincdr.m
Dada la matriz de datos D, (cada fila de la cual tiene n observaciones
simultáneas), de dimensión m× n, m-observaciones, n-estaciones meteorológicas. Con el
objetivo de imputar el valor correspondiente a la estación j, se toma una combinación
lineal de los valores de las restantes k estaciones, k n≤ , con pesos ( )w w w wk= 1 2, ,...,
tales que:
D w di j
≈ (1)
donde Djes la matriz D sin la columna j, d j
es la columna j de D.
A los efectos de éste método, los pesos w se eligen de forma de minimizar:
D w dj j
i
i
k
− = →
=
∑2
2
1
l min (2)
38
El problema (2) representa un problema clásico de mínimos cuadrados. La
solución se obtiene a partir de las ecuaciones normales
( )D d D wjt j j
− = 0 (3)
ó
D D w D djt j jt j.
= (4)
Nota: los pesos, base de la imputación de la estación j como una combinación
lineal de las restantes estaciones, dependen de la combinación de datos “presentes” del
día particular. Hay un conjunto de pesos diferente para cada combinación de ausencias-
presencias.
4.2.8 - Mínimo Error Promedio:
Algoritmo:
Programa: minprm.m
El objetivo del método es imputar los datos de las estaciones ausentes
minimizando el promedio del error absoluto.
La elección de los pesos de (1) se realiza en este caso de modo que:
D w dj j
i
i
k
− = →∑1
lQ
min (5)
minimizando la norma 1 del error. Esto es equivalente a minimizar el promedio.
El problema (5) debe ser tratado como un problema de programación no lineal.
4.2.9 - Mínimo Error Promedio Robusto:
Algoritmo:
Programa: minprmfl.m
El algoritmo utiliza el anterior como primera estimación; el segundo paso
consiste en a) analizar la distribución de los errores de regresión y determinar los
registros con discrepancias mayores. Luego se reiteran los cálculos utilizando sólo los
valores que han diferido menos de los verdaderos. Los límites para el descarte se fijan
como ciertos cuantiles de la distribución de errores.
4.2.10 - Mínimo Percentil 95:
Algoritmo:
Programa: minprc.m
El objetivo del método es imputar los datos de las estaciones ausentes
minimizando el percentil 95 del error absoluto.
Proyecto conicyt51 94
Proyecto conicyt51 94
Proyecto conicyt51 94
Proyecto conicyt51 94
Proyecto conicyt51 94
Proyecto conicyt51 94
Proyecto conicyt51 94
Proyecto conicyt51 94
Proyecto conicyt51 94
Proyecto conicyt51 94
Proyecto conicyt51 94
Proyecto conicyt51 94
Proyecto conicyt51 94
Proyecto conicyt51 94
Proyecto conicyt51 94
Proyecto conicyt51 94
Proyecto conicyt51 94
Proyecto conicyt51 94
Proyecto conicyt51 94
Proyecto conicyt51 94
Proyecto conicyt51 94
Proyecto conicyt51 94
Proyecto conicyt51 94
Proyecto conicyt51 94
Proyecto conicyt51 94
Proyecto conicyt51 94
Proyecto conicyt51 94
Proyecto conicyt51 94
Proyecto conicyt51 94
Proyecto conicyt51 94
Proyecto conicyt51 94
Proyecto conicyt51 94
Proyecto conicyt51 94
Proyecto conicyt51 94
Proyecto conicyt51 94
Proyecto conicyt51 94
Proyecto conicyt51 94
Proyecto conicyt51 94
Proyecto conicyt51 94
Proyecto conicyt51 94
Proyecto conicyt51 94
Proyecto conicyt51 94
Proyecto conicyt51 94
Proyecto conicyt51 94
Proyecto conicyt51 94
Proyecto conicyt51 94
Proyecto conicyt51 94
Proyecto conicyt51 94
Proyecto conicyt51 94
Proyecto conicyt51 94
Proyecto conicyt51 94
Proyecto conicyt51 94
Proyecto conicyt51 94
Proyecto conicyt51 94
Proyecto conicyt51 94
Proyecto conicyt51 94
Proyecto conicyt51 94
Proyecto conicyt51 94
Proyecto conicyt51 94
Proyecto conicyt51 94
Proyecto conicyt51 94
Proyecto conicyt51 94
Proyecto conicyt51 94
Proyecto conicyt51 94
Proyecto conicyt51 94
Proyecto conicyt51 94
Proyecto conicyt51 94
Proyecto conicyt51 94
Proyecto conicyt51 94
Proyecto conicyt51 94
Proyecto conicyt51 94
Proyecto conicyt51 94
Proyecto conicyt51 94
Proyecto conicyt51 94
Proyecto conicyt51 94
Proyecto conicyt51 94
Proyecto conicyt51 94
Proyecto conicyt51 94
Proyecto conicyt51 94
Proyecto conicyt51 94
Proyecto conicyt51 94
Proyecto conicyt51 94
Proyecto conicyt51 94
Proyecto conicyt51 94
Proyecto conicyt51 94

Mais conteúdo relacionado

Semelhante a Proyecto conicyt51 94

Informe de Ejecución Presupuestaria de Enero a Junio 2015
Informe de Ejecución Presupuestaria de Enero a Junio 2015Informe de Ejecución Presupuestaria de Enero a Junio 2015
Informe de Ejecución Presupuestaria de Enero a Junio 2015Ela Zambrano
 
Mediciones e instrumentacion_industrial
Mediciones e instrumentacion_industrialMediciones e instrumentacion_industrial
Mediciones e instrumentacion_industrialdie_dex
 
Anexo 3 servicios meteorologico
Anexo 3 servicios meteorologicoAnexo 3 servicios meteorologico
Anexo 3 servicios meteorologicojigocan
 
Estudio hidrologico chillon
Estudio hidrologico chillonEstudio hidrologico chillon
Estudio hidrologico chillonmigueledgar
 
Protocolo De Vigilancia De Calidad Del Aire
Protocolo De Vigilancia De Calidad Del AireProtocolo De Vigilancia De Calidad Del Aire
Protocolo De Vigilancia De Calidad Del AireRecurso Aire
 
693platano labores
693platano labores693platano labores
693platano laboresAlba Perez
 
01-MANUAL-DE-PRO-Y-PROC-HDSP (2).docx
01-MANUAL-DE-PRO-Y-PROC-HDSP (2).docx01-MANUAL-DE-PRO-Y-PROC-HDSP (2).docx
01-MANUAL-DE-PRO-Y-PROC-HDSP (2).docxelcyvelasquez
 
Cimentacion tuberias completo
Cimentacion tuberias completoCimentacion tuberias completo
Cimentacion tuberias completoRamiro Bucheli
 
Codex higiene de los alimentos
Codex higiene de  los alimentosCodex higiene de  los alimentos
Codex higiene de los alimentosmxmrixm
 
Codex higiene de lso alimentos
Codex higiene de  lso alimentosCodex higiene de  lso alimentos
Codex higiene de lso alimentosmxmrixm
 
PDM San José de Chiquitos
PDM San José de ChiquitosPDM San José de Chiquitos
PDM San José de ChiquitosDoctora Edilicia
 

Semelhante a Proyecto conicyt51 94 (20)

Informe de Ejecución Presupuestaria de Enero a Junio 2015
Informe de Ejecución Presupuestaria de Enero a Junio 2015Informe de Ejecución Presupuestaria de Enero a Junio 2015
Informe de Ejecución Presupuestaria de Enero a Junio 2015
 
Mediciones e instrumentacion_industrial
Mediciones e instrumentacion_industrialMediciones e instrumentacion_industrial
Mediciones e instrumentacion_industrial
 
Sintonizacion PID
Sintonizacion PID Sintonizacion PID
Sintonizacion PID
 
Anexo 3 servicios meteorologico
Anexo 3 servicios meteorologicoAnexo 3 servicios meteorologico
Anexo 3 servicios meteorologico
 
Cxp 001s
Cxp 001sCxp 001s
Cxp 001s
 
Estudio hidrologico chillon
Estudio hidrologico chillonEstudio hidrologico chillon
Estudio hidrologico chillon
 
Estudio de Monitoreo de agua y aire en Pedro Vicente Maldonado
Estudio de Monitoreo de agua y aire en Pedro Vicente MaldonadoEstudio de Monitoreo de agua y aire en Pedro Vicente Maldonado
Estudio de Monitoreo de agua y aire en Pedro Vicente Maldonado
 
Cp 001
Cp 001Cp 001
Cp 001
 
Informe modelo
Informe modeloInforme modelo
Informe modelo
 
Protocolo De Vigilancia De Calidad Del Aire
Protocolo De Vigilancia De Calidad Del AireProtocolo De Vigilancia De Calidad Del Aire
Protocolo De Vigilancia De Calidad Del Aire
 
693platano labores
693platano labores693platano labores
693platano labores
 
Manual de oper ptar zina
Manual de oper ptar zinaManual de oper ptar zina
Manual de oper ptar zina
 
Listadoprestaciones
ListadoprestacionesListadoprestaciones
Listadoprestaciones
 
01-MANUAL-DE-PRO-Y-PROC-HDSP (2).docx
01-MANUAL-DE-PRO-Y-PROC-HDSP (2).docx01-MANUAL-DE-PRO-Y-PROC-HDSP (2).docx
01-MANUAL-DE-PRO-Y-PROC-HDSP (2).docx
 
85763244 ut1
85763244 ut185763244 ut1
85763244 ut1
 
PDM Puerto Quijarro
PDM Puerto Quijarro PDM Puerto Quijarro
PDM Puerto Quijarro
 
Cimentacion tuberias completo
Cimentacion tuberias completoCimentacion tuberias completo
Cimentacion tuberias completo
 
Codex higiene de los alimentos
Codex higiene de  los alimentosCodex higiene de  los alimentos
Codex higiene de los alimentos
 
Codex higiene de lso alimentos
Codex higiene de  lso alimentosCodex higiene de  lso alimentos
Codex higiene de lso alimentos
 
PDM San José de Chiquitos
PDM San José de ChiquitosPDM San José de Chiquitos
PDM San José de Chiquitos
 

Mais de Olimpio Solis Caceres (11)

Crear Mapa de Isoyetas.docx
Crear Mapa de Isoyetas.docxCrear Mapa de Isoyetas.docx
Crear Mapa de Isoyetas.docx
 
01440
0144001440
01440
 
Funcion cuadratica
Funcion cuadraticaFuncion cuadratica
Funcion cuadratica
 
Ccatt manual
Ccatt manualCcatt manual
Ccatt manual
 
Angulos de circunferencia y cuadrilateros
Angulos de circunferencia y cuadrilaterosAngulos de circunferencia y cuadrilateros
Angulos de circunferencia y cuadrilateros
 
Manual refirma
Manual refirmaManual refirma
Manual refirma
 
Spring
SpringSpring
Spring
 
Problemas de razones y proporciones
Problemas de razones y proporcionesProblemas de razones y proporciones
Problemas de razones y proporciones
 
Exposicion sgcd senamhi eci 2 v 2 013
Exposicion  sgcd senamhi  eci 2 v 2 013Exposicion  sgcd senamhi  eci 2 v 2 013
Exposicion sgcd senamhi eci 2 v 2 013
 
Scheel et al_2011_trmm_andes
Scheel et al_2011_trmm_andesScheel et al_2011_trmm_andes
Scheel et al_2011_trmm_andes
 
Como elaborar un perfil y un cv por competencias
Como elaborar un perfil y un cv por competenciasComo elaborar un perfil y un cv por competencias
Como elaborar un perfil y un cv por competencias
 

Último

2. Cristaloquimica. ingenieria geologica
2. Cristaloquimica. ingenieria geologica2. Cristaloquimica. ingenieria geologica
2. Cristaloquimica. ingenieria geologicaJUDITHYEMELINHUARIPA
 
Elaboración de la estructura del ADN y ARN en papel.pdf
Elaboración de la estructura del ADN y ARN en papel.pdfElaboración de la estructura del ADN y ARN en papel.pdf
Elaboración de la estructura del ADN y ARN en papel.pdfKEVINYOICIAQUINOSORI
 
Desigualdades e inecuaciones-convertido.pdf
Desigualdades e inecuaciones-convertido.pdfDesigualdades e inecuaciones-convertido.pdf
Desigualdades e inecuaciones-convertido.pdfRonaldLozano11
 
DIAPOSITIVAS DE SEGURIDAD Y SALUD EN EL TRABAJO
DIAPOSITIVAS DE SEGURIDAD Y SALUD EN EL TRABAJODIAPOSITIVAS DE SEGURIDAD Y SALUD EN EL TRABAJO
DIAPOSITIVAS DE SEGURIDAD Y SALUD EN EL TRABAJOJimyAMoran
 
JM HIDROGENO VERDE- OXI-HIDROGENO en calderas - julio 17 del 2023.pdf
JM HIDROGENO VERDE- OXI-HIDROGENO en calderas - julio 17 del 2023.pdfJM HIDROGENO VERDE- OXI-HIDROGENO en calderas - julio 17 del 2023.pdf
JM HIDROGENO VERDE- OXI-HIDROGENO en calderas - julio 17 del 2023.pdfMiguelArango21
 
UNIDAD II 2.pdf ingenieria civil lima upn
UNIDAD  II 2.pdf ingenieria civil lima upnUNIDAD  II 2.pdf ingenieria civil lima upn
UNIDAD II 2.pdf ingenieria civil lima upnDayronCernaYupanquiy
 
PRESENTACION NOM-009-STPS-TRABAJOS EN ALTURAS
PRESENTACION NOM-009-STPS-TRABAJOS EN ALTURASPRESENTACION NOM-009-STPS-TRABAJOS EN ALTURAS
PRESENTACION NOM-009-STPS-TRABAJOS EN ALTURASejcelisgiron
 
TIPOS DE SOPORTES - CLASIFICACION IG.pdf
TIPOS DE SOPORTES - CLASIFICACION IG.pdfTIPOS DE SOPORTES - CLASIFICACION IG.pdf
TIPOS DE SOPORTES - CLASIFICACION IG.pdfssuser202b79
 
UNIDAD 3 ELECTRODOS.pptx para biopotenciales
UNIDAD 3 ELECTRODOS.pptx para biopotencialesUNIDAD 3 ELECTRODOS.pptx para biopotenciales
UNIDAD 3 ELECTRODOS.pptx para biopotencialesElianaCceresTorrico
 
PERFORACIÓN Y VOLADURA EN MINERÍA APLICADO
PERFORACIÓN Y VOLADURA EN MINERÍA APLICADOPERFORACIÓN Y VOLADURA EN MINERÍA APLICADO
PERFORACIÓN Y VOLADURA EN MINERÍA APLICADOFritz Rebaza Latoche
 
analisis tecnologico( diagnostico tecnologico, herramienta de toma de deciones)
analisis tecnologico( diagnostico tecnologico, herramienta de toma de deciones)analisis tecnologico( diagnostico tecnologico, herramienta de toma de deciones)
analisis tecnologico( diagnostico tecnologico, herramienta de toma de deciones)Ricardo705519
 
APORTES A LA ARQUITECTURA DE WALTER GROPIUS Y FRANK LLOYD WRIGHT
APORTES A LA ARQUITECTURA DE WALTER GROPIUS Y FRANK LLOYD WRIGHTAPORTES A LA ARQUITECTURA DE WALTER GROPIUS Y FRANK LLOYD WRIGHT
APORTES A LA ARQUITECTURA DE WALTER GROPIUS Y FRANK LLOYD WRIGHTElisaLen4
 
Sesion 6 _ Curso Integrador II_TSZVQJ.pdf
Sesion 6 _ Curso Integrador II_TSZVQJ.pdfSesion 6 _ Curso Integrador II_TSZVQJ.pdf
Sesion 6 _ Curso Integrador II_TSZVQJ.pdfOmarPadillaGarcia
 
Resistencia-a-los-antimicrobianos--laboratorio-al-cuidado-del-paciente_Marcel...
Resistencia-a-los-antimicrobianos--laboratorio-al-cuidado-del-paciente_Marcel...Resistencia-a-los-antimicrobianos--laboratorio-al-cuidado-del-paciente_Marcel...
Resistencia-a-los-antimicrobianos--laboratorio-al-cuidado-del-paciente_Marcel...GuillermoRodriguez239462
 
INSUMOS QUIMICOS Y BIENES FISCALIZADOS POR LA SUNAT
INSUMOS QUIMICOS Y BIENES FISCALIZADOS POR LA SUNATINSUMOS QUIMICOS Y BIENES FISCALIZADOS POR LA SUNAT
INSUMOS QUIMICOS Y BIENES FISCALIZADOS POR LA SUNATevercoyla
 
sigof.sisfoh.gob.pe_consulta_hogares_ULE_busqueda_print.php (1).pptx
sigof.sisfoh.gob.pe_consulta_hogares_ULE_busqueda_print.php (1).pptxsigof.sisfoh.gob.pe_consulta_hogares_ULE_busqueda_print.php (1).pptx
sigof.sisfoh.gob.pe_consulta_hogares_ULE_busqueda_print.php (1).pptxsutti0808
 
ANALISIS Y DISEÑO POR VIENTO, DE EDIFICIOS ALTOS, SEGUN ASCE-2016, LAURA RAMIREZ
ANALISIS Y DISEÑO POR VIENTO, DE EDIFICIOS ALTOS, SEGUN ASCE-2016, LAURA RAMIREZANALISIS Y DISEÑO POR VIENTO, DE EDIFICIOS ALTOS, SEGUN ASCE-2016, LAURA RAMIREZ
ANALISIS Y DISEÑO POR VIENTO, DE EDIFICIOS ALTOS, SEGUN ASCE-2016, LAURA RAMIREZgustavoiashalom
 
LA APLICACIÓN DE LAS PROPIEDADES TEXTUALES A LOS TEXTOS.pdf
LA APLICACIÓN DE LAS PROPIEDADES TEXTUALES A LOS TEXTOS.pdfLA APLICACIÓN DE LAS PROPIEDADES TEXTUALES A LOS TEXTOS.pdf
LA APLICACIÓN DE LAS PROPIEDADES TEXTUALES A LOS TEXTOS.pdfbcondort
 
Aportes a la Arquitectura de Le Corbusier y Mies Van der Rohe
Aportes a la Arquitectura de Le Corbusier y Mies Van der RoheAportes a la Arquitectura de Le Corbusier y Mies Van der Rohe
Aportes a la Arquitectura de Le Corbusier y Mies Van der RoheElisaLen4
 
Reporte de simulación de flujo del agua en un volumen de control MNVA.pdf
Reporte de simulación de flujo del agua en un volumen de control MNVA.pdfReporte de simulación de flujo del agua en un volumen de control MNVA.pdf
Reporte de simulación de flujo del agua en un volumen de control MNVA.pdfMikkaelNicolae
 

Último (20)

2. Cristaloquimica. ingenieria geologica
2. Cristaloquimica. ingenieria geologica2. Cristaloquimica. ingenieria geologica
2. Cristaloquimica. ingenieria geologica
 
Elaboración de la estructura del ADN y ARN en papel.pdf
Elaboración de la estructura del ADN y ARN en papel.pdfElaboración de la estructura del ADN y ARN en papel.pdf
Elaboración de la estructura del ADN y ARN en papel.pdf
 
Desigualdades e inecuaciones-convertido.pdf
Desigualdades e inecuaciones-convertido.pdfDesigualdades e inecuaciones-convertido.pdf
Desigualdades e inecuaciones-convertido.pdf
 
DIAPOSITIVAS DE SEGURIDAD Y SALUD EN EL TRABAJO
DIAPOSITIVAS DE SEGURIDAD Y SALUD EN EL TRABAJODIAPOSITIVAS DE SEGURIDAD Y SALUD EN EL TRABAJO
DIAPOSITIVAS DE SEGURIDAD Y SALUD EN EL TRABAJO
 
JM HIDROGENO VERDE- OXI-HIDROGENO en calderas - julio 17 del 2023.pdf
JM HIDROGENO VERDE- OXI-HIDROGENO en calderas - julio 17 del 2023.pdfJM HIDROGENO VERDE- OXI-HIDROGENO en calderas - julio 17 del 2023.pdf
JM HIDROGENO VERDE- OXI-HIDROGENO en calderas - julio 17 del 2023.pdf
 
UNIDAD II 2.pdf ingenieria civil lima upn
UNIDAD  II 2.pdf ingenieria civil lima upnUNIDAD  II 2.pdf ingenieria civil lima upn
UNIDAD II 2.pdf ingenieria civil lima upn
 
PRESENTACION NOM-009-STPS-TRABAJOS EN ALTURAS
PRESENTACION NOM-009-STPS-TRABAJOS EN ALTURASPRESENTACION NOM-009-STPS-TRABAJOS EN ALTURAS
PRESENTACION NOM-009-STPS-TRABAJOS EN ALTURAS
 
TIPOS DE SOPORTES - CLASIFICACION IG.pdf
TIPOS DE SOPORTES - CLASIFICACION IG.pdfTIPOS DE SOPORTES - CLASIFICACION IG.pdf
TIPOS DE SOPORTES - CLASIFICACION IG.pdf
 
UNIDAD 3 ELECTRODOS.pptx para biopotenciales
UNIDAD 3 ELECTRODOS.pptx para biopotencialesUNIDAD 3 ELECTRODOS.pptx para biopotenciales
UNIDAD 3 ELECTRODOS.pptx para biopotenciales
 
PERFORACIÓN Y VOLADURA EN MINERÍA APLICADO
PERFORACIÓN Y VOLADURA EN MINERÍA APLICADOPERFORACIÓN Y VOLADURA EN MINERÍA APLICADO
PERFORACIÓN Y VOLADURA EN MINERÍA APLICADO
 
analisis tecnologico( diagnostico tecnologico, herramienta de toma de deciones)
analisis tecnologico( diagnostico tecnologico, herramienta de toma de deciones)analisis tecnologico( diagnostico tecnologico, herramienta de toma de deciones)
analisis tecnologico( diagnostico tecnologico, herramienta de toma de deciones)
 
APORTES A LA ARQUITECTURA DE WALTER GROPIUS Y FRANK LLOYD WRIGHT
APORTES A LA ARQUITECTURA DE WALTER GROPIUS Y FRANK LLOYD WRIGHTAPORTES A LA ARQUITECTURA DE WALTER GROPIUS Y FRANK LLOYD WRIGHT
APORTES A LA ARQUITECTURA DE WALTER GROPIUS Y FRANK LLOYD WRIGHT
 
Sesion 6 _ Curso Integrador II_TSZVQJ.pdf
Sesion 6 _ Curso Integrador II_TSZVQJ.pdfSesion 6 _ Curso Integrador II_TSZVQJ.pdf
Sesion 6 _ Curso Integrador II_TSZVQJ.pdf
 
Resistencia-a-los-antimicrobianos--laboratorio-al-cuidado-del-paciente_Marcel...
Resistencia-a-los-antimicrobianos--laboratorio-al-cuidado-del-paciente_Marcel...Resistencia-a-los-antimicrobianos--laboratorio-al-cuidado-del-paciente_Marcel...
Resistencia-a-los-antimicrobianos--laboratorio-al-cuidado-del-paciente_Marcel...
 
INSUMOS QUIMICOS Y BIENES FISCALIZADOS POR LA SUNAT
INSUMOS QUIMICOS Y BIENES FISCALIZADOS POR LA SUNATINSUMOS QUIMICOS Y BIENES FISCALIZADOS POR LA SUNAT
INSUMOS QUIMICOS Y BIENES FISCALIZADOS POR LA SUNAT
 
sigof.sisfoh.gob.pe_consulta_hogares_ULE_busqueda_print.php (1).pptx
sigof.sisfoh.gob.pe_consulta_hogares_ULE_busqueda_print.php (1).pptxsigof.sisfoh.gob.pe_consulta_hogares_ULE_busqueda_print.php (1).pptx
sigof.sisfoh.gob.pe_consulta_hogares_ULE_busqueda_print.php (1).pptx
 
ANALISIS Y DISEÑO POR VIENTO, DE EDIFICIOS ALTOS, SEGUN ASCE-2016, LAURA RAMIREZ
ANALISIS Y DISEÑO POR VIENTO, DE EDIFICIOS ALTOS, SEGUN ASCE-2016, LAURA RAMIREZANALISIS Y DISEÑO POR VIENTO, DE EDIFICIOS ALTOS, SEGUN ASCE-2016, LAURA RAMIREZ
ANALISIS Y DISEÑO POR VIENTO, DE EDIFICIOS ALTOS, SEGUN ASCE-2016, LAURA RAMIREZ
 
LA APLICACIÓN DE LAS PROPIEDADES TEXTUALES A LOS TEXTOS.pdf
LA APLICACIÓN DE LAS PROPIEDADES TEXTUALES A LOS TEXTOS.pdfLA APLICACIÓN DE LAS PROPIEDADES TEXTUALES A LOS TEXTOS.pdf
LA APLICACIÓN DE LAS PROPIEDADES TEXTUALES A LOS TEXTOS.pdf
 
Aportes a la Arquitectura de Le Corbusier y Mies Van der Rohe
Aportes a la Arquitectura de Le Corbusier y Mies Van der RoheAportes a la Arquitectura de Le Corbusier y Mies Van der Rohe
Aportes a la Arquitectura de Le Corbusier y Mies Van der Rohe
 
Reporte de simulación de flujo del agua en un volumen de control MNVA.pdf
Reporte de simulación de flujo del agua en un volumen de control MNVA.pdfReporte de simulación de flujo del agua en un volumen de control MNVA.pdf
Reporte de simulación de flujo del agua en un volumen de control MNVA.pdf
 

Proyecto conicyt51 94

  • 1. Proyecto CONICYT/BID 51/94 Desarrollo de metodologías orientadas al control de calidad e imputación de datos faltantes en parámetros meteorológicos Informe final Julio 1999
  • 2. ii INDICE 1. RESUMEN.................................................................................................................................................................................... 1 1.1- RESUMEN EJECUTIVO................................................................................................................................................................... 1 1.2- RESUMEN TÉCNICO ...................................................................................................................................................................... 2 1.3- RECONOCIMIENTOS Y AGRADECIMIENTOS................................................................................................................................... 3 2. INTRODUCCIÓN ...................................................................................................................................................................... 4 2.1- PLANTEO DEL PROBLEMA............................................................................................................................................................ 4 2.2- ANTECEDENTES DEL PROBLEMA ................................................................................................................................................. 6 3. DESCRIPCIÓN DE LOS DATOS DISPONIBLES............................................................................................................... 10 3.1. CARACTERÍSTICAS DEL BANCO DE DATOS DE LLUVIA DIARIA...................................................................... 10 3.1.1- CARACTERÍSTICAS DE LA CUENCA ESTUDIADA...................................................................................................................... 10 3.1.1.1 - Introducción.................................................................................................................................................................. 10 3.1.1.2 - Descripción Climática .................................................................................................................................................. 10 3.1.1.3 - Información Meteorológica. ........................................................................................................................................ 11 3.1.1.4 - Factores climáticos....................................................................................................................................................... 12 3.1.1.5 - Formación de Precipitaciones...................................................................................................................................... 13 3.1.2 - LA LLUVIA EN LA CUENCA: ESTRUCTURA Y ESTACIONALIDAD............................................................................................. 13 3.1.2.1 - Aproximaciones metodológicas para determinar estructuras...................................................................................... 13 3.1.2.2 - Estacionalidad............................................................................................................................................................... 18 3.2. CARACTERÍSTICAS DEL BANCO DE DATOS DE VIENTO HORARIO................................................................. 22 3.2.1- CARACTERÍSTICAS DE LA REGIÓN ESTUDIADA........................................................................................................................ 22 3.2.1.1 - Introducción.................................................................................................................................................................. 22 3.2.1.2 - Descripción Climática .................................................................................................................................................. 22 3.2.1.3 - Información Meteorológica. ........................................................................................................................................ 22 3.2.1.4 - Régimen Eólico. ............................................................................................................................................................ 23 3.3 - CARACTERÍSTICAS DEL BANCO DE DATOS DE NIVELES .................................................................................. 25 3.3.1 - CARACTERÍSTICAS DE LA CUENCA ESTUDIADA................................................................................................... 25 .1.1 - Introducción ....................................................................................................................................................................... 25 .1.2 - Descripción Climática ....................................................................................................................................................... 25 .1.3 - Información Hidrológica. ................................................................................................................................................. 25 .1.4 - Régimen hidrológico.......................................................................................................................................................... 26 3.4. CARACTERÍSTICAS DEL BANCO DE DATOS DE EVAPORACIÓN DIARIA....................................................... 27 3.4.1- CARACTERÍSTICAS DE LA REGIÓN ESTUDIADA........................................................................................................................ 28 3.4.1.1 - Introducción.................................................................................................................................................................. 28 3.4.1.2 - Descripción Climática .................................................................................................................................................. 28 3.4.1.3 - Información Meteorológica. ........................................................................................................................................ 28 3.4.1.4 - Régimen de Evaporación. ............................................................................................................................................. 29 4. IMPUTACIÓN DE AUSENCIAS............................................................................................................................................ 31 4.1 - MÉTODOS EN LOS QUE SE TIENE EN CUENTA ÚNICAMENTE LA INFORMACIÓN HISTÓRICA........................................................ 31 4.1.1 - Por interpolación temporal entre registros:.................................................................................................................... 31 4.1.2 - Promedio juliano: ............................................................................................................................................................ 31 4.1.3 - Promedio global de la estación: ...................................................................................................................................... 32 4.1.4 - Valor aleatorio sorteado uniformemente entre los registros disponibles de la estación:............................................... 32 4.1.5 - Valor modal de la serie:................................................................................................................................................... 32 4.2- MÉTODOS EN LOS QUE SE TIENE EN CUENTA ÚNICAMENTE LA INFORMACIÓN REGIONAL ......................................................... 33 4.2.1 - Imputación dinámica (“Hot - Deck”):............................................................................................................................. 33 4.2.2 - Vecino geográficamente más cercano:............................................................................................................................ 33 4.2.3- Vecino más cercano por Criterio de Expertos: ................................................................................................................ 33 4.2.4 - Promedio espacial correspondiente al día de la ausencia:............................................................................................. 34 4.2.5 - Promedio espacial ponderado correspondiente al día de la ausencia: .......................................................................... 35
  • 3. iii 4.2.6 - Métodos basados en la pseudo-distancia de Kulback-Leibler:....................................................................................... 35 4.2.7 - Mínimos Cuadrados:........................................................................................................................................................ 37 4.2.8 - Mínimo Error Promedio:................................................................................................................................................. 38 4.2.9 - Mínimo Error Promedio Robusto:................................................................................................................................... 38 4.2.10 - Mínimo Percentil 95: ..................................................................................................................................................... 38 4.2.11 - Métodos robustos de ajuste: Least Median of Squares (LMS):..................................................................................... 39 4.2.12 - Métodos robustos de ajuste: Least Trimmed Squares (LTS):........................................................................................ 39 4.2.13 - Métodos de imputación basados en redes neuronales: ................................................................................................. 39 4.2.14 - Funciones Climatológicas de Interpolación (GANDIN):.............................................................................................. 43 4.3- MÉTODOS EN LOS QUE SE TIENE EN CUENTA LA INFORMACIÓN REGIONAL E HISTÓRICA........................................................... 50 4.3.1 - Promedio ponderado arbitrariamente:............................................................................................................................ 50 4.3.2 - Condicionamiento según el estado del día anterior:...................................................................................................... 51 4.3.3 - Interpolación temporal de coeficientes principales:........................................................................................................ 52 5. CONTROL DE CALIDAD....................................................................................................................................................... 54 5.1- CONSIDERACIONES GENERALES................................................................................................................................................ 54 5.1.1 - Necesidad de una depuración progresiva........................................................................................................................ 54 5.1.2 - Metodología y criterios para la comparación de los distintos métodos aplicados. ............................................... 54 5.2- MÉTODOS UTILIZADOS PARA LA DETECCIÓN DE ERRORES......................................................................................................... 58 5.2.1 - Breve síntesis del Análisis de Componentes Principales (ACP) ..................................................................................... 61 5.2.2 - Datos marginales en la distribución univariada ............................................................................................................. 61 5.1.3 - Datos marginales en la distribución multivariada .......................................................................................................... 62 5.2.4 - Método de Hawkins.......................................................................................................................................................... 63 5.2.5 - Otros métodos basados en la distancia de Mahalanobis................................................................................................. 64 5.2.5.1 - Covarianza de Determinante Mínimo (MCD) y Elipsoide de Volumen Mínimo (MVE).............................................................66 5.2.5.2 - Estimador-S y Estimador-M de T(X) y C(X).................................................................................................................................66 5.2.5.3 - Método de Hadi (1994)...................................................................................................................................................................67 5.2.6 - Método de las redes neuronales....................................................................................................................................... 69 5.2.7 - Método de la verosimilitud de la validación cruzada...................................................................................................... 70 5.2.8 - Método del gradiente admisible....................................................................................................................................... 71 5.2.9 - Método de la curvatura admisible ................................................................................................................................... 72 5.2.10 - Método del producto de gradientes admisibles ............................................................................................................. 72 5.2.11 - Modelado de la distribución (sólo lluvia)...................................................................................................................... 72 6 - RESULTADOS OBTENIDOS................................................................................................................................................ 77 6.1 LLUVIA DIARIA............................................................................................................................................................................ 77 6.1.1 Generación de ausencias.................................................................................................................................................... 77 6.1.2 Imputación de valores ausentes.......................................................................................................................................... 78 6.1.3 Generación de errores aleatorios ...................................................................................................................................... 82 6.1.4 Detección de valores erróneos........................................................................................................................................... 82 6.2 VIENTO DE SUPERFICIE HORARIO ................................................................................................................................................ 89 6.2.1 Generación de ausencias.................................................................................................................................................... 89 6.2.2 Imputación de valores ausentes: caso de las componentes ............................................................................................... 90 6.2.3 Imputación de valores ausentes: comparación datos originales vs. componentes............................................................ 90 6.2.4 Generación de errores: caso de las componentes ............................................................................................................. 94 6.2.5 Detección de valores erróneos: caso de las componentes................................................................................................. 95 6.3 NIVELES DIARIOS ........................................................................................................................................................................ 99 6.3.1 Imputación de valores ausentes........................................................................................................................................ 100 6.3.2 Generación de errores aleatorios .................................................................................................................................... 101 6.3.3 Detección de valores erróneos......................................................................................................................................... 103 6.4 EVAPOTRANSPIRACIÓN ............................................................................................................................................................. 104 6.4.1 Imputación de valores ausentes........................................................................................................................................ 104 6.4.2 Generación de errores aleatorios .................................................................................................................................... 106 6.4.3 Detección de valores erróneos......................................................................................................................................... 106 6.5 TRATAMIENTO DE DATOS DE NIVEL MEDIANTE MODELOS DE SERIES TEMPORALES................................. 108 6.5.1-Transformación estacionaria........................................................................................................................................... 108 6.5.2- Modelo ARIMA estimado................................................................................................................................................ 108 6.5.3- Modelo ARCH estimado ................................................................................................................................................. 108 7- REFERENCIAS....................................................................................................................................................................... 110
  • 4. iv 8 - DOCUMENTOS Y PUBLICACIONES ANEXAS............................................................................................................. 113 8.1- ANÁLISIS DE LA SERIE TEMPORAL DE NIVELES 8.2- LOOKING INSIDE THE ANN "BLACK BOX"... (1999) 8.3- A NEW TECHNIQUE FOR IMPUTATION OF MULTIVARIATE TIME SERIES... (1998) 8.4- AN ERROR MODEL FOR DAILY RAIN RECORDS... (1998) 8.5- QUALITY OF GEOGRAPHIC DATA: DETECTION OF OUTLIERS... (1997) 8.6- APPLICATION OF ANN TO THE PREDICTION OF MISSING DAILY... (1997) 8.7- COMPARACIÓN DE METODOLOGÍAS PARA LA IMPUTACIÓN DE LA LLUVIA... (1996) 8.8- ANÁLISE DE UMA METODOLOGIA PARA O RECHEIO... (1996) 8.9- ESTACIONALIDAD Y MODELIZACIÓN PROBABILÍSTICA DE LA LLUVIA DIARIA... (1995) 9 - OTROS ANEXOS 9.1- DATOS DEL PROYECTO 9.2- METAS PREVISTAS Y LOGRADAS: CUMPLIMIENTO DEL PLAN DE TRABAJO 9.3- ACTIVIDADES DESARROLLADAS SEGÚN LAS ENUMERADAS EN EL PROYECTO) 9.4- FUNDAMENTACIÓN DE CUALQUIER DESVIACIÓN DE OBJETIVOS 9.5- RECURSOS MATERIALES 9.6 - RECURSOS HUMANOS 9.6.1 Integración original del equipo de trabajo 9.6.2 Capacidad generada 9.6.3 Clasificar el equipo de investigación en alguna de las siguientes categorías, y fundamentarlo 9.6.4 Si corresponde, indicar interrelacionamiento o convenios institucionales 9.7- IMPACTO DE LOS RESULTADOS OBTENIDOS A NIVEL DE: 9.7.1 Publicaciones 9.7.2 Convenios, asesoramientos, etc. 9.7.3 Definir los resultados obtenidos según su alcance a nivel local, regional o internacional 9.7.4 Clasificarlos como importantes en:
  • 5. 1 1. RESUMEN 1.1- Resumen ejecutivo Se presentan a continuación los resultados obtenidos en el marco del proyecto BID/CONICYT 51/94. Los mismos se pueden sintetizar en: 1. la construcción de las bases de datos conteniendo todos los datos pluviométricos de UTE y de la DNM correspondientes respectivamente a la cuenca del Río Negro y a la cuenca del Santa Lucía, para un período de 30 años; los datos de viento de superficie para el período 1979- 1991, así como los registros de escalas en tres puntos de la cuenca del Río Negro, para el período 1975-1991. 2. la realización de una depuración primaria de dichos datos, cotejándolos manualmente con los de las planillas de la DNM y de la UTE. 3. diversos análisis estadísticos de los datos disponibles, que se detallarán a posteriori. 4. la implementación de más de una treintena de alternativas metodológicas para imputar valores ausentes, algunas tomadas de la literatura y otras producto de los trabajos realizados. 5. la realización de simulaciones comparativas, calificando a los métodos por diferentes criterios de éxito (error medio cuadrático, error promedio, etc.) 6. la implementación de numerosos métodos conocidos, y desarrollo de otros nuevos, para la detección de errores (de digitación) en los datos. 7. la realización de estudios comparativos por la vía de métodos de Monte Carlo para la comparación del desempeño relativos de los métodos utilizados para la detección de errores. Se diseñaron estadísticos originales que permiten clasificar un método como mejor que otro para los bancos de datos estudiados. 8. se realizó el estudio de la “estructura” general de la lluvia en la cuenca y por estación en el período de 30 años. Para ello se utilizan por un lado técnicas de análisis multiway y por otro criterios de relaciones entre la distribución de lluvia de las distintas estaciones. Se buscan relaciones de tipo lineal y no lineal. Basada en la unidad mes, debido a las condicionantes de la Base de Datos considerada se llega a una “estacionalidad” por estación y para la cuenca. Se analiza además la evolución, cuando es posible, en el período considerado. 9. la construcción de un modelo probabilístico basado en la información de distribución de lluvia del día anterior y la de otras estaciones el mismo día, para las diferentes estructuras estacionales detectadas en el punto anterior. Con él se obtendrán distribuciones condicionadas de lluvia para cada estación pluviométrica y para la cuenca en su conjunto para la estructura estacional detectada en el punto anterior. El modelo así obtenido brindará información en términos probabilísticos que permitirá mejorar la eficiencia de los indicadores y además responderá en modo adecuado a demandas de información histórica sobre la probabilidad de que haya llovido y cuánto en una zona determinada, fuera de las estaciones pluviométricas o meteorológicas. 10.como indicadores de éxito del proyecto, se deben mencionar los varios artículos presentados y aceptados en congresos internacionales, así como una tesis de doctorado.
  • 6. 2 1.2- Resumen técnico El proyecto tenía varios objetivos que se han cumplido apropiadamente. En lo que respecta a la imputación de valores ausentes, se ensayaron un cúmulo de alternativas tomadas de la literatura, o desarrolladas específicamente para este trabajo. Ello hace de este documento una referencia muy importante en términos del estado del arte en el tema, y para las variables consideradas. Los métodos fueron aplicados simultáneamente a un mismo banco de datos, en el que se le eliminó temporalmente una fracción de la población, y los valores imputados fueron comparados contra ellos. La bondad de la imputación fue evaluada con al menos cinco estadísticos: error cuadrático medio, error promedio, y tres percentiles de la distribución del error absoluto tomados al 75, 85 y 95%. Ello permitió manejar apropiadamente el hecho que ningún banco de datos puede asumirse libre de errores, y los últimos tres estadísticos son inmunes a ellos. En el experimento fueron analizados métodos tradicionales, en los que típicamente el valor ausente es sustituído por una combinación lineal de los datos presentes. También fueron considerados métodos no lineales de varios tipos, poco tratados en la literatura meteorológica, que permitieron ilustrar el buen desempeño de las redes neuronales artificiales. Se estima que esto es un aporte significativo del proyecto. Para cada parámetro hidrometeorológico considerado, el orden de precedencia entre los métodos dependió del estadístico seleccionado para la medida de bondad de la imputación. Los resultados fueron claros: entre los mejores métodos siempre hubo una red neuronal, que tiende a producir resultados más robustos (i.e. con mejores percentiles) que los otros métodos, a expensas de un mayor error cuadrático medio. Dependiendo del problema, otros métodos también costosos funcionaron bien, como ser los métodos lineales que minimizan los percentiles o la suma parcial de errores al cuadrado. Considerando únicamente los métodos más simples, se debe mencionar el buen desempeño de aquellos derivados de la Interpolación Objetiva, y los vinculados al Análisis de Componentes Principales. Un aspecto metodológico que no fue suficientemente tratado es que en la práctica, el usuario debe imputar un único banco de datos. Por ello, hay que tomar con cuidado el orden de precedencia que se establece, ya que el mismo se deriva de una simulación de Monte Carlo. Que los resultados que se presentan indiquen que el método A es mejor que el método B, debe interpretarse como que, en valor esperado, A se comportará mejor que B. Ello no obsta a que, en un caso concreto, el orden no sea el mostrado por la mayoría de las simulaciones. Si este comentario se analiza a la escala de datos individuales, no puede concluírse que para imputar una ausencia en concreto, el método A sea mejor que el B. Ello puede estar afectado en gran medida por los datos disponibles, etc. por lo que debería ser considerada la posibilidad de asociar al valor imputado algún indicador de confiabilidad. En este aspecto, las redes neuronales vuelven a mostrarse mejor posicionadas, ya que como se presentará luego, las mismas pueden servir simultáneamente como fórmulas de regresión y como detectores de casos sospechosos, propiedad que no es compartida con otros métodos, que eventualmente (Rousseeuw, 1991) deben combinarse con métodos específicos de detección de errores.
  • 7. 3 El otro objetivo del proyecto era la comparación de métodos de detección de errores (también denominados outliers en la literatura estadística). A esos efectos, no sólo se relevó la literatura existente y se implementaron la mayor parte de los métodos allí descritos, sino que fue necesario proponer métricas para calificar un método como mejor que otro. Esto fue otro aporte original del proyecto. Nuevamente los métodos (ahora originales) asociados a las redes neuronales tuvieron un excelente desempeño. Entre los métodos más económicos, se señala el propuesto por Hawkins, 1974, y el propuesto por López, 1994a, que fueron además los aplicados en etapas tempranas del proyecto para depurar el banco de datos de lluvia y de viento de superficie, con buenos resultados. Los resultados señalados permiten concluir que las redes neuronales son una herramienta válida para encarar tanto la imputación como la detección de errores, con la ventaja de ser aplicables simultáneamente a ambos problemas sin más cálculos. En contrapartida, con las técnicas disponibles al momento de iniciarse la investigación, las redes deben ser tentativamente diseñadas en forma arbitraria, y además los algoritmos de optimización disponibles quedaban fácilmente atrapados en óptimos locales. 1.3- Reconocimientos y agradecimientos Han colaborado directamente en este proyecto los siguientes investigadores (orden alfabético): Bidegain, Mario Biurrun, Jorge Blanco, Jorge Camaño, Gabriel De los Santos, Hugo Fontana, Héctor Grosskoff, Rosa Gutiérrez, Celina López, Carlos Sabiguero, Ariel Los coordinadores han sido: por la Dirección Nacional de Meteorología M.Sc. Mario Bidegain, y por el Instituto de Estadística de la Facultad de Ciencias Económicas el Dr. Jorge Blanco. El responsable científico del proyecto fue el Dr. Ing. Carlos López. Se agradece la colaboración de UTE y del resto del personal de la DNM para el acceso en diversas etapas del proyecto a los registros originales en papel. Además de los equipos adquiridos por el proyecto, se hizo uso extensivo de las facilidades disponibles en nuestros respectivos departamentos, y otras originadas en el marco de los proyectos CONICYT/BID 180/92 e INCO- DC 87/96, así como de equipos del departamento de Geoinformática del Royal Institute of Technology, Estocolmo, Suecia.
  • 8. 4 2. INTRODUCCIÓN 2.1- Planteo del Problema El proyecto tiene como objetivo el estudio de diferentes técnicas aplicables fundamentalmente (pero no en forma excluyente) a datos meteorológicos, para resolver los problemas principales que se detallan a continuación: a) detectar errores aleatorios en un banco de datos existente b) señalar valores sospechosos en el momento de su ingreso al banco de datos c) imputar o asignar valores para los datos ausentes, tanto en tiempo real como en el propio banco (entendiéndose como tiempo real, la ejecución de las tareas mencionadas en lapsos comparables con el insumido en el ingreso de la información). En la mayoría de los bancos de datos existentes en nuestro país no hay implementados mecanismos de control de la calidad de los datos o bien sólo existen controles de validación por rango: los datos son aceptados si están dentro de un intervalo prefijado. A nivel internacional, únicamente en los grandes centros de asimilación de datos se aplican controles más sofisticados. La corrección de los errores de la base en momento de procederse a su utilización, o bien ocasiona costos adicionales de depuración de los mismos cada vez que se van a procesar los datos (estimación de estadísticas descriptivas, elaboración de modelos, proyecciones, predicciones, etc.), o bien incorporan errores quizá importantes en los resultados del procesamiento. En efecto, en toda operación de medida existen inevitablemente errores, tanto sistemáticos como aleatorios. Asimismo, los registros tomados usualmente son posteriormente transcritos a un banco de datos antes de su uso, por lo que se agregan nuevas formas de error, generadas en tiempo de ingreso o proceso de la información. El orden de magnitud de los errores depende de muchos parámetros, y de la propia variable. Por ejemplo, como caso extremo, Slanina et. al., 1990, da cuenta que en la medida de trazadores de contaminantes los instrumentos suelen equivocarse por exceso, y los errores pueden llegar a ser del 100 al 500%, para las trazas de cadmio, zinc, arsénico, etc. Otro aspecto del problema es el efecto secundario que pueden tener esos errores, cuando por ejemplo son usados en la toma de decisiones. Según Husain, 1989, "...el fracaso de muchos proyectos de abultado presupuesto puede ser atribuído en parte, a la imprecisión de la información hidrológica manejada...". Sin necesidad de hablar de fracaso, el diseño de los diques de una presa, de los muelles de un puerto o de la operación diaria del sistema eléctrico nacional, descansa en mayor o menor medida, en datos recogidos en forma rutinaria por organismos especializados.
  • 9. 5 El efecto por errores en los datos sobre los costos iniciales, o sobre los costos operativos, puede ser muy significativo, según los casos. Como ejemplos, la decisión de verter agua en una represa, o el sobredimensionado de una boya petrolera (Reolón, 1992), le pueden costar a la empresa o al país cantidades que no son fácilmente estimables. En otras aplicaciones se intenta modelar matemáticamente algún fenómeno. Una etapa obligatoria es la de calibración o ajuste de parámetros empíricos del mismo. Esta actividad requiere atención a potenciales errores que se puedan deslizar en el proceso, los que deberían ser detectados tempranamente. Sin embargo, en muchos casos resulta imposible en la práctica analizar manualmente una secuencia de miles de n-uplas de datos. Por ello es usual que en estos casos se definan y calculen a partir de los mismos variables resumen como la media, valor máximo, valores extremos con período de retorno dado, desviación estándar, sesgo, etc. para realizar un manejo más simple de los mismos. El trabajar con valores promedio oculta en el conjunto, tanto aquellos eventos nítidamente erróneos como otros más sutiles, sesgando el valor de los estimadores en forma descontrolada. En el caso de los fenómenos que responden a leyes lineales, tales estadísticos pueden no ser afectados significativamente por errores pequeños. Sin embargo, muchos fenómenos interesantes e importantes no caen dentro de esa categoría, y modelar o calcular las n-uplas de datos con errores puede implicar sensibles diferencias en los resultados. Otra categoría importante es la de aquellos estudios que analizan la evolución temporal de los parámetros. En estos casos, el efecto de un error aislado persiste durante cierto tiempo, perturbando quizá significativamente los resultados en tal intervalo. Por ejemplo al estudiar la dispersión de contaminantes en la atmósfera un error aislado en la dirección del viento, traslada el campo de contaminantes afectando de forma irreversible cualquier cálculo al menos durante algún tiempo hasta que se renueve la masa de aire. Otro caso más grave es el de un error en el cálculo del caudal de un río que aporta a una represa; esta última que oficia de acumulador no puede eliminar de forma alguna un volumen de aporte ficticio, por lo que sesga definitivamente el nivel del embalse en lo sucesivo. En general, el tratamiento de ausencias en los bancos de datos es un problema recurrente en todo estudio vinculado tanto a fenómenos naturales como a otras áreas, puesto que típicamente todo estudio asume como hipótesis que las series en que se basa están completas, imputándose caso a caso (con técnicas no siempre demasiado depuradas), alterando quizás resultados o generando errores adicionales. Si bien muchos problemas no requieren de la imputación de todos los datos faltantes, los cálculos suelen ser muy sensibles a los errores si existen pocos registros (Kennedy, 1989). Cualquier método para asignar valores faltantes debe preservar las características principales del banco y ofrecer garantías de no disminuir los niveles de calidad del mismo.
  • 10. 6 Debe considerarse asimismo la posibilidad de trabajar con distintos niveles de precisión a los efectos de la imputación de valores faltantes. Habrá estudios que sean más sensibles que otros a los datos ausentes y para los cuales se deba asignar valores confiables a registros incompletos. Debido a ello, la posibilidad de asignar valores, dando una estimación del error cometido (objetivo c) ) es de gran interés en la aplicación. Corresponde señalar que ninguna de las aseveraciones realizadas es específica de los parámetros meteorológicos. El mismo problema puede observarse en bancos de datos socioeconómicos u de otra índole, y similares inconvenientes se presentan en ellos. Para los problemas enumerados, se han ensayado y puesto a punto diferentes algoritmos ya existentes e implementado nuevos, que tienen en cuenta la correlación en el espacio y/o en el tiempo de los registros. En este informe se presenta el caso de la lluvia diaria, un campo con apreciable correlación espacial y débil correlación temporal. Se solicitó a las instituciones interesadas (UTE, DNM) que suministraran bancos de datos, recibiéndose de la primera el banco de datos del Río Negro, y de la segunda, la parte correspondiente a la cuenca del Río Santa Lucía. 2.2- Antecedentes del Problema Para la detección rutinaria de datos anómalos en el área meteorológica, el único antecedente nacional conocido consiste en las recomendaciones realizadas por la Dirección de Climatología y Documentación de la Dirección Nacional de Meteorología (DNM, 1988). En general se basan en un control por rango admisible para cada parámetro. A nivel regional la situación es similar (Núñez, 1994) A nivel internacional, existen trabajos (Sevruk, 1982) que proponen procedimientos para corregir errores sistemáticos en cada estación. Se requiere conocer, entre otros, la velocidad del viento, la intensidad de la lluvia, la temperatura y humedad del aire, etc. Con respecto a los errores aleatorios, la tendencia es comparar las medidas con un modelo del fenómeno (p. ej.: Francis, 1986; Hollingsworth et al., 1986). Este último asevera que para el caso del viento, las diferencias entre observaciones y predicciones tienen aproximadamente una distribución normal. En ese caso, es relativamente fácil detectar los datos anómalos y separarlos para un análisis a posteriori. Como desventaja debe señalarse el importante volumen de información requerido, así como los altos costos computacionales involucrados, dado que es necesario modelar (eventualmente por separado) los diferentes parámetros, utilizando métodos específicos para cada uno. En los grandes centros mundiales de asimilación de datos se utilizan sistemáticamente métodos más complejos de control de calidad. Ellos requieren de un volumen de información sólo disponible allí mismo (Gandin, 1988; Di Mego, 1988, Parrish, 1992). Por tanto, si bien son métodos conocidos, resultan inaplicables en general para otro tipo de parámetros, e incluso en las presentes condiciones no podrían ser usados por los organismos nacionales competentes. Los
  • 11. 7 recursos humanos e informáticos constituyen una limitante insalvable en este sentido. Gandin, 1988 reconoce que parte significativa de los errores detectados pertenecen a países en desarrollo, donde los recursos afectados a la toma de datos son significativamente menores que en otros países. Si se prescinde o se desconoce la relación física que debería ligar a las variables, los métodos puramente estadísticos son una alternativa a evaluar. Barnett et al., 1984 efectúa una síntesis de distintas técnicas aplicables para el abordaje de este problema. Para el caso univariado, los controles por rango si bien necesarios se han revelado como insuficientes. Existen extensiones aplicables a este tipo de series como los métodos de detección basados en estimadores robustos (Goyeneche et. al., 1989). Para el caso multivariado, Barnett et al., 1984 distingue dos grandes líneas metodológicas, según que la función de distribución de la muestra se suponga conocida, o no. La primera de ellas corresponde a los llamados Tests de discordancia, que agrupa una serie de técnicas aplicables según la forma en que se distribuyen los datos muestreados, y requieren conocer -o poder estimar- los parámetros de la distribución. Existen también antecedentes vinculados al caso en que la distribución teórica responda a un tipo de ley y los datos muestreados a otra, como es el caso del planteo de O'Hagan, 1990. Allí el hecho que una de las distribuciones sea normal y la otra de tipo t habilita al uso de cierta metodología para poner en evidencia los datos anómalos. El problema aquí tratado no es abordable a partir de este tipo de métodos, puesto que las hipótesis no son lo suficientemente generales para aplicarlas a una variedad de parámetros importante. La segunda línea identificada por Barnett corresponde a lo que se ha dado en llamar Métodos informales. Estos prescinden de los aspectos formales de la distribución de los datos, y apuntan a explotar ciertas propiedades de los mismos. En este grupo se encuentran los métodos de detección de marginales, fijando un rango de probabilidad; los métodos gráficos, basados en la búsqueda de puntos alejados de la nube de datos; la aplicación de métodos de correlación (Gnanadesikan et al., 1972); la búsqueda de distancias generalizadas representativas, técnicas asociadas con el análisis de conglomerados (cluster analysis) (ver por ejemplo, Fernau et al., 1990) y análisis de componentes principales (ACP), entre otros. Un antecedente muy específico respecto al ACP lo presenta el trabajo de Hawkins, 1974. En él se comparan cuatro indicadores o estadísticos, diseñados para resaltar datos anómalos. Hawkins asume que cada observación tiene distribución normal, por lo que su hipótesis no es aplicable en general (no la cumple, por ejemplo, la lluvia diaria); sin embargo, los conceptos por él vertidos son similares a los manejados en López et. al., 1994a, 1993a y 1996. Bajo hipótesis muy generales, existen también una variedad de métodos que se basan en la distancia de Mahalanobis como indicador de fiabilidad, y que difieren en la forma de estimar la matriz de covarianza y el valor esperado. Entre ellos, se encuentran los descritos en Rousseeuw, 1991; Rousseeuw et al., 1987, 1990; Rocke, 1996; Rocke et al., 1987; Hadi, 1992, 1994, etc.
  • 12. 8 A modo de conclusión, la opinión de un experto reconocido como el Dr. Gandin (Gandin, 1988) debe ser citada. El autor asevera que tradicionalmente, el problema de control de calidad de la información ha sido relegado en las prioridades de investigación, por ser (erróneamente) considerado un problema puramente técnico, que se agota en la detección de los mismos. Con respecto a los datos ausentes, en el campo de la Meteorología son práctica corriente métodos de análisis objetivo (ver Haagenson, 1982, Johnson, 1982, etc.), que permiten generar un campo interpolado a partir de datos irregularmente distribuídos. Ello permitiría calcular los valores faltantes, a partir de los existentes. Otras veces se utilizan magnitudes derivadas, y no el dato en bruto. Por ejemplo, para el cálculo de lluvia media sobre una región, existen métodos como el de los polígonos de Thiessen (Jácome Sarmento et al., 1990) que no requieren en principio, de un banco de datos completo. Ambas situaciones han llevado a que el tema del tratamiento o eliminación de ausencias haya sido también relegado, lo que se refleja en lo escaso de los trabajos específicos en la literatura especializada consultada. En la mayoría de los casos prácticos, el dato ausente es simplemente ignorado, (bajo la hipótesis implícita que estas ausencias son al azar) o se aplican técnicas ad-hoc (interpolación lineal, sustitución por el más próximo) que luego no son documentadas en el trabajo final. En cualquier caso, se afecta a la población en forma arbitraria, en base a hipótesis que rara vez son evaluadas. El tema en cambio, es de gran interés en el área de la Estadística y las Ciencias Sociales en general, pudiéndose encontrar en libros específicos (Rubin, 1987) citas a volúmenes producidos por grupos de trabajo dedicados al tópico. Existen métodos de imputación más o menos sofisticados. Entre éstos últimos, se puede citar el utilizado por la Oficina del Censo de los EE.UU. (Rubin, 1987). El mismo consiste en asignar al dato ausente un valor tomado al azar de entre los restantes eventos que tienen idéntica respuesta en el resto del cuestionario. Si eventualmente no existiese otro igual, o bien se relativiza esa exigencia, admitiendo que alguna o algunas respuestas no lo sean, o bien, se introduce una "distancia" entre cuestionarios, y se busca aquel que diste menos. Otro método también simple, es el de hacer una regresión sobre el conjunto de datos, ajustando un modelo sencillo. Típicamente, se utilizan mínimos cuadrados (total o parcialmente) o componentes principales, métodos que Stone et al., 1990 presenta desde una perspectiva integrada. Los propuestos en Rousseeuw et al., 1987; Rousseeuw, 1984; Hawkins, 1993, 1994a, 1994b tienen la particularidad de producir una regresión lineal diseñada para ser apropiada aún en la presencia de un grupo considerable de errores arbitrariamente grandes, propiedad muy importante en la práctica ya que los bancos de datos no pueden asumirse libre de errores en ninguna instancia.
  • 13. 9 Todos los métodos considerados producen una única alternativa: para cada ausencia se propone una única imputación. Según Rubin, 1987, ".. es intuitivamente claro que imputar la predicción 'óptima' para cada ausencia subestimará la variabilidad...". Existe, sin embargo, la posibilidad de imputar más de un valor para una misma ausencia. Así Rubin presenta una variedad de técnicas, algunas excesivamente especializadas, para su aplicación en encuestas. Como idea general, se propone crear para cada ausencia, un número m (pequeño) de alternativas, y considerar que se dispone de m conjuntos completos diferentes. Para el caso en que la tasa de ausencias es baja, el método funciona razonablemente bien, requiriéndose sin embargo más espacio (para guardar las múltiples imputaciones) y más tiempo de cálculo (para procesar los diferentes conjuntos completos generados). Como caso particular, tanto para la detección de errores, como para la imputación de ausencias en un banco de datos hidrológicos, se pueden encontrar a nivel nacional los trabajos de Silveira et al., 1991, y los de López et al., 1994a y 1994b. En ellos se describen resultados exitosos para el parámetro lluvia diaria, utilizando métodos que podrían ser aplicables a otros casos. Los mismos métodos han sido ensayados sobre un banco de datos de viento y presión atmosférica a nivel del mar (López et. al., 1993a) y fueron comparados en ese caso, con los resultados derivados de la aplicación del método de Interpolación Optima (Gandin, 1963, 1988) entre otros. Los resultados obtenidos con los métodos no tradicionales propuestos fueron sensiblemente mejores, en los experimentos presentados. El método de detección de errores basado en el ACP también ha sido ensayado sobre modelos digitales de terreno, en experimentos controlados (López, 1997a, 2000).
  • 14. 10 3. DESCRIPCIÓN DE LOS DATOS DISPONIBLES 3.1. CARACTERÍSTICAS DEL BANCO DE DATOS DE LLUVIA DIARIA 3.1.1- Características de la Cuenca estudiada 3.1.1.1 - Introducción La Cuenca hidrográfica del Rio Santa Lucía, con una superficie de 13600 km 2 , está situada en la región sur del Uruguay, aproximadamente entre los 55° y 57° de longitud oeste y 33°40’ y 34°50’ latitud sur. Las cuchillas o sucesión de cerros que sirven de límite a la Cuenca no superan los 300 metros. La vegetación predominante es la pradera y los pocos árboles y arbustos se encuentran a lo largo de los ríos y arroyos. El Río Santa Lucía, de 225 km de largo es el más importante del sur del país, sus dos principales contribuyentes son el Río San José, de 111 km y el Santa Lucía chico, de 122 km. 3.1.1.2 - Descripción Climática El clima de esta región es templado húmedo sin estación seca. Le corresponde la categoría Cfa en la clasificación climática de Koeppen. Las temperaturas medias anuales son de 17°C. Los extremos de temperatura anuales son importantes con máximas absolutas de 43°C y mínimas absolutas de -8°C. Las precipitaciones totales anuales estan situadas en los 1000 mm. Se observa un máximo de unos 1100 mm. sobre las nacientes del Río San José y un mínimo de 900 en el sureste de la cuenca junto al Río de la Plata. Las precipitaciones presentan sin embargo una gran variabilidad interanual, con años muy lluviosos, por ejemplo 1959 con 1600 mm. y muy secos, por ejemplo 1916 con 500 mm. El mes más lluvioso es marzo, con 100 mm. y el menos lluvioso es julio con 75 mm., la diferencia entre ambos (25 mm.) indica la regularidad de las precipitaciones a lo largo del año. La humedad relativa de la cuenca presenta un valor medio anual de 70%, y oscila entre 60% en diciembre y enero y 78% en junio.
  • 15. 11 3.1.1.3 - Información Meteorológica. Las medidas de la precipitación en la cuenca se realizan por medio de una red pluviométrica que consta de unas 50 estaciones, en general atendidas por personal del Ministerio del Interior y de A.F.E. (Ferrocarriles del Estado). La distribución espacial no homogénea de los pluviómetros en la cuenca obedece a que fueron establecidos a lo largo de las líneas férreas (estaciones del ferrocarril) y en poblados (comisarías). A este hecho hay que sumar a mediados de la década del ochenta el cierre de la mayoría de las estaciones del ferrocarril y por lo tanto la ausencia de observaciones pluviométricas a partir de esas fechas. En este Proyecto se han seleccionado 10 estaciones pluviométricas, con información en el período 1960 - 1990. En la Tabla 1 y en la Figura 1 se indican algunas de sus características y su localización geográfica. N° Nombre Latitud Longitud Elevación 2436 Puntas de Sauce 33°50'S 57°01'W 120 mts 2486 Pintos 33°54'S 56°50'W 100 mts 2549 Barriga Negra 33°56'S 55°07'W 95 mts 2588 Casupá 34°06'S 55°39'W 124 mts 2662 Cufré 34°13'S 57°07'W 92 mts 2707 Raigón 34°21'S 56°39'W 37 mts 2714 San Ramón 34°18'S 55°58'W 70 mts 2719 Ortiz 34°17'S 55°23'W 115 mts 2816 Joanicó 34°36'S 56°11'W 35 mts 2846 Olmos 34°44'S 55°54'W 40 mts Tabla 1 Listado de las estaciones pluviométricas con información en el período 1960 - 1990 La información de las otras variables atmosféricas (temperatura, humedad, presión atmosférica, evaporación, viento, horas de sol, etc.) es obtenida en las Estaciones Meteorológicas de la Cuenca, pertenecientes a la Dirección Nacional de Meteorología, que son: N° Nombre Latitud Longitud Elevación Período 86580 Carrasco 34°50'S 56°00'W 33 mts 1947 - Presente 86585 Prado 34°51'S 56°12'W 16 mts 1901 - Presente 86575 Melilla 34°47'S 56° 15'W 49 mts 1951 - Presente 86568 Libertad 34°41'S 56°32'W 21 mts 1977- Presente 86545 Florida 34°04'S 56° 14'W 92 mts 1987 - Presente Tabla 2 Estaciones meteorológicas próximas a la zona de estudio La información en estas Estaciones Meteorológicas es relevada en forma horaria, transfiriéndose vía telefónica a Montevideo, y es utilizada en la elaboración del pronóstico del tiempo, y también en la obtención de estadísticas climáticas de valores esperados acumulados, medios y extremos.
  • 16. 12 100 km 2436 2486 2549 2588 2662 2707 2714 2719 2816 2846 2436 2486 2549 2588 2662 2707 2714 2719 2816 2846 Figura 1 Localización de las estaciones pluviométricas utilizadas 3.1.1.4 - Factores climáticos Diversos factores tanto geográficos, oceanográficos y meteorológicos influyen en el clima de la Cuenca. La Cuenca se sitúa integramente en la zona templada del hemisferio sur. La poca extension y la ausencia de sistemas orográficos importantes, determinan que las temperaturas medias mensuales sean homogéneas y suaves (entre 10°C y 25°C todo el año). La corriente oceánica de Brasil, transporta aguas de origen tropical, y su transporte calórico produce una aumento de la temperatura del aire, y un aporte importante de vapor de agua a la atmósfera. La corriente de las Malvinas transporta aguas frías desde el sur produciendo una estabilidad en las capas bajas de la atmósfera. El anticiclón semipermanente del Atlántico Sur ejerce una gran influencia en el tiempo atmosférico que se desarrolla sobre el Uruguay. La circulación generada por este anticiclón produce vientos del sector noreste al este, aportando masas de aire de caracter tropical y húmedas. También el anticiclón semipermanente del Pacifico Sur, con su circulación del sur al suroeste sobre el país, aporta principalmente durante el invierno, masas de aire frías y en general secas. La depresión térmico-orográfica del noroeste argentino, produce en determinadas situaciones aporte de aire muy húmedo y cálido desde el Chaco, principalmente en el verano.
  • 17. 13 3.1.1.5 - Formación de Precipitaciones Las masas de aire portadoras de humedad necesitan ciertos mecanismos dinámicos para producir precipitaciones. El principal mecanismo de producción de lluvias sobre la cuenca son los pasajes de sistemas frontales o frentes. Las principales masas de aire presentes sobre el país son la masas de aire tropical con un gran contenido de vapor de agua, y las masas de aire polar de carácter frío y seco. La zona de transición entre dos masas de aire de diferentes características define una zona frontal, que está asociada en general a precipitaciones. Se estima el pasaje de unos 70 a 80 frentes fríos en el año que provocan precipitaciones en zonas y cantidades variables. El volumen de las precipitaciones depende del contenido de agua precipitable en la masa de aire húmedo. Otro mecanismo de precipitación es el ascenso de aire producido por una depresión o ciclón dinámico y su pasaje sobre la cuenca, este tipo de perturbación produce en general precipitaciones muy importantes en volumen, afecta un área limitada, y está asociada a vientos fuertes y tormentas severas. 3.1.2 - La lluvia en la Cuenca: estructura y estacionalidad El objetivo perseguido en esta etapa es el de determinar, si existe, una estructura de la lluvia en la cuenca durante los treinta años considerados. De lo contrario caracterizar las variaciones que se han producido en dicha estructura en el período. Este aspecto tiene indirecta relación con el objetivo primordial del proyecto, pero asume gran importancia a la hora del conocimiento del fenómeno y permitirá aceptar o rechazar diferentes hipótesis realizadas en uno y otro sentido, al mismo tiempo que mejorar la eficiencia de cualquier modelo que se pretenda utilizar para analizar el fenómeno.. En cuanto a la estacionalidad, aquí entendida como comportamiento diferenciado de algunos meses del año respecto a otros, en relación a la distribución de la lluvia, será de utilidad inmediata para la construcción del modelo que se plantea en el punto 8. del Resumen, y para mejorar la eficiencia de los diferentes estimadores que ha desarrollado el proyecto. 3.1.2.1 - Aproximaciones metodológicas para determinar estructuras. En este sentido se han desarrollado dos líneas de trabajo diferenciadas. Por una parte se utilizan algunas de las técnicas para el análisis de datos multivariados multiway y en otras se buscan relaciones lineales y no lineales en el tiempo y en el espacio.
  • 18. 14 3.1.2.1.1 - Métodos Multivariados Multiway Con el objetivo de ubicar al lector en el significado de la primera aproximación metodológica se realiza una presentación resumida y elemental de algunos métodos multiway en particular, precedida, por una breve presentación general de los métodos a más de dos vías. El análisis multivariado clásico extrae generalmente información de una tradicional matriz 2- way (2 vías) de datos. { }X x x x x x x x x x x ij n n n n nn = =             11 12 1 21 22 2 1 2 L L L L L L L donde xij es el valor que toma la variable j en la unidad i. Las dos vías están aquí representadas por las “unidades” y las “variables”. Un ejemplo de 3-way de datos esta dado por: { }X xijk= donde xijk es el valor que toma la variable j (j=1,...J) en la unidad i (i=1,...I) en la ocasión k (k=1,...K), considerando que son las mismas variables y unidades en cada ocasión. En general p-way data pueden ser representados por: { }X xi ip = 1 L donde cada dato elemental xi i p1 ... se clasifica de acuerdo a p ways como por ejemplo, unidades, variables, tiempos, áreas, categorías de variables, etc... En modo general se puede distinguir entre: i) Arrays de p-way datos si todas las combinaciones de diferentes índices se encuentran presentes. Un ejemplo de array a 3-way es del tipo “unidades× variables × ocasiones” donde se consideran las mismas unidades y las mismas variables en cada ocasión. ii) Sets de p-way datos. No todas las combinaciones de los valores de diferentes índices se encuentran presentes. En el caso de 3-way “unidades× variables× ocasiones” cambian o las variables o las unidades en cada ocasión. En el caso que nos ocupa se pueden conformar arrays o sets de múltiples formas. Uno particularmente interesante para medir el comportamiento estructural de la lluvia en el período de los últimos treinta años es la matriz “estaciones pluviométricas× unidades de tiempo (ej. meses)× distribución de lluvia”. Para constituir arrays en este caso se debe considerar solamente las unidades de tiempo con información completa, estando en las demás situaciones frente a sets. Del enfoque general a p-way nos interesa en este momento solamente el de 3-way en la situación “unidades× variables× ocasiones” que es el que concretamente se aplica en la presente investigación. Veamos una síntesis de algunos enfoques metodológicos aquí aplicados lo que no significa para nada un desarrollo exhaustivo de las aproximaciones multiway.
  • 19. 15 3.1.2.1.1.1 - Modelos multilineales Los modelos multilineales fueron considerados por Kruskal (1984) . Se incluyen dentro de los llamados modelos estructurales descriptivos. Dentro de los más utilizados para el análisis de datos a 3- way se destacan los siguientes: a) Modelo Cuadrilineal Modelo Tucker 3 (Tucker, 1963, 1964, 1966; Kroonenberg, 1983): x m a b c gijk ijk ip jq k r pqr r R q Q p P ≈ = === ∑∑∑ 111 donde el significado de los parámetros es el siguiente:: aip= puntaje de la unidad i en relación a la dimensión latente (“componente ideal”) p, bjq = puntaje de la variable j en relación a la dimensión latente q, ckr = puntaje de la ocasión k relativa a la dimensión latente r; gpqr = puntaje conjunto de la genérica terna (p,q,r) de las componentes ideales de los tres modos (p- ésima para las unidades, q-ésima para las variables y r-ésima para las ocasiones). Este parámetro es una medida de la interacción triple entre las tres genéricas dimensiones latentes. El conjunto de las gpqr forman la llamada CORE MATRIX. b) Modelo Trilineal: Modelo Tucker 2. x m a b gijk ijk ip jq pqk q Q p P ≈ = == ∑∑ 11 Aquí el componente ideal de las ocasiones se omite y gpqk conforma la CORE MATRIX extendida. c) PARAFAC (Harshman, 1970) x m a b cijk ijk ip jp kp p P ≈ = = ∑1 Este puede ser considerado como el Modelo Tucker 3 con una CORE MATRIX superidéntica. d) Componentes Principales Simultáneas. Kiers y Ten Berge ( 1989) Esta es una generalización del Análisis de Componentes Principales para la situación donde las mismas variables se observan en dos o más poblaciones. La generalización se obtiene considerando
  • 20. 16 ACP para cada población bajo la condición de que las matrices de pesos de componentes deben ser iguales para cada análisis. 3.1.2.1.1.2 - Estrategias de análisis multifase. Estos métodos se aplican generalmente a arrays o sets 3-way. { }X X X Xk K= 1 ,L L Primera Fase: Interestructura A cada matriz Xk se asocia un elemento Ek el cual caracteriza sus estructuras, en el caso de un método típico de esta familia llamado STATIS (Escoufier, 1973, 1977, Lavit, 1988, 1994) Ek es un operador lineal (matriz) Ak Se realiza un análisis simultáneo de los Ek . En STATIS se realiza un análisis de componentes principales en relación a las matrices Ak organizadas de la siguiente manera: ( )A vecA vecA vecAK= 1 2 L donde vecAk es la vectorización de Ak . Los puntajes Ok se obtienen a partir del análisis de los Ek . En STATIS los puntajes se obtienen a través de los componentes principales de las columnas de A (llamadas ocasiones). Segunda Fase: Compromiso Se calcula un elemento “medio” de los Ek que representa el conjunto de las Xk . En STATIS un “operador medio” A* (media ponderada de los Ak con pesos dados por el primer autovector obtenido del ACP de A). Se realiza un análisis de E* obteniendo puntajes Ui,Vj . En STATIS el ACP de A y el subsiguiente cálculo de puntajes para unidades y variables. Tercera Fase: Intraestructura Basándose en el análisis de compromiso E* , se obtienen los puntajes para unidades y variables en las diferentes ocasiones( )U Vi k j k , . En STATIS unidades y variables están geométricamente representadas por los distintos ejes principales calculados con el ACP de A* . 3.1.2.1.2. - Analisi Fattoriale Dinamica (AFD) Un método que está fuera de las clasificaciones anteriores es el “Analisi Fattoriale Dinamica” (Coppi-Zanella 1978, Coppi-Corazziari 1995) .
  • 21. 17 Esta metodología permite analizar array 3-way del tipo unidades× variables× tiempos, donde estos últimos están ordenados y juegan el rol de ocasiones. Es un método aplicable a variables cuantitativas. Se analizan tres tipos de variabilidades, estructural, dinámica, y la interacción entre ellas. Los tres aspectos son analizados en AFD mediante la conjunción de una modelización basada en técnicas factoriales y regresivas. 3.1.2.1.3 - Relaciones mediante discrepancia logarítmica Otro modo de construir matrices de proximidades, se basó en la discrepancia logarítmica de Kulback- Leibler. Para poder aplicar esta discrepancia fue necesario en primer lugar construir las distribuciones de lluvia diarias para cada estación. Se consideró una distribución común para todas las estaciones que reúne la doble condición de ser adecuada a los datos disponibles y brindar información mejorada respecto a la simple dicotomía llueve- no llueve, aunque no sea la óptima por estación. Los intervalos elegidos fueron [0], (0, 7], (7, 17], >17mm. Luego de codificada la información diaria por estación en esos cuatro intervalos, se agrupó por mes, obteniendo de hecho la distribución de la lluvia, por estación, para todos los eneros, todos los febreros, etc del período de años considerado. A continuación se calculó la discrepancia de Kulback- Leibler de las distribuciones de las demás estaciones a la considerada en cada caso para los diferentes meses. Se obtiene así para cada mes las estaciones más cercanas en distribución según la discrepancia logarítmica. En el caso concreto, la expresión general de Kulback se transforma en: δ p p p p p i i i i ∧ ∧ =       = ∑/ ln 1 8 donde: pi = probabilidad del intervalo i en la estación considerada, para el mes dado. pi ∧ = probabilidad del intervalo i para cada una de las otras 8 estaciones para el mes dado. Se construyen con estas discrepancias nueve matrices, una para cada estación, del tipo (12 × 8 ) conformadas con las distancias de las otras ocho a la estación considerada, en cada uno de los meses del año. También aquí, como en el caso de las relaciones lineales, se construyeron además matrices de (12× 3) donde en lugar de considerar las distancias de la totalidad de las estaciones se consideran solamente las tres más cercanas.
  • 22. 18 3.1.2.1.3.1 - Menor distancia mensual de una estación a otra. Conjuntamente con el proceso anterior se realizó, siempre mediante la discrepancia de Kulback- Leibler y las correlaciones, la búsqueda de la estaciones más cercanas a cada estación en los diferentes meses del año. También se dividió el período de treinta años en tres y se analizaron meses y trimestres para saber si hubo cambios en la distancia a la media general del período lo que sería otro indicativo de cambio de estructura. En cuanto a las estación por mes más cercana se procedió de la siguiente manera. Se realizó la distribución por mes, con los intervalos antes considerados, de la lluvia para cada estación. Luego se tomó la distribución de cada estación como la verdadera, es decir la pi de la expresión de la discrepancia y se halló la discrepancia de cada una de las otras a la considerada. Se obtiene así una medida de cual es el orden de distancia de las diferentes estaciones a la considerada para cada mes lo que será luego de gran utilidad en la construcción del modelo que se plantea en el numeral 8 del Indice. 3.1.2.1.3.2 - Distancia a nivel de Estación Finalmente se consideró un último procedimiento para el análisis de estructuras. Este fue construir las discrepancias de Kulback- Leibler por estación y para cada mes respecto a la distribución media o marginal de la estación en todo el período. La diferencia esencial de este método respecto a los anteriores es que no se tiene en cuenta la relación de una estación con las demás sino cada una consigo misma. Con el vector de distancias se agruparon luego los meses. 3.1.2.2 - Estacionalidad Conjuntamente con los métodos multiway descriptos se utilizaron otra serie de técnicas para agrupar meses de similar comportamiento de la lluvia en cada una de las estaciones y en la cuenca en su conjunto. 3.1.2.2.1 - Métodos de relación entre las estaciones pluviométricas En este sentido se consideraron dos tipos de relaciones. En primer lugar las correlaciones lineales de tipo Pearson entre las lluvias en los diferentes meses en el período, y por otro mediante el análisis de la discrepancia logarítmica de Kulback-Leibler entre las distribuciones de lluvia en las diferentes estaciones. 3.1.2.2.1.1 - Relaciones Lineales entre pluviómetros. Se parte en primer lugar de la matriz original de datos,
  • 23. 19 { }X x x x x x x x x x x ij j n I I Ij = =             11 12 1 21 22 2 1 2 L L L L L L L donde el término genérico{ }xij representa el volumen en mm de lluvia caída el día i en la estación j. Es decir que la matriz tiene tantas filas como días de información de lluvia se tienen (treinta años) y tantas columnas como estaciones pluviométricas consideradas (nueve). Se considera como unidad mínima el mes. A esto se llega luego de varias pruebas buscando la mínima unidad posible, La decisión de considerar el mes se alcanza en razón de la calidad de información disponible y teniendo en cuenta la particular distribución de la lluvia por día donde en aproximadamente un 80 % de ellos , el valor es cero. Se construye una matriz de correlación de Pearson para cada mes del año. Esta matriz es: { }R r r r r r r r r r r ij j n I I Ij = =             11 12 1 21 22 2 1 2 L L L L L L L donde{ }rij es el coeficiente de correlación de Pearson entre las precipitaciones de las estaciones i y j en el mes considerado. Con estas correlaciones se construyen nueve matrices, una por cada estación pluviométrica, de 12× 8, donde cada fila indica las correlaciones para un mes dado de la estación considerada con las demás. El objetivo del procedimiento es analizar las alteraciones que se producen en el año en las correlaciones lineales entre la lluvia medida en una cierta estación y en las demás. Se está buscaron las estaciones más correlacionadas linealmente y como varían en el transcurso de los meses. Este procedimiento se realizó también agrupando en los siguientes trimestres: Diciembre, Enero, Febrero Marzo, Abril, Mayo. Junio, Julio, Agosto. Setiembre, Octubre, Noviembre. Además de considerar matrices de 12× 8, se consideraron matrices 12× 3 , donde se tenían en cuenta aquellas tres estaciones que durante el año estaban más correlacionadas a la considerada. Esto se buscó construyendo un ranking de estaciones.
  • 24. 20 Una vez construídas las matrices de interés se aplicaron diversos métodos de cluster analysis (análisis de conglomerados) buscando encontrar agrupamientos de meses según similares comportamientos de las correlaciones de una estación con las demás. Los algoritmos de clasificación considerados se basaron en la distancia de Mahalanobis y fueron los de Ward, Centroide y Complete. De acuerdo a los resultados obtenidos con los diferentes métodos se buscó determinar una agrupación para cada estación. Los resultados se resumen en la tabla 3. Estación Número de grupos Agrupación de meses 2436 4 (5,6,8,9,11) (10,12,1) (3,4) (2,7) 2486 4 (2,5,8,9,10) (3,7,12) (4,6) (1,11) 2549 3 (4,6,9) (2,5,7,12) (1,2,4,10,11) 2588 4 (10,12,4) (11,3,9) (7,1) (8,6,2,5) 2662 3 (1,6,7,10,11) (4,5,8,9) (2,3,12) 2707 3 (4,6,8) (2,7,3,10,5) (11,12,9,1) 2714 3 (2,3,5,7,10) (1,4,6,12) (8,9,11) 2719 4 (8,9,10,12) (1,6,7) (2,4,5) (3,11) 2816 3 (2,5,8,9) (3,6,7,10) (1,4,11,12) Tabla 3 Agrupación de meses por estación 3.1.2.2.1.2 - Discrepancias logarítmicas estacionales globales Para hacer posible la agrupación de meses no ya por pluviómetro, sino en general para toda la cuenca, se busca la distribución por mes de la lluvia, en los cuatro intervalos considerados para toda la cuenca de Santa Lucía. Luego se construye una matriz de 13× 4 donde las primeras doce filas son la distribución por meses de la lluvia y la última la distribución media. Se calcula Kulback- Leibler de cada mes a la media y luego se agrupa por cercanías. La estacionalidad obtenida para toda la cuenca fue la siguiente: a) Abril, Setiembre, Octubre. b) Mayo, Junio. c) Agosto, Noviembre. d) Febrero, Julio. e) Diciembre, Enero, Marzo.
  • 25. 22 3.2. CARACTERÍSTICAS DEL BANCO DE DATOS DE VIENTO HORARIO 3.2.1- Características de la región estudiada 3.2.1.1 - Introducción La región comprendida al sur del Río Negro tiene una superficie aproximada de 95000 km2 , que representa el 53% de la superficie del País. Esta región está limitada al oeste por el Río Uruguay, por el suroeste y sur por el Río de la Plata, al sureste por el Océano Atlántico, y al este por el Río Yaguarón y la Laguna Merin. Las cuchillas o sucesión de cerros son los principales obstáculos orográficos pero no superan en promedio los 300 metros excepto en casos muy aislados (Cerro de las Animas y Pan de Azucar en Maldonado). La vegetación predominante es la pradera y la vegetación más densa (árboles y arbustos) se encuentran a lo largo de los ríos y arroyos. 3.2.1.2 - Descripción Climática El clima de esta región es templado húmedo sin estación seca. Le corresponde la categoría Cfa en la clasificación climática de Koeppen. Las temperaturas medias anuales son de 17.0°C. Los extremos de temperatura anuales son importantes con máximas absolutas de 41°C y mínimas absolutas de -8°C. Las precipitaciones totales anuales medias están situadas en los 1200 mm. Se observa un máximo al noreste de unos 1300 mm. sobre el Río Negro y un mínimo de 1100 en el sur de la región junto al Río de la Plata. La humedad relativa de la región presenta un valor medio anual de 75%, y oscila entre 66% en diciembre y enero y 82% en junio y julio. 3.2.1.3 - Información Meteorológica. La disponibilidad de registros de viento en formato magnético restringió el período a manipular. En la zona norte del país la densidad de estaciones meteorológicas es comparable a la zona sur, pero en muchos casos las series son más cortas, o contienen únicamente registros cada 8 horas, aspectos ambos que implica una restricción a los fines de este proyecto. La información en estas Estaciones Meteorológicas es relevada en forma horaria, transfiriéndose vía telefónica a Montevideo, y es utilizada en la elaboración del pronóstico del tiempo, y también en la obtención de estadísticas climáticas de valores esperados acumulados, medios y extremos. Las medidas de la viento de superficie horario fueron tomadas por la Dirección Nacional de Meteorología. Se seleccionaron cinco estaciones localizadas en el sur del Uruguay. Su identificación y localización se esquematizan en la Tabla 4 y Figura 2, respectivamente
  • 26. 23 N° Nombre Latitud Longitud 86595 Punta del Este 34°58'S 54°57'W 86580 Carrasco 34°50'S 56°00'W 86500 Treinta y Tres 33°13'S 54°23'W 86460 Paso de los Toros 32°48'S 56°31'W 86440 Melo 32°22'S 54°11'W Tabla 4 Listado de las estaciones meteorológicas con registros horarios en el período 1979-1991 + + + + Punta del EsteCarrasco + Treinta y Tres Melo Paso de los Toros BRAZIL ARGENTINA ATLANTIC OCEAN100 km Figura 2 Localización de las estaciones meteorológicas con registros de viento de superficie seleccionadas para este trabajo 3.2.1.4 - Régimen Eólico. La circulación atmosférica es el resultado de desequilibrios energéticos ocurridos en el seno de la misma. La circulación atmosférica en su más amplio sentido incluye todas las escalas de movimiento (macroescala, mesoescala y microescala). La circulación está dada por la presencia de los llamados sistemas de tiempo atmosféricos semipermanentes y dinámicos, estos pueden ser cerrados (ciclones, anticlones) y abiertos (vaguadas, dorsales), tal como se observan en un mapa meteorológico. La circulación de la atmosfera es la responsable del transporte de ciertas cantidades (energía, momento, vapor) y del cambio en las condiciones del tiempo sobre los diferentes lugares del planeta. La atmósfera cumple con la condición de equilibrio hidrostático por lo tanto las velocidades verticales son de orden mucho menor que las velocidades horizontales (en la escala macro), y por lo
  • 27. 24 tanto se puede aproximar el estudio de los movimientos tridimensionales de la atmósfera con planos horizontales en la vertical. La atmósfera libre en la escala sinóptica ( ≈ 200 a 2000 km) cumple con el llamado equilibrio geostrófico, que resulta de un equilibrio de fuerzas entre la fuerza de Coriolis, y la fuerza del gradiente de presión. La dirección de los vientos predominantes sobre la región en estudio (Ver figura 3) están determinados por la circulación del noreste que establece el Anticiclón semipermanente del Atlántico. Sin embargo el debilitamiento del mismo por alejamiento de la costa o desplazamiento hacia el norte determina la aparición de vientos del oeste en superficie característicos de la época invernal. Asimismo los vientos observados junto a la costa del Río de la Plata y Océano Atlántico están influenciados por factores de circulación locales como es la brisa marina y terrestre. Esta determina la rotación durante el día del viento desde una componente norte a una del sureste que va disminuyendo a medida que el calentamiento del suelo por la radiación solar comienza a disminuir. Las velocidades medias anuales van desde unos 6 m/s en la costa sureste hasta mínimos relativos de 3.5 m/s en la cuenca de la Laguna Merín. En general se observan velocidades medias mensuales mas o menos constantes durante todo el año, pero se destaca la primavera con velocidades medias de 6.5 m/s en el sur y 4.8 m/s en la Laguna Merín. Fig. 3 Campo de Presión atmosférica en superficie Media anual en hPa. (1982-1993)
  • 28. 25 3.3 - CARACTERÍSTICAS DEL BANCO DE DATOS DE NIVELES 3.3.1 - CARACTERÍSTICAS DE LA CUENCA ESTUDIADA 3.3.1.1 - Introducción La Cuenca hidrográfica del Río Negro tiene una superficie de 69900 km2 , que representa el 39% de la superficie del País, a la que deben sumarse 3125 km2 que se ubican en territorio brasileño. Su cuenca está limitada al oeste por las cuchillas Negra y de Haedo que las separan de la cuenca del Río Uruguay, al este por la cuchilla Grande y al sur por las cuchillas Grande inferior y del Bizcocho. En el norte esta separada parcialmente del Brasil por la cuchilla de Santa Ana. La longitud total del río Negro es de unos 850 km y sus principales afluentes son el río Tacuarembó, ubicado en la parte superior de la cuenca, y el río Yí que incorpora sus aguas al Negro inferior. Todos los ríos son de alimentación pluvial únicamente y no poseen a lo largo de sus cursos, lagos o lagunas naturales que regulen sus escurrimientos. Los ríos en general tienen pendientes suaves, pues no existen sistemas orográficos importantes. El río Negro tiene en su recorrido solamente unos 100 km sobre la cota de 100 m. y la mayor parte de la cuenca discurre por debajo de esa cota hasta su desembocadura. Los cauces suelen presentar un lecho menor, por el que escurren el caudal de base, alimentado por el agua subterránea, y un lecho mayor por el que corren las crecidas. En este último por causa de la humedad del suelo y la temperatura ambiente adecuada existe vegetación consistente en bosque de tipo galería conformado por árboles y arbustos. 3.3.1.2 - Descripción Climática El clima de esta región es templado húmedo sin estación seca. Le corresponde la categoría Cfa en la clasificación climática de Koeppen. Las temperaturas medias anuales son de 17.7°C. Los extremos de temperatura anuales son importantes con máximas absolutas de 41°C y mínimas absolutas de -8°C. Las precipitaciones totales anuales medias están situadas en los 1250 mm. Se observa un máximo de unos 1400 mm. sobre las nacientes del Río Cuñapirú y un mínimo de 1100 en el sur de la cuenca junto a la divisoria de aguas con la cuenca del Río Santa Lucía. Los meses más lluviosos son febrero y marzo, con 125 mm. y el menos lluvioso es agosto con 90 mm., la diferencia entre ambos (35 mm.) indica la regularidad de las precipitaciones a lo largo del año. La humedad relativa de la cuenca presenta un valor medio anual de 74%, y oscila entre 65% en diciembre y enero y 82% en junio y julio. 3.3.1.3 - Información Hidrológica. La información para el estudio de niveles del Río Negro, consistió en:
  • 29. 26 - series diarias del nivel del río ( en metros ) en Paso Pereira (182800), Paso Aguiar (182500) y Paso Mazangano (182400), que constituyen tres puestos de medición, ubicados en el departamento de Tacuarembó (ver Tabla 5) y ordenados de oeste a este sobre el curso del río. - los datos corresponden al período 1975-1990 y en general las series incluyen tres mediciones diarias en cada lugar. Fueron proporcionadas dos versiones de la información para dos de los tres puestos, presentándose alguna diferencia en ellas, habiéndose depurado la base de los errores más obvios. - la cobertura de la información es parcial y existen datos faltantes tanto a nivel de conjuntos de días contiguos, de días aislados y de las mediciones a través del mismo día. Los vacíos de información en general no son coincidentes en fecha, a través de los tres puestos de medición. Teniendo en cuenta que el objetivo del trabajo es el análisis de series diarias, se seleccionó la primera de las tres mediciones de cada día, cuando la misma existía. En su defecto, se consideró la segunda o tercer medición del día, en ese orden, según la disponibilidad del dato. De este modo, se construyeron tres series con datos diarios, donde los datos faltantes pasaron a ser los días en los que no se había realizado ninguna de las tres mediciones previstas. La mayor parte del trabajo que se describirá se realizó trabajando sobre la serie de Paso Pereira en razón de su menor cantidad de datos ausentes. A diferencia de los parámetros lluvia y viento, no se tuvo acceso permanente a los registros originales en papel, salvo en un corto período al principio del proyecto, por lo que no fue posible encarar una comparación con los datos en papel como la que se hizo en los otros casos. N° Nombre Latitud Longitud Area Cuenca 182800 Paso Pereira 32°26'S 55°14'W 11800 km 182500 Paso Aguiar 32°17'S 54°50'W 8300 km 182400 Paso Mazangano 32°05'S 54°42'W 6650 km Tabla 5 Referencias de las estaciones hidrológicas utilizadas. La información corresponde al período 1975 - 1990 3.3.1.4 - Régimen hidrológico. Los caudales medios mensuales del río Negro, observados en Paso de los Toros, muestra dos épocas bien definidas: una de creciente, de abril a octubre, y otra de aguas bajas, de noviembre a marzo. El mes con menor caudal medio es enero y en cuanto a caudales máximos, los meses de julio y
  • 30. 27 setiembre tienen valores casi idénticos. El caudal medio anual es de unos 600 m3 /s, pero el caudal experimenta fuertes variaciones no sólo a nivel diario sino también mensual. Los niveles extremos registrados se ubican en el intervalo 0 a 13.7 m. La serie está aparentemente afectada por varios outliers, por lo que los valores extremos deben tomarse con cautela. Los percentiles 5 y 95 % de los valores valen 0.2100 y 6.7205 m respectivamente. Figura 4 Promedio de los niveles diarios observados en cada mes para el período 1975-1990 en Paso Pereira. Según se indica en la figura 4 el mes con nivel promedio máximo es agosto, y el más bajo en enero. Las diferencias son del orden de 4.5 veces, indicando la variabilidad de los niveles a lo largo del año. Los registros de setiembre, al igual que los de agosto, tienen una distribución bimodal, aspecto que no se repite en octubre quien exhibe una distribución mucho más uniforme.
  • 31. 28 3.4. CARACTERÍSTICAS DEL BANCO DE DATOS DE EVAPORACIÓN DIARIA 3.4.1- Características de la región estudiada 3.4.1.1 - Introducción La región comprendida al sur del Río Negro tiene una superficie aproximada de 95000 km2 , que representa el 53% de la superficie del País. Esta región está limitada al oeste por el Río Uruguay, por el suroeste y sur por el Río de la Plata, al sureste por el Oceano Atlántico, y al este por el Río Yaguarón y la Laguna Merin. Las cuchillas o sucesión de cerros son los principales obstáculos orográficos pero no superan en promedio los 300 metros excepto en casos muy aislados (Cerro de las Animas y Pan de Azúcar en Maldonado). La vegetación predominante es la pradera y la vegetación más densa (árboles y arbustos) se encuentran a lo largo de los ríos y arroyos. 3.4.1.2 - Descripción Climática El clima de esta región es templado húmedo sin estación seca. Le corresponde la categoría Cfa en la clasificación climática de Koeppen. Las temperaturas medias anuales son de 17.0°C. Los extremos de temperatura anuales son importantes con máximas absolutas de 41°C y mínimas absolutas de -8°C. Las precipitaciones totales anuales medias están situadas en los 1200 mm. Se observa un máximo al noreste de unos 1300 mm. sobre el Río Negro y un mínimo de 1100 en el sur de la región junto al Río de la Plata. La evaporación medida a través del Tanque tipo “A” tiene valores anuales acumulados de 1800 mm. sobre Mercedes (oeste de la región) y un valor acumulado mínimo menor de 1500 mm. sobre el litoral del Océano Atlántico. 3.4.1.3 - Información Meteorológica. El período a estudiar de registros de evaporación acumulada diaria en formato magnético se restringió al período del 1 Enero de 1986 al 31 de diciembre de 1990. Dentro de la región la densidad de estaciones meteorológicas que constan de Tanque de evaporación del tipo “A” se restringe a siete. La información en estas Estaciones Meteorológicas es relevada en forma diaria, transfiriéndose vía telefónica a Montevideo, y es utilizada en la elaboración de balances hídricos semanales, y también en la obtención de estadísticas climáticas de valores esperados acumulados, medios y extremos. Las medidas de evaporación acumulada diaria fueron tomadas por la Dirección Nacional de Meteorología. Se seleccionaron siete estaciones localizadas en el sur del Uruguay. Su identificación y localización se esquematizan en la Tabla 6 y Figura 5, respectivamente
  • 32. 29 N° Nombre Latitud Longitud 86440 Melo 32°22'S 54°11'W 86490 Mercedes 33°15 S 58°04’W 86500 Treinta y Tres 33°13'S 54°23'W 86532 Trinidad 33°32’S 56°55’W 86565 Rocha 34°29’S 54°18’W 86568 Libertad 34°41'S 56°32’W 86585 Prado 34°51’S 56°12’W Tabla 6 Listado de las estaciones meteorológicas con registros diarios de evaporación acumulada para el período 1986-1990 Figura 5 Localización de las estaciones meteorológicas con registros de evaporación diaria seleccionadas para este trabajo 3.4.1.4 - Régimen de Evaporación. El vapor de agua de la atmósfera proviene casi exclusivamente de los procesos de evaporación ocurridos en la superficie de nuestro planeta. La mayor parte de esa evaporación, cerca del 85% en promedio, ocurre sobre los océanos, y una proporción no despreciable ocurre sobre los continentes. La vegetación tiene un rol fundamental en la transferencia de vapor de agua a la atmósfera, las plantas se comportan como una especie de mecha, entre el subsuelo, que es el reservorio de agua líquida, y la atmósfera. El término “evapotranspiración” designa la cantidad de vapor de agua transferida a la atmósfera tanto por evaporación directa a nivel del suelo como por la transpiración de los órganos aéreos de las plantas. La noción de evapotranspiración potencial ha sido introducida por el climatólogo americano Thornthwaite, y expresa la evapotraspiración máxima ourrida desde una superficie vegetal que no tiene restricciones al suministo de agua. En estas condiciones la evapotranspiracion potencial puede ser considerada independiente de la especie vegetal que constituye la cobertura como asimismo de la naturaleza del suelo y finalmente como una función de las condiciones energéticas y dinámicas de
  • 33. 30 la atmósfera. El Tanque evaporimétrico tipo “A” fue desarrollado por el Weather Bureau (U.S.A.) para viabilizar estudios sobre el desarrollo de métodos para estimar la evaporación sobre lagos y relacionarlos con los datos meteorológicos normalmente recolectados. Como las redes de observación con Tanque evaporimétrico son en general muy dispersas e incompletas, se han desarrollado métodos de extrapolación.
  • 34. 31 4. IMPUTACIÓN DE AUSENCIAS 4.1 - Métodos en los que se tiene en cuenta únicamente la información histórica Se entiende por ello, que se está imputando usando exclusivamente datos provenientes del análisis de la serie temporal de la propia estación. Además, en general, se indicará: h = día en que se presenta la ausencia. Xh * = valor a imputar el día de la ausencia (h). Con respecto al informe de avance, se han agregado los métodos que asignan el valor modal, y la interpolación temporal de scores principales. 4.1.1 - Por interpolación temporal entre registros: Cuando falte el dato correspondiente a un día determinado se buscan los días anterior y posterior más próximos, en los que se tenga dato medido en esa estación, y se interpola linealmente. 4.1.2 - Promedio juliano: Siempre con los valores cronológicos de lluvia por estación, se considera la base de registros pluviométricos como la replicación de un mismo fenómeno con ciclo anual (la variable es entonces la lluvia diaria del calendario juliano) y se utiliza como valor para imputar los huecos el valor de dicha variable, estimado a partir de la media. Así por ejemplo, el día 15 de enero, se calculará el promedio en la estación de todos los registros que se tengan (para ese día del calendario juliano y para esa estación) y con dicho valor se imputarán todas las ausencias correspondientes al 15 de enero para algún año en esa estación. Algoritmo: Programa: julmean.m Xt : registro pluviométrico correspondiente al día t en la estación considerada. Si la estación donde hay un hueco es la j-ésima, y h ddmmaa= X X X card B h j t t B * ( ) = = ∈ ∑ , donde { }B t t ddmmyy en la estación j= =: ; (día y mes coinciden con los de h)
  • 35. 32 4.1.3 - Promedio global de la estación: Los datos de lluvia correspondientes a cada pluviómetro son considerados como una serie temporal, cuyo promedio en el período (treinta años para el caso de la lluvia) es el valor que se utilizará para imputar todas las ausencias correspondientes a la estación. Se tendrá pues una constante por estación, con la que se rellenarán los datos faltantes en la misma. Algoritmo: Programa: staverage.m Xt : registro pluviométrico correspondiente al día t en la estación considerada. Para cada estación j, se calcula: X X card A j t A = ∑ ( ) { } X X card A j A t X en la estación j t t t A t = = = ∃ ∈ ∑ ( ) ,2,... : 1 10 X Xt h j = , si la ausencia h correspondió a la estación j. 4.1.4 - Valor aleatorio sorteado uniformemente entre los registros disponibles de la estación: Considerando nuevamente el fenómeno de lluvia por estación, este método imputa un valor elegido al azar dentro de los registros históricos conocidos (de los treinta años) correspondientes a dicha estación. Algoritmo: Programa: dispara.m Xt : registro pluviométrico correspondiente al día t en la estación considerada. X random X t Ah t * ( , )= ∈ , si la ausencia h correspondió a la estación j. }{A t X en la estación jt= ∃: 4.1.5 - Valor modal de la serie: Este es un método muy sencillo, que asigna para cada estación su valor más probable. En el caso de la lluvia diaria en Uruguay, este valor es siempre 0 mm/día. Algoritmo: Programa: nollovio.m
  • 36. 33 Xt : registro pluviométrico correspondiente al día t en la estación considerada. X al X t Ah t * mod ( , )= ∈ , si la ausencia h correspondió a la estación j. }{A t X en la estación jt= ∃: 4.2- Métodos en los que se tiene en cuenta únicamente la información regional En este caso, se utiliza únicamente información recabada simultáneamente, sin usar información de los días precedentes. 4.2.1 - Imputación dinámica (“Hot - Deck”): Este método de asignación dinámica asigna información a grupos de datos cuando dicha información no está disponible, se desconoce o es incorrecta (y debe cambiarse). Dicho método fue preparado por la Oficina del Censo de los Estados Unidos y posteriormente fue perfeccionado por otros. Básicamente, en el método de asignación dinámica se usa la información conocida acerca de individuos con características similares para determinar la información "más apropiada" cuando se desconoce parte (o partes) de una información similar sobre otros individuos. 4.2.2 - Vecino geográficamente más cercano: Por este método, dada la ausencia el día h para la estación j y dados los registros disponibles de las otras estaciones de la cuenca para ese día, se imputa el valor correspondiente a la que está más próxima a la estación j (desde un punto de vista geográfico). Algoritmo: Programa: vecidist.m Xt j : registro pluviométrico correspondiente al día t en la estación j . X Xh h k* = , siendo k la estación geográficamente más próxima donde hay registro 4.2.3- Vecino más cercano por Criterio de Expertos: Por este método, dada la ausencia el día h para la estación j y dados los registros disponibles de las otras estaciones de la cuenca para ese día, se imputa el valor correspondiente a la que está más próxima a la estación j , definiendo la proximidad a partir de una jerarquía establecida por expertos, en base a conocimientos meteorológicos de la zona en estudio. Algoritmo: Programa: veciconf.m
  • 37. 34 Xt j : registro pluviométrico correspondiente al día t en la estación j . X Xh h k* = , siendo k la estación más próxima, según el Criterio de Expertos, donde hay registro. 4.2.4 - Promedio espacial correspondiente al día de la ausencia: Este método tiene en cuenta la variable lluvia en su comportamiento espacial únicamente. Si se tienen n estaciones, se considera la serie temporal del vector n- dimensional de lluvias, y en caso de ausencias para un día h (dimensión del vector correspondiente menor que n), en todas las coordenadas faltantes se imputa el promedio de las coordenadas conocidas. Por tanto, el valor a imputar será el promedio aritmético entre todas las estaciones donde hay registro, calculado sobre los valores observados para el día h correspondiente a la ausencia. Algoritmo: Programa: daymean.m Xt j : registro pluviométrico correspondiente al día t en la estación j . Si se define: ( )X X X Xt t t t= 1 2 10 , ,K en el hueco: dim Xh( )<10, ( )X X X X Xh h h h j h * , ,= 1 2 10 L L y X X X card C h j h i t C = = ∈ ∑ ( ) , y { }C i X ih i = ∃ ∀ =: , , ,1 2 10L Comentarios: la entropía estadística y los resultados de estos métodos Si se tiene: X X Xn1 2, ,L posibles estados excluyentes de una variable X p p pn1 2, ,L las probabilidades asociadas a dichos estados Para eventos independientes, la entropía estadística se define por: ( )H p p p p pn i i i i n 1 2 1 , , logL = − = = ∑ , con pi i i n = = = ∑ 1 1 . De acuerdo con la definición, se observa: 1) H(1)=0 (la entropía de un suceso cierto es nula). 2) Grandes valores de incertidumbre se obtienen cuando las probabilidades de todos los estados posibles de la variable X son iguales: p n i ni = ∀ = 1 1 2, , ,L
  • 38. 35 En efecto: ( )H p p p n n nn i i n 1 2 1 1 1 , , log logL = − = = = ∑ Se considera ahora la cantidad de lluvia en la posición P y la correspondiente a la posición P d+ . A partir de ellas, se define una variable ( ) ( ) ( )X d X P X P d= − + , que será una variable aleatoria con distintas probabilidades según la distancia d . Para cada d , se estima la densidad de la variable aleatoria ( )X d por medio del histograma de frecuencias relativas, estableciéndose entonces la entropía H para cada distancia d . Realizados los cálculos correspondientes, se obtiene un valor mínimo para la entropía que supera 0 6, , y una distancia mínima inter-pluviómetros de más de 18 km, por lo que se concluye que es razonable esperar que los métodos que estén basados únicamente en información regional (o geográfica), no den muy buenos resultados para el relleno de datos faltantes. 4.2.5 - Promedio espacial ponderado correspondiente al día de la ausencia: Al igual que el anterior, este método tiene en cuenta la variable lluvia en su comportamiento espacial únicamente. Si se tienen n estaciones, se considera la serie temporal del vector n-dimensional de lluvias, y en caso de ausencias para un día h (dimensión del vector correspondiente menor que n), en todas las estaciones faltantes se imputa una media ponderada de los registros de las estaciones conocidas. Para el método de Cressman los pesos de la ponderación de la lectura j-ésima para imputar la i- ésima estación son inversamente proporcionales al cuadrado de la distancia dij. El método es lineal. Algoritmo: Programa: cressman2.m Xt j : registro pluviométrico correspondiente al día t en la estación j . Si se define: ( )X X X Xt t t t= 1 2 10 , ,K en el hueco: dim Xh( )<N, ( )X X X X Xh h h h j h * , ,= 1 2 10 L L y X X X card C h j h i t C = = ∈ ∑ ( ) , y { }C i X ih i = ∃ ∀ =: , , ,1 2 10L 4.2.6 - Métodos basados en la pseudo-distancia de Kulback-Leibler: Distancia de Kulback- Leibler. Cuando se trató la estructura y estacionalidad se consideró la estimación de la discrepancia de Kulback- Leibler. Veamos ahora la definición concreta de dicha pseudo- distancia o discrepancia.
  • 39. 36 DEFINICIÓN: Se define la distancia de Kulback-Leibler entre dos funciones de distribución, como el valor: ( ) [ ] ρ µ F G L f x g x f x d x L f x g x F dx si F G otro caso N NF F , ( ) ( ) ( ) ( ) ( ) ( ) , , = = << ∞     ∫ ∫ Observación: Esta distancia es una pseudo-distancia, dado que no cumple con la propiedad de simetría. ( ( ) ( )ρ ρF G G F, ,≠ ), por lo que el cálculo de la misma da resultados distintos según la estación que se elija como de referencia. 4.2.6.1- Imputación por la estación “Kulback-Leibler más próxima”, sin restricciones: Algoritmo: Programa: kulback.m Este método calcula los histogramas de frecuencias relativas en cada una de las estaciones para luego, eligiendo una como la más verosímil, ranquear el resto según su proximidad a la escogida, en base a la distancia de Kulback-Leibler. La variable es el registro diario en el pluviómetro: Xt j : registro pluviométrico correspondiente al día t en la estación j . En base a esa jerarquía de estaciones establecida, es que se imputarán los datos faltantes: - supóngase que en el día h hay un hueco en la estación i , - que se estableció una jerarquía de las restantes estaciones en base a la distancia de Kulback-Leibler a la estación i: ( ) ( ) ( )ρ ρ ρi j i j i jn, , ,1 2< < L , - entonces, el valor a imputar vendrá dado por: X Xh h j* = 1 , si hay registro en la estación j1 para el día h. - de no existir registro para ese día en la estación más próxima, se va recorriendo la jerarquía de estaciones establecida, hasta obtener un dato para ese día. Cabe señalar que se trabaja en la intersección de soportes de los histogramas (de diez intervalos de clase cada uno de ellos), en el supuesto de que las distribuciones son absolutamente continuas la una respecto de la otra.
  • 40. 37 4.2.6.2- Imputación por la estación “Kulback-Leibler más próxima”, eliminando días secos: Algoritmo: Programa: kulback0.m El método difiere del anteriormente descrito, únicamente en lo que a la construcción de histogramas se refiere: la variable ya no es el registro puro (que puede ser nulo), sino que es el registro del día cuando efectivamente hubo lluvia medible. Xt j : registro pluviométrico no nulo correspondiente al día t en la estación j . 4.2.6.3- Imputación por la estación “Kulback-Leibler más próxima”, con restricciones: Algoritmo: Programa: kulbackm.m Finalmente, este método, trabaja con la variable registro del día cuando efectivamente hubo lluvia medible, sólo que, en momentos de construirse los histogramas, se les exige que cada intervalo de clase acumule como mínimo un 0.05 de las observaciones . Xt j : registro pluviométrico no nulo correspondiente al día t en la estación j . 4.2.7 - Mínimos Cuadrados: El objetivo del método es imputar los datos ausentes, usando una combinación lineal de los datos presentes del día, con un error cuadrático mínimo. Algoritmo: Programa: mincdr.m Dada la matriz de datos D, (cada fila de la cual tiene n observaciones simultáneas), de dimensión m× n, m-observaciones, n-estaciones meteorológicas. Con el objetivo de imputar el valor correspondiente a la estación j, se toma una combinación lineal de los valores de las restantes k estaciones, k n≤ , con pesos ( )w w w wk= 1 2, ,..., tales que: D w di j ≈ (1) donde Djes la matriz D sin la columna j, d j es la columna j de D. A los efectos de éste método, los pesos w se eligen de forma de minimizar: D w dj j i i k − = → = ∑2 2 1 l min (2)
  • 41. 38 El problema (2) representa un problema clásico de mínimos cuadrados. La solución se obtiene a partir de las ecuaciones normales ( )D d D wjt j j − = 0 (3) ó D D w D djt j jt j. = (4) Nota: los pesos, base de la imputación de la estación j como una combinación lineal de las restantes estaciones, dependen de la combinación de datos “presentes” del día particular. Hay un conjunto de pesos diferente para cada combinación de ausencias- presencias. 4.2.8 - Mínimo Error Promedio: Algoritmo: Programa: minprm.m El objetivo del método es imputar los datos de las estaciones ausentes minimizando el promedio del error absoluto. La elección de los pesos de (1) se realiza en este caso de modo que: D w dj j i i k − = →∑1 lQ min (5) minimizando la norma 1 del error. Esto es equivalente a minimizar el promedio. El problema (5) debe ser tratado como un problema de programación no lineal. 4.2.9 - Mínimo Error Promedio Robusto: Algoritmo: Programa: minprmfl.m El algoritmo utiliza el anterior como primera estimación; el segundo paso consiste en a) analizar la distribución de los errores de regresión y determinar los registros con discrepancias mayores. Luego se reiteran los cálculos utilizando sólo los valores que han diferido menos de los verdaderos. Los límites para el descarte se fijan como ciertos cuantiles de la distribución de errores. 4.2.10 - Mínimo Percentil 95: Algoritmo: Programa: minprc.m El objetivo del método es imputar los datos de las estaciones ausentes minimizando el percentil 95 del error absoluto.