SlideShare una empresa de Scribd logo
1 de 26
Descargar para leer sin conexión
Geolocalización de Noticias (GEONews)




            Proyecto Fin de Grado
                 Julio - 2012
              Guillermo Santos García
       gsantosgo@yahoo.es       @gsantosgo
Contenido
 Introducción
 Proceso General de Geolocalización
 Arquitectura Tecnológica
 Detalles Implementación
 Demo Aplicación
 Evaluación
 Conclusiones
 Futuros Trabajos
Introducción
 Visión general de la aplicación Geolocalización de
 Noticias
Introducción
 Información estructurada vs no estructurada.
 Inteligencia artificial y procesamiento del lenguaje
 natural (PLN).
 Extracción de la información (IE). Extracción de
 conocimiento estructurado, a partir de información
 textual no estructurada en lenguaje natural.
 Reconocimiento y clasificación de entidades
 nombradas (NERC). Extracción de entidades dentro
 del texto y posterior clasificación en categorías
 (nombres de personas, organizaciones, nombres de
 lugares,..)
Proceso General de Geolocalización
 Tarea 1. Captura de noticias
 Tarea 2. Reconocimiento y Clasificación de entidades
 nombradas




 Tarea 3. Resolución de nombres de lugares
 Tarea 4. Visualización
Proceso General de Geolocalización
 Reconocimiento y Clasificación de entidades
 nombradas (NERC)
     Basados en Gazetteer.
     Basados en Reglas.
     Basados en Aprendizaje Automático.

  “El presidente de la Generalitat valenciana, Alberto Fabra, ha trasladado al nuevo
  ministro de Industria, José Manuel Soria, el rechazo de la Generalitat valenciana
  ante el proyecto que propone la instalación de un cementerio nuclear en la
  localidad de Zarra (Valencia).”

  “El presidente de la [Generalitat valenciana] [Organization], [Alberto Fabra]
  [Person], ha trasladado al nuevo ministro de Industria, [José Manuel Soria]
  [Person], el rechazo de la Generalitat valenciana [Organization] ante el proyecto
  que propone la instalación de un cementerio nuclear en la localidad de [Zarra]
  [Location] ([Valencia] [Location]).”
Proceso General de Geolocalización
 Resolución de nombres de lugares
  Recibe una lista de nombres de lugares o topónimos, y debe determinar cuál es
  el topónimo mas adecuado para posicionar geográficamente una noticia sobre
  un mapa cartográfico.
      Ej. Asturias, España Asturias (Latitud: 43.33333, Longitud: -6)
  Uso de servicio web search de Geonames para obtener coordenadas geográficas.
    Problema de ambigüedades.
        Homografía de nombres de lugares con palabras comunes.
        Homografía de nombres de lugares con nombre y apellidos de
        personas.
        Homografía de nombres de lugares con el mismo nombre.
Arquitectura Tecnológica
 Aplicación Web con tecnología Java/J2EE
 Tecnologías
   GWT (Google Web Toolkit).
   Google Maps
 Servicios
   Servicio RSS.
   Servicio de reconocimiento y clasificación de entidades
   nombradas.
   Servicio de resolución de lugares (topónimos).
   Servicio Cache Local (Guava Cache).
Arquitectura Tecnológica
 Arquitectura Web con tecnología Java/JEE
 (gwtnewsgeolocation.war)
Arquitectura Tecnológica
 Tecnologías empleadas
   GWT (Google Web Toolkit). Patrón MVP. Llamadas
   asíncronas.
   Integración GWT con cartografía de Google Maps (acceso
   API de Google Maps).
 Servicios
   Servicio RSS.
   Servicio de reconocimiento y clasificación de entidades
   nombradas (GATE-ANNIE)
   Servicio de resolución de lugares (topónimos) mediante el
   apoyo de los servicios Web de Geonames.
   Servicio cache local (Guava Cache).
Arquitectura Tecnológica
 Arquitectura aplicación Geolocalización de Noticias
Detalles Implementación
 Servicio RSS
   Permite acceder remotamente a fuentes de información RSS para obtener y
   analizar cada item (elemento) con el objetivo de extraer el título, descripción
   y categorías.
   Formato RSS 2.0 (Lenguaje XML)
   Información
       Titulo
       Descripción
       Categorías
   OJO!! Existen fuentes RSS con
   Publicidad
Detalles Implementación
 Servicio de reconocimiento y clasificación de
 entidades nombradas (NERC)
   Identificación de nombres propios dentro del texto, y
   clasificación dentro de un conjunto de categorías
   predefinidas de interés (nombres de personas,
   organizaciones , nombres de lugares, …)



   GATE-ANNIE. Reconocedor genérico de entidades.
Detalles Implementación
 Servicio de reconocimiento y clasificación de
 entidades nombradas
    Recursos de procesamiento
         ANNIE Tokenizer
         Sentence Splitter
         Gazetteer
         Part-Of-Speech
         ANNIE NE Transducer




  OJO!! Problemas de recursos disponibles en español
Detalles Implementación
 Servicio de reconocimiento y clasificación de
 entidades nombradas
   GAZETTEER (Basado en listas)
      Creación e Incorporación de listas de nombres de lugares o
      topónimos obtenidos a partir de Geonames (continentes, países,
      aeropuertos, regiones, estados, provincias, ciudades, mares,
      océanos,…)
      Creación e incorporación de listas de nombres de personas y
      organizaciones obtenidos de JRCNames.
      Lista de palabras de paradas o vacías (stopwords)
      …
   ¿Qué es Geonames?
      Base de datos de topónimos (alrededor de 8 millones).
      Dispone 35 servicios Web (countryInfo, search,…)
Detalles Implementación
 Servicio de resolución de nombres de lugares
   Problema de ambigüedades
      Homografía de palabras comunes




      Homografía de nombres de personas y apellidos (Ej. Javier Solana,
      Monserrat).
      Homografía de lugares con el mismo nombre.
Detalles Implementación
 Servicio de resolución de nombres de lugares
   Algoritmo de desambiguación de lugares.
      Basado en heurísticas
      Cache de continentes y países
   Implementación
      Homografía basado en nombres de
      lugares.
      Ej. Asturias, España
      Paso 1. Obtención de topónimos
          Continentes, Países, Localizaciones (search)
          Ej.: Asturias, España
          Coordenadas Geográficas WGS84 (latitud y longitud)
Detalles Implementación
 Servicio de resolución de nombres de lugares
   Implementación
      Paso 2. Nombre de lugar con un sólo
             topónimo.
          Lista de países elementos para
          eliminar ambigüedades de topónimos.
Detalles Implementación
 Servicio de resolución de nombres de lugares
   Implementación
      Paso 3.
          Eliminación de topónimos que no
          pertenezcan a listas de países, usando
          cuadro delimitador.




          Sistema de puntuación de 0..3, en función
          clase característica y código característica de
          Geonames.
Demo Aplicación
Demo Aplicación
Evaluación
 Conjunto de 35 noticias nacionales.
 Conjunto de 35 noticias internacionales.
 Comparativa con servicio “Conversor RSS a GeoRSS”
 de Geonames
 Precisión o eficiencia de 35 noticias nacionales
                    GEONews        Geonames
  Falsamente          0%             0%
  localizadas
     (0%)
  Incorrectamente    39,39%         21,21%
     (39,39%)
  localizadas
  Correctamente      60,61%         78,79%
     (60,61%)
  localizadas
Evaluación
 Precisión o eficiencia de 35 noticias internacionales
                       GEONews          Geonames
   Falsamente            2,86%             0%
   localizadas
   Incorrectamente      37,14%           23,53%
   localizadas
   Correctamente        60,00%           76,47%
   localizadas
Conclusiones
 Necesidad de tener un mayor conocimiento de la
 información no estructurada ( Ej. representación y
 posicionamiento de información geográfica )
 Campo del procesamiento del lenguaje natural (PLN)
 cada vez tiene mas importancia.
 Geolocalización de Noticias es una aplicación Web
 donde se integran diversas tecnologías y
 herramientas (GWT, Google Maps, Reconocedor y
 Clasificador de Entidades Nombradas, Geonames, ...)
Futuros Trabajos
 Soporte para formatos adicionales de alimentadores
 Web (Web Feed). RSS (multiples versiones), Atom u
 otros formatos actuales.
 Implementación para que la aplicación sea
 completamente accesible y usable desde dispositivos
 móviles.
 Mejora de la inferfaz de usuario.
 Usar otras alternativas a Google Maps (Cartografía
 de OpenStreetMap).
Futuros Trabajos
 Mejora del reconocimiento y clasificación de
 entidades nombradas, dotándole de un mayor
 rendimiento, de una mayor inteligencia y eficiencia.
 Reducción de latencia de red a servicios de
 Geonames, mediante la implementación un índice
 con tecnología Lucene/SOLR en local.
 Mejoras en el algoritmo de desambiguación de
 topónimos, mejorar el rendimiento e inclusión de
 otras heurísticas.

Más contenido relacionado

Similar a Presentación Geolocalización Noticias (geo news).2012

Georreferenciación de documentación ferroviaria mediante indexación semántica...
Georreferenciación de documentación ferroviaria mediante indexación semántica...Georreferenciación de documentación ferroviaria mediante indexación semántica...
Georreferenciación de documentación ferroviaria mediante indexación semántica...
Jose Gomez Castaño
 
Presentación sistemas de información geográfica(gis) usando tecnologías open ...
Presentación sistemas de información geográfica(gis) usando tecnologías open ...Presentación sistemas de información geográfica(gis) usando tecnologías open ...
Presentación sistemas de información geográfica(gis) usando tecnologías open ...
Dairon Medina
 
Aplicaciones del gps y gis en la mineria.
Aplicaciones del gps y gis en la mineria.Aplicaciones del gps y gis en la mineria.
Aplicaciones del gps y gis en la mineria.
villagarayanibal
 
Un Estudio Dinamico De Las Base De Datos En Sig Moviles
Un Estudio Dinamico De Las Base De Datos En Sig MovilesUn Estudio Dinamico De Las Base De Datos En Sig Moviles
Un Estudio Dinamico De Las Base De Datos En Sig Moviles
Janett Julca Flores
 
EXTRACCIÓN AUTOMÁTICA DE LOCALIZACIONES GEOGRÁFICAS EN ARTÍCULOS PERIODÍSTICO...
EXTRACCIÓN AUTOMÁTICA DE LOCALIZACIONES GEOGRÁFICAS EN ARTÍCULOS PERIODÍSTICO...EXTRACCIÓN AUTOMÁTICA DE LOCALIZACIONES GEOGRÁFICAS EN ARTÍCULOS PERIODÍSTICO...
EXTRACCIÓN AUTOMÁTICA DE LOCALIZACIONES GEOGRÁFICAS EN ARTÍCULOS PERIODÍSTICO...
TELECOM I+D 2011
 

Similar a Presentación Geolocalización Noticias (geo news).2012 (20)

Los sistemas de información geográfica (SIG) y estándares de normalización
Los sistemas de información geográfica (SIG) y estándares de normalizaciónLos sistemas de información geográfica (SIG) y estándares de normalización
Los sistemas de información geográfica (SIG) y estándares de normalización
 
Sistema para gestión y monitoreo de unidades de emergencia y/o transporte
Sistema para gestión y monitoreo de unidades de emergencia y/o transporteSistema para gestión y monitoreo de unidades de emergencia y/o transporte
Sistema para gestión y monitoreo de unidades de emergencia y/o transporte
 
Georreferenciación de documentación ferroviaria mediante indexación semántica...
Georreferenciación de documentación ferroviaria mediante indexación semántica...Georreferenciación de documentación ferroviaria mediante indexación semántica...
Georreferenciación de documentación ferroviaria mediante indexación semántica...
 
Sistemas de Información Geográfica Libres - Flisol 2016
Sistemas de Información Geográfica Libres - Flisol 2016Sistemas de Información Geográfica Libres - Flisol 2016
Sistemas de Información Geográfica Libres - Flisol 2016
 
Geo presentación carranza_colombia2
Geo presentación carranza_colombia2Geo presentación carranza_colombia2
Geo presentación carranza_colombia2
 
Sistemas de informacion Geográfico2
Sistemas de informacion Geográfico2Sistemas de informacion Geográfico2
Sistemas de informacion Geográfico2
 
Explotación de Información Geocientífica por Internet. Desde Geo-RSS a WMS, h...
Explotación de Información Geocientífica por Internet. Desde Geo-RSS a WMS, h...Explotación de Información Geocientífica por Internet. Desde Geo-RSS a WMS, h...
Explotación de Información Geocientífica por Internet. Desde Geo-RSS a WMS, h...
 
Presentación sistemas de información geográfica(gis) usando tecnologías open ...
Presentación sistemas de información geográfica(gis) usando tecnologías open ...Presentación sistemas de información geográfica(gis) usando tecnologías open ...
Presentación sistemas de información geográfica(gis) usando tecnologías open ...
 
Sistemas de informacion Geográfico metadatos
Sistemas de informacion Geográfico metadatos Sistemas de informacion Geográfico metadatos
Sistemas de informacion Geográfico metadatos
 
01 intro
01 intro 01 intro
01 intro
 
Introducción SIG [Máster Smart Cities UdG]
Introducción SIG [Máster Smart Cities UdG]Introducción SIG [Máster Smart Cities UdG]
Introducción SIG [Máster Smart Cities UdG]
 
Aplicaciones del gps y gis en la mineria.
Aplicaciones del gps y gis en la mineria.Aplicaciones del gps y gis en la mineria.
Aplicaciones del gps y gis en la mineria.
 
Contexto de los Sistemas de Información Geográfica en el Desarrollo de los Si...
Contexto de los Sistemas de Información Geográfica en el Desarrollo de los Si...Contexto de los Sistemas de Información Geográfica en el Desarrollo de los Si...
Contexto de los Sistemas de Información Geográfica en el Desarrollo de los Si...
 
Un Estudio Dinamico De Las Base De Datos En Sig Moviles
Un Estudio Dinamico De Las Base De Datos En Sig MovilesUn Estudio Dinamico De Las Base De Datos En Sig Moviles
Un Estudio Dinamico De Las Base De Datos En Sig Moviles
 
Que es un gis100311
Que es un gis100311Que es un gis100311
Que es un gis100311
 
Presentación clase biogeografia
Presentación clase biogeografiaPresentación clase biogeografia
Presentación clase biogeografia
 
Sig aby
Sig abySig aby
Sig aby
 
Sistemas De InformacióN GeográFica
Sistemas De InformacióN GeográFicaSistemas De InformacióN GeográFica
Sistemas De InformacióN GeográFica
 
EXTRACCIÓN AUTOMÁTICA DE LOCALIZACIONES GEOGRÁFICAS EN ARTÍCULOS PERIODÍSTICO...
EXTRACCIÓN AUTOMÁTICA DE LOCALIZACIONES GEOGRÁFICAS EN ARTÍCULOS PERIODÍSTICO...EXTRACCIÓN AUTOMÁTICA DE LOCALIZACIONES GEOGRÁFICAS EN ARTÍCULOS PERIODÍSTICO...
EXTRACCIÓN AUTOMÁTICA DE LOCALIZACIONES GEOGRÁFICAS EN ARTÍCULOS PERIODÍSTICO...
 
5.2 geoprocesamiento
5.2 geoprocesamiento5.2 geoprocesamiento
5.2 geoprocesamiento
 

Más de Guillermo Santos

Handwritten Digit recognition with R. Classification Problem
Handwritten Digit recognition with R. Classification ProblemHandwritten Digit recognition with R. Classification Problem
Handwritten Digit recognition with R. Classification Problem
Guillermo Santos
 
Data Analysis. Predictive Analysis. Activity Prediction that a subject perfor...
Data Analysis. Predictive Analysis. Activity Prediction that a subject perfor...Data Analysis. Predictive Analysis. Activity Prediction that a subject perfor...
Data Analysis. Predictive Analysis. Activity Prediction that a subject perfor...
Guillermo Santos
 

Más de Guillermo Santos (7)

Handwritten Digit recognition with R. Classification Problem
Handwritten Digit recognition with R. Classification ProblemHandwritten Digit recognition with R. Classification Problem
Handwritten Digit recognition with R. Classification Problem
 
MadridJUG Mineria de Datos-Data Mining.09.may.2013
MadridJUG Mineria de Datos-Data Mining.09.may.2013MadridJUG Mineria de Datos-Data Mining.09.may.2013
MadridJUG Mineria de Datos-Data Mining.09.may.2013
 
Data Analysis. Predictive Analysis. Activity Prediction that a subject perfor...
Data Analysis. Predictive Analysis. Activity Prediction that a subject perfor...Data Analysis. Predictive Analysis. Activity Prediction that a subject perfor...
Data Analysis. Predictive Analysis. Activity Prediction that a subject perfor...
 
Data Analysis. Regression. LendingClub Loans
Data Analysis. Regression. LendingClub LoansData Analysis. Regression. LendingClub Loans
Data Analysis. Regression. LendingClub Loans
 
Instalación R y RStudio en Windows
Instalación R y RStudio en WindowsInstalación R y RStudio en Windows
Instalación R y RStudio en Windows
 
Algoritmos Aprendizaje Automático.2012
Algoritmos Aprendizaje Automático.2012Algoritmos Aprendizaje Automático.2012
Algoritmos Aprendizaje Automático.2012
 
Kettle. Recuperación y Procesado de datos.2012
Kettle. Recuperación y Procesado de datos.2012Kettle. Recuperación y Procesado de datos.2012
Kettle. Recuperación y Procesado de datos.2012
 

Último

editorial de informática de los sueños.docx
editorial de informática de los sueños.docxeditorial de informática de los sueños.docx
editorial de informática de los sueños.docx
ssusere34b451
 

Último (20)

CIBERSEGURIDAD Y SEGURIDAD INFORMATICA .
CIBERSEGURIDAD Y SEGURIDAD INFORMATICA .CIBERSEGURIDAD Y SEGURIDAD INFORMATICA .
CIBERSEGURIDAD Y SEGURIDAD INFORMATICA .
 
NIVEL DE MADUREZ TECNOLÓGICA (TRL).pptx
NIVEL DE  MADUREZ TECNOLÓGICA (TRL).pptxNIVEL DE  MADUREZ TECNOLÓGICA (TRL).pptx
NIVEL DE MADUREZ TECNOLÓGICA (TRL).pptx
 
Tipos de datos en Microsoft Access de Base de Datos
Tipos de datos en Microsoft Access de Base de DatosTipos de datos en Microsoft Access de Base de Datos
Tipos de datos en Microsoft Access de Base de Datos
 
PRÁCTICA Nº 4: “Análisis de secuencias del ADN con el software BioEdit y uso ...
PRÁCTICA Nº 4: “Análisis de secuencias del ADN con el software BioEdit y uso ...PRÁCTICA Nº 4: “Análisis de secuencias del ADN con el software BioEdit y uso ...
PRÁCTICA Nº 4: “Análisis de secuencias del ADN con el software BioEdit y uso ...
 
Unidad 1- Historia y Evolucion de las computadoras.pdf
Unidad 1- Historia y Evolucion de las computadoras.pdfUnidad 1- Historia y Evolucion de las computadoras.pdf
Unidad 1- Historia y Evolucion de las computadoras.pdf
 
editorial de informática de los sueños.docx
editorial de informática de los sueños.docxeditorial de informática de los sueños.docx
editorial de informática de los sueños.docx
 
Desarrollo del Dominio del Internet - Estrada
Desarrollo del Dominio del Internet - EstradaDesarrollo del Dominio del Internet - Estrada
Desarrollo del Dominio del Internet - Estrada
 
Uso de las TIC en la vida cotidiana .
Uso de las TIC en la vida cotidiana       .Uso de las TIC en la vida cotidiana       .
Uso de las TIC en la vida cotidiana .
 
BUSCADORES DE INTERNET (Universidad de Sonora).
BUSCADORES DE INTERNET (Universidad de Sonora).BUSCADORES DE INTERNET (Universidad de Sonora).
BUSCADORES DE INTERNET (Universidad de Sonora).
 
Presentacion y Extension de tema para Blogger.pptx
Presentacion y Extension de tema para Blogger.pptxPresentacion y Extension de tema para Blogger.pptx
Presentacion y Extension de tema para Blogger.pptx
 
proyectos_social_y_socioproductivos _mapas_conceptuales
proyectos_social_y_socioproductivos _mapas_conceptualesproyectos_social_y_socioproductivos _mapas_conceptuales
proyectos_social_y_socioproductivos _mapas_conceptuales
 
¡Mira mi nuevo diseño hecho en Canva!.pdf
¡Mira mi nuevo diseño hecho en Canva!.pdf¡Mira mi nuevo diseño hecho en Canva!.pdf
¡Mira mi nuevo diseño hecho en Canva!.pdf
 
Inteligencia Artificial para usuarios nivel inicial
Inteligencia Artificial para usuarios nivel inicialInteligencia Artificial para usuarios nivel inicial
Inteligencia Artificial para usuarios nivel inicial
 
Pons, A. - El desorden digital - guia para historiadores y humanistas [2013].pdf
Pons, A. - El desorden digital - guia para historiadores y humanistas [2013].pdfPons, A. - El desorden digital - guia para historiadores y humanistas [2013].pdf
Pons, A. - El desorden digital - guia para historiadores y humanistas [2013].pdf
 
Gestión de concurrencia y bloqueos en SQL Server
Gestión de concurrencia y bloqueos en SQL ServerGestión de concurrencia y bloqueos en SQL Server
Gestión de concurrencia y bloqueos en SQL Server
 
Ejercicio 1 periodo 2 de Tecnología 2024
Ejercicio 1 periodo 2 de Tecnología 2024Ejercicio 1 periodo 2 de Tecnología 2024
Ejercicio 1 periodo 2 de Tecnología 2024
 
JORNADA INTELIGENCIA ARTIFICIAL Y REALIDAD VIRTUAL
JORNADA INTELIGENCIA ARTIFICIAL Y REALIDAD VIRTUALJORNADA INTELIGENCIA ARTIFICIAL Y REALIDAD VIRTUAL
JORNADA INTELIGENCIA ARTIFICIAL Y REALIDAD VIRTUAL
 
Navegadores de internet - Nuevas Tecnologías de la Información y la Comunicación
Navegadores de internet - Nuevas Tecnologías de la Información y la ComunicaciónNavegadores de internet - Nuevas Tecnologías de la Información y la Comunicación
Navegadores de internet - Nuevas Tecnologías de la Información y la Comunicación
 
manual-de-oleohidraulica-industrial-vickers.pdf
manual-de-oleohidraulica-industrial-vickers.pdfmanual-de-oleohidraulica-industrial-vickers.pdf
manual-de-oleohidraulica-industrial-vickers.pdf
 
HerramientasInformaticas ¿Que es? - ¿Para que sirve? - Recomendaciones - Comp...
HerramientasInformaticas ¿Que es? - ¿Para que sirve? - Recomendaciones - Comp...HerramientasInformaticas ¿Que es? - ¿Para que sirve? - Recomendaciones - Comp...
HerramientasInformaticas ¿Que es? - ¿Para que sirve? - Recomendaciones - Comp...
 

Presentación Geolocalización Noticias (geo news).2012

  • 1. Geolocalización de Noticias (GEONews) Proyecto Fin de Grado Julio - 2012 Guillermo Santos García gsantosgo@yahoo.es @gsantosgo
  • 2. Contenido Introducción Proceso General de Geolocalización Arquitectura Tecnológica Detalles Implementación Demo Aplicación Evaluación Conclusiones Futuros Trabajos
  • 3. Introducción Visión general de la aplicación Geolocalización de Noticias
  • 4. Introducción Información estructurada vs no estructurada. Inteligencia artificial y procesamiento del lenguaje natural (PLN). Extracción de la información (IE). Extracción de conocimiento estructurado, a partir de información textual no estructurada en lenguaje natural. Reconocimiento y clasificación de entidades nombradas (NERC). Extracción de entidades dentro del texto y posterior clasificación en categorías (nombres de personas, organizaciones, nombres de lugares,..)
  • 5. Proceso General de Geolocalización Tarea 1. Captura de noticias Tarea 2. Reconocimiento y Clasificación de entidades nombradas Tarea 3. Resolución de nombres de lugares Tarea 4. Visualización
  • 6. Proceso General de Geolocalización Reconocimiento y Clasificación de entidades nombradas (NERC) Basados en Gazetteer. Basados en Reglas. Basados en Aprendizaje Automático. “El presidente de la Generalitat valenciana, Alberto Fabra, ha trasladado al nuevo ministro de Industria, José Manuel Soria, el rechazo de la Generalitat valenciana ante el proyecto que propone la instalación de un cementerio nuclear en la localidad de Zarra (Valencia).” “El presidente de la [Generalitat valenciana] [Organization], [Alberto Fabra] [Person], ha trasladado al nuevo ministro de Industria, [José Manuel Soria] [Person], el rechazo de la Generalitat valenciana [Organization] ante el proyecto que propone la instalación de un cementerio nuclear en la localidad de [Zarra] [Location] ([Valencia] [Location]).”
  • 7. Proceso General de Geolocalización Resolución de nombres de lugares Recibe una lista de nombres de lugares o topónimos, y debe determinar cuál es el topónimo mas adecuado para posicionar geográficamente una noticia sobre un mapa cartográfico. Ej. Asturias, España Asturias (Latitud: 43.33333, Longitud: -6) Uso de servicio web search de Geonames para obtener coordenadas geográficas. Problema de ambigüedades. Homografía de nombres de lugares con palabras comunes. Homografía de nombres de lugares con nombre y apellidos de personas. Homografía de nombres de lugares con el mismo nombre.
  • 8. Arquitectura Tecnológica Aplicación Web con tecnología Java/J2EE Tecnologías GWT (Google Web Toolkit). Google Maps Servicios Servicio RSS. Servicio de reconocimiento y clasificación de entidades nombradas. Servicio de resolución de lugares (topónimos). Servicio Cache Local (Guava Cache).
  • 9. Arquitectura Tecnológica Arquitectura Web con tecnología Java/JEE (gwtnewsgeolocation.war)
  • 10. Arquitectura Tecnológica Tecnologías empleadas GWT (Google Web Toolkit). Patrón MVP. Llamadas asíncronas. Integración GWT con cartografía de Google Maps (acceso API de Google Maps). Servicios Servicio RSS. Servicio de reconocimiento y clasificación de entidades nombradas (GATE-ANNIE) Servicio de resolución de lugares (topónimos) mediante el apoyo de los servicios Web de Geonames. Servicio cache local (Guava Cache).
  • 11. Arquitectura Tecnológica Arquitectura aplicación Geolocalización de Noticias
  • 12. Detalles Implementación Servicio RSS Permite acceder remotamente a fuentes de información RSS para obtener y analizar cada item (elemento) con el objetivo de extraer el título, descripción y categorías. Formato RSS 2.0 (Lenguaje XML) Información Titulo Descripción Categorías OJO!! Existen fuentes RSS con Publicidad
  • 13. Detalles Implementación Servicio de reconocimiento y clasificación de entidades nombradas (NERC) Identificación de nombres propios dentro del texto, y clasificación dentro de un conjunto de categorías predefinidas de interés (nombres de personas, organizaciones , nombres de lugares, …) GATE-ANNIE. Reconocedor genérico de entidades.
  • 14. Detalles Implementación Servicio de reconocimiento y clasificación de entidades nombradas Recursos de procesamiento ANNIE Tokenizer Sentence Splitter Gazetteer Part-Of-Speech ANNIE NE Transducer OJO!! Problemas de recursos disponibles en español
  • 15. Detalles Implementación Servicio de reconocimiento y clasificación de entidades nombradas GAZETTEER (Basado en listas) Creación e Incorporación de listas de nombres de lugares o topónimos obtenidos a partir de Geonames (continentes, países, aeropuertos, regiones, estados, provincias, ciudades, mares, océanos,…) Creación e incorporación de listas de nombres de personas y organizaciones obtenidos de JRCNames. Lista de palabras de paradas o vacías (stopwords) … ¿Qué es Geonames? Base de datos de topónimos (alrededor de 8 millones). Dispone 35 servicios Web (countryInfo, search,…)
  • 16. Detalles Implementación Servicio de resolución de nombres de lugares Problema de ambigüedades Homografía de palabras comunes Homografía de nombres de personas y apellidos (Ej. Javier Solana, Monserrat). Homografía de lugares con el mismo nombre.
  • 17. Detalles Implementación Servicio de resolución de nombres de lugares Algoritmo de desambiguación de lugares. Basado en heurísticas Cache de continentes y países Implementación Homografía basado en nombres de lugares. Ej. Asturias, España Paso 1. Obtención de topónimos Continentes, Países, Localizaciones (search) Ej.: Asturias, España Coordenadas Geográficas WGS84 (latitud y longitud)
  • 18. Detalles Implementación Servicio de resolución de nombres de lugares Implementación Paso 2. Nombre de lugar con un sólo topónimo. Lista de países elementos para eliminar ambigüedades de topónimos.
  • 19. Detalles Implementación Servicio de resolución de nombres de lugares Implementación Paso 3. Eliminación de topónimos que no pertenezcan a listas de países, usando cuadro delimitador. Sistema de puntuación de 0..3, en función clase característica y código característica de Geonames.
  • 22. Evaluación Conjunto de 35 noticias nacionales. Conjunto de 35 noticias internacionales. Comparativa con servicio “Conversor RSS a GeoRSS” de Geonames Precisión o eficiencia de 35 noticias nacionales GEONews Geonames Falsamente 0% 0% localizadas (0%) Incorrectamente 39,39% 21,21% (39,39%) localizadas Correctamente 60,61% 78,79% (60,61%) localizadas
  • 23. Evaluación Precisión o eficiencia de 35 noticias internacionales GEONews Geonames Falsamente 2,86% 0% localizadas Incorrectamente 37,14% 23,53% localizadas Correctamente 60,00% 76,47% localizadas
  • 24. Conclusiones Necesidad de tener un mayor conocimiento de la información no estructurada ( Ej. representación y posicionamiento de información geográfica ) Campo del procesamiento del lenguaje natural (PLN) cada vez tiene mas importancia. Geolocalización de Noticias es una aplicación Web donde se integran diversas tecnologías y herramientas (GWT, Google Maps, Reconocedor y Clasificador de Entidades Nombradas, Geonames, ...)
  • 25. Futuros Trabajos Soporte para formatos adicionales de alimentadores Web (Web Feed). RSS (multiples versiones), Atom u otros formatos actuales. Implementación para que la aplicación sea completamente accesible y usable desde dispositivos móviles. Mejora de la inferfaz de usuario. Usar otras alternativas a Google Maps (Cartografía de OpenStreetMap).
  • 26. Futuros Trabajos Mejora del reconocimiento y clasificación de entidades nombradas, dotándole de un mayor rendimiento, de una mayor inteligencia y eficiencia. Reducción de latencia de red a servicios de Geonames, mediante la implementación un índice con tecnología Lucene/SOLR en local. Mejoras en el algoritmo de desambiguación de topónimos, mejorar el rendimiento e inclusión de otras heurísticas.