Propuesta de actualización de macrotesau- ros a partir de noticias de divulgación cientí- fico-tecnológica: aplicación del método N-gramas

Fuentes para la actualización de macrotesauros: Noticias de divulgación científica
María José Baños Moreno
Master en Gestión de Información en las Organizaciones
Facultad de Comunicación y Documentación
Universidad de Murcia
Julio, 2013

Introducción
• Contexto: ritmo exponencial del crecimiento de la información y
la dispersión de datos
• Productos que tratan de solucionar el problema: los tesauros.
Fines:
o Describir la información
o Recuperar la información
o Servir de fuente para elaborar otras herramientas que respondan
a necesidades específicas

• Tesauros analizados: Unesco y Unión Europea, fundamentales
para la construcción de otros productos
Diapositiva 2

Entidad
Creación
Objeto
Campos
Jerarquía
Idiomas
Actualización

Tunesco
UNESCO
1977

Multidisplinar
Monojerárquico
Español, inglés, francés y
ruso

Teurovoc
Unión Europea
1984
Tratamiento de
información generada
internamente
Multidisplinar
Polijerárquico
22 lenguas UE + Croata
+ Serbio

2008

2012

Análisis temático y
búsqueda de documento

Características de los Tesauros de la Unesco (Tunesco) y Unión Europea (Teurovoc). FUENTE:
Elaboración propia a partir de la información que consta en las webs de las respectivas
instituciones

Diapositiva 3

Objetivos
• Analizar el grado de actualización de Tunesco y Teurovoc.
Consideración: indicador de calidad extrínseca
• Conocer si las noticias de divulgación científica pueden ser
utilizadas como fuente de renovación
• Determinar si estos vocabularios resultan adecuados para
describir noticias de divulgación científica

Diapositiva 4

Metodología
Muestra: corpus de 1599
noticias
de
divulgación
científica, obtenidas a partir de
la selección sucesiva de países,
diarios, secciones y titulares
durante 4 meses (del 9 de
marzo al 9 de julio de 2012)
Dos submuestras:
 M1: 159 noticias (10%)
 M2: 320 noticias (20%)

País
Alemania
Canadá

Medio
Süddeutsche Zeitung
The Global and Mail
China Daily
China
The China Post
Corea
The Korea Times
España
El Mundo
The New York Times
EE.UU
The Washington Post
Francia
Le Monde
Italia
La Reppublica
Japón
Yomiuri Shimbun
Reino Unido The Daily Telegraph
Rusia*
Pravda
Selección de países y medios y conformación de las
sub-muestras M1 y M2. FUENTE: Elaboración propia

Diapositiva 5

Metodología
• Indización manual y en
lenguaje natural de titulares
• Traducción a español, inglés y
francés
• Búsqueda
automática
de
equivalencias con N-gramas y
Apache Solr
• Clasificación de resultados
según equivalencias
• Cálculo de estadísticas
• Cálculo de precisión exacta,
cercana y total

Código

Relación

TC

Equivalencia exacta

TS

Sinonimia

TE

Específica

TG

Genérica

TR

Asociativa

TN*

Nueva

TFE

Falsa equivalencia

Códigos de clasificación de resultados para
cada par de términos. FUENTE: Elaboración
propia

Diapositiva 6

Método N-gramas
SUB-MUESTRA M1, 10% NOTICIAS
1.Identificación de los bi-gramas únicos solapados:

•Cálculo del Coeficiente de Dice (Cd), en cada idioma, para cada par de términos
(titular y tesauro) y de la media (Msi) de los tres idiomas
•Selección del término con Msi más elevada, entre posibles candidatos
•Clasificación de medias (Msi) en intervalos agrupados de similitud: [0 – 0,6),
[0,6 – 0,8) y [0,8 – 1]
Diapositiva 7

Método N-gramas, resultados
≈ 55% de términos
correctos (TC)
≈ 6% de relaciones de tipo
jerárquico (TE + TG)
≈ 10% de términos
relacionados (TR)
+
22%
de
falsos
equivalentes (TFE)

TC
TS
TG
TE
TR
TFE

Tunesco
Teurovoc
Total
%
Total %
161 53,49 176 58,47
7
2,33
4
1,33
7
2,33
9
2,99
15
4,98
11
3,65
28
9,30
30
9,97
83
27,57
69 22,92

Clasificación de términos de acuerdo a resultados
obtenidos con N-gramas. FUENTE: Elaboración
propia

Diapositiva 8

Un par de ejemplos de falsos equivalentes

“dinosaurio” y “tesauro”
Grado de equivalencia: 0,40

“evacuación” y “devaluación”
Grado de equivalencia: 0,75

Diapositiva 9

Método Apache Solr
SUB-MUESTRA M2, 20% NOTICIAS
•Construcción de una colección de documentos (términos del
tesauro)
Campo
id
type
des_es
des_fr
des_en
nd_es
nd_fr
nd_en

Descripción
Identificador del concepto
Tesauro (Tunesco ó Teurovoc)
Término descriptor en Español
Término descriptor en Francés
Término descriptor en Inglés
Término no-descriptor en Español
Término no-descriptor en Francés
Término no-descriptor en Inglés

Estructura de campos para la indización de términos como documentos en
Apache Solr. FUENTE: Elaboración propia

Diapositiva 10

Método Apache Solr
• Ecuación de búsqueda (términos extraídos) compuesta por 7
procesos para hallar la mejor correspondencia entre términos:
Consulta
Q1
Q2
Q3
Q4
Q5
Q6
Q7

Descripción
Palabras, en índice general
Literal, en el campo descriptor
Literal, en el campo no-descriptor
Expresión lematizada, en el campo descriptor
Expresión lematizada, en el campo no-descriptor
Palabras lematizadas, en campo descriptor
Palabras lematizadas en campo no-descriptor

Boost
2,5
5
3
0
0
0
0

Consultas efectuadas en Apache Solr. FUENTE: Elaboración propia

• Apache Solr proporciona una medida de similitud o score entre
pares de términos
Diapositiva 11

Método Apache Solr, resultados
- 50% de términos extraídos tenían
similitud exacta
≈ 15% mantienen una relación de
jerarquía
≈ 12% guardan una relación de
tipo asociativo (TR)
Para ≈ 25% no se halló ninguna
relación (términos nuevos, TN) o
ésta fue mal asignada (falsos
equivalentes, TFE).

TC
TS
TG
TE
TR
TFE
TN

Tunesco
Teurovoc
Total % Total %
264 44,07 290 48,41
14 2,34 10 1,67
25 4,17 43 7,18
69 11,52 42 7,01
75 12,52 70 11,69
69 11,52 83 13,86
83 13,86 61 10,18

Clasificación de términos de acuerdo a
resultados obtenidos con Apache Solr.
FUENTE: Elaboración propia

Diapositiva 12

Resultados (TFE y TN)

Términos Falsos Equivalentes y Nuevos
devueltos por ambas técnicas para
Tunesco. FUENTE: Elaboración propia

Términos Falsos Equivalentes y Nuevos
devueltos por ambas técnicas para
Teurovoc. FUENTE: Elaboración propia

Diapositiva 13

Un ejemplo de falso equivalente

“virus animal” y “virus informático” (Teurovoc) –> TFE
“virus animal” y “virus” (Tunesco) -> TG

Diapositiva 14

Resultados de precisión
• Para evaluar la eficacia de cada método, se calculó su precisión (P) con
cada macro-tesauro:

• Se realizaron varios cálculos:
 Precisión exacta (PEX): tiene en cuenta los términos correctos (TC)
 Precisión cercana (PCLOSE): añade los sinónimos (TC + TS)
 Precisión total (PTOTAL): incluye cualquier tipo de relación entre
términos (TC+TS+TE+TG+TR)

Diapositiva 15

• Método N-gramas aporta mejores
resultados
• Teurovoc,
ligeramente
más
actualizado

Precisión total

Precisión exacta
Precisión cercana

Resultados

Datos de precisión para cada técnica y tesauro. FUENTE: Elaboración propia

Diapositiva 16

Discusión
• Influencia de la especialización de los campos
elegidos
• Subjetividad de la indización humana
• Ausencia de relación semántica entre pares de
términos: las técnicas empleadas se basan en el
cálculo de similitud morfológica
• No se ha profundizado en las relaciones entre
términos presentes en los tesauros. Se aprecia la
necesidad de revisión, para la redefinición de
categorías y relaciones
Diapositiva 17

Conclusiones: los macro-tesauros
En cuanto a los OBJETIVOS 1 y 3:
•Es necesaria una mayor frecuencia de revisión de Tunesco y
Teurovoc para incrementar su grado de actualización
•Por tanto, ninguno debe ser utilizado para describir noticias de
divulgación
•Sin embargo, sí que se pueden utilizar como base para la
construcción de otras herramientas. En este sentido, un trabajo
posterior podría analizar el uso concreto de Tunesco y Teurovoc
como punto de partida de otros vocabularios
Diapositiva 18

Conclusiones: las noticias
En cuanto al OBJETIVO 2:
•Las noticias de divulgación científica son una fuente adecuada
para la actualización de estos macro-tesauros. Incluyen muchos
términos no contemplados por éstos, que son reflejo de la
evolución en ciencia y tecnología
•En el futuro, un estudio podría centrarse en la utilidad de la
información periodística para la construcción y/o actualización
de otros tesauros o herramientas de organización del
conocimiento distintas

Diapositiva 19

Conclusiones: las técnicas
•

Los lenguajes pivote permiten resolver casos de homonimia, polisemia y
riqueza lingüística. En el futuro se podrían añadir al análisis otras lenguas

•

La lematización es necesaria. No se ha utilizado en N-gramas, provocando
errores en los resultados. Un estudio posterior podría trabajar en esta
cuestión

•

La paronimia ha elevado el número de TFE. Ejemplo: “corrupción política”
y “coalición política”. Es otra línea futura para mejorar el método N-gramas

•

Las precisiones exacta y cerca son aproximadamente un 10% mejores para
la técnica N-gramas. Pero Apache Solr aporta como ventaja los TN, para los
que no existe equivalencia. Otra línea de investigación podría centrarse en el
análisis concreto de los datos obtenidos para cada palabra clave extraída y
técnica, analizando las diferencias
Diapositiva 20

Propuesta de actualización de macrotesau- ros a partir de noticias de divulgación cientí- fico-tecnológica: aplicación del método N-gramas

Recomendados

Recomendados

Mais conteúdo relacionado

Destaque

Destaque (6)

Semelhante a Propuesta de actualización de macrotesau- ros a partir de noticias de divulgación cientí- fico-tecnológica: aplicación del método N-gramas

Semelhante a Propuesta de actualización de macrotesau- ros a partir de noticias de divulgación cientí- fico-tecnológica: aplicación del método N-gramas (20)

Último

Último (10)

Propuesta de actualización de macrotesau- ros a partir de noticias de divulgación cientí- fico-tecnológica: aplicación del método N-gramas

Notas do Editor