SlideShare uma empresa Scribd logo
1 de 21
Fuentes para la actualización de macrotesauros: Noticias de divulgación científica
María José Baños Moreno
Master en Gestión de Información en las Organizaciones
Facultad de Comunicación y Documentación
Universidad de Murcia
Julio, 2013
Introducción
• Contexto: ritmo exponencial del crecimiento de la información y
la dispersión de datos
• Productos que tratan de solucionar el problema: los tesauros.
Fines:
o Describir la información
o Recuperar la información
o Servir de fuente para elaborar otras herramientas que respondan
a necesidades específicas

• Tesauros analizados: Unesco y Unión Europea, fundamentales
para la construcción de otros productos
Diapositiva 2
Entidad
Creación
Objeto
Campos
Jerarquía
Idiomas
Actualización

Tunesco
UNESCO
1977

Multidisplinar
Monojerárquico
Español, inglés, francés y
ruso

Teurovoc
Unión Europea
1984
Tratamiento de
información generada
internamente
Multidisplinar
Polijerárquico
22 lenguas UE + Croata
+ Serbio

2008

2012

Análisis temático y
búsqueda de documento

Características de los Tesauros de la Unesco (Tunesco) y Unión Europea (Teurovoc). FUENTE:
Elaboración propia a partir de la información que consta en las webs de las respectivas
instituciones

Diapositiva 3
Objetivos
• Analizar el grado de actualización de Tunesco y Teurovoc.
Consideración: indicador de calidad extrínseca
• Conocer si las noticias de divulgación científica pueden ser
utilizadas como fuente de renovación
• Determinar si estos vocabularios resultan adecuados para
describir noticias de divulgación científica

Diapositiva 4
Metodología
Muestra: corpus de 1599
noticias
de
divulgación
científica, obtenidas a partir de
la selección sucesiva de países,
diarios, secciones y titulares
durante 4 meses (del 9 de
marzo al 9 de julio de 2012)
Dos submuestras:
 M1: 159 noticias (10%)
 M2: 320 noticias (20%)

País
Alemania
Canadá

Medio
Süddeutsche Zeitung
The Global and Mail
China Daily
China
The China Post
Corea
The Korea Times
España
El Mundo
The New York Times
EE.UU
The Washington Post
Francia
Le Monde
Italia
La Reppublica
Japón
Yomiuri Shimbun
Reino Unido The Daily Telegraph
Rusia*
Pravda
Selección de países y medios y conformación de las
sub-muestras M1 y M2. FUENTE: Elaboración propia

Diapositiva 5
Metodología
• Indización manual y en
lenguaje natural de titulares
• Traducción a español, inglés y
francés
• Búsqueda
automática
de
equivalencias con N-gramas y
Apache Solr
• Clasificación de resultados
según equivalencias
• Cálculo de estadísticas
• Cálculo de precisión exacta,
cercana y total

Código

Relación

TC

Equivalencia exacta

TS

Sinonimia

TE

Específica

TG

Genérica

TR

Asociativa

TN*

Nueva

TFE

Falsa equivalencia

Códigos de clasificación de resultados para
cada par de términos. FUENTE: Elaboración
propia

Diapositiva 6
Método N-gramas
SUB-MUESTRA M1, 10% NOTICIAS
1.Identificación de los bi-gramas únicos solapados:

•Cálculo del Coeficiente de Dice (Cd), en cada idioma, para cada par de términos
(titular y tesauro) y de la media (Msi) de los tres idiomas
•Selección del término con Msi más elevada, entre posibles candidatos
•Clasificación de medias (Msi) en intervalos agrupados de similitud: [0 – 0,6),
[0,6 – 0,8) y [0,8 – 1]
Diapositiva 7
Método N-gramas, resultados
≈ 55% de términos
correctos (TC)
≈ 6% de relaciones de tipo
jerárquico (TE + TG)
≈ 10% de términos
relacionados (TR)
+
22%
de
falsos
equivalentes (TFE)

TC
TS
TG
TE
TR
TFE

Tunesco
Teurovoc
Total
%
Total %
161 53,49 176 58,47
7
2,33
4
1,33
7
2,33
9
2,99
15
4,98
11
3,65
28
9,30
30
9,97
83
27,57
69 22,92

Clasificación de términos de acuerdo a resultados
obtenidos con N-gramas. FUENTE: Elaboración
propia

Diapositiva 8
Un par de ejemplos de falsos equivalentes

“dinosaurio” y “tesauro”
Grado de equivalencia: 0,40

“evacuación” y “devaluación”
Grado de equivalencia: 0,75

Diapositiva 9
Método Apache Solr
SUB-MUESTRA M2, 20% NOTICIAS
•Construcción de una colección de documentos (términos del
tesauro)
Campo
id
type
des_es
des_fr
des_en
nd_es
nd_fr
nd_en

Descripción
Identificador del concepto
Tesauro (Tunesco ó Teurovoc)
Término descriptor en Español
Término descriptor en Francés
Término descriptor en Inglés
Término no-descriptor en Español
Término no-descriptor en Francés
Término no-descriptor en Inglés

Estructura de campos para la indización de términos como documentos en
Apache Solr. FUENTE: Elaboración propia

Diapositiva 10
Método Apache Solr
• Ecuación de búsqueda (términos extraídos) compuesta por 7
procesos para hallar la mejor correspondencia entre términos:
Consulta
Q1
Q2
Q3
Q4
Q5
Q6
Q7

Descripción
Palabras, en índice general
Literal, en el campo descriptor
Literal, en el campo no-descriptor
Expresión lematizada, en el campo descriptor
Expresión lematizada, en el campo no-descriptor
Palabras lematizadas, en campo descriptor
Palabras lematizadas en campo no-descriptor

Boost
2,5
5
3
0
0
0
0

Consultas efectuadas en Apache Solr. FUENTE: Elaboración propia

• Apache Solr proporciona una medida de similitud o score entre
pares de términos
Diapositiva 11
Método Apache Solr, resultados
- 50% de términos extraídos tenían
similitud exacta
≈ 15% mantienen una relación de
jerarquía
≈ 12% guardan una relación de
tipo asociativo (TR)
Para ≈ 25% no se halló ninguna
relación (términos nuevos, TN) o
ésta fue mal asignada (falsos
equivalentes, TFE).

TC
TS
TG
TE
TR
TFE
TN

Tunesco
Teurovoc
Total % Total %
264 44,07 290 48,41
14 2,34 10 1,67
25 4,17 43 7,18
69 11,52 42 7,01
75 12,52 70 11,69
69 11,52 83 13,86
83 13,86 61 10,18

Clasificación de términos de acuerdo a
resultados obtenidos con Apache Solr.
FUENTE: Elaboración propia

Diapositiva 12
Resultados (TFE y TN)

Términos Falsos Equivalentes y Nuevos
devueltos por ambas técnicas para
Tunesco. FUENTE: Elaboración propia

Términos Falsos Equivalentes y Nuevos
devueltos por ambas técnicas para
Teurovoc. FUENTE: Elaboración propia

Diapositiva 13
Un ejemplo de falso equivalente

“virus animal” y “virus informático” (Teurovoc) –> TFE
“virus animal” y “virus” (Tunesco) -> TG

Diapositiva 14
Resultados de precisión
• Para evaluar la eficacia de cada método, se calculó su precisión (P) con
cada macro-tesauro:

• Se realizaron varios cálculos:
 Precisión exacta (PEX): tiene en cuenta los términos correctos (TC)
 Precisión cercana (PCLOSE): añade los sinónimos (TC + TS)
 Precisión total (PTOTAL): incluye cualquier tipo de relación entre
términos (TC+TS+TE+TG+TR)

Diapositiva 15
• Método N-gramas aporta mejores
resultados
• Teurovoc,
ligeramente
más
actualizado

Precisión total

Precisión exacta
Precisión cercana

Resultados

Datos de precisión para cada técnica y tesauro. FUENTE: Elaboración propia

Diapositiva 16
Discusión
• Influencia de la especialización de los campos
elegidos
• Subjetividad de la indización humana
• Ausencia de relación semántica entre pares de
términos: las técnicas empleadas se basan en el
cálculo de similitud morfológica
• No se ha profundizado en las relaciones entre
términos presentes en los tesauros. Se aprecia la
necesidad de revisión, para la redefinición de
categorías y relaciones
Diapositiva 17
Conclusiones: los macro-tesauros
En cuanto a los OBJETIVOS 1 y 3:
•Es necesaria una mayor frecuencia de revisión de Tunesco y
Teurovoc para incrementar su grado de actualización
•Por tanto, ninguno debe ser utilizado para describir noticias de
divulgación
•Sin embargo, sí que se pueden utilizar como base para la
construcción de otras herramientas. En este sentido, un trabajo
posterior podría analizar el uso concreto de Tunesco y Teurovoc
como punto de partida de otros vocabularios
Diapositiva 18
Conclusiones: las noticias
En cuanto al OBJETIVO 2:
•Las noticias de divulgación científica son una fuente adecuada
para la actualización de estos macro-tesauros. Incluyen muchos
términos no contemplados por éstos, que son reflejo de la
evolución en ciencia y tecnología
•En el futuro, un estudio podría centrarse en la utilidad de la
información periodística para la construcción y/o actualización
de otros tesauros o herramientas de organización del
conocimiento distintas

Diapositiva 19
Conclusiones: las técnicas
•

Los lenguajes pivote permiten resolver casos de homonimia, polisemia y
riqueza lingüística. En el futuro se podrían añadir al análisis otras lenguas

•

La lematización es necesaria. No se ha utilizado en N-gramas, provocando
errores en los resultados. Un estudio posterior podría trabajar en esta
cuestión

•

La paronimia ha elevado el número de TFE. Ejemplo: “corrupción política”
y “coalición política”. Es otra línea futura para mejorar el método N-gramas

•

Las precisiones exacta y cerca son aproximadamente un 10% mejores para
la técnica N-gramas. Pero Apache Solr aporta como ventaja los TN, para los
que no existe equivalencia. Otra línea de investigación podría centrarse en el
análisis concreto de los datos obtenidos para cada palabra clave extraída y
técnica, analizando las diferencias
Diapositiva 20
GRACIAS POR VUESTRA
ATENCIÓN

Mais conteúdo relacionado

Destaque

Destaque (6)

Recerca acadèmica - sessió curs estiu UIB
Recerca acadèmica - sessió curs estiu UIBRecerca acadèmica - sessió curs estiu UIB
Recerca acadèmica - sessió curs estiu UIB
 
La representación de los contenidos digitales: de los tesauros automáticos a...
La representación de los contenidos digitales: de los tesauros automáticos a...La representación de los contenidos digitales: de los tesauros automáticos a...
La representación de los contenidos digitales: de los tesauros automáticos a...
 
Los Tesauros
Los TesaurosLos Tesauros
Los Tesauros
 
El tesauro: elementos, estructura y modo de uso
El tesauro: elementos, estructura y modo de usoEl tesauro: elementos, estructura y modo de uso
El tesauro: elementos, estructura y modo de uso
 
Define tu necesidad de información
Define tu necesidad de informaciónDefine tu necesidad de información
Define tu necesidad de información
 
15. U.D.C.A: El arte en la historia de la Medicina Veterinaria
15. U.D.C.A: El arte en la historia de la Medicina Veterinaria15. U.D.C.A: El arte en la historia de la Medicina Veterinaria
15. U.D.C.A: El arte en la historia de la Medicina Veterinaria
 

Semelhante a Propuesta de actualización de macrotesau- ros a partir de noticias de divulgación cientí- fico-tecnológica: aplicación del método N-gramas

Marco teorico las tics final
Marco teorico las tics finalMarco teorico las tics final
Marco teorico las tics finalIsai Rodriguez
 
Capitulo 10 analisisdedatos
Capitulo 10 analisisdedatosCapitulo 10 analisisdedatos
Capitulo 10 analisisdedatosMariaCarreon6
 
Informe final cualitativa
Informe final cualitativaInforme final cualitativa
Informe final cualitativaWilliam Zela
 
Sampieri capitulo 10
Sampieri capitulo 10Sampieri capitulo 10
Sampieri capitulo 10cernnea
 
1.1. DOCUMENTO DE TEXTO_GNE.docx
1.1. DOCUMENTO DE TEXTO_GNE.docx1.1. DOCUMENTO DE TEXTO_GNE.docx
1.1. DOCUMENTO DE TEXTO_GNE.docxGaby Navarro
 
Informe final cuantitativa
Informe final cuantitativaInforme final cuantitativa
Informe final cuantitativaWilliam Zela
 
008_Gómez(2006)_Pensamientoaleatorioysistemadedatos.pdf
008_Gómez(2006)_Pensamientoaleatorioysistemadedatos.pdf008_Gómez(2006)_Pensamientoaleatorioysistemadedatos.pdf
008_Gómez(2006)_Pensamientoaleatorioysistemadedatos.pdfalbeiro mendoza
 
Guía para maestros: Tablas de frecuencia materiales y recursos
Guía para maestros: Tablas de frecuencia materiales y recursosGuía para maestros: Tablas de frecuencia materiales y recursos
Guía para maestros: Tablas de frecuencia materiales y recursosCompartir Palabra Maestra
 
Bioestadistica - Medidas descriptivas
Bioestadistica - Medidas descriptivasBioestadistica - Medidas descriptivas
Bioestadistica - Medidas descriptivasDavid Poleo
 
Bioestadística para biología y ciencias de la salud
Bioestadística para biología y ciencias de la saludBioestadística para biología y ciencias de la salud
Bioestadística para biología y ciencias de la saludCUR
 

Semelhante a Propuesta de actualización de macrotesau- ros a partir de noticias de divulgación cientí- fico-tecnológica: aplicación del método N-gramas (20)

ECA 2-Probabilidad y Estadística Agosto 2013-Enero 2014
ECA 2-Probabilidad y Estadística Agosto 2013-Enero 2014ECA 2-Probabilidad y Estadística Agosto 2013-Enero 2014
ECA 2-Probabilidad y Estadística Agosto 2013-Enero 2014
 
Marco teorico las tics final
Marco teorico las tics finalMarco teorico las tics final
Marco teorico las tics final
 
Thesis Evolutionary Many-Objective Optimization
Thesis Evolutionary Many-Objective OptimizationThesis Evolutionary Many-Objective Optimization
Thesis Evolutionary Many-Objective Optimization
 
Capitulo 10 analisisdedatos
Capitulo 10 analisisdedatosCapitulo 10 analisisdedatos
Capitulo 10 analisisdedatos
 
EstadisticaI_2016.pdf
EstadisticaI_2016.pdfEstadisticaI_2016.pdf
EstadisticaI_2016.pdf
 
Informe final cualitativa
Informe final cualitativaInforme final cualitativa
Informe final cualitativa
 
Estadistica i 2016
Estadistica i 2016Estadistica i 2016
Estadistica i 2016
 
Desarrollo INFORME FINAL cuantitativo2.pdf
Desarrollo INFORME FINAL cuantitativo2.pdfDesarrollo INFORME FINAL cuantitativo2.pdf
Desarrollo INFORME FINAL cuantitativo2.pdf
 
Sampieri capitulo 10
Sampieri capitulo 10Sampieri capitulo 10
Sampieri capitulo 10
 
Desarrollo INFORME FINAL cualitativo2.pdf
Desarrollo INFORME FINAL cualitativo2.pdfDesarrollo INFORME FINAL cualitativo2.pdf
Desarrollo INFORME FINAL cualitativo2.pdf
 
ECA 1-Probabilidad y Estadística Agosto 2013-Enero 2014
ECA 1-Probabilidad y Estadística Agosto 2013-Enero 2014ECA 1-Probabilidad y Estadística Agosto 2013-Enero 2014
ECA 1-Probabilidad y Estadística Agosto 2013-Enero 2014
 
ECA 1-Probabilidad y Estadística Agosto 2013-Enero 2014
ECA 1-Probabilidad y Estadística Agosto 2013-Enero 2014ECA 1-Probabilidad y Estadística Agosto 2013-Enero 2014
ECA 1-Probabilidad y Estadística Agosto 2013-Enero 2014
 
1.1. DOCUMENTO DE TEXTO_GNE.docx
1.1. DOCUMENTO DE TEXTO_GNE.docx1.1. DOCUMENTO DE TEXTO_GNE.docx
1.1. DOCUMENTO DE TEXTO_GNE.docx
 
Informe final cuantitativa
Informe final cuantitativaInforme final cuantitativa
Informe final cuantitativa
 
008_Gómez(2006)_Pensamientoaleatorioysistemadedatos.pdf
008_Gómez(2006)_Pensamientoaleatorioysistemadedatos.pdf008_Gómez(2006)_Pensamientoaleatorioysistemadedatos.pdf
008_Gómez(2006)_Pensamientoaleatorioysistemadedatos.pdf
 
Guía para maestros: Tablas de frecuencia materiales y recursos
Guía para maestros: Tablas de frecuencia materiales y recursosGuía para maestros: Tablas de frecuencia materiales y recursos
Guía para maestros: Tablas de frecuencia materiales y recursos
 
Bioestadistica - Medidas descriptivas
Bioestadistica - Medidas descriptivasBioestadistica - Medidas descriptivas
Bioestadistica - Medidas descriptivas
 
Bioestadística para biología y ciencias de la salud
Bioestadística para biología y ciencias de la saludBioestadística para biología y ciencias de la salud
Bioestadística para biología y ciencias de la salud
 
Mead M2 Act2
Mead M2 Act2Mead M2 Act2
Mead M2 Act2
 
2do material u2
2do material u22do material u2
2do material u2
 

Último

How to use Redis with MuleSoft. A quick start presentation.
How to use Redis with MuleSoft. A quick start presentation.How to use Redis with MuleSoft. A quick start presentation.
How to use Redis with MuleSoft. A quick start presentation.FlorenciaCattelani
 
Avances tecnológicos del siglo XXI 10-07 eyvana
Avances tecnológicos del siglo XXI 10-07 eyvanaAvances tecnológicos del siglo XXI 10-07 eyvana
Avances tecnológicos del siglo XXI 10-07 eyvanamcerpam
 
redes informaticas en una oficina administrativa
redes informaticas en una oficina administrativaredes informaticas en una oficina administrativa
redes informaticas en una oficina administrativanicho110
 
Innovaciones tecnologicas en el siglo 21
Innovaciones tecnologicas en el siglo 21Innovaciones tecnologicas en el siglo 21
Innovaciones tecnologicas en el siglo 21mariacbr99
 
Buenos_Aires_Meetup_Redis_20240430_.pptx
Buenos_Aires_Meetup_Redis_20240430_.pptxBuenos_Aires_Meetup_Redis_20240430_.pptx
Buenos_Aires_Meetup_Redis_20240430_.pptxFederico Castellari
 
Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...
Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...
Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...JohnRamos830530
 
investigación de los Avances tecnológicos del siglo XXI
investigación de los Avances tecnológicos del siglo XXIinvestigación de los Avances tecnológicos del siglo XXI
investigación de los Avances tecnológicos del siglo XXIhmpuellon
 
Avances tecnológicos del siglo XXI y ejemplos de estos
Avances tecnológicos del siglo XXI y ejemplos de estosAvances tecnológicos del siglo XXI y ejemplos de estos
Avances tecnológicos del siglo XXI y ejemplos de estossgonzalezp1
 
Guia Basica para bachillerato de Circuitos Basicos
Guia Basica para bachillerato de Circuitos BasicosGuia Basica para bachillerato de Circuitos Basicos
Guia Basica para bachillerato de Circuitos BasicosJhonJairoRodriguezCe
 
EVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptx
EVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptxEVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptx
EVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptxJorgeParada26
 

Último (10)

How to use Redis with MuleSoft. A quick start presentation.
How to use Redis with MuleSoft. A quick start presentation.How to use Redis with MuleSoft. A quick start presentation.
How to use Redis with MuleSoft. A quick start presentation.
 
Avances tecnológicos del siglo XXI 10-07 eyvana
Avances tecnológicos del siglo XXI 10-07 eyvanaAvances tecnológicos del siglo XXI 10-07 eyvana
Avances tecnológicos del siglo XXI 10-07 eyvana
 
redes informaticas en una oficina administrativa
redes informaticas en una oficina administrativaredes informaticas en una oficina administrativa
redes informaticas en una oficina administrativa
 
Innovaciones tecnologicas en el siglo 21
Innovaciones tecnologicas en el siglo 21Innovaciones tecnologicas en el siglo 21
Innovaciones tecnologicas en el siglo 21
 
Buenos_Aires_Meetup_Redis_20240430_.pptx
Buenos_Aires_Meetup_Redis_20240430_.pptxBuenos_Aires_Meetup_Redis_20240430_.pptx
Buenos_Aires_Meetup_Redis_20240430_.pptx
 
Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...
Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...
Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...
 
investigación de los Avances tecnológicos del siglo XXI
investigación de los Avances tecnológicos del siglo XXIinvestigación de los Avances tecnológicos del siglo XXI
investigación de los Avances tecnológicos del siglo XXI
 
Avances tecnológicos del siglo XXI y ejemplos de estos
Avances tecnológicos del siglo XXI y ejemplos de estosAvances tecnológicos del siglo XXI y ejemplos de estos
Avances tecnológicos del siglo XXI y ejemplos de estos
 
Guia Basica para bachillerato de Circuitos Basicos
Guia Basica para bachillerato de Circuitos BasicosGuia Basica para bachillerato de Circuitos Basicos
Guia Basica para bachillerato de Circuitos Basicos
 
EVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptx
EVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptxEVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptx
EVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptx
 

Propuesta de actualización de macrotesau- ros a partir de noticias de divulgación cientí- fico-tecnológica: aplicación del método N-gramas

  • 1. Fuentes para la actualización de macrotesauros: Noticias de divulgación científica María José Baños Moreno Master en Gestión de Información en las Organizaciones Facultad de Comunicación y Documentación Universidad de Murcia Julio, 2013
  • 2. Introducción • Contexto: ritmo exponencial del crecimiento de la información y la dispersión de datos • Productos que tratan de solucionar el problema: los tesauros. Fines: o Describir la información o Recuperar la información o Servir de fuente para elaborar otras herramientas que respondan a necesidades específicas • Tesauros analizados: Unesco y Unión Europea, fundamentales para la construcción de otros productos Diapositiva 2
  • 3. Entidad Creación Objeto Campos Jerarquía Idiomas Actualización Tunesco UNESCO 1977 Multidisplinar Monojerárquico Español, inglés, francés y ruso Teurovoc Unión Europea 1984 Tratamiento de información generada internamente Multidisplinar Polijerárquico 22 lenguas UE + Croata + Serbio 2008 2012 Análisis temático y búsqueda de documento Características de los Tesauros de la Unesco (Tunesco) y Unión Europea (Teurovoc). FUENTE: Elaboración propia a partir de la información que consta en las webs de las respectivas instituciones Diapositiva 3
  • 4. Objetivos • Analizar el grado de actualización de Tunesco y Teurovoc. Consideración: indicador de calidad extrínseca • Conocer si las noticias de divulgación científica pueden ser utilizadas como fuente de renovación • Determinar si estos vocabularios resultan adecuados para describir noticias de divulgación científica Diapositiva 4
  • 5. Metodología Muestra: corpus de 1599 noticias de divulgación científica, obtenidas a partir de la selección sucesiva de países, diarios, secciones y titulares durante 4 meses (del 9 de marzo al 9 de julio de 2012) Dos submuestras:  M1: 159 noticias (10%)  M2: 320 noticias (20%) País Alemania Canadá Medio Süddeutsche Zeitung The Global and Mail China Daily China The China Post Corea The Korea Times España El Mundo The New York Times EE.UU The Washington Post Francia Le Monde Italia La Reppublica Japón Yomiuri Shimbun Reino Unido The Daily Telegraph Rusia* Pravda Selección de países y medios y conformación de las sub-muestras M1 y M2. FUENTE: Elaboración propia Diapositiva 5
  • 6. Metodología • Indización manual y en lenguaje natural de titulares • Traducción a español, inglés y francés • Búsqueda automática de equivalencias con N-gramas y Apache Solr • Clasificación de resultados según equivalencias • Cálculo de estadísticas • Cálculo de precisión exacta, cercana y total Código Relación TC Equivalencia exacta TS Sinonimia TE Específica TG Genérica TR Asociativa TN* Nueva TFE Falsa equivalencia Códigos de clasificación de resultados para cada par de términos. FUENTE: Elaboración propia Diapositiva 6
  • 7. Método N-gramas SUB-MUESTRA M1, 10% NOTICIAS 1.Identificación de los bi-gramas únicos solapados: •Cálculo del Coeficiente de Dice (Cd), en cada idioma, para cada par de términos (titular y tesauro) y de la media (Msi) de los tres idiomas •Selección del término con Msi más elevada, entre posibles candidatos •Clasificación de medias (Msi) en intervalos agrupados de similitud: [0 – 0,6), [0,6 – 0,8) y [0,8 – 1] Diapositiva 7
  • 8. Método N-gramas, resultados ≈ 55% de términos correctos (TC) ≈ 6% de relaciones de tipo jerárquico (TE + TG) ≈ 10% de términos relacionados (TR) + 22% de falsos equivalentes (TFE) TC TS TG TE TR TFE Tunesco Teurovoc Total % Total % 161 53,49 176 58,47 7 2,33 4 1,33 7 2,33 9 2,99 15 4,98 11 3,65 28 9,30 30 9,97 83 27,57 69 22,92 Clasificación de términos de acuerdo a resultados obtenidos con N-gramas. FUENTE: Elaboración propia Diapositiva 8
  • 9. Un par de ejemplos de falsos equivalentes “dinosaurio” y “tesauro” Grado de equivalencia: 0,40 “evacuación” y “devaluación” Grado de equivalencia: 0,75 Diapositiva 9
  • 10. Método Apache Solr SUB-MUESTRA M2, 20% NOTICIAS •Construcción de una colección de documentos (términos del tesauro) Campo id type des_es des_fr des_en nd_es nd_fr nd_en Descripción Identificador del concepto Tesauro (Tunesco ó Teurovoc) Término descriptor en Español Término descriptor en Francés Término descriptor en Inglés Término no-descriptor en Español Término no-descriptor en Francés Término no-descriptor en Inglés Estructura de campos para la indización de términos como documentos en Apache Solr. FUENTE: Elaboración propia Diapositiva 10
  • 11. Método Apache Solr • Ecuación de búsqueda (términos extraídos) compuesta por 7 procesos para hallar la mejor correspondencia entre términos: Consulta Q1 Q2 Q3 Q4 Q5 Q6 Q7 Descripción Palabras, en índice general Literal, en el campo descriptor Literal, en el campo no-descriptor Expresión lematizada, en el campo descriptor Expresión lematizada, en el campo no-descriptor Palabras lematizadas, en campo descriptor Palabras lematizadas en campo no-descriptor Boost 2,5 5 3 0 0 0 0 Consultas efectuadas en Apache Solr. FUENTE: Elaboración propia • Apache Solr proporciona una medida de similitud o score entre pares de términos Diapositiva 11
  • 12. Método Apache Solr, resultados - 50% de términos extraídos tenían similitud exacta ≈ 15% mantienen una relación de jerarquía ≈ 12% guardan una relación de tipo asociativo (TR) Para ≈ 25% no se halló ninguna relación (términos nuevos, TN) o ésta fue mal asignada (falsos equivalentes, TFE). TC TS TG TE TR TFE TN Tunesco Teurovoc Total % Total % 264 44,07 290 48,41 14 2,34 10 1,67 25 4,17 43 7,18 69 11,52 42 7,01 75 12,52 70 11,69 69 11,52 83 13,86 83 13,86 61 10,18 Clasificación de términos de acuerdo a resultados obtenidos con Apache Solr. FUENTE: Elaboración propia Diapositiva 12
  • 13. Resultados (TFE y TN) Términos Falsos Equivalentes y Nuevos devueltos por ambas técnicas para Tunesco. FUENTE: Elaboración propia Términos Falsos Equivalentes y Nuevos devueltos por ambas técnicas para Teurovoc. FUENTE: Elaboración propia Diapositiva 13
  • 14. Un ejemplo de falso equivalente “virus animal” y “virus informático” (Teurovoc) –> TFE “virus animal” y “virus” (Tunesco) -> TG Diapositiva 14
  • 15. Resultados de precisión • Para evaluar la eficacia de cada método, se calculó su precisión (P) con cada macro-tesauro: • Se realizaron varios cálculos:  Precisión exacta (PEX): tiene en cuenta los términos correctos (TC)  Precisión cercana (PCLOSE): añade los sinónimos (TC + TS)  Precisión total (PTOTAL): incluye cualquier tipo de relación entre términos (TC+TS+TE+TG+TR) Diapositiva 15
  • 16. • Método N-gramas aporta mejores resultados • Teurovoc, ligeramente más actualizado Precisión total Precisión exacta Precisión cercana Resultados Datos de precisión para cada técnica y tesauro. FUENTE: Elaboración propia Diapositiva 16
  • 17. Discusión • Influencia de la especialización de los campos elegidos • Subjetividad de la indización humana • Ausencia de relación semántica entre pares de términos: las técnicas empleadas se basan en el cálculo de similitud morfológica • No se ha profundizado en las relaciones entre términos presentes en los tesauros. Se aprecia la necesidad de revisión, para la redefinición de categorías y relaciones Diapositiva 17
  • 18. Conclusiones: los macro-tesauros En cuanto a los OBJETIVOS 1 y 3: •Es necesaria una mayor frecuencia de revisión de Tunesco y Teurovoc para incrementar su grado de actualización •Por tanto, ninguno debe ser utilizado para describir noticias de divulgación •Sin embargo, sí que se pueden utilizar como base para la construcción de otras herramientas. En este sentido, un trabajo posterior podría analizar el uso concreto de Tunesco y Teurovoc como punto de partida de otros vocabularios Diapositiva 18
  • 19. Conclusiones: las noticias En cuanto al OBJETIVO 2: •Las noticias de divulgación científica son una fuente adecuada para la actualización de estos macro-tesauros. Incluyen muchos términos no contemplados por éstos, que son reflejo de la evolución en ciencia y tecnología •En el futuro, un estudio podría centrarse en la utilidad de la información periodística para la construcción y/o actualización de otros tesauros o herramientas de organización del conocimiento distintas Diapositiva 19
  • 20. Conclusiones: las técnicas • Los lenguajes pivote permiten resolver casos de homonimia, polisemia y riqueza lingüística. En el futuro se podrían añadir al análisis otras lenguas • La lematización es necesaria. No se ha utilizado en N-gramas, provocando errores en los resultados. Un estudio posterior podría trabajar en esta cuestión • La paronimia ha elevado el número de TFE. Ejemplo: “corrupción política” y “coalición política”. Es otra línea futura para mejorar el método N-gramas • Las precisiones exacta y cerca son aproximadamente un 10% mejores para la técnica N-gramas. Pero Apache Solr aporta como ventaja los TN, para los que no existe equivalencia. Otra línea de investigación podría centrarse en el análisis concreto de los datos obtenidos para cada palabra clave extraída y técnica, analizando las diferencias Diapositiva 20

Notas do Editor

  1. BUENOS DÍAS, VOY A PROCEDER A LA EXPOSICIÍON DEL TRABAJO TITULADO “FUENTES PARA LA ACTUALIZACIÓN DE MACROTESAUROS: NOTICIAS DE DIVULGACIÓN CIENTÍFICA”
  2. PARTIMOS DE UN CONTEXTO CARACTERIZADO POR UN RITMO EXPONENCIAL DEL CRECIMIENTO DE LA INFORMACIÓN Y LA DISPERSIÓN DE LOS DATOS BIEN, PARTIMOS DE UN CONTEXTO CARACTERIZADO POR EL RITMO EXPONENCIAL DEL CRECIMIENTO DE LA INFORMACIÓN Y LA DISPERSIÓN DE LOS DATOS EXISTEN DIVERSAS DISCIPLINAS, COMO DOCUMENTACIÓN E INFORMÁTICA, QUE TRATAN DE PONER SOLUCIÓN A ESTAR PROBLEMÁTICA A TRAVÉS DE DIFERENTES PRODUCTOS, COMO SON LOS TESAUROS. ÉSTOS TIENEN COMO FINALIDAD… EN ESTE ESTUDIO SE HA CONSIDERADO UNA TERCERA FINALIDAD: SERVIR DE FUENTE PARA ELABORAR OTRAS HERRAMIENTAS, QUE RESPONDAN A NECESIDADES ESPECÍFICAS DE INFORMACIÓN EN ESTE SENTIDO, DESTACAN DOS DE LOS TESAUROS MÁS UTILIZADOS PARA LA CONSTRUCCIÓN DE OOS PRODUCTOS DE ORGANIZACIÓN DEL CONOCIMIENTO Y QUE HAN SIDO ANALIZADOS EN ESTE TRABAJO. EL TESAURO DE LA UNESCO Y EL TESAURO DE LA UNIÓN EUROPEA, DENOMINADOS EN ADELANTE TUNESCO Y TEUROVOC, RESPECTIVAMENTE. ESTOS VOCABULARIOS SE CARACTERIZAN POR LOS ASPECTOS RECOGIDOS EN LA SIGUIENTE TABLA, DE LA QUE SÓLO VOY A DESCATAR EL DATO DE ACTUALIZACIÓN
  3. ASÍ, MIENTRAS TUNESCO FUE RENOVADO POR ÚLTIMA VEZ EN 2008, TEUROVOC SUFRIÓ SU ÚLTIMA MODIFICACIÓN A FINALES DE NOVIEMBRE
  4. CONTEXTUALIZADO EL TRABAJO, SE PLANTEAN LOS SIGUIENTES OBJETIVOS: ANALIZAR EL GRADO DE ACTUALIZACION DE ESTOS MACROTESAUROS, ES DECIR LA CAPACIDAD DE UN TESAURO PARA DESCRIBIR ADECUADAMENTE UN DOCUMENTO RECIENTE. SE TRATA DE UN INDICADOR DE CALIDAD EXTRÍNSECA. DETERMINAR LA CAPACIDAD DE LAS NOTICIAS DE DIVULGACIÓN CIENTÍFICA PARA SER UTILIZADAS COMO FUENTE DE ACTUALIZACIÓN Y, FINALMENTE, RELACIONADO CON LO ANTERIOR, DETERMINAR SI LOS VOCABULARIOS ANALIZADOS SON ADECUADOS PARA DESCRIBIR LAS NOTICIAS DE DIVULGACIÓN CIENTÍFICA
  5. ASÍ, SE DEFINIÓ UN OBJETO DE ANÁLISIS, A PARTIR DE LA SELECCIÓN SUCESIVA DE PAÍSES (LOS MÁS DESTACADOS EN CIENCIA Y TECNOLOGÍA, DE ACUERDO A LOS PARÁMETROS RECOGIDOS EN EL TRABAJO), LOS DIARIOS MÁS IMPORTANTES DE CADA PAÍS (SEGÚN DATOS DE LA WEB DE RANKINGS 4INM, SECCIONES DE CIENCIA Y TECNOLOGÍA DE CADA PERIÓDICO, ASÍ COMO TITULARES, ESCOGIDOS DIARIAMENTE DURANTE EL PERIODO COMPRENDIDO ENTRE EL 9 DE MARZO Y EL 9 DE JULIO DE 2012. DE ESTA FORMA SE CONFIGURÓ UN CORPUS COMPUESTO POR 1599 NOTICIAS, DE LAS QUE POSTERIORMENTE SE OBTUVIERON DOS SUBMUESTRAS (M1 Y M2), A LAS QUE SE APLICARON LA TÉCNICA N-GRAMAS Y APACHE SOLR, RESPECTIVAMENTE. Por qué: pueden constituir una fuente de renovación adecuada, de acuerdo a las características de la información periodística: Corpus de menor extensión; actualidad e inmediatez; enciclopedismo; universalidad de la procedencia; proximidad: contraste; normalización; interés divulgativo y pedagógico; uso de fuentes acreditadas; uso y adaptación de lenguajes técnicos
  6. POSTERIORMENTE, SE INDIZARON MANUALMENTE Y EN LENGUAJE NATURAL LOS TITULARES OBTENIDOS Y, PUESTO QUE ESTOS PODÍAN ESTAR ESCRITOS EN IDIOMAS DIFERENTES, SE TRADUJERON A ESPAÑOL, INGLÉS Y FRANCÉS, USÁNDOLOS POSTERIORMENTE COMO LENGUAJES PIVOTE, CON EL OBJETIVO DE DESAMBIGUAR LOS CASOS DE HOMONIMIA Y POLISEMIA. DESPUÉS SE CONSTRUYERON COLECCIONES DE DOCUMENTOS (QUE EN REALIDAD SON LOS DESCRIPTORES Y NO DESCRIPTORES DE CADA MACROTESAURO) A LAS QUE SE INTERROGA A PARTIR DE UNA ECUACIÓN DE BÚSQUEDA COMPUESTA POR LAS PALABRAS CLAVE EXTRAÍDAS. A CONTINUACIÓN, LOS RESULTADOS SE CLASIFICARON EN FUNCIÓN DE EQUIVALENCIAS HALLADAS ENTRE PARES DE TÉRMINOS, DE ACUERDO A LA TABLA QUE APARECE A LA DERECHA. FINALMENTE SE REALIZARON DIVERSOS CÁLCULOS EN FUNCIÓN DE LOS GRADOS DE EQUIVALENCIAS ENTRE LOS TÉRMINOS Y SE CALCULÓ LA PRECISIÓN EXACTA, CERCANA Y TOTAL
  7. EN CUANTO A LA TÉCNICA N-GRAMAS, A NIVEL INTERNO, EL SISTEMA IDENTIFICA LOS BIGRAMAS COMPARTIDOS ENTRE LOS PARES DE TÉRMINOS ANALIZADOS (TITULAR Y TESAURO). EN EL EJEMPLO, EL PRIMER TÉRMINO, ARMA, TIENE 3 BIGRAMAS Y EL SEGUNDO, ARMAS, 4, SIENDO COMÚN A LOS DOS 3 BIGRAMAS (AR, RM Y MA) DESPUÉS SE CALCULA EL COEFICIENTE DE DICE PARA CADA TÉRMINO EN CADA UNO DE LOS IDIOMAS, INGLÉS, FRANCÉS Y ESPAÑOL) Y SE DETERMINA LA MEDIA DE UN TÉRMINO EN FUNCIÓN DE LOS DATOS PARA CADA IDIOMA A CONTINUACIÓN N-GRAMAS DETERMINA CUÁL ES EL TÉRMINO QUE GUARDA LA MAYOR EQUIVALENCIA CON RESPECTO A LA PALABRA CLAVE EXTRAÍDA, SIENDO SELECCIONADO AQUEL QUE TIENE LA MEDIA DE SIMILUTD MÁS ELEVADA. FINALMENTE, SE CLASIFICAN DICHAS MEDIAS EN INTERVALOS AGRUPADOS DE SIMILITUD DESPUÉS, LOS RESULTADOS SE CLASIFICAN EN FUNCIÓN A LA TABLA QUE YA HEMOS VISTO, COMO TC, TS, TE, TG, TR
  8. ASÍ, PARA LA PALABRA CLAVE “DINOSAURIO” HALLÓ COMO TÉRMINO CON MAYOR EQUIVALENCIA “TESAURO” Y PARA “EVACUACIÓN”, “DEVALUACIÓN”. EN ESTE ÚLTIOM CASO, CON UN GRADO DE EQUIVALENCIA DE 0,75, ROZANDO PRÁCTICAMENTE EL ÚLTIMA INTERVALO AGRUPADO. EN NINGUNO DE LOS CASOS, EXISTE RELACIÓN SEMÁNTICA ENTRE LOS PARES DE TÉRMINOS, POR LO QUE FUERON CLASIFICADOS COMO TFE
  9. EN RELACIÓN CON LA TÉCNICA APACHE SOLR, A PARTIR DE LA CONSTRUCCIÓN DE UNA COLECCIÓN DE DOCUMENTOS (TÉRMINOS DE TESAURO), SIGUIENDO LA ESTRUCTURA RECOGIDA EN LA TABLA QUE APARECE MÁS ABAJO Y EN LA QUE NO PROFUNDIZO, SE EFECTÚA UNA CONSULTA, QUE INCLUYE LAS PALABRAS CLAVE EXTRAÍDAS DE LOS TITULARES), MEDIANTE UN PROCESO COMPUESTO POR 7 BÚSQUEDAS
  10. ESTE PROCESO, SE CONFIGURÓ TRAS DIVERSOS ENSAYOS, SIENDO EL QUE MEJORES RESULTADOS APORTABA. Q2 Y Q3, EFECTÚAN BÚSQUEDAS LITERALES, POR LO QUE PERMITEN DETERMINAR UNA IDENTIFICACIÓN EXACTA O MUY CERCANA, POR ESTA CUESTIÓN SE LE DIO UNA MAYOR PONDERACIÓN. LAS PRUEBAS DEMOSTRARON QUE DANDO MÁS PESO A Q1 LOS RESULTADOS MEJORABAN. POR OTRO LADO, PARA EL RESTO DE BÚSQUEDAS, A LA VISTA DE ENSAYOS PREVIOS, SE ESTABLECIÓ UN UMBRAL MÍNIMO DE SCORE, POR DEBAJO DEL CUAL SE DESECHARON LOS RESULTADOS3 DESPUÉS Y COMO CON N-GRAMAS, LOS TÉRMINOS SE CLASIFICARON EN FUNCIÓN DE LA RELACIÓN QUE MANTENÍAN CON RESPECTO A LAS PALABRAS CLAVE EXTRAÍDAS DE LOS TITULARES
  11. LA PRINCIPAL VENTAJA DE APACHE SOLR FRENTE A N-GRAMAS, ES LA CAPACIDAD DE DESCARTAR LOS TN EN LA REVISIÓN DE RESULTADOS, PARA LOS QUE NO HALLA NINGUNA RELACIÓN
  12. ASÍ, EN PROPORCIÓN, CASI LA MITAD DE LOS TFE OBTENIDOS POR N-GRAMAS, YA QUE LAS CIFRAS SON SIMILARES, FUERON CLASIFICADOS COMO TN PARA APACHE SOLR, REDUCIENDO DE ESTA FORMA LA CARGA DE REVISIÓN DE RESULTADOS POSTERIOR
  13. EN LA ECUACIÓN SE CONSIDERA TRREL Y TRTOT COMO TÉRMINOS RECUPERADOS RELEVANTES Y TOTAL DE TÉRMINOS RECUPERADOS, RESPECTIVAMENTE HABITUALMENTE EL CÁLCULO DE LA PRECISIÓN (P), VA LIGADO AL DE LA EXHAUSTIVIDAD (E), DE FORMA QUE ES POSIBLE DETERMINAR LA MEDIDA F O ARMÓNICA (VAN RIJSBERGEN, 1979, PP. 129-135). EN ESTE TRABAJO NO SE CALCULA LA EXHAUSTIVIDAD DE LA RECUPERACIÓN DE INFORMACIÓN, YA QUE LOS DATOS NEGATIVOS (CLASIFICADOS COMO TN Y TFE) HAN SIDO ANALIZADOS INDIVIDUALMENTE PARA AMBAS TÉCNICAS Y NO SE HAN HALLADO TÉRMINOS DE EQUIVALENCIA EXACTA (TC). PARECE EVIDENTE ENTONCES QUE LA EXHAUSTIVIDAD TENDERÍA A 1. POR OTRO LADO, SE HA COMPROBADO QUE, EN LA MAYORÍA DE CASOS, EXISTÍAN TÉRMINOS GENÉRICOS (TG) QUE SE PODRÍAN UTILIZAR PARA DESCRIBIR LAS NOTICIAS, EN LUGAR DE LOS TN Y TFE DETECTADOS.
  14. EN ESTOS GRÁFICOS, SE RESUMEN LOS DATOS DE PRECISIÓN OBTENIDOS Y, SIN ENTRAR EN DETALLES, SE PUEDE OBSERVAR QUE: EN CUANTO A LAS TÉCNICAS EMPLEADAS: LA PRECISIÓN EXACTA Y TOTAL SON SIMILARES Y MUESTRAN QUE LA TÉCNICA N-GRAMAS OBTIENE MEJORES RESULTADOS. LOS DATOS DE PRECISIÓN TOTAL SON MUY SIMILARES POR OTRO, EN RELACIÓN CON LOS TESAUROS ANALIZADOS. LOS DATOS DE PRECISIÓN, EN TODOS LOS CASOS, SON MEJORES PARA TEUROVOC, LO QUE INDICA QUE ÉSTE ESTÁ MÁS ACTUALIZADO Y ES MÁS ADECUADO PARA LA DESCRIPCIÓN DE NOTICIAS DE DIVULGACIÓN. POR TANTO, POSEE UNA MAYOR CALIDAD EXTRÍNSECA QUE TUNESCO
  15. ASPECTOS QUE PUEDEN SER OBJETO DE DEBATE O DISCUSIÓN: CAMPOS ELEGIDOS: CIENCIA Y TECNOLOGÍA. OTRAS SECCIONES, SOBRE TODO LAS DE NACIONAL O INTERNACIONAL, PODRÍA MEJORAR LOS DATOS, ESPECIALMENTE EN EL CASO DE TEUROVOC, YA QUE SU CAMPO DE ACTUACIÓN ES MÁS BIEN POLÍTICO SUBJETIVIDAD: LA FORMACIÓN Y EXPERIENCIA PREVIA INFLUYE EN EL PROCESO DE INDIZACIÓN, DANDO LUGAR A UN LISTADO DE TÉRMINOS QUE PODRÍA VARIAR SEGÚN EL INDIZADOR. TÉCNICAS: EN REALIDAD NO ANALIZAN LA RELACIÓN SEMÁNTICA ENTRE TÉRMINOS. LOS TN Y TFE ESTÁN EN SU MAYORÍA RELACIONADOS CON TÉRMINOS EN LOS TESAUROS MEDIANTE RELACIONES DE SINONIMIA, JERARQUÍA O ASOCIACIÓN, QUE NO HAN SIDO IDENTIFICADAS POR LAS TÉCNICAS CALIDAD INTRÍNSECA: SE APRECIA NECESIDAD DE REVISIÓN DE LAS RELACIONES ENTRE TÉRMINOS RECOGIDOS EN LOS TESAUROS. EJEMPLO: SMARTPHONE (NO DESCRIPTOR) Y TELÉFONO MÓVIL (DESCRIPTOR)
  16. LAS CONCLUSIONES SE HAN ESTABLECIDO DESDE TRES PUNTOS DE VISTA: EN RELACIÓN CON LOS TESAUROS ANALIZADOS Y CON RESPECTO A LOS OBJETIVOS 1 Y 3: TANTO TUNESCO COMO TEUROVOC NECESITAN SER REVISADOS CON MAYOR FRECUENCIA, MUCHAS DE LAS PALABRAS CLAVE EXTRAÍDAS NO ESTÁN CONTEMPLADAS EN LOS MISMOS, AUNQUE TEUROVOC ESTÁ LIGERAMENTE MÁS ACTUALIZADO POR ESTA RAZÓN NINGUNO DEBE SER UTILIZADO PARA DESCRIBIR NOTICIAS DE DIVULGACIÓN, YA QUE CARECEN DE LOS TÉRMINOS MÁS ADECUADOS PARA INDIZARLAS CORRECTAMENTE SIN EMBARGO, SÍ QUE SE PUEDEN UTILIZAR COMO BASE PARA LA CONSTRUCCIÓN DE OTRAS HERRAMIENTAS. EN ESTE SENTIDO, UN TRABAJO POSTERIOR PODRÍA ANALIZAR EL USO CONCRETO DE TUNESCO Y TEUROVOC COMO FUENTES COMO PUNTO DE PARTIDA DE OTROS VOCABULARIOS PREVIA ADAPTACIÓN A LAS NECESIDADES DE SUS USUARIOS Y EMPLEANDO ADICIONALMENTE OTROS VOCABULARIOS Y FUENTES
  17. LAS NOTICIAS DE DIVULGACIÓN CIENTÍFICA SON UNA FUENTE ADECUADA PARA LA ACTUALIZACIÓN DE ESTOS MACRO-TESAUROS, PUES INCLUYEN TÉRMINOS NO RECOGIDOS POR ÉSTOS, QUE SON EL REFLEJO DE LA EVOLUCIÓN EN CIENCIA Y TECNOLOGÍA UNA FUTURA LÍNEA DE TRABAJO PODRÍA CENTRARSE EN LA UTILIDAD DE LA INFORMACIÓN PERIODÍSTICA PARA LA CONSTRUCCIÓN Y/O ACTUALIZACIÓN DE OTROS TESAUROS O HERRAMIENTAS DE ORGANIZACIÓN DEL CONOCIMIENTO DISTINTAS. POR EJEMPLO, EN EL CASO DE ONTOLOGÍAS, DONDE LAS RELACIONES ENTRE CONCEPTOS SON MUCHO MÁS COMPLEJAS Y FORMALES
  18. POR ÚLTIMO Y, EN CUANTO A LAS TÉCNICAS EMPLEADAS, SE HAN DESTACADO LOS SIGUIENTES ASPECTOS: EL USO DE LENGUAJES PIVOTES HA SIDO ÚTIL PARA LA RESOLUCIÓN DE CASOS DE HOMONIMIA Y POLISEMIA, PERO TAMBIÉN DE LA VARIEDAD LINGÜÍSTICA PROPIA DE CADA IDIOMA. ASÍ, PARA EL TÉRMINO “WILDLIFE” QUE NO APARECE EN NINGUNO DE LOS TESAUROS, SE HA DEVUELTO EL TC, GRACIAS A SU EQUIVALENCIA EN ESPAÑOL Y FRANCÉS. EN EL FUTURO SE PODRÍAN AÑADIR AL ANÁLISIS OTRAS LENGUAS LA LEMATIZACIÓN ES NECESARIA PARA MEJORAR LOS RESULTADOS. NO SE HA APLICADO EN N-GRAMAS Y HA PROVOCADO QUE ALGUNOS TÉRMINOS DE TESAURO SE UBIQUEN EN EL INTERVALO DE SIMILITUD MÁS BAJO CUANDO DEBERÍAN ESTAR EN EL DE LAS EQUIVALENCIAS EXACTAS. ESTE ERROR ES ESPECIALMENTE COMÚN EN INGLÉS Y PARA LOS CAMBIOS DE NÚMERO (DE SINGULAR A PLURAL), COMO OCURRE CON CITY Y CITIES. LA PARONIMIA (FENÓMENO QUE SE PRODUCE ENTRE TÉRMINOS DE GRAN SIMILITUD MORFOLÓGICA, EN LOS QUE SÓLO CAMBIA UNA O DOS LETRAS) HA DADO LUGAR A UN ELEVADO NÚMERO DE FALSOS EQUIVALENTES. ASÍ, PARA EL TÉRMINO “CORRUPCIÓN POLÍTICA”, N-GRAMAS HA DEVUELTO “COALICIÓN POLÍTICA”. SIN EMBARGO, APACHE SOLR HA OFRECIDO UN RESULTADO MÁS ADECUADO CON EL TÉRMINO “CORRUPCIÓN”, UN TG RESPECTO DE LA PALABRA CLAVE EXTRAÍDA. ÉSTA PODRÍA SER OTRA FUTURA LÍNEA DE TRABAJO QUE INCIDA EN LA MEJORA DE LA TÉCNICA ANALIZADA. POR ÚLTIMO, LAS CIFRAS DE PRECISIÓN EXACTA Y CERCANA SON APROXIMADAMENTE UN 10% MEJORES EN EL CASO DE N-GRAMAS FRENTE A APACHE SOLR. SIN EMBARGO, ÉSTA ÚLTIMA TÉCNICA APORTA COMO VENTAJA LOS TN, PARA LOS QUE NO EXISTE EQUIVALENCIA Y, POR TANTO, REDUCE LA CARGA DE TRABAJO EN EL PROCESO DE REVISIÓN. OTRA LÍNEA DE INVESTIGACIÓN PODRÍA CENTRARSE EN EL ANÁLISIS CONCRETO DE LOS DATOS OBTENIDOS PARA CADA PALABRA CLAVE EXTRAÍDA Y TÉCNICA, ANALIZANDO LAS DIFERENCIAS EN LOS RESULTADOS Y BUSCANDO EL POR QUÉ DE ESTAS
  19. CON ESTO, ACABA MI EXPOSÍCIÓN. MUCHAS GRACIAS POR VUESTRA ATENCIÓN. QUEDO A LA ESPERA DE LAS PREGUNTAS QUE EL TRIBUNAL ME QUIERA FORMULAR