Se plantea la posibilidad de utilizar las expresiones que describen noticias publicadas en prensa de información general, como fuente para la actualización de los macrotesauros de la UNESCO y de la Unión Europea (EUROVOC), que requieren una frecuencia de revisión mayor que la presente. Para ello, se ha indizado un conjunto de artículos periodísticos de divulgación científico-tecnológica, mediante un proceso de comparación terminológica y analizado la similitud conceptual y léxica entre las palabras clave ex- traídas y los términos (preferentes y no preferentes) recogidos en los macrotesauros indicados. Los resultados preliminares indican que alrededor del 40% de los términos obtenidos no se incluyen en éstos y aproximadamente un 10% podrían incluirse como término genérico o específico respecto al término propuesto por el método. Estos datos confirmarían la necesidad de actualizar con más frecuencia los macrotesauros estudiados y que las noticias de periódicos generalistas constituyen una fuente adecuada para dicho proceso
Esta presentación deriva del siguiente artículo:
BAÑOS-MORENO, María-José. "Fuentes para la actualización de macro-tesauros: Noticias de divulgación científica". Cuadernos de Gestión de Información. Volumen 3 (1), 2013 http://fcdmurcia.es/ojs/index.php?journal=cuadernos&page=article&op=view&path%5B%5D=143 - See more at: http://documentalistaparaboss.blogspot.com.es/p/curriculum.html#sthash.U6xvA4qn.dpuf
15. U.D.C.A: El arte en la historia de la Medicina Veterinaria
Semelhante a Propuesta de actualización de macrotesau- ros a partir de noticias de divulgación cientí- fico-tecnológica: aplicación del método N-gramas
Semelhante a Propuesta de actualización de macrotesau- ros a partir de noticias de divulgación cientí- fico-tecnológica: aplicación del método N-gramas (20)
Propuesta de actualización de macrotesau- ros a partir de noticias de divulgación cientí- fico-tecnológica: aplicación del método N-gramas
1. Fuentes para la actualización de macrotesauros: Noticias de divulgación científica
María José Baños Moreno
Master en Gestión de Información en las Organizaciones
Facultad de Comunicación y Documentación
Universidad de Murcia
Julio, 2013
2. Introducción
• Contexto: ritmo exponencial del crecimiento de la información y
la dispersión de datos
• Productos que tratan de solucionar el problema: los tesauros.
Fines:
o Describir la información
o Recuperar la información
o Servir de fuente para elaborar otras herramientas que respondan
a necesidades específicas
• Tesauros analizados: Unesco y Unión Europea, fundamentales
para la construcción de otros productos
Diapositiva 2
4. Objetivos
• Analizar el grado de actualización de Tunesco y Teurovoc.
Consideración: indicador de calidad extrínseca
• Conocer si las noticias de divulgación científica pueden ser
utilizadas como fuente de renovación
• Determinar si estos vocabularios resultan adecuados para
describir noticias de divulgación científica
Diapositiva 4
5. Metodología
Muestra: corpus de 1599
noticias
de
divulgación
científica, obtenidas a partir de
la selección sucesiva de países,
diarios, secciones y titulares
durante 4 meses (del 9 de
marzo al 9 de julio de 2012)
Dos submuestras:
M1: 159 noticias (10%)
M2: 320 noticias (20%)
País
Alemania
Canadá
Medio
Süddeutsche Zeitung
The Global and Mail
China Daily
China
The China Post
Corea
The Korea Times
España
El Mundo
The New York Times
EE.UU
The Washington Post
Francia
Le Monde
Italia
La Reppublica
Japón
Yomiuri Shimbun
Reino Unido The Daily Telegraph
Rusia*
Pravda
Selección de países y medios y conformación de las
sub-muestras M1 y M2. FUENTE: Elaboración propia
Diapositiva 5
6. Metodología
• Indización manual y en
lenguaje natural de titulares
• Traducción a español, inglés y
francés
• Búsqueda
automática
de
equivalencias con N-gramas y
Apache Solr
• Clasificación de resultados
según equivalencias
• Cálculo de estadísticas
• Cálculo de precisión exacta,
cercana y total
Código
Relación
TC
Equivalencia exacta
TS
Sinonimia
TE
Específica
TG
Genérica
TR
Asociativa
TN*
Nueva
TFE
Falsa equivalencia
Códigos de clasificación de resultados para
cada par de términos. FUENTE: Elaboración
propia
Diapositiva 6
7. Método N-gramas
SUB-MUESTRA M1, 10% NOTICIAS
1.Identificación de los bi-gramas únicos solapados:
•Cálculo del Coeficiente de Dice (Cd), en cada idioma, para cada par de términos
(titular y tesauro) y de la media (Msi) de los tres idiomas
•Selección del término con Msi más elevada, entre posibles candidatos
•Clasificación de medias (Msi) en intervalos agrupados de similitud: [0 – 0,6),
[0,6 – 0,8) y [0,8 – 1]
Diapositiva 7
8. Método N-gramas, resultados
≈ 55% de términos
correctos (TC)
≈ 6% de relaciones de tipo
jerárquico (TE + TG)
≈ 10% de términos
relacionados (TR)
+
22%
de
falsos
equivalentes (TFE)
TC
TS
TG
TE
TR
TFE
Tunesco
Teurovoc
Total
%
Total %
161 53,49 176 58,47
7
2,33
4
1,33
7
2,33
9
2,99
15
4,98
11
3,65
28
9,30
30
9,97
83
27,57
69 22,92
Clasificación de términos de acuerdo a resultados
obtenidos con N-gramas. FUENTE: Elaboración
propia
Diapositiva 8
9. Un par de ejemplos de falsos equivalentes
“dinosaurio” y “tesauro”
Grado de equivalencia: 0,40
“evacuación” y “devaluación”
Grado de equivalencia: 0,75
Diapositiva 9
10. Método Apache Solr
SUB-MUESTRA M2, 20% NOTICIAS
•Construcción de una colección de documentos (términos del
tesauro)
Campo
id
type
des_es
des_fr
des_en
nd_es
nd_fr
nd_en
Descripción
Identificador del concepto
Tesauro (Tunesco ó Teurovoc)
Término descriptor en Español
Término descriptor en Francés
Término descriptor en Inglés
Término no-descriptor en Español
Término no-descriptor en Francés
Término no-descriptor en Inglés
Estructura de campos para la indización de términos como documentos en
Apache Solr. FUENTE: Elaboración propia
Diapositiva 10
11. Método Apache Solr
• Ecuación de búsqueda (términos extraídos) compuesta por 7
procesos para hallar la mejor correspondencia entre términos:
Consulta
Q1
Q2
Q3
Q4
Q5
Q6
Q7
Descripción
Palabras, en índice general
Literal, en el campo descriptor
Literal, en el campo no-descriptor
Expresión lematizada, en el campo descriptor
Expresión lematizada, en el campo no-descriptor
Palabras lematizadas, en campo descriptor
Palabras lematizadas en campo no-descriptor
Boost
2,5
5
3
0
0
0
0
Consultas efectuadas en Apache Solr. FUENTE: Elaboración propia
• Apache Solr proporciona una medida de similitud o score entre
pares de términos
Diapositiva 11
12. Método Apache Solr, resultados
- 50% de términos extraídos tenían
similitud exacta
≈ 15% mantienen una relación de
jerarquía
≈ 12% guardan una relación de
tipo asociativo (TR)
Para ≈ 25% no se halló ninguna
relación (términos nuevos, TN) o
ésta fue mal asignada (falsos
equivalentes, TFE).
TC
TS
TG
TE
TR
TFE
TN
Tunesco
Teurovoc
Total % Total %
264 44,07 290 48,41
14 2,34 10 1,67
25 4,17 43 7,18
69 11,52 42 7,01
75 12,52 70 11,69
69 11,52 83 13,86
83 13,86 61 10,18
Clasificación de términos de acuerdo a
resultados obtenidos con Apache Solr.
FUENTE: Elaboración propia
Diapositiva 12
13. Resultados (TFE y TN)
Términos Falsos Equivalentes y Nuevos
devueltos por ambas técnicas para
Tunesco. FUENTE: Elaboración propia
Términos Falsos Equivalentes y Nuevos
devueltos por ambas técnicas para
Teurovoc. FUENTE: Elaboración propia
Diapositiva 13
14. Un ejemplo de falso equivalente
“virus animal” y “virus informático” (Teurovoc) –> TFE
“virus animal” y “virus” (Tunesco) -> TG
Diapositiva 14
15. Resultados de precisión
• Para evaluar la eficacia de cada método, se calculó su precisión (P) con
cada macro-tesauro:
• Se realizaron varios cálculos:
Precisión exacta (PEX): tiene en cuenta los términos correctos (TC)
Precisión cercana (PCLOSE): añade los sinónimos (TC + TS)
Precisión total (PTOTAL): incluye cualquier tipo de relación entre
términos (TC+TS+TE+TG+TR)
Diapositiva 15
16. • Método N-gramas aporta mejores
resultados
• Teurovoc,
ligeramente
más
actualizado
Precisión total
Precisión exacta
Precisión cercana
Resultados
Datos de precisión para cada técnica y tesauro. FUENTE: Elaboración propia
Diapositiva 16
17. Discusión
• Influencia de la especialización de los campos
elegidos
• Subjetividad de la indización humana
• Ausencia de relación semántica entre pares de
términos: las técnicas empleadas se basan en el
cálculo de similitud morfológica
• No se ha profundizado en las relaciones entre
términos presentes en los tesauros. Se aprecia la
necesidad de revisión, para la redefinición de
categorías y relaciones
Diapositiva 17
18. Conclusiones: los macro-tesauros
En cuanto a los OBJETIVOS 1 y 3:
•Es necesaria una mayor frecuencia de revisión de Tunesco y
Teurovoc para incrementar su grado de actualización
•Por tanto, ninguno debe ser utilizado para describir noticias de
divulgación
•Sin embargo, sí que se pueden utilizar como base para la
construcción de otras herramientas. En este sentido, un trabajo
posterior podría analizar el uso concreto de Tunesco y Teurovoc
como punto de partida de otros vocabularios
Diapositiva 18
19. Conclusiones: las noticias
En cuanto al OBJETIVO 2:
•Las noticias de divulgación científica son una fuente adecuada
para la actualización de estos macro-tesauros. Incluyen muchos
términos no contemplados por éstos, que son reflejo de la
evolución en ciencia y tecnología
•En el futuro, un estudio podría centrarse en la utilidad de la
información periodística para la construcción y/o actualización
de otros tesauros o herramientas de organización del
conocimiento distintas
Diapositiva 19
20. Conclusiones: las técnicas
•
Los lenguajes pivote permiten resolver casos de homonimia, polisemia y
riqueza lingüística. En el futuro se podrían añadir al análisis otras lenguas
•
La lematización es necesaria. No se ha utilizado en N-gramas, provocando
errores en los resultados. Un estudio posterior podría trabajar en esta
cuestión
•
La paronimia ha elevado el número de TFE. Ejemplo: “corrupción política”
y “coalición política”. Es otra línea futura para mejorar el método N-gramas
•
Las precisiones exacta y cerca son aproximadamente un 10% mejores para
la técnica N-gramas. Pero Apache Solr aporta como ventaja los TN, para los
que no existe equivalencia. Otra línea de investigación podría centrarse en el
análisis concreto de los datos obtenidos para cada palabra clave extraída y
técnica, analizando las diferencias
Diapositiva 20
BUENOS DÍAS, VOY A PROCEDER A LA EXPOSICIÍON DEL TRABAJO TITULADO “FUENTES PARA LA ACTUALIZACIÓN DE MACROTESAUROS: NOTICIAS DE DIVULGACIÓN CIENTÍFICA”
PARTIMOS DE UN CONTEXTO CARACTERIZADO POR UN RITMO EXPONENCIAL DEL CRECIMIENTO DE LA INFORMACIÓN Y LA DISPERSIÓN DE LOS DATOS
BIEN, PARTIMOS DE UN CONTEXTO CARACTERIZADO POR EL RITMO EXPONENCIAL DEL CRECIMIENTO DE LA INFORMACIÓN Y LA DISPERSIÓN DE LOS DATOS
EXISTEN DIVERSAS DISCIPLINAS, COMO DOCUMENTACIÓN E INFORMÁTICA, QUE TRATAN DE PONER SOLUCIÓN A ESTAR PROBLEMÁTICA A TRAVÉS DE DIFERENTES PRODUCTOS, COMO SON LOS TESAUROS. ÉSTOS TIENEN COMO FINALIDAD…
EN ESTE ESTUDIO SE HA CONSIDERADO UNA TERCERA FINALIDAD: SERVIR DE FUENTE PARA ELABORAR OTRAS HERRAMIENTAS, QUE RESPONDAN A NECESIDADES ESPECÍFICAS DE INFORMACIÓN
EN ESTE SENTIDO, DESTACAN DOS DE LOS TESAUROS MÁS UTILIZADOS PARA LA CONSTRUCCIÓN DE OOS PRODUCTOS DE ORGANIZACIÓN DEL CONOCIMIENTO Y QUE HAN SIDO ANALIZADOS EN ESTE TRABAJO. EL TESAURO DE LA UNESCO Y EL TESAURO DE LA UNIÓN EUROPEA, DENOMINADOS EN ADELANTE TUNESCO Y TEUROVOC, RESPECTIVAMENTE.
ESTOS VOCABULARIOS SE CARACTERIZAN POR LOS ASPECTOS RECOGIDOS EN LA SIGUIENTE TABLA, DE LA QUE SÓLO VOY A DESCATAR EL DATO DE ACTUALIZACIÓN
ASÍ, MIENTRAS TUNESCO FUE RENOVADO POR ÚLTIMA VEZ EN 2008, TEUROVOC SUFRIÓ SU ÚLTIMA MODIFICACIÓN A FINALES DE NOVIEMBRE
CONTEXTUALIZADO EL TRABAJO, SE PLANTEAN LOS SIGUIENTES OBJETIVOS:
ANALIZAR EL GRADO DE ACTUALIZACION DE ESTOS MACROTESAUROS, ES DECIR LA CAPACIDAD DE UN TESAURO PARA DESCRIBIR ADECUADAMENTE UN DOCUMENTO RECIENTE. SE TRATA DE UN INDICADOR DE CALIDAD EXTRÍNSECA.
DETERMINAR LA CAPACIDAD DE LAS NOTICIAS DE DIVULGACIÓN CIENTÍFICA PARA SER UTILIZADAS COMO FUENTE DE ACTUALIZACIÓN
Y, FINALMENTE, RELACIONADO CON LO ANTERIOR, DETERMINAR SI LOS VOCABULARIOS ANALIZADOS SON ADECUADOS PARA DESCRIBIR LAS NOTICIAS DE DIVULGACIÓN CIENTÍFICA
ASÍ, SE DEFINIÓ UN OBJETO DE ANÁLISIS, A PARTIR DE LA SELECCIÓN SUCESIVA DE PAÍSES (LOS MÁS DESTACADOS EN CIENCIA Y TECNOLOGÍA, DE ACUERDO A LOS PARÁMETROS RECOGIDOS EN EL TRABAJO), LOS DIARIOS MÁS IMPORTANTES DE CADA PAÍS (SEGÚN DATOS DE LA WEB DE RANKINGS 4INM, SECCIONES DE CIENCIA Y TECNOLOGÍA DE CADA PERIÓDICO, ASÍ COMO TITULARES, ESCOGIDOS DIARIAMENTE DURANTE EL PERIODO COMPRENDIDO ENTRE EL 9 DE MARZO Y EL 9 DE JULIO DE 2012.
DE ESTA FORMA SE CONFIGURÓ UN CORPUS COMPUESTO POR 1599 NOTICIAS, DE LAS QUE POSTERIORMENTE SE OBTUVIERON DOS SUBMUESTRAS (M1 Y M2), A LAS QUE SE APLICARON LA TÉCNICA N-GRAMAS Y APACHE SOLR, RESPECTIVAMENTE.
Por qué: pueden constituir una fuente de renovación adecuada, de acuerdo a las características de la información periodística: Corpus de menor extensión; actualidad e inmediatez; enciclopedismo; universalidad de la procedencia; proximidad: contraste; normalización; interés divulgativo y pedagógico; uso de fuentes acreditadas; uso y adaptación de lenguajes técnicos
POSTERIORMENTE, SE INDIZARON MANUALMENTE Y EN LENGUAJE NATURAL LOS TITULARES OBTENIDOS Y, PUESTO QUE ESTOS PODÍAN ESTAR ESCRITOS EN IDIOMAS DIFERENTES, SE TRADUJERON A ESPAÑOL, INGLÉS Y FRANCÉS, USÁNDOLOS POSTERIORMENTE COMO LENGUAJES PIVOTE, CON EL OBJETIVO DE DESAMBIGUAR LOS CASOS DE HOMONIMIA Y POLISEMIA.
DESPUÉS SE CONSTRUYERON COLECCIONES DE DOCUMENTOS (QUE EN REALIDAD SON LOS DESCRIPTORES Y NO DESCRIPTORES DE CADA MACROTESAURO) A LAS QUE SE INTERROGA A PARTIR DE UNA ECUACIÓN DE BÚSQUEDA COMPUESTA POR LAS PALABRAS CLAVE EXTRAÍDAS.
A CONTINUACIÓN, LOS RESULTADOS SE CLASIFICARON EN FUNCIÓN DE EQUIVALENCIAS HALLADAS ENTRE PARES DE TÉRMINOS, DE ACUERDO A LA TABLA QUE APARECE A LA DERECHA.
FINALMENTE SE REALIZARON DIVERSOS CÁLCULOS EN FUNCIÓN DE LOS GRADOS DE EQUIVALENCIAS ENTRE LOS TÉRMINOS Y SE CALCULÓ LA PRECISIÓN EXACTA, CERCANA Y TOTAL
EN CUANTO A LA TÉCNICA N-GRAMAS, A NIVEL INTERNO, EL SISTEMA IDENTIFICA LOS BIGRAMAS COMPARTIDOS ENTRE LOS PARES DE TÉRMINOS ANALIZADOS (TITULAR Y TESAURO). EN EL EJEMPLO, EL PRIMER TÉRMINO, ARMA, TIENE 3 BIGRAMAS Y EL SEGUNDO, ARMAS, 4, SIENDO COMÚN A LOS DOS 3 BIGRAMAS (AR, RM Y MA)
DESPUÉS SE CALCULA EL COEFICIENTE DE DICE PARA CADA TÉRMINO EN CADA UNO DE LOS IDIOMAS, INGLÉS, FRANCÉS Y ESPAÑOL) Y SE DETERMINA LA MEDIA DE UN TÉRMINO EN FUNCIÓN DE LOS DATOS PARA CADA IDIOMA
A CONTINUACIÓN N-GRAMAS DETERMINA CUÁL ES EL TÉRMINO QUE GUARDA LA MAYOR EQUIVALENCIA CON RESPECTO A LA PALABRA CLAVE EXTRAÍDA, SIENDO SELECCIONADO AQUEL QUE TIENE LA MEDIA DE SIMILUTD MÁS ELEVADA.
FINALMENTE, SE CLASIFICAN DICHAS MEDIAS EN INTERVALOS AGRUPADOS DE SIMILITUD
DESPUÉS, LOS RESULTADOS SE CLASIFICAN EN FUNCIÓN A LA TABLA QUE YA HEMOS VISTO, COMO TC, TS, TE, TG, TR
ASÍ, PARA LA PALABRA CLAVE “DINOSAURIO” HALLÓ COMO TÉRMINO CON MAYOR EQUIVALENCIA “TESAURO” Y PARA “EVACUACIÓN”, “DEVALUACIÓN”. EN ESTE ÚLTIOM CASO, CON UN GRADO DE EQUIVALENCIA DE 0,75, ROZANDO PRÁCTICAMENTE EL ÚLTIMA INTERVALO AGRUPADO.
EN NINGUNO DE LOS CASOS, EXISTE RELACIÓN SEMÁNTICA ENTRE LOS PARES DE TÉRMINOS, POR LO QUE FUERON CLASIFICADOS COMO TFE
EN RELACIÓN CON LA TÉCNICA APACHE SOLR, A PARTIR DE LA CONSTRUCCIÓN DE UNA COLECCIÓN DE DOCUMENTOS (TÉRMINOS DE TESAURO), SIGUIENDO LA ESTRUCTURA RECOGIDA EN LA TABLA QUE APARECE MÁS ABAJO Y EN LA QUE NO PROFUNDIZO, SE EFECTÚA UNA CONSULTA, QUE INCLUYE LAS PALABRAS CLAVE EXTRAÍDAS DE LOS TITULARES), MEDIANTE UN PROCESO COMPUESTO POR 7 BÚSQUEDAS
ESTE PROCESO, SE CONFIGURÓ TRAS DIVERSOS ENSAYOS, SIENDO EL QUE MEJORES RESULTADOS APORTABA.
Q2 Y Q3, EFECTÚAN BÚSQUEDAS LITERALES, POR LO QUE PERMITEN DETERMINAR UNA IDENTIFICACIÓN EXACTA O MUY CERCANA, POR ESTA CUESTIÓN SE LE DIO UNA MAYOR PONDERACIÓN. LAS PRUEBAS DEMOSTRARON QUE DANDO MÁS PESO A Q1 LOS RESULTADOS MEJORABAN.
POR OTRO LADO, PARA EL RESTO DE BÚSQUEDAS, A LA VISTA DE ENSAYOS PREVIOS, SE ESTABLECIÓ UN UMBRAL MÍNIMO DE SCORE, POR DEBAJO DEL CUAL SE DESECHARON LOS RESULTADOS3
DESPUÉS Y COMO CON N-GRAMAS, LOS TÉRMINOS SE CLASIFICARON EN FUNCIÓN DE LA RELACIÓN QUE MANTENÍAN CON RESPECTO A LAS PALABRAS CLAVE EXTRAÍDAS DE LOS TITULARES
LA PRINCIPAL VENTAJA DE APACHE SOLR FRENTE A N-GRAMAS, ES LA CAPACIDAD DE DESCARTAR LOS TN EN LA REVISIÓN DE RESULTADOS, PARA LOS QUE NO HALLA NINGUNA RELACIÓN
ASÍ, EN PROPORCIÓN, CASI LA MITAD DE LOS TFE OBTENIDOS POR N-GRAMAS, YA QUE LAS CIFRAS SON SIMILARES, FUERON CLASIFICADOS COMO TN PARA APACHE SOLR, REDUCIENDO DE ESTA FORMA LA CARGA DE REVISIÓN DE RESULTADOS POSTERIOR
EN LA ECUACIÓN SE CONSIDERA TRREL Y TRTOT COMO TÉRMINOS RECUPERADOS RELEVANTES Y TOTAL DE TÉRMINOS RECUPERADOS, RESPECTIVAMENTE
HABITUALMENTE EL CÁLCULO DE LA PRECISIÓN (P), VA LIGADO AL DE LA EXHAUSTIVIDAD (E), DE FORMA QUE ES POSIBLE DETERMINAR LA MEDIDA F O ARMÓNICA (VAN RIJSBERGEN, 1979, PP. 129-135). EN ESTE TRABAJO NO SE CALCULA LA EXHAUSTIVIDAD DE LA RECUPERACIÓN DE INFORMACIÓN, YA QUE LOS DATOS NEGATIVOS (CLASIFICADOS COMO TN Y TFE) HAN SIDO ANALIZADOS INDIVIDUALMENTE PARA AMBAS TÉCNICAS Y NO SE HAN HALLADO TÉRMINOS DE EQUIVALENCIA EXACTA (TC). PARECE EVIDENTE ENTONCES QUE LA EXHAUSTIVIDAD TENDERÍA A 1. POR OTRO LADO, SE HA COMPROBADO QUE, EN LA MAYORÍA DE CASOS, EXISTÍAN TÉRMINOS GENÉRICOS (TG) QUE SE PODRÍAN UTILIZAR PARA DESCRIBIR LAS NOTICIAS, EN LUGAR DE LOS TN Y TFE DETECTADOS.
EN ESTOS GRÁFICOS, SE RESUMEN LOS DATOS DE PRECISIÓN OBTENIDOS Y, SIN ENTRAR EN DETALLES, SE PUEDE OBSERVAR QUE:
EN CUANTO A LAS TÉCNICAS EMPLEADAS: LA PRECISIÓN EXACTA Y TOTAL SON SIMILARES Y MUESTRAN QUE LA TÉCNICA N-GRAMAS OBTIENE MEJORES RESULTADOS. LOS DATOS DE PRECISIÓN TOTAL SON MUY SIMILARES
POR OTRO, EN RELACIÓN CON LOS TESAUROS ANALIZADOS. LOS DATOS DE PRECISIÓN, EN TODOS LOS CASOS, SON MEJORES PARA TEUROVOC, LO QUE INDICA QUE ÉSTE ESTÁ MÁS ACTUALIZADO Y ES MÁS ADECUADO PARA LA DESCRIPCIÓN DE NOTICIAS DE DIVULGACIÓN. POR TANTO, POSEE UNA MAYOR CALIDAD EXTRÍNSECA QUE TUNESCO
ASPECTOS QUE PUEDEN SER OBJETO DE DEBATE O DISCUSIÓN:
CAMPOS ELEGIDOS: CIENCIA Y TECNOLOGÍA. OTRAS SECCIONES, SOBRE TODO LAS DE NACIONAL O INTERNACIONAL, PODRÍA MEJORAR LOS DATOS, ESPECIALMENTE EN EL CASO DE TEUROVOC, YA QUE SU CAMPO DE ACTUACIÓN ES MÁS BIEN POLÍTICO
SUBJETIVIDAD: LA FORMACIÓN Y EXPERIENCIA PREVIA INFLUYE EN EL PROCESO DE INDIZACIÓN, DANDO LUGAR A UN LISTADO DE TÉRMINOS QUE PODRÍA VARIAR SEGÚN EL INDIZADOR.
TÉCNICAS: EN REALIDAD NO ANALIZAN LA RELACIÓN SEMÁNTICA ENTRE TÉRMINOS. LOS TN Y TFE ESTÁN EN SU MAYORÍA RELACIONADOS CON TÉRMINOS EN LOS TESAUROS MEDIANTE RELACIONES DE SINONIMIA, JERARQUÍA O ASOCIACIÓN, QUE NO HAN SIDO IDENTIFICADAS POR LAS TÉCNICAS
CALIDAD INTRÍNSECA: SE APRECIA NECESIDAD DE REVISIÓN DE LAS RELACIONES ENTRE TÉRMINOS RECOGIDOS EN LOS TESAUROS. EJEMPLO: SMARTPHONE (NO DESCRIPTOR) Y TELÉFONO MÓVIL (DESCRIPTOR)
LAS CONCLUSIONES SE HAN ESTABLECIDO DESDE TRES PUNTOS DE VISTA:
EN RELACIÓN CON LOS TESAUROS ANALIZADOS Y CON RESPECTO A LOS OBJETIVOS 1 Y 3:
TANTO TUNESCO COMO TEUROVOC NECESITAN SER REVISADOS CON MAYOR FRECUENCIA, MUCHAS DE LAS PALABRAS CLAVE EXTRAÍDAS NO ESTÁN CONTEMPLADAS EN LOS MISMOS, AUNQUE TEUROVOC ESTÁ LIGERAMENTE MÁS ACTUALIZADO
POR ESTA RAZÓN NINGUNO DEBE SER UTILIZADO PARA DESCRIBIR NOTICIAS DE DIVULGACIÓN, YA QUE CARECEN DE LOS TÉRMINOS MÁS ADECUADOS PARA INDIZARLAS CORRECTAMENTE
SIN EMBARGO, SÍ QUE SE PUEDEN UTILIZAR COMO BASE PARA LA CONSTRUCCIÓN DE OTRAS HERRAMIENTAS. EN ESTE SENTIDO, UN TRABAJO POSTERIOR PODRÍA ANALIZAR EL USO CONCRETO DE TUNESCO Y TEUROVOC COMO FUENTES COMO PUNTO DE PARTIDA DE OTROS VOCABULARIOS PREVIA ADAPTACIÓN A LAS NECESIDADES DE SUS USUARIOS Y EMPLEANDO ADICIONALMENTE OTROS VOCABULARIOS Y FUENTES
LAS NOTICIAS DE DIVULGACIÓN CIENTÍFICA SON UNA FUENTE ADECUADA PARA LA ACTUALIZACIÓN DE ESTOS MACRO-TESAUROS, PUES INCLUYEN TÉRMINOS NO RECOGIDOS POR ÉSTOS, QUE SON EL REFLEJO DE LA EVOLUCIÓN EN CIENCIA Y TECNOLOGÍA
UNA FUTURA LÍNEA DE TRABAJO PODRÍA CENTRARSE EN LA UTILIDAD DE LA INFORMACIÓN PERIODÍSTICA PARA LA CONSTRUCCIÓN Y/O ACTUALIZACIÓN DE OTROS TESAUROS O HERRAMIENTAS DE ORGANIZACIÓN DEL CONOCIMIENTO DISTINTAS. POR EJEMPLO, EN EL CASO DE ONTOLOGÍAS, DONDE LAS RELACIONES ENTRE CONCEPTOS SON MUCHO MÁS COMPLEJAS Y FORMALES
POR ÚLTIMO Y, EN CUANTO A LAS TÉCNICAS EMPLEADAS, SE HAN DESTACADO LOS SIGUIENTES ASPECTOS:
EL USO DE LENGUAJES PIVOTES HA SIDO ÚTIL PARA LA RESOLUCIÓN DE CASOS DE HOMONIMIA Y POLISEMIA, PERO TAMBIÉN DE LA VARIEDAD LINGÜÍSTICA PROPIA DE CADA IDIOMA. ASÍ, PARA EL TÉRMINO “WILDLIFE” QUE NO APARECE EN NINGUNO DE LOS TESAUROS, SE HA DEVUELTO EL TC, GRACIAS A SU EQUIVALENCIA EN ESPAÑOL Y FRANCÉS. EN EL FUTURO SE PODRÍAN AÑADIR AL ANÁLISIS OTRAS LENGUAS
LA LEMATIZACIÓN ES NECESARIA PARA MEJORAR LOS RESULTADOS. NO SE HA APLICADO EN N-GRAMAS Y HA PROVOCADO QUE ALGUNOS TÉRMINOS DE TESAURO SE UBIQUEN EN EL INTERVALO DE SIMILITUD MÁS BAJO CUANDO DEBERÍAN ESTAR EN EL DE LAS EQUIVALENCIAS EXACTAS. ESTE ERROR ES ESPECIALMENTE COMÚN EN INGLÉS Y PARA LOS CAMBIOS DE NÚMERO (DE SINGULAR A PLURAL), COMO OCURRE CON CITY Y CITIES.
LA PARONIMIA (FENÓMENO QUE SE PRODUCE ENTRE TÉRMINOS DE GRAN SIMILITUD MORFOLÓGICA, EN LOS QUE SÓLO CAMBIA UNA O DOS LETRAS) HA DADO LUGAR A UN ELEVADO NÚMERO DE FALSOS EQUIVALENTES. ASÍ, PARA EL TÉRMINO “CORRUPCIÓN POLÍTICA”, N-GRAMAS HA DEVUELTO “COALICIÓN POLÍTICA”. SIN EMBARGO, APACHE SOLR HA OFRECIDO UN RESULTADO MÁS ADECUADO CON EL TÉRMINO “CORRUPCIÓN”, UN TG RESPECTO DE LA PALABRA CLAVE EXTRAÍDA. ÉSTA PODRÍA SER OTRA FUTURA LÍNEA DE TRABAJO QUE INCIDA EN LA MEJORA DE LA TÉCNICA ANALIZADA.
POR ÚLTIMO, LAS CIFRAS DE PRECISIÓN EXACTA Y CERCANA SON APROXIMADAMENTE UN 10% MEJORES EN EL CASO DE N-GRAMAS FRENTE A APACHE SOLR. SIN EMBARGO, ÉSTA ÚLTIMA TÉCNICA APORTA COMO VENTAJA LOS TN, PARA LOS QUE NO EXISTE EQUIVALENCIA Y, POR TANTO, REDUCE LA CARGA DE TRABAJO EN EL PROCESO DE REVISIÓN. OTRA LÍNEA DE INVESTIGACIÓN PODRÍA CENTRARSE EN EL ANÁLISIS CONCRETO DE LOS DATOS OBTENIDOS PARA CADA PALABRA CLAVE EXTRAÍDA Y TÉCNICA, ANALIZANDO LAS DIFERENCIAS EN LOS RESULTADOS Y BUSCANDO EL POR QUÉ DE ESTAS
CON ESTO, ACABA MI EXPOSÍCIÓN. MUCHAS GRACIAS POR VUESTRA ATENCIÓN.
QUEDO A LA ESPERA DE LAS PREGUNTAS QUE EL TRIBUNAL ME QUIERA FORMULAR