Resolución de problemas en la búsqueda de información1

Resolución de problemas en la
búsqueda de información
Por: Andrés Luna Hernández.

FCQ- QFB. 1° “D”- BUAP

“La búsqueda de información es el siguiente paso a la determinación de las
necesidades de información. Se puede buscar a través de diferentes
herramientas: bases de datos, Internet, tesauros, ontologías, mapas... Conocer y
manejar estas herramientas contribuye a una búsqueda de calidad”

Búsqueda de información
El proceso de búsqueda se lleva a cabo mediante consultas a la base de datos
donde se almacena la información estructurada, mediante un lenguaje de
interrogación adecuado. Es necesario tener en cuenta los elementos clave que
permiten hacer la búsqueda, determinando un mayor grado de pertinencia y
precisión, como son: los índices, palabras clave, tesauros y los fenómenos que se
pueden dar en el proceso como son el ruido y silencio documental. Uno de los
problemas que surgen en la búsqueda de información es si lo que recuperamos es
"mucho o poco" es decir, dependiendo del tipo de búsqueda se pueden recuperar
multitud de documentos o simplemente un número muy reducido. A este
fenómeno se denomina Silencio o Ruido documental.

o Silencio documental: Son aquellos documentos almacenados en la base de
datos pero que no han sido recuperados, debido a que la estrategia de
búsqueda ha sido demasiado específica o que las palabras clave utilizadas
no son las adecuadas para definir la búsqueda.
o Ruido documental: Son aquellos documentos recuperados por el sistema
pero que no son relevantes. Esto suele ocurrir cuando la estrategia de
búsqueda se ha definido demasiado genérica.

Concepto de sistema de búsqueda de información

Proceso donde se accede a una información previamente almacenada,
mediante herramientas informáticas que permiten establecer ecuaciones de
búsqueda específicas. Dicha información ha debido de ser estructura
previamente a su almacenamiento.

Componentes esenciales

 Documentos estructurados. Es necesario establecer un proceso
donde se establezcan herramientas de indización y control
terminológico.
 Bases de datos donde estén almacenados los documentos. Definir
lenguajes de interrogación y operadores que soportará la base de
datos y, establecer que tipo de ecuaciones serán
permitidas.

¿Dónde deberíamos buscar?

 Bases de datos
o Las bases de datos son recursos que recopilan todo tipo de
información, para atender las necesidades de un amplio grupo de
usuarios. Su tipología es variada y se caracterizan por una alta
estructuración y estandarización de la información.

 Internet

o Revistas electrónicas

o Buscadores. Los buscadores son herramientas que permiten
localizar y recuperar la información almacenada en internet. El
funcionamiento es parecido a las bases de datos, almacenan las
páginas con determinadas características (metadatos) y que
posteriormente tras utilizar unas palabras clave emiten un listado de
las más relevantes.



o Directorios. Los directorios son listas organizadas que nos permite
acceder a la información de forma estructurada y jerárquica. Se
clasifican en categorías y el usuario enlaza de lo más general a lo
más específico.



 Directorio y motores especializados



 Meta buscadores.

 Son buscadores, con la cualidad de que no sólo buscan en
una única base de datos, sino que al introducir los conceptos
de búsqueda hace el barrido en distintas bases de datos, de
esta forma la amplitud de resultados es mayor.

o Buscadores selectivos.



 Utilizan una base de datos especializada en una materia.


o Agentes inteligentes



Los agentes inteligentes son herramientas que permiten
localizar información de forma automática, sólo necesita que
se le definan un perfil de búsqueda y donde debe lanzarla
(bases de datos, sitios web, etc.) y, automáticamente va
presentando un informe sobre la nueva información que va
surgiendo.
 Lenguajes de indización y control terminológico

 Índices.
o Listado de términos normalizados que representan el contenido de
un recurso. Algunos tipos son:
o Índice de materias: términos ordenados según las materias que trata
la base de datos, el buscador, etc.
o Índice alfabético: listado de términos alfabéticamente
o Índice KWIC: Tipo de índice permutado en el que el contenido
temático de una obra se representa mediante palabras clave de su
título o de otra fuente de información del documento.
o Índice KWOC: Tipo de índice permutado que varía en su
presentación respecto al índice KWIC, en que las palabras clave
aparecen como un encabezamiento en línea separada. Bajo cada
encabezamiento aparece la totalidad de los títulos, completos o
truncados, que contienen la palabra clave de que se trata.

 Palabras clave (Keywords).
o Término significativo en lenguaje natural que representa el contenido
del documento.
o En la búsqueda de información esta opción es esencial ya que nos
permite acotar y precisar información. El problema recae en definir la
palabra exacta que representa el contenido, por ello es conveniente
utilizar especificadores. Por ejemplo si utilizamos la palabra flor en
cualquier buscador podemos estar buscando, la floristería más
cercana, una imagen de flores o un estudio sobre las flores en las
distintas estaciones del año.
o Meta Keywords. La mayoría de los buscadores utilizan para localizar
los recursos, las palabras clave de cada pagina web. Por esta razón
es esencial que cada pagina tenga una etiqueta donde se incluyan
las palabras clave que la definen, también es importante la definición
exacta de cada una de ella pues es a partir de estas los buscadores
localizan o no un recurso.

o Tesauros
 Es un listado terminológico controlado sobre un área o ámbito
de conocimiento que mantiene entre sí relaciones semánticas
y genéricas.
 Su principal característica es que los términos están
ordenados jerárquicamente, permitiendo la precisión
terminológica en la búsqueda de información
 Componentes:
Descriptores admitidos o preferentes: son aquellos
términos normalizados (donde han sufrido un proceso
de expurgo denegando plurales, evitando sinónimos,
etc.) que el tesauro los considera aptos para asignarlos
a un documento y que posteriormente facilite la
recuperación
Descriptores no admitidos: son aquellos que aun
estando normalizados no se consideran adecuado para
utilizarlos (suelen ser sinónimos, términos no utilizados
en el campo de actuación, etc.)

 Relaciones:
Jerárquicas: indican cuando un término es más
específico que otro
Asociativas: Indican que los términos guardan alguna
relación

Sinónimos: Indican que dos términos son sinónimos y
cual de ellos se utiliza como admitido

 Lenguajes de interrogación y ecuaciones de búsqueda

o Lenguajes
 Cada sistema de búsqueda tiene su propio lenguaje de
interrogación, que es el que le permite "hablar" en el mismo
lenguaje que la base de datos. Este lenguaje como cualquier
otro tiene su propia sintaxis que especifica las características
especiales de la búsqueda determinando en cada momento la
relación que tienen los elementos de búsqueda. Las reglas
gramaticales en el lenguaje de interrogación son los
operadores.
o Cómo plantear una estrategia de búsqueda
 No existen pautas que nos indiquen como hacer con exactitud
todas las búsqueda debido a que cada consulta es distinta.
Por eso es conveniente definir un procedimiento básico de
trabajo:
 Planteando el tema desde distintos puntos de vista
 Determinando que se sabe del tema
 Formulando nuestra búsqueda mediante:
La selección de palabras clave que representen lo que
busco (utilizar diccionarios, sinónimos, tesauros,
ontologías, etc.)
La traducción de las palabras importantes a otros
idiomas (inglés)
 Seleccionando las herramientas de búsqueda (índices,
motores, meta buscadores). Se recomienda usar distintas
herramientas a la vez.
 Aplicando las palabras clave en las herramientas de búsqueda
seleccionadas
 Operadores

o Lógicos o Boléanos: Permiten convertir las palabras de la consulta
en conjuntos matemáticos, y operar con las palabras como si fuesen
conjuntos. Las operaciones básicas son la suma (OR), la resta
(NOT) y el producto (AND).
 Y lógico (AND)
 NO lógico (NOT)

 O lógico (OR)

o Posicionales: Permiten especificar la posición de las palabras dentro
del documento.
 Cerca (NEAR)
 Junto (ADJ)
 Frases

o Existencia: Indica cuando se requiere la presencia o ausencia de una
palabra en los documentos recuperados.
 Presencia / Ausencia
 Ausencia

o Exactitud: Este tipo de operador se utiliza cuando la consulta que se
pretende es menos específica ya que, permite la posibilidad de cortar
una palabra de búsqueda a su raíz.
 Proximidad
 Por campos

 CCL (Common Command Language)
o Permite restringir las búsquedas mediante calificadores -es decir, la
búsqueda se puede llevar a cabo en campos específicos como
Autor, título, etc.- es muy utilizado en bases de datos. La
característica de este sistema es que puede mezclar los dos
lenguajes, calificadores y operadores lógicos, obteniendo de esta
forma una búsqueda muy exhaustiva.

Navegación versus Búsqueda de Información

Concepto

La navegación es el programa que permite consultar y obtener información
mediante los sistemas hipertexto.

Diferencias

La diferencia esencial entre ambos conceptos, radica en la forma de
obtener información; mientras que en la recuperación de información se

obtiene de forma lineal, la navegación tiene la capacidad de obtener
información a través del hipertexto. Esto quiere decir que, la adquisición de
conocimiento se realiza paulatinamente y dependiendo del interés del
usuario se profundiza a través de los nodos de información en una materia
u otra.

A continuación se expone una tabla de motores de búsqueda vs directores.

Motores de búsqueda Vs. Directorios
La información se actualiza La información se actualiza mediante
automáticamente por la red. la mano humana que se da de alta
en el directorio cuando crea un lugar
web.
Recogen toda la información No almacenan todos los contenidos
almacenada en la página. web, solamente los campos más
relevantes como son el título, las
palabras clave, etc.
Almacenan la información Almacenan información mediante
mediante una base de datos directorios, clasificados en
propia. categorías.
La búsqueda se realiza en la La búsqueda se realiza
base de datos mediante la jerárquicamente según las
ecuación de búsqueda. categorías establecidas.
La presentación de los La presentación de los resultados se
resultados se establece por lleva a cabo mediante un listado de
orden de relevancia según unos todos los documentos
criterios establecidos en la correspondientes en la categoría, sin
ecuación de búsqueda. ningún criterio de presentación.
Apropiados para localizar Apropiados para localizar
información específica. información general sobre un tema.

Técnicas de búsqueda de información

o Sistemas de búsqueda de lógica difusa

Esta técnica permite establecer consultas con frases normales, de forma
que la máquina al realizar la búsqueda elimina signos de puntuación,
artículos, conjunciones, plurales, tiempos verbales, palabras comunes (que
suelen aparecer en todos los documentos), dejando sólo aquellas palabras
que el sistema considera relevantes. La recuperación se basa en
proposiciones lógicas con valores de verdadero y falso, teniendo en cuenta
la localización de la palabra en el documento

o Técnicas de ponderación de términos

Es común que unos criterios en la búsqueda tenga más valor que otros, por
tanto la ponderación pretende darle un valor adecuado a la búsqueda
dependiendo de los intereses del usuario. Los documentos recuperados se
encuentran en función del valor obtenido en la ponderación. El valor
depende de los términos pertinentes que contenga el documento y la
frecuencia con que se repita. De forma que, el documento más pertinente
de búsqueda sería aquel que tenga representado todos los términos de
búsqueda y además el que más valor tenga repetidos más veces,
independientemente de donde se localice en el documento.

o Técnica de clustering

Es un modelo probabilístico que permite las frecuencias de los términos de
búsqueda en los documentos recuperados. Se atribuyen unos valores
(pesos) que actúan como agentes para agrupar los documentos por orden
de importancia, mediante algoritmos ranking.

Algoritmos utilizados para realizar la categorización (cluster):

 Algoritmo K-means
 COBWEB
 Algoritmo EM

o Técnicas de retroalimentación por relevancia

Esta técnica pretende obtener el mayor número de documentos relevantes
tras establecer varias estrategias de búsqueda. La idea es que, tras
determinar unos criterios de búsqueda y observar los documentos
recuperados se vuelva a repetir nuevamente la consulta pero esta vez con
los elementos interesantes, seleccionados de los documentos
primeramente recuperados.

Algoritmo Genético: es el que se ha utilizado para llevar a cabo este tipo de
técnicas de recuperación.

o Técnicas de stemming

Morfológicamente las palabras están estructuradas en prefijos, sufijos y la
raíz. La técnica de Stemming lo que pretende es eliminar las posibles
confusiones semánticas que se puedan dar en la búsqueda de un concepto,
para ello trunca la palabra y busca solo por la raíz.

Algoritmos utilizados para desechar prefijos y sufijos:

 Paice/jusque
 S-stemmer / n-gramas
 Técnicas lingüísticas

Pretenden acotar de una manera eficaz los documentos relevantes. Por
esta razón, esta técnica lo consigue mediante una correcta indización en el
proceso de tratamiento de los documentos con ayuda de índices, tesauros,
etc.; evitando las ambigüedades léxicas y semánticas a la hora de
establecer las consultas.

Calidad de la búsqueda

A continuación se presentan unos criterios básicos para que la búsqueda llevada a
cabo sea de calidad.

o Consistencia: Capacidad que tiene un sistema de búsqueda en coordinar su
sistema de clasificación con el lenguaje de búsqueda, permitiendo de esta
manera establecer ecuaciones de búsqueda sobre términos admitidos.
o Exhaustividad: Es la cualidad de un sistema de información para recuperar
la totalidad de los documentos relevantes que posee una colección,
conforme a los requerimientos establecidos en la estrategia de búsqueda.
o Tasa de acierto: coeficiente que surge de dividir el número de documentos
relevantes recuperados, sobre el número total de documentos relevantes de
la colección
o Relevancia: Característica de un documento recuperado que cumple con la
necesidades de información.
o Tasa de relevancia: coeficiente que surge de dividir el número de
documentos relevantes recuperados, sobre el número total de documentos
recuperados
o Pertinencia: Es la cualidad que tiene el documento recuperado de
adaptarse a las necesidades de información.
o Tasa de pertinencia: coeficiente que surge de dividir el número de
documentos pertinentes recuperados, sobre el número total de documentos
recuperados
o Precisión: es la capacidad que tiene el sistema de búsqueda en coordinar la
ecuación con los documentos más relevantes. De otra forma son aquellos
documentos relevantes recuperados.
o Tasa de precisión: coeficiente que surge de dividir el número de
documentos relevantes recuperados, sobre el número total de documentos
de la colección.

Conclusión

Es importante haber tomado en cuenta todos los datos aquí explicados y es que
es necesario aprender a hacer una buena búsqueda y saber efectuarla.

Referencias

General

o Atrévete con
internethttp://www.juntadeandalucia.es/averroes/publicaciones/nntt/n
ntt_secundaria.pdf
o Buscando información en
Internet http://www.dsp.umh.es/docent/ienol/motores.htm
Buscadores
o Todo acerca de Google http://www.google.com.ar/intl/es/about.html
o Motor de busqueda http://www.exalead.es/search
Operadores
o Operadores
altavista http://www.altavista.com/help/adv_search/syntax#url
o Operadores lógicos
boléanos http://www.dsp.umh.es/docent/internet/boole.htm
o Lenguaje de consulta http://www.mcx.es/ISSamples/IXQLANG.HTM
Tesauros
o Tesauro de redes de
ordenadores http://www.um.es/~gtiweb/fjmm/tesauro/intro.htm
o Tesauros del CINDOC http://thes.cindoc.csic.es/index_esp.html
o Tesauro de la UNESCO http://www.ulcc.ac.uk/unesco/
o Tesauro del sistema de información bibliográfica de las Naciones
Unidas http://unhq-appspub-
01.un.org/LIB/DHLUNBISThesaurus.nsf/$$searchs?OpenForm
o UNE 50-106 directrices para el establecimiento y desarrollo de
tesauros monolingües
Recuperación de información
o Grupo REINA. Universidad de
Salamanca. http://reina.usal.es/index.htm
o Recuperación de información
webhttp://es.geocities.com/recupdeinformacion_ontologias/recuperac
ioninformacion.htm#suamrio
o Almacenamiento y recuperación de
informaciónhttp://www.bibliodgsca.unam.mx/tesis/tes7cllg/sec_27.ht
m
 Método clustering http://leo.ugr.es/~elvira/Meetings/Albacete2
002/pedro.pdf
 Stemming http://www.comp.lancs.ac.uk/computing/research/st
emming/general/
o Lógica difusa http://delta.cs.cinvestav.mx/~gmorales/ldifll/ldifll.html

Resolución de problemas en la búsqueda de información1

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (17)

Destaque

Destaque (20)

Semelhante a Resolución de problemas en la búsqueda de información1

Semelhante a Resolución de problemas en la búsqueda de información1 (20)

Último

Último (11)

Resolución de problemas en la búsqueda de información1