1. RECUPERACIÓN AUTOMATIZADA DE LA INFORMACIÓN
11 de marzo de 2010
INDIZACIÓN AUTOMATIZADA
Practica 5
Raquel Carretero Bailón
Licenciatura en Documentación
Universidad de Salamanca
2. ÍNDICE
1. INTRODUCCIÓN ..................................................................................................................... 1
2. Entorno .................................................................................................................................. 2
a. Conéctese a su cuenta en FENIX.USAL.ES. ............................................................................ 2
b. Cree un subdirectorio de nombre practica05. ...................................................................... 2
c. Copie en ese directorio los ficheros docs.xml y docs.dtd que se encuentran en directorio
/home/rai ...................................................................................................................................... 3
d. Vea el contenido de ambos ficheros ..................................................................................... 3
e. Compruebe que el fichero docs.xml es válido mediante la orden (ejecute xml val -help
para obtener ayuda sobre la opción val de xml) ........................................................................... 4
3. Comando de extracción de campos en documentos XML .................................................... 5
a. Utilice la orden siguiente para extraer el contenido del campo TITULO del primer DOC del
fichero ........................................................................................................................................... 5
b. Si quiere obtener el título de los primeros tres documentos (< es la entity de <): .......... 6
c. Si quiere obtener los titulos de los documentos 5, 6, 8, 10, 14, 15, 18 y 20 ........................ 7
4. Comandos de sustitución de texto........................................................................................ 8
a. Busque ayuda de la utilidad tr (man tr) ................................................................................ 8
5. Comandos para ordenar y contar palabras ......................................................................... 13
a. Obtenga ayuda del comando sort y del comando uniq, y luego ejecute:........................... 13
b. Si queremos ordenarlos por el número de apariciones en orden de más a menos
frecuente: .................................................................................................................................... 14
6. Ejercicios.............................................................................................................................. 15
a. Utilice el fichero ibersid2001.doc y conviértalo a fichero plano ...................................... 15
b. Obtenga todas las palabras del documento anterior ......................................................... 15
c. Obtenga la frecuencia de aparición de cada palabra del fichero ibersid2001.txt .............. 17
d. Ley de Zipf ........................................................................................................................... 18
e. Seleccione las palabras que puedan ser vacías ................................................................... 22
f. Aplique lematización utilizando los lematizadores para el español que se indican ........... 26
7. CONCLUSIONES ................................................................................................................... 47
8. BIBLIOGRAFÍA ...................................................................................................................... 48
I
3. ÍNDICE IMÁGENES
Ilustración1 Conexión fénix.usal.es ....................................................................................... 2
Ilustración2 Copiar en el directorio docs.dtd/docs.xml ........................................................ 3
Ilustración3 Contenido fichero.............................................................................................. 3
Ilustración4 Buscar ayuda ..................................................................................................... 4
Ilustración5 Validación fichero docs.xml............................................................................... 4
Ilustración6 Extracción del campo Título .............................................................................. 5
Ilustración7 Título tres primeros documentos...................................................................... 6
Ilustración8 Extracción de campos títulos 5,6,8,10 .............................................................. 7
Ilustración9 Sustitución de caracteres .................................................................................. 8
Ilustración10 Mayúsculas/minúsculas ................................................................................ 8
Ilustración11 Mayúsculas/minúsculas (II) ........................................................................... 9
Ilustración12 Mayúsculas/minúsculas (III) .......................................................................... 9
Ilustración13 Sustitución caracteres acentuados ............................................................. 10
Ilustración14 Sustitución signos de puntuación por + ...................................................... 10
Ilustración15 Sustitución signos de puntuación por espacios en blanco .......................... 10
Ilustración16 Sustitución signos de puntuación por “_” ................................................... 11
Ilustración17 Sustitución signos de puntuación por “__” ................................................ 11
Ilustración18 Sustitución signos puntuación “_” .............................................................. 11
Ilustración19 Sustitución signos de puntuación por saltos de línea ................................. 12
Ilustración20 Sustitución signos de puntuación por saltos de línea y ordenación ........... 12
Ilustración21 Palabra por línea ......................................................................................... 12
Ilustración22 Comandos sort y uniq.................................................................................. 13
Ilustración23 Número de apariciones ............................................................................... 14
Ilustración24 Palabras totales ibersid2001.txt .................................................................. 15
Ilustración25 Palabras únicas documento ibersid2001.txt ............................................... 16
Ilustración26 Para cada título de manera independiente................................................. 17
Ilustración27 Filezilla ......................................................................................................... 19
Ilustración28 Ley de Zipf I ................................................................................................. 19
Ilustración29 Ley de Zipf II ................................................................................................ 19
Ilustración30 Ley de Zipf III ............................................................................................... 20
Ilustración31 Ley de Zipf V ................................................................................................ 20
Ilustración32 Ley de Zipf VII .............................................................................................. 20
II
4. Ilustración33 Ley de Zipf VIII ............................................................................................. 21
Ilustración34 Ley de Zipf IX ............................................................................................... 21
Ilustración35 Listado de palabras vacúas .......................................................................... 22
Ilustración36 Excel palabras vacías ................................................................................... 25
Ilustración37 Listado de palabras contenidas en ibersid2001.txt..................................... 26
Ilustración38 Stemmer simple .......................................................................................... 27
Ilustración39 Stemmer wc -w............................................................................................ 28
Ilustración40 snowball ...................................................................................................... 29
Ilustración41 snowball wc -w ............................................................................................ 29
Ilustración42 Contar palabras antes y después ................................................................ 30
III
5. ÍNDICE TABLAS
1. Tabla Diferencias lematización ................................................................................. 46
IV
6. RESUMEN
Como conseguir una recuperación efectiva de información, relevante, que se acople a las
necesidades del usuario, utilizando diferentes herramientas para realizar una indización
automática.
PALABRAS CLAVE
Palabras vacías, indización automática, lematización, simple-stemming, stemming-snowball
V
7. 1. INTRODUCCIÓN
La indización automática es la selección de un conjunto de términos que representen
íntegramente un documento (texto, imagen, sonido) por medio de un programa
informático. Hasta finales de la década de 1950, la indización se venía realizando en las
Bibliotecas y Centros de Documentación de manera intelectual. Desde entonces se viene
trabajando en automatizar esta tarea.
Algunas de los mecanismos que vienen utilizando los programas informáticos para
conseguir una indización automática son las siguientes:
• Convertir la cadena de entrada a minúsculas
• Convertir acentos a formas no acentuadas
• Convertir la cadena de entrada en palabras, una en cada línea
• Eliminar palabras vacias
• Aplicar lematizacion utilizando un par de lematizadores
1
8. 2. Entorno
a. Conéctese a su cuenta en FENIX.USAL.ES.
Tal y como hemos hecho en las anteriores prácticas nos conectamos a nuestra cuenta de
fénix.usal.es sin olvidar cambiar el idioma antes de hacerlo.
Ilustración1 Conexión fénix.usal.es
b. Cree un subdirectorio de nombre practica05.
Utilizamos el comando mkdir seguido del nombre que queramos asignarle, en nuestro caso,
practica04, tal que quede de la siguiente manera: mkdir practica05.
Una vez realizado este paso, nos introducimos en el subdirectorio recién creado con el
comando cd practica05
2
9. c. Copie en ese directorio los ficheros docs.xml y docs.dtd
que se encuentran en directorio /home/rai
Para llevar a cabo este proceso, es necesario introducir los siguientes comandos: cp
home/rai/docs.xml, cp home/rai/docs.dtd
Ilustración2 Copiar en el directorio docs.dtd/docs.xml
d. Vea el contenido de ambos ficheros
Para ver el contenido de los ficheros docs.dtd, así como docs.xml, debemos introducir el
comando, ya visto anteriormente en otras prácticas, “more”, seguido del nombre
correspondiente, o en su defecto el comando ” less” seguido también del nombre
correspondiente, tal como aparece en la imagen inferior.
Ilustración3 Contenido fichero
3
10. e. Compruebe que el fichero docs.xml es válido mediante
la orden (ejecute xml val -help para obtener ayuda
sobre la opción val de xml)
Ilustración4 Buscar ayuda
Después de comprobar, utilizando la ayuda, cual es la orden que nos interesa ejecutar para
poder dar validez al fichero docs.xml, hemos llegado a la conclusión de que la sentencia a
utilizar sería: xml val -E docs.xml
Ilustración5 Validación fichero docs.xml
Tal como apreciamos en la captura de pantalla nos muestra que el fichero docs.xml es válido.
4
11. 3. Comando de extracción de campos en documentos XML
a. Utilice la orden siguiente para extraer el contenido del
campo TITULO del primer DOC del fichero
xml sel -E "iso8859-1" -T -t -c "/DTT/DOC[1]/TITULO" docs.xml
-T :eliminar etiquetas
Ilustración6 Extracción del campo Título
5
12. b. Si quiere obtener el título de los primeros tres
documentos (< es la entity de <):
xml sel -E "iso8859-1" -T -t -c "/DTT/DOC[position() <=3]/TITULO" docs.xml
Ilustración7 Título tres primeros documentos
6
13. c. Si quiere obtener los titulos de los documentos 5, 6, 8,
10, 14, 15, 18 y 20
Para logralo debemos ejecutar la siguiente orden, de tal modo que queden incluidos todos los
documentos, y esto se consigue separándolos por el operador OR.
xml sel -E "iso8859-1" -T -t -c "/DTT/DOC[position()=5 or position()=6 or position()=8 or
position()=10 or position()=14 or position()=15 or position()=18 or position()=20]/TITULO"
docs.xml
Ilustración8 Extracción de campos títulos 5,6,8,10
7
14. 4. Comandos de sustitución de texto
a. Busque ayuda de la utilidad tr (man tr) .
Realice los siguientes ejemplos para ver su uso. La utilidad tr se utiliza normalmente en modo
tubería, es decir, tomando la salida de un comando como entrada para tr. En los siguientes
ejemplos recuerde que el comando echo simplemente muestra en pantalla la cadena de texto
entrecomillada: esa cadena se utiliza como entrada para el comando tr.
echo 'casa' | tr a e Con esta sentencia se sustituye el carácter “a” por el carácter “e”
Ilustración9 Sustitución de caracteres
echo 'El Señor de los Anillos' | tr A-Z a-z Con esta sentencia, cualquier carácter en
mayúsculas aparecerá en minúsculas.
Ilustración10 Mayúsculas/minúsculas
8
15. echo 'El SEÑOR de los Anillos' | tr A-Z a-z Con esta sentencia, al igual que en el caso anterior,
mostrará todos los caracteres en minúsculas.
Ilustración11 Mayúsculas/minúsculas (II)
echo 'El SEÑOR de los Anillos' | tr [:upper:] [:lower:] Esta sentencia es otra forma de llevar a
cabo la orden anterior, es decir, convertir los caracteres de mayúsculas (upper) a minúsculas
(lower).
Ilustración12 Mayúsculas/minúsculas (III)
9
16. echo '¡Qué! No. Adiós, María.' | tr aéíóúü aeiou Con esta sentencia cualquier carácter que
aparezca acentuado aparecerá sin acentuar.
Ilustración13 Sustitución caracteres acentuados
echo '¡Qué! No. Adiós, María.' | tr [:punct:] + Con esta sentencia se sustituyen los signos de
puntuación por el símbolo “+”
Ilustración14 Sustitución signos de puntuación por +
echo '¡Qué! No. Adiós, María.' | tr -d [:punct:] Con esta sentencia se sustituyen los signos de
puntuación por espacios en blanco
Ilustración15 Sustitución signos de puntuación por espacios en blanco
10
17. echo '¡Qué! No. Adiós, María.' | tr [:punct:] '_' Con esta sentencia se sustituyen los signos de
puntuación por el símbolo “_”
Ilustración16 Sustitución signos de puntuación por “_”
echo '¡Qué! No. Adiós, María.' | tr ' [:punct:]' '_' Con esta sentencia se sustituyen los signos de
puntuación por el símbolo “_”
Ilustración17 Sustitución signos de puntuación por “__”
echo '¡Qué! No. Adiós, María.' | tr -s ' [:punct:]' '_' Con esta sentencia se sustituyen los signos
de puntuación por el símbolo “__” *
Ilustración18 Sustitución signos puntuación “_”
11
18. echo '¡Qué! No. Adiós, María.' | tr -s ' [:punct:]' 'n' Con esta sentencia sustituye cada signo
de puntuación por un salto de línea, y ordena.
Ilustración19 Sustitución signos de puntuación por saltos de línea
echo 'El holandés errante, el elegante, dijo hola sobre la ola, en el barco de Lola' | tr -s '
[:punct:]' 'n' Estamos en el mismo caso que el anterior ejemplo.
Ilustración20 Sustitución signos de puntuación por saltos de línea y ordenación
echo 'El holandés errante, el elegante, dijo hola sobre la ola, en el barco de Lola' | tr -cs '
[:alnum:]' 'n' . Con esta sentencia sustituye los espacios por saltos de línea y signos de
puntuación, de tal modo que en cada línea tenemos una palabra.
Ilustración21 Palabra por línea
12
19. 5. Comandos para ordenar y contar palabras
A partir de un texto, el objetivo es obtener una palabra en cada línea, luego ordenarlas y
contar las ordenadas, de esa manera tendremos las palabras del texto junto con su
frecuencia de aparición.
a. Obtenga ayuda del comando sort y del comando uniq, y
luego ejecute:
echo 'mi fa sol do si si la la sol sol la si do sol' | tr ' ' 'n' | sort
echo 'mi fa sol do si si la la sol sol la si do sol' | tr ' ' 'n' | sort | uniq
echo 'mi fa sol do si si la la sol sol la si do sol' | tr ' ' 'n' | sort | uniq –c
Ilustración22 Comandos sort y uniq
Uniq: muestra en la pantalla una lista de palabras de tal manera que si una palabra es igual a la
siguiente no la pone.
Sort: para ordenar
-c: para contar
13
20. b. Si queremos ordenarlos por el número de apariciones
en orden de más a menos frecuente:
echo 'mi fa sol do si si la la sol sol la si do sol' | tr ' ' 'n' | sort | uniq -c | sort -n –r retorno de
carro?
-n: salto de línea
-r: retorno de carro
Ilustración23 Número de apariciones
14
21. 6. Ejercicios
a. Utilice el fichero ibersid2001.doc y conviértalo a
fichero plano
Con la utilidad wvText. almacene el resultado en un fichero de nombre
ibersid2001.txt.
Como ya hemos visto en anteriores prácticas convierte las palabras de los documentos a texto
plano, lo único que debemos hacer es introducir la siguiente orden, poniendo en primer lugar
el nombre del documento que queremos convertir con su correspondiente extensión y tras
“>”, el nombre del documento con la extensión nueva:
WvText ibersid2001.doc > ibersid2001.txt
b. Obtenga todas las palabras del documento anterior
Teniendo en cuenta que el texto debe estar en minúsculas y los acentos deben ser sustituidos
por vocales no acentuadas. Cuente el número de palabras totales y el número de palabras
únicas.
Palabras totales:
cat ibersid2001.txt | tr [:upper:] [:lower:] | tr áéíóúü aeiouu | tr –cs '[:alnum:]' 'n' | wc –w
Ilustración24 Palabras totales ibersid2001.txt
15
23. c. Obtenga la frecuencia de aparición de cada palabra del
fichero ibersid2001.txt
Tteniendo en cuenta que el texto debe estar en minúsculas y los acentos deben ser sustituidos
por vocales no acentuadas. Debe ordenar el resultado por frecuencia de aparición.
Nota: dado que seguramente no verá todas las palabras, redirija la salida para tener un fichero
de nombre ibersid2001.frec.txt.
Ilustración26 Para cada título de manera independiente
17
24. d. Ley de Zipf
La llamada Ley de Zipf, formulada en la década de los cuarenta por el lingüista de Harvard
George Kingsley Zipf (1902-1950), afirma que un pequeño número de palabras son utilizadas
con mucha frecuencia, mientras que frecuentemente ocurre que un gran número de palabras
son poco empleadas. Esta afirmación, expresada matemáticamente quedaría de la siguiente
forma:
donde Pn representa la frecuencia de una palabra ordenada n-ésima y a es casi 1. Esto significa
que el segundo elemento se repetirá aproximadamente con una frecuencia de 1/2 de la del
primero, y el tercer elemento con una frecuencia de 1/3 y así sucesivamente. Una ley no
empírica, pero más precisa, derivada de los trabajos de Claude Shannon fue descubierta por
Benoît Mandelbrot.
En definitiva viene a decir que en todas las lenguas conocidas la longitud de las palabras es
inversamente proporcional a su frecuencia de aparición (cuantas más veces aparece una
palabra en un idioma, más corta es). Muchos lenguajes artificiales como los élficos de Tolkien o
el Klingon de Star Trek no cumplen esta regla. Esto es debido a que la explicación a esta ley se
basa en la economía lingüística: las palabras que más utilizamos son más cortas y así requieren
menos energía, por ello es el uso de una lengua el que acaba por imponer esta ley.
Utilice Excel u OpenOffice Calc para representar la información que ha obtenido, y verifique
que la frecuencia de aparición de los términos de este documento siguen una distribución
zipfiana. Intente conseguir la regresión logarítmica de los puntos representados (la curva que
se ajusta a dichos puntos, según la ley de Zipf)
▪ Nota: tiene la hoja de cálculo en Studium con el nombre ibersid2001.xls
18
25. Utilizamos el Filezilla para
disponer del documento,
vamos a Excel y abrimos.
Ilustración27 Filezilla
Ilustración28 Ley de Zipf I
Hay que representar la
frecuencia frente al orden
Ilustración29 Ley de Zipf II
19
26. Asistente para gráficos
Ilustración30 Ley de Zipf III
Insertamos el gráfico al que
hemos llamado “Ley de Zipf”
Ilustración31 Ley de Zipf V
Primeramente me posiciono
en el eje X
Ilustración32 Ley de Zipf VII
20
27. A continuación se realiza la
misma operación solo que
esta vez con el eje Y.
Tras esto, en el gráfico se
pulsa la opción “agregar
línea de tendencia”
(potencial)
Ilustración33 Ley de Zipf VIII
Para verlo solo hay que
posicionarse sobre la línea y
seleccionar “mostrar gráfico
de la ecuación”
Ilustración34 Ley de Zipf IX
21
28. e. Seleccione las palabras que puedan ser vacías
Luego compare la lista que ha obtenido con una lista estandar
Elimine las palabras que considere vacias del fichero ibersid.frec.txt.
Ilustración35 Listado de palabras vacúas
http://members.unine.ch/jacques.savoy/clef/spanishSmart.txt).
22
29. 1. El 46. I 91. Cual
2. La 47. Han 92. B
3. De 48. Entre 93. Aunque
4. En 49. Aquellos 94. Además
5. Que 50. Son 95. Ya
6. Los 51. Pueden 96. Verse
7. Y 52. Otro 97. Unos
8. Es 53. Mayor 98. Tras
9. Se 54. Lo 99. Todos
10. a 55. Esto 100. Todas
11. Una 56. Tanto 101. Toda
12. Un 57. Sido 102. Solo
13. Para 58. Poco 103. Sino
14. Del 59. Pero 104. Sin
15. Con 60. M 105. Siendo
16. Por 61. Ese 106. Seria
17. Como 62. Esa 107. Ser
18. Mas 63. Decir 108. Según
19. No 64. Debe 109. S
20. Las 65. Mismo 110. Q
21. Of 66. Manera 111. Primeros
22. Cada 67. Dado 112. Primero
23. And 68. Cuenta 113. Otra
24. Al 69. W 114. On
25. De 70. Través 115. Nuestra
26. Uno 71. Tiene 116. Ningún
27. In 72. Tener 117. Nada
28. J 73. Tales 118. Muy
29. Puede 74. Primera 119. Muchos
30. G 75. Poder 120. Mucho
31. Esta 76. Ri 121. More
32. C 77. P 122. Mejor
33. Así 78. Nuevos 123. Mediante
34. También 79. Nuevo 124. Le
35. Otros 80. Nueva 125. K
36. Parte 81. Nj 126. Is
37. Si 82. New 127. Hemos
38. O 83. Hace 128. Ha
39. N 84. Etc 129. Fue
40. Este 85. Et 130. Donde
41. D 86. Esos 131. Desde
42. Sus 87. Ello 132. By
43. Su 88. Ellas 133. Alguna
44. R 89. E 134. 1992b
45. I 90. Dos 135. With
23
30. 136. Where 181. F
137. Veces 182. Estas
138. Unas 183. Esas
139. To 184. Entonces
140. Tienen 185. Ed
141. Those 186. Diversos
142. This 187. Dicho
143. They 188. Df
144. These 189. Dentro
145. Then 190. Demás
146. Their 191. Deben
147. That 192. Dar
148. Tf 193. Cuyos
149. Tendrán 194. Cuyo
150. Tal 195. Cuarto
151. Sobre 196. Cierto
152. Siguientes 197. Casi
153. Siguiente 198. Better
154. Sigue 199. Bastantes
155. Siempre 200. Bastante
156. Segundo 201. Are
157. Second 202. Aquí
158. Sean 203. Aquellas
159. Sea 204. Ambas
160. Podría 205. Algunos
161. Podrá 206. Algún
162. Podemos 207. Ad
163. Otras 208. Acm
164. Other 209. Fin
165. Nr 210. An
166. Mismos 211. Ambos
167. Misma 212. 1992ª
168. Menos 213. Unos
169. Mejores 214. Pues
170. Miles 215. Partir
171. Md 216. Obstante
172. L 217. Ik
173. Lado 218. Existen
174. Junto 219. By
175. Igual 220. Frente
176. Hoy 221. Estos
177. Hay
178. Gran
179. Fueron
180. For
24
32. f. Aplique lematización utilizando los lematizadores
para el español que se indican
Un s-stemmer para el espanol que elimina terminaciones aplicando las siguientes reglas en el
orden que se indican:
• si la palabra termina en -eses, sustituya por -es (p.e., corteses → cortes)
• si la palabra termina en -es, sustituya por -z (p.e., veces → vez)
• elimine las terminaciones -as, -es y -os
• elimine las terminaciones -a, -e y –o
▪ Un suffix-stripping denominado Snowball, muy utilizado para gran cantidad de idiomas. Para
mas informacion, conectese a http://snowball.tartarus.org/.
Ilustración37 Listado de palabras contenidas en ibersid2001.txt
cat ibersid2001.txt | tr [:upper:] [:lower:] | tr áéíóúü aeiouu | tr -cs '[:alnum:]' 'n' |sort
|uniq | more
26
33. Redirijo a ibersid2001.palabras.txt, lo pasaré por un stemmer simple. Asi obtengo las palabras
lematixadas con el lematizador simple.
Debemos crear un fichero .txt que contenga el listado de palabras resultante después de
eliminar las palabras vacías y pasarlo a través de filezilla a práctica05 para poder trabajar sobre
él.
Stemming es un método para reducir una palabra a su raíz o mejor a un stem o tema. Hay
algunos algoritmos de stemming que ayudan en sistemas de recuperación de información.
Stemming aumenta el recall que es una medida sobre el número de documentos que se
pueden encontrar con una consulta. Por ejemplo una consulta sobre "bibliotecas" también
encuentra documentos en los que solo aparezca "bibliotecario" porque el stem de las dos
palabras es el mismo ("bibliotec").
cat ibersid2001.palabras.txt | stemmer-simple-spanish | more
Ilustración38 Stemmer simple
Para ver la diferencia entre los dos métodos, contamos los términos en ambos casos (wc –w).
Con el stemmer simple observamos que nos devuelve un resultado de exactamente 650
palabras.
27
34. cat ibersid2001.palabras.txt | stemmer-simple-spanish | sort |uniq | wc -w
Ilustración39 Stemmer wc -w
Si quiero repetir el proceso pero con el snowball:
Se trata de un pequeño lenguaje para el manejo de strings que permite implementar
algoritmos de normalización del lenguaje (steeming algorithms) mediante sencillos scripts.
Posteriormente mediante un compilador se genera una salida en C o en Java.
Como en cualquier buscador de calidad pretendíamos conseguir que las consultas fueran case-
insensitive y accent-insensitive. Pero además, en esta ocasión también queríamos que las
búsquedas fueran independientes, hasta cierto punto, de las terminaciones morfológicas. Es
decir, que se pudiera buscar indistintamente por "documentos ténicos" y "documentación
técnica", o por "acceso", "accesible", "accesibilidad", etc.
Para eso necesitabamos implementar un algoritmo de normalización
(stemmer) que redujera los términos de la consulta a las unidades mínimas con significado
léxico (lexemas). Este tipo de algoritmos, basados en el algoritmo de Porter
28
35. cat ibersid2001.palabras.txt | stemmer-snowball-spanish | more
Ilustración40 snowball
Para ver la diferencia entre los dos métodos, contamos los términos en ambos casos (wc –w).
Con el snowball observamos que nos devuelve un resultado de exactamente 572 palabras
Ilustración41 snowball wc -w
29
36. Para contar las palabras que hay antes y después de eliminar las palabras vacías se introducen
las órdenes que se muestran en la ilustración inferior.
Antes: 938
Después: 716
Ilustración42 Contar palabras antes y después
Importe estos tres ficheros (ibersid2001.palabras.txt, ibersid2001.lema1.txt e
ibersid2001.lema2.txt) a una hoja de cálculo Excel y vea cómo han quedado los términos.
Lema1 Lema2 Inersid2001.pal
abras.txt
0 0 0
1 1 1
10 10 10
1074 1074 1074
109 109 109
145 145 145
15 15 15
16 16 16
1965 1965 1965
1968 1968 1968
1971 1971 1971
1977 1977 1977
30
44. figuerol figuerol figuerola
figur figur figura
filtrad filtr filtrado
finaliz finaliz finaliza
followed follow followed
form form forma
formad form formada
formad form formado
formalment formal formalmente
forman form forman
format format formato
formul formul formula
formulacion formulacion formulacion
formulation formulation formulation
frak frak frakes
francament franc francamente
francisc francisc francisco
frecuenci frecuenci frecuencia
frequency frequency frequency
gast gast gasto
general general general
gomez gomez gomez
grad grad grado
grams grams grams
grup grup grupo
habrian habri habrian
hall hall hall
harter hart harter
herramient herramient herramientas
hert hert hert
hill hill hill
hoc hoc hoc
homogene homogen homogeneas
hooper hoop hooper
ide ide ideas
identific identif identifica
identify identify identify
idf idf idf
impact impact impact
impact impact impacto
impid impid impide
implic implic implica
importanci import importancia
important important important
important import importante
important import importantes
38
46. lenguaj lenguaj lenguaje
lexic lexic lexicas
libr libr libre
like lik like
linguistic linguist linguisticas
list list list
llamad llam llamado
lopez lopez lopez
lugar lugar lugares
magnitud magnitud magnitudes
management management management
mangiaterr mangiaterr mangiaterra
manual manual manual
manual manual manuales
manualment manual manualmente
marcar marc marcar
marcaron marc marcaron
martinez martinez martinez
mcgill mcgill mcgill
mcgraw mcgraw mcgraw
means means means
measurements measurements measurements
mecanism mecan mecanismo
mecanism mecan mecanismos
medi medi media
medid med medida
mejor mejor mejora
mejoran mejor mejoran
mejorar mejor mejorar
metod metod metodos
mide mid mide
mode mod mode
model model modelo
model model modelos
modern modern modern
modification modification modification
modo mod modo
moment moment momento
mostrad mostr mostrado
multipalabr multipalabr multipalabra
natural natural natural
necesari necesari necesario
necesidad neces necesidad
necesidad neces necesidades
negativ negativ negative
negativ negat negativo
40
47. negativ negat negativos
nist nist nist
normalizacion normalizacion normalizacion
normalizar normaliz normalizar
normalment normal normalmente
notablement notabl notablemente
notori notori notoria
numeric numer numerico
numer numer numero
obedec obedec obedece
objetiv objet objetivo
observar observ observar
obtencion obtencion obtencion
obtener obten obtener
obteniend obten obteniendo
obteniendos obten obteniendose
obtienen obtien obtienen
obtuvieron obtuv obtuvieron
obviament obvi obviamente
obviar obvi obviar
ocurrenci ocurrent ocurrencia
ofrecen ofrec ofrecen
opcion opcion opcion
operacion oper operaciones
opta opta opta
orden orden orden
ordenad orden ordenados
ordenar orden ordenar
organization organization organization
origin origin origin
original original originales
pagin pagin paginas
palabr palabr palabra
palabr palabr palabras
palabr palabr palabras
partiend part partiendo
pasa pas pasa
pas pas pasos
peculiaridad peculiar peculiaridades
pequeñ pequeñ pequeña
pequeñ pequeñ pequeño
performanc performanc performance
permitan permit permitan
permit permit permite
permiten permit permiten
person person persona
41
48. pertenec pertenec pertenece
pertinent pertinent pertinente
pertinent pertinent pertinentes
peso pes peso
pes pes pesos
pierden pierd pierden
plantear plant plantear
polisemi polisemi polisemia
pose pose posee
posibilidad posibil posibilidad
posibiliten posibilit posibiliten
posibl posibl posible
positiv positiv positive
positiv posit positivos
pp pp pp
precision precision precision
precis precis preciso
pregunt pregunt preguntas
prentic prentic prentice
preposicion preposicion preposiciones
privilegiar privilegi privilegiar
problem problem problema
problem problem problemas
proceedings proceedings proceedings
procesad proces procesadas
procesaron proces procesaron
proces proces proceso
process process process
processing processing processing
produc produc produce
producen produc producen
producid produc producidas
product product producto
proporcion proporcion proporcion
proporcional proporcional proporcional
proporcionand proporcion proporcionando
proporcionen proporcion proporcionen
propuest propuest propuesto
propuest propuest propuestos
provenient provenient provenientes
publication publication publication
pudieran pud pudieran
punt punt punto
quality quality quality
quaterly quaterly quaterly
queri queri queries
42
50. salamanc salamanc salamanca
salton salton salton
san san san
satisfac satisfac satisface
scienc scienc science
seguidament seguid seguidamente
seguid segu seguido
seguir segu seguir
segurament segur seguramente
seleccion seleccion selecciona
seleccionad seleccion seleccionado
seleccionad seleccion seleccionados
seleccionar seleccion seleccionar
semantic semant semantico
semejanz semej semejanza
sentid sent sentido
señalad señal señalados
señalar señal señalar
shown shown shown
significativ signific significativas
siguient siguient siguientes
similar similar similares
similitud similitud similitud
simpl simpl simple
sinonimi sinonimi sinonimia
sistem sistem sistema
sistem sistem sistemas
smart smart smart
society society society
sofisticad sofistic sofisticados
somer somer somera
spain spain spain
spanish spanish spanish
special special special
stemming stemming stemming
stops stops stops
structur structur structures
stubbs stubbs stubbs
subcaden subcaden subcadenas
subjetiv subjet subjetiva
suel suel suele
suelen suel suelen
system system system
systems systems systems
tamañ tamañ tamaños
techniqu techniqu technique
44
51. techniqu techniqu techniques
technology technology technology
tecnic tecnic tecnica
tecnic tecnic tecnicas
tematic temat tematico
term term term
termin termin termino
termin termin terminos
tesin tesin tesina
tests tests tests
text text text
text text texto
tiemp tiemp tiempo
tiend tiend tiende
tipo tip tipo
toma tom toma
tomar tom tomar
totalment total totalmente
trabaj trabaj trabajo
trec trec trec
unidad unidad unidades
universidad univers universidad
usad usad usado
usal usal usal
usars usars usarse
user user user
users users users
using using using
usually usually usually
usuari usuari usuario
usuari usuari usuarios
util util util
util util utiles
utilic utilic utilice
utiliz utiliz utiliza
utilizabl utiliz utilizables
utilizacion utilizacion utilizacion
utilizad utiliz utilizada
utilizad utiliz utilizado
utilizad utiliz utilizados
utilizand utiliz utilizando
utilizar utiliz utilizar
utilizaron utiliz utilizaron
utilization utilization utilization
vaciad vaci vaciado
vaci vaci vacias
45
52. valor valor valor
valor valor valores
vector vector vector
vector vector vectores
vectorial vectorial vectorial
vectorizad vectoriz vectorizada
vien vien viene
vist vist vista
visualizar visualiz visualizar
vitori vitori vitoria
witghting witghting witghting
words words words
yat yat yates
york york york
zazo zaz zazo
1. Tabla Diferencias lematización
46
53. 7. CONCLUSIONES
Dados los problemas que plantea el lenguaje natural (información pobremente estructurada,
diferentes formatos de documentos, problemas con codificación de la información, problemas
de detección y conversión de formatos y codificación, normalización de términos, etc.) se
hace necesario el empleo de herramientas especializadas a la hora de tratarlo para conseguir
una recuperación óptima de información, que satisfaga las necesidades de la búsqueda.
.
47
54. 8. BIBLIOGRAFÍA
– Indización automática – la enciclopedia libre. Actualizado el. [On-line] 30 de
septiembte. Consulta realizada el 3 de marzo de 2010. URL:
http://es.wikipedia.org/wiki/Indizaci%C3%B3n_autom%C3%A1tica
– Ley de Zipf – la enciclopedia libre. Actualizado el 9 de octubre. [On-line]. Consulta
realizada el 7 de marzo de 2010. URL: http://es.wikipedia.org/wiki/Stemming
– Stemming – la enciclopedia libre. Actualizado el 2 de octubre. [On-line]. Consulta
realizada el 7 de marzo de 2010
URL:http://es.wikipedia.org/wiki/George_Kingsley_Zipf
48