Practica5 final

RECUPERACIÓN AUTOMATIZADA DE LA INFORMACIÓN

11 de marzo de 2010

INDIZACIÓN AUTOMATIZADA

Practica 5

Raquel Carretero Bailón

Licenciatura en Documentación

Universidad de Salamanca

ÍNDICE

1. INTRODUCCIÓN ..................................................................................................................... 1
2. Entorno .................................................................................................................................. 2
a. Conéctese a su cuenta en FENIX.USAL.ES. ............................................................................ 2
b. Cree un subdirectorio de nombre practica05. ...................................................................... 2
c. Copie en ese directorio los ficheros docs.xml y docs.dtd que se encuentran en directorio
/home/rai ...................................................................................................................................... 3
d. Vea el contenido de ambos ficheros ..................................................................................... 3
e. Compruebe que el fichero docs.xml es válido mediante la orden (ejecute xml val -help
para obtener ayuda sobre la opción val de xml) ........................................................................... 4
3. Comando de extracción de campos en documentos XML .................................................... 5
a. Utilice la orden siguiente para extraer el contenido del campo TITULO del primer DOC del
fichero ........................................................................................................................................... 5
b. Si quiere obtener el título de los primeros tres documentos (< es la entity de <): .......... 6
c. Si quiere obtener los titulos de los documentos 5, 6, 8, 10, 14, 15, 18 y 20 ........................ 7
4. Comandos de sustitución de texto........................................................................................ 8
a. Busque ayuda de la utilidad tr (man tr) ................................................................................ 8
5. Comandos para ordenar y contar palabras ......................................................................... 13
a. Obtenga ayuda del comando sort y del comando uniq, y luego ejecute:........................... 13
b. Si queremos ordenarlos por el número de apariciones en orden de más a menos
frecuente: .................................................................................................................................... 14
6. Ejercicios.............................................................................................................................. 15
a. Utilice el fichero ibersid2001.doc y conviértalo a fichero plano ...................................... 15
b. Obtenga todas las palabras del documento anterior ......................................................... 15
c. Obtenga la frecuencia de aparición de cada palabra del fichero ibersid2001.txt .............. 17
d. Ley de Zipf ........................................................................................................................... 18
e. Seleccione las palabras que puedan ser vacías ................................................................... 22
f. Aplique lematización utilizando los lematizadores para el español que se indican ........... 26
7. CONCLUSIONES ................................................................................................................... 47
8. BIBLIOGRAFÍA ...................................................................................................................... 48

I

ÍNDICE IMÁGENES

Ilustración1 Conexión fénix.usal.es ....................................................................................... 2
Ilustración2 Copiar en el directorio docs.dtd/docs.xml ........................................................ 3
Ilustración3 Contenido fichero.............................................................................................. 3
Ilustración4 Buscar ayuda ..................................................................................................... 4
Ilustración5 Validación fichero docs.xml............................................................................... 4
Ilustración6 Extracción del campo Título .............................................................................. 5
Ilustración7 Título tres primeros documentos...................................................................... 6
Ilustración8 Extracción de campos títulos 5,6,8,10 .............................................................. 7
Ilustración9 Sustitución de caracteres .................................................................................. 8
Ilustración10 Mayúsculas/minúsculas ................................................................................ 8
Ilustración11 Mayúsculas/minúsculas (II) ........................................................................... 9
Ilustración12 Mayúsculas/minúsculas (III) .......................................................................... 9
Ilustración13 Sustitución caracteres acentuados ............................................................. 10
Ilustración14 Sustitución signos de puntuación por + ...................................................... 10
Ilustración15 Sustitución signos de puntuación por espacios en blanco .......................... 10
Ilustración16 Sustitución signos de puntuación por “_” ................................................... 11
Ilustración17 Sustitución signos de puntuación por “__” ................................................ 11
Ilustración18 Sustitución signos puntuación “_” .............................................................. 11
Ilustración19 Sustitución signos de puntuación por saltos de línea ................................. 12
Ilustración20 Sustitución signos de puntuación por saltos de línea y ordenación ........... 12
Ilustración21 Palabra por línea ......................................................................................... 12
Ilustración22 Comandos sort y uniq.................................................................................. 13
Ilustración23 Número de apariciones ............................................................................... 14
Ilustración24 Palabras totales ibersid2001.txt .................................................................. 15
Ilustración25 Palabras únicas documento ibersid2001.txt ............................................... 16
Ilustración26 Para cada título de manera independiente................................................. 17
Ilustración27 Filezilla ......................................................................................................... 19
Ilustración28 Ley de Zipf I ................................................................................................. 19
Ilustración29 Ley de Zipf II ................................................................................................ 19
Ilustración30 Ley de Zipf III ............................................................................................... 20
Ilustración31 Ley de Zipf V ................................................................................................ 20
Ilustración32 Ley de Zipf VII .............................................................................................. 20

II

Ilustración33 Ley de Zipf VIII ............................................................................................. 21
Ilustración34 Ley de Zipf IX ............................................................................................... 21
Ilustración35 Listado de palabras vacúas .......................................................................... 22
Ilustración36 Excel palabras vacías ................................................................................... 25
Ilustración37 Listado de palabras contenidas en ibersid2001.txt..................................... 26
Ilustración38 Stemmer simple .......................................................................................... 27
Ilustración39 Stemmer wc -w............................................................................................ 28
Ilustración40 snowball ...................................................................................................... 29
Ilustración41 snowball wc -w ............................................................................................ 29
Ilustración42 Contar palabras antes y después ................................................................ 30

III

ÍNDICE TABLAS

1. Tabla Diferencias lematización ................................................................................. 46

IV

RESUMEN

Como conseguir una recuperación efectiva de información, relevante, que se acople a las
necesidades del usuario, utilizando diferentes herramientas para realizar una indización
automática.

PALABRAS CLAVE

Palabras vacías, indización automática, lematización, simple-stemming, stemming-snowball

V

1. INTRODUCCIÓN

La indización automática es la selección de un conjunto de términos que representen
íntegramente un documento (texto, imagen, sonido) por medio de un programa
informático. Hasta finales de la década de 1950, la indización se venía realizando en las
Bibliotecas y Centros de Documentación de manera intelectual. Desde entonces se viene
trabajando en automatizar esta tarea.

Algunas de los mecanismos que vienen utilizando los programas informáticos para
conseguir una indización automática son las siguientes:

• Convertir la cadena de entrada a minúsculas

• Convertir acentos a formas no acentuadas

• Convertir la cadena de entrada en palabras, una en cada línea

• Eliminar palabras vacias

• Aplicar lematizacion utilizando un par de lematizadores

1

2. Entorno

a. Conéctese a su cuenta en FENIX.USAL.ES.

Tal y como hemos hecho en las anteriores prácticas nos conectamos a nuestra cuenta de
fénix.usal.es sin olvidar cambiar el idioma antes de hacerlo.

Ilustración1 Conexión fénix.usal.es

b. Cree un subdirectorio de nombre practica05.

Utilizamos el comando mkdir seguido del nombre que queramos asignarle, en nuestro caso,
practica04, tal que quede de la siguiente manera: mkdir practica05.

Una vez realizado este paso, nos introducimos en el subdirectorio recién creado con el
comando cd practica05

2

c. Copie en ese directorio los ficheros docs.xml y docs.dtd
que se encuentran en directorio /home/rai

Para llevar a cabo este proceso, es necesario introducir los siguientes comandos: cp
home/rai/docs.xml, cp home/rai/docs.dtd

Ilustración2 Copiar en el directorio docs.dtd/docs.xml

d. Vea el contenido de ambos ficheros

Para ver el contenido de los ficheros docs.dtd, así como docs.xml, debemos introducir el
comando, ya visto anteriormente en otras prácticas, “more”, seguido del nombre
correspondiente, o en su defecto el comando ” less” seguido también del nombre
correspondiente, tal como aparece en la imagen inferior.

Ilustración3 Contenido fichero

3

e. Compruebe que el fichero docs.xml es válido mediante
la orden (ejecute xml val -help para obtener ayuda
sobre la opción val de xml)

Ilustración4 Buscar ayuda

Después de comprobar, utilizando la ayuda, cual es la orden que nos interesa ejecutar para
poder dar validez al fichero docs.xml, hemos llegado a la conclusión de que la sentencia a
utilizar sería: xml val -E docs.xml

Ilustración5 Validación fichero docs.xml

Tal como apreciamos en la captura de pantalla nos muestra que el fichero docs.xml es válido.

4

3. Comando de extracción de campos en documentos XML

a. Utilice la orden siguiente para extraer el contenido del
campo TITULO del primer DOC del fichero

xml sel -E "iso8859-1" -T -t -c "/DTT/DOC[1]/TITULO" docs.xml

-T :eliminar etiquetas

Ilustración6 Extracción del campo Título

5

b. Si quiere obtener el título de los primeros tres
documentos (< es la entity de <):

xml sel -E "iso8859-1" -T -t -c "/DTT/DOC[position() <=3]/TITULO" docs.xml

Ilustración7 Título tres primeros documentos

6

c. Si quiere obtener los titulos de los documentos 5, 6, 8,
10, 14, 15, 18 y 20

Para logralo debemos ejecutar la siguiente orden, de tal modo que queden incluidos todos los
documentos, y esto se consigue separándolos por el operador OR.

xml sel -E "iso8859-1" -T -t -c "/DTT/DOC[position()=5 or position()=6 or position()=8 or
position()=10 or position()=14 or position()=15 or position()=18 or position()=20]/TITULO"
docs.xml

Ilustración8 Extracción de campos títulos 5,6,8,10

7

4. Comandos de sustitución de texto

a. Busque ayuda de la utilidad tr (man tr) .

Realice los siguientes ejemplos para ver su uso. La utilidad tr se utiliza normalmente en modo
tubería, es decir, tomando la salida de un comando como entrada para tr. En los siguientes
ejemplos recuerde que el comando echo simplemente muestra en pantalla la cadena de texto
entrecomillada: esa cadena se utiliza como entrada para el comando tr.

echo 'casa' | tr a e Con esta sentencia se sustituye el carácter “a” por el carácter “e”

Ilustración9 Sustitución de caracteres

echo 'El Señor de los Anillos' | tr A-Z a-z Con esta sentencia, cualquier carácter en
mayúsculas aparecerá en minúsculas.

Ilustración10 Mayúsculas/minúsculas

8

echo 'El SEÑOR de los Anillos' | tr A-Z a-z Con esta sentencia, al igual que en el caso anterior,
mostrará todos los caracteres en minúsculas.

Ilustración11 Mayúsculas/minúsculas (II)

echo 'El SEÑOR de los Anillos' | tr [:upper:] [:lower:] Esta sentencia es otra forma de llevar a
cabo la orden anterior, es decir, convertir los caracteres de mayúsculas (upper) a minúsculas
(lower).

Ilustración12 Mayúsculas/minúsculas (III)

9

echo '¡Qué! No. Adiós, María.' | tr aéíóúü aeiou Con esta sentencia cualquier carácter que
aparezca acentuado aparecerá sin acentuar.

Ilustración13 Sustitución caracteres acentuados

echo '¡Qué! No. Adiós, María.' | tr [:punct:] + Con esta sentencia se sustituyen los signos de
puntuación por el símbolo “+”

Ilustración14 Sustitución signos de puntuación por +

echo '¡Qué! No. Adiós, María.' | tr -d [:punct:] Con esta sentencia se sustituyen los signos de
puntuación por espacios en blanco

Ilustración15 Sustitución signos de puntuación por espacios en blanco

10

echo '¡Qué! No. Adiós, María.' | tr [:punct:] '_' Con esta sentencia se sustituyen los signos de
puntuación por el símbolo “_”

Ilustración16 Sustitución signos de puntuación por “_”

echo '¡Qué! No. Adiós, María.' | tr ' [:punct:]' '_' Con esta sentencia se sustituyen los signos de
puntuación por el símbolo “_”

Ilustración17 Sustitución signos de puntuación por “__”

echo '¡Qué! No. Adiós, María.' | tr -s ' [:punct:]' '_' Con esta sentencia se sustituyen los signos
de puntuación por el símbolo “__” *

Ilustración18 Sustitución signos puntuación “_”

11

echo '¡Qué! No. Adiós, María.' | tr -s ' [:punct:]' 'n' Con esta sentencia sustituye cada signo
de puntuación por un salto de línea, y ordena.

Ilustración19 Sustitución signos de puntuación por saltos de línea

echo 'El holandés errante, el elegante, dijo hola sobre la ola, en el barco de Lola' | tr -s '
[:punct:]' 'n' Estamos en el mismo caso que el anterior ejemplo.

Ilustración20 Sustitución signos de puntuación por saltos de línea y ordenación

echo 'El holandés errante, el elegante, dijo hola sobre la ola, en el barco de Lola' | tr -cs '
[:alnum:]' 'n' . Con esta sentencia sustituye los espacios por saltos de línea y signos de
puntuación, de tal modo que en cada línea tenemos una palabra.

Ilustración21 Palabra por línea

12

5. Comandos para ordenar y contar palabras

A partir de un texto, el objetivo es obtener una palabra en cada línea, luego ordenarlas y
contar las ordenadas, de esa manera tendremos las palabras del texto junto con su
frecuencia de aparición.

a. Obtenga ayuda del comando sort y del comando uniq, y
luego ejecute:
echo 'mi fa sol do si si la la sol sol la si do sol' | tr ' ' 'n' | sort

echo 'mi fa sol do si si la la sol sol la si do sol' | tr ' ' 'n' | sort | uniq

echo 'mi fa sol do si si la la sol sol la si do sol' | tr ' ' 'n' | sort | uniq –c

Ilustración22 Comandos sort y uniq

Uniq: muestra en la pantalla una lista de palabras de tal manera que si una palabra es igual a la
siguiente no la pone.

Sort: para ordenar

-c: para contar

13

b. Si queremos ordenarlos por el número de apariciones
en orden de más a menos frecuente:

echo 'mi fa sol do si si la la sol sol la si do sol' | tr ' ' 'n' | sort | uniq -c | sort -n –r retorno de
carro?

-n: salto de línea

-r: retorno de carro

Ilustración23 Número de apariciones

14

6. Ejercicios

a. Utilice el fichero ibersid2001.doc y conviértalo a
fichero plano

Con la utilidad wvText. almacene el resultado en un fichero de nombre
ibersid2001.txt.

Como ya hemos visto en anteriores prácticas convierte las palabras de los documentos a texto
plano, lo único que debemos hacer es introducir la siguiente orden, poniendo en primer lugar
el nombre del documento que queremos convertir con su correspondiente extensión y tras
“>”, el nombre del documento con la extensión nueva:

WvText ibersid2001.doc > ibersid2001.txt

b. Obtenga todas las palabras del documento anterior

Teniendo en cuenta que el texto debe estar en minúsculas y los acentos deben ser sustituidos
por vocales no acentuadas. Cuente el número de palabras totales y el número de palabras
únicas.

Palabras totales:
cat ibersid2001.txt | tr [:upper:] [:lower:] | tr áéíóúü aeiouu | tr –cs '[:alnum:]' 'n' | wc –w

Ilustración24 Palabras totales ibersid2001.txt

15

c. Obtenga la frecuencia de aparición de cada palabra del
fichero ibersid2001.txt

Tteniendo en cuenta que el texto debe estar en minúsculas y los acentos deben ser sustituidos
por vocales no acentuadas. Debe ordenar el resultado por frecuencia de aparición.

Nota: dado que seguramente no verá todas las palabras, redirija la salida para tener un fichero
de nombre ibersid2001.frec.txt.

Ilustración26 Para cada título de manera independiente

17

d. Ley de Zipf

La llamada Ley de Zipf, formulada en la década de los cuarenta por el lingüista de Harvard
George Kingsley Zipf (1902-1950), afirma que un pequeño número de palabras son utilizadas
con mucha frecuencia, mientras que frecuentemente ocurre que un gran número de palabras
son poco empleadas. Esta afirmación, expresada matemáticamente quedaría de la siguiente
forma:

donde Pn representa la frecuencia de una palabra ordenada n-ésima y a es casi 1. Esto significa
que el segundo elemento se repetirá aproximadamente con una frecuencia de 1/2 de la del
primero, y el tercer elemento con una frecuencia de 1/3 y así sucesivamente. Una ley no
empírica, pero más precisa, derivada de los trabajos de Claude Shannon fue descubierta por
Benoît Mandelbrot.

En definitiva viene a decir que en todas las lenguas conocidas la longitud de las palabras es
inversamente proporcional a su frecuencia de aparición (cuantas más veces aparece una
palabra en un idioma, más corta es). Muchos lenguajes artificiales como los élficos de Tolkien o
el Klingon de Star Trek no cumplen esta regla. Esto es debido a que la explicación a esta ley se
basa en la economía lingüística: las palabras que más utilizamos son más cortas y así requieren
menos energía, por ello es el uso de una lengua el que acaba por imponer esta ley.

Utilice Excel u OpenOffice Calc para representar la información que ha obtenido, y verifique
que la frecuencia de aparición de los términos de este documento siguen una distribución
zipfiana. Intente conseguir la regresión logarítmica de los puntos representados (la curva que
se ajusta a dichos puntos, según la ley de Zipf)

▪ Nota: tiene la hoja de cálculo en Studium con el nombre ibersid2001.xls

18

Utilizamos el Filezilla para
disponer del documento,
vamos a Excel y abrimos.

Ilustración27 Filezilla

Ilustración28 Ley de Zipf I
Hay que representar la
frecuencia frente al orden

Ilustración29 Ley de Zipf II

19

Asistente para gráficos

Ilustración30 Ley de Zipf III
Insertamos el gráfico al que
hemos llamado “Ley de Zipf”

Ilustración31 Ley de Zipf V
Primeramente me posiciono
en el eje X

Ilustración32 Ley de Zipf VII

20

A continuación se realiza la
misma operación solo que
esta vez con el eje Y.

Tras esto, en el gráfico se
pulsa la opción “agregar
línea de tendencia”
(potencial)

Ilustración33 Ley de Zipf VIII

Para verlo solo hay que
posicionarse sobre la línea y
seleccionar “mostrar gráfico
de la ecuación”

Ilustración34 Ley de Zipf IX

21

e. Seleccione las palabras que puedan ser vacías

Luego compare la lista que ha obtenido con una lista estandar

Elimine las palabras que considere vacias del fichero ibersid.frec.txt.

Ilustración35 Listado de palabras vacúas

http://members.unine.ch/jacques.savoy/clef/spanishSmart.txt).

22

1. El 46. I 91. Cual
2. La 47. Han 92. B
3. De 48. Entre 93. Aunque
4. En 49. Aquellos 94. Además
5. Que 50. Son 95. Ya
6. Los 51. Pueden 96. Verse
7. Y 52. Otro 97. Unos
8. Es 53. Mayor 98. Tras
9. Se 54. Lo 99. Todos
10. a 55. Esto 100. Todas
11. Una 56. Tanto 101. Toda
12. Un 57. Sido 102. Solo
13. Para 58. Poco 103. Sino
14. Del 59. Pero 104. Sin
15. Con 60. M 105. Siendo
16. Por 61. Ese 106. Seria
17. Como 62. Esa 107. Ser
18. Mas 63. Decir 108. Según
19. No 64. Debe 109. S
20. Las 65. Mismo 110. Q
21. Of 66. Manera 111. Primeros
22. Cada 67. Dado 112. Primero
23. And 68. Cuenta 113. Otra
24. Al 69. W 114. On
25. De 70. Través 115. Nuestra
26. Uno 71. Tiene 116. Ningún
27. In 72. Tener 117. Nada
28. J 73. Tales 118. Muy
29. Puede 74. Primera 119. Muchos
30. G 75. Poder 120. Mucho
31. Esta 76. Ri 121. More
32. C 77. P 122. Mejor
33. Así 78. Nuevos 123. Mediante
34. También 79. Nuevo 124. Le
35. Otros 80. Nueva 125. K
36. Parte 81. Nj 126. Is
37. Si 82. New 127. Hemos
38. O 83. Hace 128. Ha
39. N 84. Etc 129. Fue
40. Este 85. Et 130. Donde
41. D 86. Esos 131. Desde
42. Sus 87. Ello 132. By
43. Su 88. Ellas 133. Alguna
44. R 89. E 134. 1992b
45. I 90. Dos 135. With

23

136. Where 181. F
137. Veces 182. Estas
138. Unas 183. Esas
139. To 184. Entonces
140. Tienen 185. Ed
141. Those 186. Diversos
142. This 187. Dicho
143. They 188. Df
144. These 189. Dentro
145. Then 190. Demás
146. Their 191. Deben
147. That 192. Dar
148. Tf 193. Cuyos
149. Tendrán 194. Cuyo
150. Tal 195. Cuarto
151. Sobre 196. Cierto
152. Siguientes 197. Casi
153. Siguiente 198. Better
154. Sigue 199. Bastantes
155. Siempre 200. Bastante
156. Segundo 201. Are
157. Second 202. Aquí
158. Sean 203. Aquellas
159. Sea 204. Ambas
160. Podría 205. Algunos
161. Podrá 206. Algún
162. Podemos 207. Ad
163. Otras 208. Acm
164. Other 209. Fin
165. Nr 210. An
166. Mismos 211. Ambos
167. Misma 212. 1992ª
168. Menos 213. Unos
169. Mejores 214. Pues
170. Miles 215. Partir
171. Md 216. Obstante
172. L 217. Ik
173. Lado 218. Existen
174. Junto 219. By
175. Igual 220. Frente
176. Hoy 221. Estos
177. Hay
178. Gran
179. Fueron
180. For

24

Ilustración36 Excel palabras vacías

25

f. Aplique lematización utilizando los lematizadores
para el español que se indican

Un s-stemmer para el espanol que elimina terminaciones aplicando las siguientes reglas en el
orden que se indican:

• si la palabra termina en -eses, sustituya por -es (p.e., corteses → cortes)
• si la palabra termina en -es, sustituya por -z (p.e., veces → vez)
• elimine las terminaciones -as, -es y -os
• elimine las terminaciones -a, -e y –o

▪ Un suffix-stripping denominado Snowball, muy utilizado para gran cantidad de idiomas. Para
mas informacion, conectese a http://snowball.tartarus.org/.

Ilustración37 Listado de palabras contenidas en ibersid2001.txt

cat ibersid2001.txt | tr [:upper:] [:lower:] | tr áéíóúü aeiouu | tr -cs '[:alnum:]' 'n' |sort
|uniq | more

26

Redirijo a ibersid2001.palabras.txt, lo pasaré por un stemmer simple. Asi obtengo las palabras
lematixadas con el lematizador simple.

Debemos crear un fichero .txt que contenga el listado de palabras resultante después de
eliminar las palabras vacías y pasarlo a través de filezilla a práctica05 para poder trabajar sobre
él.

Stemming es un método para reducir una palabra a su raíz o mejor a un stem o tema. Hay
algunos algoritmos de stemming que ayudan en sistemas de recuperación de información.
Stemming aumenta el recall que es una medida sobre el número de documentos que se
pueden encontrar con una consulta. Por ejemplo una consulta sobre "bibliotecas" también
encuentra documentos en los que solo aparezca "bibliotecario" porque el stem de las dos
palabras es el mismo ("bibliotec").

cat ibersid2001.palabras.txt | stemmer-simple-spanish | more

Ilustración38 Stemmer simple

Para ver la diferencia entre los dos métodos, contamos los términos en ambos casos (wc –w).
Con el stemmer simple observamos que nos devuelve un resultado de exactamente 650
palabras.

27

cat ibersid2001.palabras.txt | stemmer-simple-spanish | sort |uniq | wc -w

Ilustración39 Stemmer wc -w

Si quiero repetir el proceso pero con el snowball:

Se trata de un pequeño lenguaje para el manejo de strings que permite implementar
algoritmos de normalización del lenguaje (steeming algorithms) mediante sencillos scripts.
Posteriormente mediante un compilador se genera una salida en C o en Java.

Como en cualquier buscador de calidad pretendíamos conseguir que las consultas fueran case-
insensitive y accent-insensitive. Pero además, en esta ocasión también queríamos que las
búsquedas fueran independientes, hasta cierto punto, de las terminaciones morfológicas. Es
decir, que se pudiera buscar indistintamente por "documentos ténicos" y "documentación
técnica", o por "acceso", "accesible", "accesibilidad", etc.

Para eso necesitabamos implementar un algoritmo de normalización

(stemmer) que redujera los términos de la consulta a las unidades mínimas con significado
léxico (lexemas). Este tipo de algoritmos, basados en el algoritmo de Porter

28

cat ibersid2001.palabras.txt | stemmer-snowball-spanish | more

Ilustración40 snowball

Para ver la diferencia entre los dos métodos, contamos los términos en ambos casos (wc –w).
Con el snowball observamos que nos devuelve un resultado de exactamente 572 palabras

Ilustración41 snowball wc -w

29

Para contar las palabras que hay antes y después de eliminar las palabras vacías se introducen
las órdenes que se muestran en la ilustración inferior.

Antes: 938

Después: 716

Ilustración42 Contar palabras antes y después

Importe estos tres ficheros (ibersid2001.palabras.txt, ibersid2001.lema1.txt e
ibersid2001.lema2.txt) a una hoja de cálculo Excel y vea cómo han quedado los términos.

Lema1 Lema2 Inersid2001.pal
abras.txt

0 0 0
1 1 1
10 10 10
1074 1074 1074
109 109 109
145 145 145
15 15 15
16 16 16
1965 1965 1965
1968 1968 1968
1971 1971 1971
1977 1977 1977

30

1983 1983 1983
1987 1987 1987
1988 1988 1988
1990 1990 1990
1991 1991 1991
1992 1992 1992
1994 1994 1994
1998 1998 1998
2 2 2
200 200 200
2000 2000 2000
215 215 215
22 22 22
24 24 24
241 241 241
26 26 26
263 263 263
28 28 28
288 288 288
292 292 292
297 297 297
3 3 3
300 300 300
313 313 313
32 32 32
323 323 323
363 363 363
37008 37008 37008
392 392 392
4 4 4
41 41 41
461 461 461
467 467 467
5 5 5
500 500 500
513 513 513
523 523 523
53 53 53
6 6 6
7 7 7
70 70 70
8 8 8
94 94 94
abundant abund abundante
acces acces acceso
acepten acept acepten

31

acerc acerc acerca
actuand actu actuando
acuerd acuerd acuerdo
adding adding adding
adecuad adecu adecuadas
adecuad adecu adecuado
adecuad adecu adecuados
adicionalment adicional adicionalmente
adolec adolec adolece
afzaz afzaz afzazo
ajustar ajust ajustar
ajustaran ajust ajustaran
algorithms algorithms algorithms
algoritm algoritm algoritmo
algoritm algoritm algoritmos
allan allan allan
allow allow allow
allows allows allows
alons alons alonso
alta alta alta
alto alto alto
alt altos altos
american americ american
ampliament ampli ampliamente
angel angel angel
angul angul angulo
annual annual annual
anteriorment anterior anteriormente
años años años
aparec aparec aparece
aparecer aparec aparecer
aparicion aparicion aparicion
apartad apart apartado
aplic aplic aplica
aplicacion aplicacion aplicacion
aplicacion aplic aplicaciones
aplicand aplic aplicando
aplicar aplic aplicar
aplicars aplic aplicarse
aplic aplic aplico
application application application
approach approach approaches
aproximacion aproximacion aproximacion
arrojar arroj arrojara
articul articul articulos
asignacion asignacion asignacion

32

aspect aspect aspecto
aspect aspect aspectos
audit audit audit
aument aument aumenta
aumentar aument aumentar
automatic automatic automatic
automatic automat automatica
baez baez baeza
basandos bas basandose
base bas base
based bas based
basicament basic basicamente
basic basic basico
basic basic basicos
belkin belkin belkin
beneficios benefici beneficioso
berrocal berrocal berrocal
bethesd bethesd bethesda
bibliotec bibliotec biblioteca
binari binari binaria
brev brev breve
buckley buckley buckley
busc busc busca
buscador buscador buscadores
busqued busqued busqueda
busqued busqued busquedas
cabo cab cabo
calcul calcul calcula
calcular calcul calcular
calcul calcul calculo
calcul calcul calculos
cantidad cantid cantidad
capacidad capac capacidad
caracteristic caracterist caracteristica
caracteristic caracterist caracteristicas
caracterizacion caracterizacion caracterizacion
caracterizador caracteriz caracterizadores
caracterizar caracteriz caracterizar
carl carl carlos
caso cas caso
cataloguing cataloguing cataloguing
categorizacion categorizacion categorizacion
cient cient cientos
clas clas clase
classification classification classification
clav clav clave

33

cliffs cliffs cliffs
coincidir coincid coincidir
coleccion coleccion coleccion
combinandol combin combinandola
comparar compar comparar
complet complet completo
compondran compondr compondran
compon compon compone
component component componentes
comportamient comport comportamiento
comput comput computa
computacion computacion computacion
computacional computacional computacional
comun comun comun
concept concept concepto
concept concept conceptos
conceptualment conceptual conceptualmente
conclusion conclusion conclusiones
concretars concret concretarse
conferenc conferenc conference
conjuncion conjuncion conjunciones
conjunt conjunt conjunto
conoc conoc conoce
conocid conoc conocidas
conocid conoc conocido
conseguid consegu conseguida
conseguir consegu conseguir
consider consider considera
consideracion consideracion consideracion
considerad consider considerados
consideran consider consideran
considerars consider considerarse
consider consider considere
consigu consig consigue
consiguiend consigu consiguiendo
consist cons consiste
consisten consist consisten
consistency consistency consistency
constant constant constantes
construccion construccion construccion
construy constru construye
consult consult consulta
consult consult consultas
consytency consytency consytency
contar cont contar
contendran contendr contendran

34

contenid conten contenido
continuacion continuacion continuacion
contrapuest contrapuest contrapuestas
contrari contrari contrario
contribuyen contribu contribuyen
convencional convencional convencional
cosen cosen coseno
costos costos costoso
creat creat creates
criteri criteri criterio
croft croft croft
cuadr cuadr cuadro
cual cual cuales
cuand cuand cuando
cuent cuent cuentas
curv curv curva
curv curv curvas
data dat data
debem deb debemos
decidir decid decidir
decirs dec decirse
decrecient decrecient decreciente
definid defin definido
definitori definitori definitorias
degre degre degree
demostrad demostr demostrado
demuestr demuestr demuestra
departament departament departamento
describ describ describe
describiend describ describiendo
describir describ describir
descripcion descripcion descripcion
descriptor descriptor descriptor
descrit descrit descrito
dese dese desea
desead des deseados
dese dese desee
destacabl destac destacable
destacad destac destacado
destacar destac destacar
deteccion deteccion deteccion
determinad determin determinada
determinad determin determinadas
determinad determin determinado
determinar determin determinar
devolviend devolv devolviendo

35

devuelt devuelt devueltos
dia dia dia
diaz diaz diaz
diferent diferent diferentes
dificil dificil dificil
difundid difund difundido
direct direct directo
discriminacion discriminacion discriminacion
discriminar discrimin discriminar
discriminatori discriminatori discriminatorio
diseñad diseñ diseñadas
diseñar diseñ diseñar
disminuir disminu disminuir
dispon dispon dispone
disponer dispon disponer
distinguir distingu distinguir
distorsion distorsion distorsiones
document document document
documentacion documentacion documentacion
document document documento
document document documentos
documents documents documents
donn donn donna
dotars dot dotarse
ecuacion ecuacion ecuacion
editor editor editor
efectivament efect efectivamente
efect efect efecto
efectuad efectu efectuada
efectuar efectu efectuar
effect effect effect
efficient efficient efficient
eficienci eficient eficiencia
eficient eficient eficientes
ejecutad ejecut ejecutada
ejempl ejempl ejemplo
ejempl ejempl ejemplos
elaboracion elaboracion elaboracion
elaborar elabor elaborar
electronic electron electronico
element element element
element element elemento
element element elementos
elevad elev elevado
eliminacion eliminacion eliminacion
eliminan elimin eliminan

36

eliminarl elimin eliminarlo
embarg embarg embargo
encontrad encontr encontrados
encontrar encontr encontrar
encontrars encontr encontrarse
engelwood engelwood engelwood
englewood englewood englewood
entrad entrad entrada
environment environment environment
escalar escal escalar
escas escas escaso
español español español
esperad esper esperado
esquem esquem esquemas
establecer establec establecer
estandar estandar estandares
estim estim estima
estimacion estimacion estimacion
estimacion estim estimaciones
estimar estim estimar
estimarl estim estimarlos
estimating estimating estimating
estudi estudi estudio
etiquetad etiquet etiquetado
evaluacion evaluacion evaluacion
evaluation evaluation evaluation
evitar evit evitar
examin examin examina
examinaron examin examinaron
exampl exampl examples
exhaustividad exhaust exhaustividad
expansion expansion expansion
experimental experimental experimental
experimental experimental experimentales
experimentaron experiment experimentaron
experiment experiment experimento
experiment experiment experimentos
experiments experiments experiments
expres expres expresa
expresad expres expresadas
extens extens extensos
extraccion extraccion extraccion
extremadament extrem extremadamente
facultad facult facultad
feedback feedback feedback
figu fig figue

37

figuerol figuerol figuerola
figur figur figura
filtrad filtr filtrado
finaliz finaliz finaliza
followed follow followed
form form forma
formad form formada
formad form formado
formalment formal formalmente
forman form forman
format format formato
formul formul formula
formulacion formulacion formulacion
formulation formulation formulation
frak frak frakes
francament franc francamente
francisc francisc francisco
frecuenci frecuenci frecuencia
frequency frequency frequency
gast gast gasto
general general general
gomez gomez gomez
grad grad grado
grams grams grams
grup grup grupo
habrian habri habrian
hall hall hall
harter hart harter
herramient herramient herramientas
hert hert hert
hill hill hill
hoc hoc hoc
homogene homogen homogeneas
hooper hoop hooper
ide ide ideas
identific identif identifica
identify identify identify
idf idf idf
impact impact impact
impact impact impacto
impid impid impide
implic implic implica
importanci import importancia
important important important
important import importante
important import importantes

38

improvement improvement improvement
improving improving improving
incapaz incapac incapaces
incluir inclu incluir
incluy inclu incluye
inconsistenci inconsistent inconsistencia
increment increment incremento
indexacion indexacion indexacion
indexer index indexer
indexing indexing indexing
indican indic indican
indicar indic indicar
indic indic indice
indiz indic indices
ineficaz ineficac ineficaces
informacion informacion informacion
informatic informat informatica
informatic informat informaticas
information information information
informativ inform informativa
informativ inform informativas
ingl ingles ingles
inicial inicial inicial
inicial inicial iniciales
initial initial initial
intent intent intenta
interaccion interaccion interaccion
interaction interaction interaction
interfac interfac interface
interfaz interfaz interfaz
interindexer interindex interindexer
internal internal internal
internet internet internet
introduccion introduccion introduccion
introduction introduction introduction
invers invers inversa
inversament invers inversamente
invers invers inverse
invers invers inverso
investigacion investigacion investigacion
jose jos jose
journal journal journal
keywords keywords keywords
lanzaron lanz lanzaron
larg larg largos
lematizacion lematizacion lematizacion

39

lenguaj lenguaj lenguaje
lexic lexic lexicas
libr libr libre
like lik like
linguistic linguist linguisticas
list list list
llamad llam llamado
lopez lopez lopez
lugar lugar lugares
magnitud magnitud magnitudes
management management management
mangiaterr mangiaterr mangiaterra
manual manual manual
manual manual manuales
manualment manual manualmente
marcar marc marcar
marcaron marc marcaron
martinez martinez martinez
mcgill mcgill mcgill
mcgraw mcgraw mcgraw
means means means
measurements measurements measurements
mecanism mecan mecanismo
mecanism mecan mecanismos
medi medi media
medid med medida
mejor mejor mejora
mejoran mejor mejoran
mejorar mejor mejorar
metod metod metodos
mide mid mide
mode mod mode
model model modelo
model model modelos
modern modern modern
modification modification modification
modo mod modo
moment moment momento
mostrad mostr mostrado
multipalabr multipalabr multipalabra
natural natural natural
necesari necesari necesario
necesidad neces necesidad
necesidad neces necesidades
negativ negativ negative
negativ negat negativo

40

negativ negat negativos
nist nist nist
normalizacion normalizacion normalizacion
normalizar normaliz normalizar
normalment normal normalmente
notablement notabl notablemente
notori notori notoria
numeric numer numerico
numer numer numero
obedec obedec obedece
objetiv objet objetivo
observar observ observar
obtencion obtencion obtencion
obtener obten obtener
obteniend obten obteniendo
obteniendos obten obteniendose
obtienen obtien obtienen
obtuvieron obtuv obtuvieron
obviament obvi obviamente
obviar obvi obviar
ocurrenci ocurrent ocurrencia
ofrecen ofrec ofrecen
opcion opcion opcion
operacion oper operaciones
opta opta opta
orden orden orden
ordenad orden ordenados
ordenar orden ordenar
organization organization organization
origin origin origin
original original originales
pagin pagin paginas
palabr palabr palabra
palabr palabr palabras
palabr palabr palabras
partiend part partiendo
pasa pas pasa
pas pas pasos
peculiaridad peculiar peculiaridades
pequeñ pequeñ pequeña
pequeñ pequeñ pequeño
performanc performanc performance
permitan permit permitan
permit permit permite
permiten permit permiten
person person persona

41

pertenec pertenec pertenece
pertinent pertinent pertinente
pertinent pertinent pertinentes
peso pes peso
pes pes pesos
pierden pierd pierden
plantear plant plantear
polisemi polisemi polisemia
pose pose posee
posibilidad posibil posibilidad
posibiliten posibilit posibiliten
posibl posibl posible
positiv positiv positive
positiv posit positivos
pp pp pp
precision precision precision
precis precis preciso
pregunt pregunt preguntas
prentic prentic prentice
preposicion preposicion preposiciones
privilegiar privilegi privilegiar
problem problem problema
problem problem problemas
proceedings proceedings proceedings
procesad proces procesadas
procesaron proces procesaron
proces proces proceso
process process process
processing processing processing
produc produc produce
producen produc producen
producid produc producidas
product product producto
proporcion proporcion proporcion
proporcional proporcional proporcional
proporcionand proporcion proporcionando
proporcionen proporcion proporcionen
propuest propuest propuesto
propuest propuest propuestos
provenient provenient provenientes
publication publication publication
pudieran pud pudieran
punt punt punto
quality quality quality
quaterly quaterly quaterly
queri queri queries

42

query query query
raiz raic raices
ranking ranking ranking
realimentacion realimentacion realimentacion
realimentad realiment realimentada
realimentad realiment realimentadas
realiz realiz realiza
realizad realiz realizada
realizad realiz realizado
realizar realiz realizar
recalcul recalcul recalculo
recall recall recall
recib recib recibe
recoger recog recoger
recuperacion recuperacion recuperacion
recuperacion recuper recuperaciones
recuperad recuper recuperados
recuperar recuper recuperar
reduccion reduccion reduccion
referenci referent referencias
refin refin refine
relacion relacion relacion
relevanc relevanc relevance
relevanci relev relevancia
relevant relevant relevant
relevant relev relevantes
represent represent representa
representacion representacion representacion
representacion represent representaciones
representan represent representan
representant represent representante
resolucion resolucion resolucion
resolver resolv resolver
respectivament respect respectivamente
resultad result resultados
resultan result resultan
resultand result resultando
results results results
resumen resum resumen
retrieval retrieval retrieval
review review review
revisar revis revisara
revist revist revistas
rocchi rocchi rocchio
roman rom roman
routing routing routing

43

salamanc salamanc salamanca
salton salton salton
san san san
satisfac satisfac satisface
scienc scienc science
seguidament seguid seguidamente
seguid segu seguido
seguir segu seguir
segurament segur seguramente
seleccion seleccion selecciona
seleccionad seleccion seleccionado
seleccionad seleccion seleccionados
seleccionar seleccion seleccionar
semantic semant semantico
semejanz semej semejanza
sentid sent sentido
señalad señal señalados
señalar señal señalar
shown shown shown
significativ signific significativas
siguient siguient siguientes
similar similar similares
similitud similitud similitud
simpl simpl simple
sinonimi sinonimi sinonimia
sistem sistem sistema
sistem sistem sistemas
smart smart smart
society society society
sofisticad sofistic sofisticados
somer somer somera
spain spain spain
spanish spanish spanish
special special special
stemming stemming stemming
stops stops stops
structur structur structures
stubbs stubbs stubbs
subcaden subcaden subcadenas
subjetiv subjet subjetiva
suel suel suele
suelen suel suelen
system system system
systems systems systems
tamañ tamañ tamaños
techniqu techniqu technique

44

techniqu techniqu techniques
technology technology technology
tecnic tecnic tecnica
tecnic tecnic tecnicas
tematic temat tematico
term term term
termin termin termino
termin termin terminos
tesin tesin tesina
tests tests tests
text text text
text text texto
tiemp tiemp tiempo
tiend tiend tiende
tipo tip tipo
toma tom toma
tomar tom tomar
totalment total totalmente
trabaj trabaj trabajo
trec trec trec
unidad unidad unidades
universidad univers universidad
usad usad usado
usal usal usal
usars usars usarse
user user user
users users users
using using using
usually usually usually
usuari usuari usuario
usuari usuari usuarios
util util util
util util utiles
utilic utilic utilice
utiliz utiliz utiliza
utilizabl utiliz utilizables
utilizacion utilizacion utilizacion
utilizad utiliz utilizada
utilizad utiliz utilizado
utilizad utiliz utilizados
utilizand utiliz utilizando
utilizar utiliz utilizar
utilizaron utiliz utilizaron
utilization utilization utilization
vaciad vaci vaciado
vaci vaci vacias

45

valor valor valor
valor valor valores
vector vector vector
vector vector vectores
vectorial vectorial vectorial
vectorizad vectoriz vectorizada
vien vien viene
vist vist vista
visualizar visualiz visualizar
vitori vitori vitoria
witghting witghting witghting
words words words
yat yat yates
york york york
zazo zaz zazo

1. Tabla Diferencias lematización

46

7. CONCLUSIONES

Dados los problemas que plantea el lenguaje natural (información pobremente estructurada,
diferentes formatos de documentos, problemas con codificación de la información, problemas
de detección y conversión de formatos y codificación, normalización de términos, etc.) se
hace necesario el empleo de herramientas especializadas a la hora de tratarlo para conseguir
una recuperación óptima de información, que satisfaga las necesidades de la búsqueda.

.

47

8. BIBLIOGRAFÍA

– Indización automática – la enciclopedia libre. Actualizado el. [On-line] 30 de
septiembte. Consulta realizada el 3 de marzo de 2010. URL:
http://es.wikipedia.org/wiki/Indizaci%C3%B3n_autom%C3%A1tica

– Ley de Zipf – la enciclopedia libre. Actualizado el 9 de octubre. [On-line]. Consulta
realizada el 7 de marzo de 2010. URL: http://es.wikipedia.org/wiki/Stemming

– Stemming – la enciclopedia libre. Actualizado el 2 de octubre. [On-line]. Consulta
realizada el 7 de marzo de 2010
URL:http://es.wikipedia.org/wiki/George_Kingsley_Zipf

48

Practica5 final

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (10)

Similar a Practica5 final

Similar a Practica5 final (20)

Último

Último (20)

Practica5 final