SlideShare una empresa de Scribd logo
1 de 54
Descargar para leer sin conexión
RECUPERACIÓN AUTOMATIZADA DE LA INFORMACIÓN

                                       11 de marzo de 2010




    INDIZACIÓN AUTOMATIZADA

                Practica 5




            Raquel Carretero Bailón




          Licenciatura en Documentación

            Universidad de Salamanca
ÍNDICE

1.     INTRODUCCIÓN ..................................................................................................................... 1
2.     Entorno .................................................................................................................................. 2
a.     Conéctese a su cuenta en FENIX.USAL.ES. ............................................................................ 2
b.     Cree un subdirectorio de nombre practica05. ...................................................................... 2
c. Copie en ese directorio los ficheros docs.xml y docs.dtd que se encuentran en directorio
/home/rai ...................................................................................................................................... 3
d.     Vea el contenido de ambos ficheros ..................................................................................... 3
e. Compruebe que el fichero docs.xml es válido mediante la orden (ejecute xml val -help
para obtener ayuda sobre la opción val de xml) ........................................................................... 4
3.     Comando de extracción de campos en documentos XML .................................................... 5
a. Utilice la orden siguiente para extraer el contenido del campo TITULO del primer DOC del
fichero ........................................................................................................................................... 5
b.     Si quiere obtener el título de los primeros tres documentos (&lt; es la entity de <): .......... 6
c.     Si quiere obtener los titulos de los documentos 5, 6, 8, 10, 14, 15, 18 y 20 ........................ 7
4.     Comandos de sustitución de texto........................................................................................ 8
a.     Busque ayuda de la utilidad tr (man tr) ................................................................................ 8
5.     Comandos para ordenar y contar palabras ......................................................................... 13
a.     Obtenga ayuda del comando sort y del comando uniq, y luego ejecute:........................... 13
b. Si queremos ordenarlos por el número de apariciones en orden de más a menos
frecuente: .................................................................................................................................... 14
6.     Ejercicios.............................................................................................................................. 15
a.     Utilice el fichero ibersid2001.doc y conviértalo a fichero plano ...................................... 15
b.     Obtenga todas las palabras del documento anterior ......................................................... 15
c.     Obtenga la frecuencia de aparición de cada palabra del fichero ibersid2001.txt .............. 17
d.     Ley de Zipf ........................................................................................................................... 18
e.     Seleccione las palabras que puedan ser vacías ................................................................... 22
f.     Aplique lematización utilizando los lematizadores para el español que se indican ........... 26
7.     CONCLUSIONES ................................................................................................................... 47
8.     BIBLIOGRAFÍA ...................................................................................................................... 48




                                                                          I
ÍNDICE IMÁGENES

 Ilustración1     Conexión fénix.usal.es ....................................................................................... 2
 Ilustración2     Copiar en el directorio docs.dtd/docs.xml ........................................................ 3
 Ilustración3     Contenido fichero.............................................................................................. 3
 Ilustración4     Buscar ayuda ..................................................................................................... 4
 Ilustración5     Validación fichero docs.xml............................................................................... 4
 Ilustración6     Extracción del campo Título .............................................................................. 5
 Ilustración7     Título tres primeros documentos...................................................................... 6
 Ilustración8     Extracción de campos títulos 5,6,8,10 .............................................................. 7
 Ilustración9     Sustitución de caracteres .................................................................................. 8
 Ilustración10       Mayúsculas/minúsculas ................................................................................ 8
 Ilustración11       Mayúsculas/minúsculas (II) ........................................................................... 9
  Ilustración12      Mayúsculas/minúsculas (III) .......................................................................... 9
  Ilustración13      Sustitución caracteres acentuados ............................................................. 10
  Ilustración14      Sustitución signos de puntuación por + ...................................................... 10
  Ilustración15      Sustitución signos de puntuación por espacios en blanco .......................... 10
  Ilustración16      Sustitución signos de puntuación por “_” ................................................... 11
  Ilustración17      Sustitución signos de puntuación por “__” ................................................ 11
  Ilustración18      Sustitución signos puntuación “_” .............................................................. 11
  Ilustración19      Sustitución signos de puntuación por saltos de línea ................................. 12
  Ilustración20      Sustitución signos de puntuación por saltos de línea y ordenación ........... 12
  Ilustración21      Palabra por línea ......................................................................................... 12
  Ilustración22      Comandos sort y uniq.................................................................................. 13
  Ilustración23      Número de apariciones ............................................................................... 14
  Ilustración24      Palabras totales ibersid2001.txt .................................................................. 15
  Ilustración25      Palabras únicas documento ibersid2001.txt ............................................... 16
  Ilustración26      Para cada título de manera independiente................................................. 17
  Ilustración27      Filezilla ......................................................................................................... 19
  Ilustración28      Ley de Zipf I ................................................................................................. 19
 Ilustración29       Ley de Zipf II ................................................................................................ 19
 Ilustración30       Ley de Zipf III ............................................................................................... 20
 Ilustración31       Ley de Zipf V ................................................................................................ 20
 Ilustración32       Ley de Zipf VII .............................................................................................. 20

                                                               II
Ilustración33   Ley de Zipf VIII ............................................................................................. 21
Ilustración34   Ley de Zipf IX ............................................................................................... 21
Ilustración35   Listado de palabras vacúas .......................................................................... 22
Ilustración36   Excel palabras vacías ................................................................................... 25
Ilustración37   Listado de palabras contenidas en ibersid2001.txt..................................... 26
Ilustración38   Stemmer simple .......................................................................................... 27
Ilustración39   Stemmer wc -w............................................................................................ 28
Ilustración40   snowball ...................................................................................................... 29
Ilustración41   snowball wc -w ............................................................................................ 29
Ilustración42   Contar palabras antes y después ................................................................ 30




                                                        III
ÍNDICE TABLAS

    1. Tabla    Diferencias lematización ................................................................................. 46




                                                         IV
RESUMEN

Como conseguir una recuperación efectiva de información, relevante, que se acople a las
necesidades del usuario, utilizando diferentes herramientas para realizar una indización
automática.




PALABRAS CLAVE



Palabras vacías, indización automática, lematización, simple-stemming, stemming-snowball




                                            V
1. INTRODUCCIÓN



La indización automática es la selección de un conjunto de términos que representen
íntegramente un documento (texto, imagen, sonido) por medio de un programa
informático. Hasta finales de la década de 1950, la indización se venía realizando en las
Bibliotecas y Centros de Documentación de manera intelectual. Desde entonces se viene
trabajando en automatizar esta tarea.

Algunas de los mecanismos que vienen utilizando los programas informáticos para
conseguir una indización automática son las siguientes:


•   Convertir la cadena de entrada a minúsculas

•   Convertir acentos a formas no acentuadas

•   Convertir la cadena de entrada en palabras, una en cada línea

•   Eliminar palabras vacias

•   Aplicar lematizacion utilizando un par de lematizadores




                                          1
2. Entorno


           a. Conéctese a su cuenta en FENIX.USAL.ES.




Tal y como hemos hecho en las anteriores prácticas nos conectamos a nuestra cuenta de
fénix.usal.es sin olvidar cambiar el idioma antes de hacerlo.




   Ilustración1 Conexión fénix.usal.es




           b. Cree un subdirectorio de nombre practica05.

Utilizamos el comando mkdir seguido del nombre que queramos asignarle, en nuestro caso,
practica04, tal que quede de la siguiente manera: mkdir practica05.

Una vez realizado este paso, nos introducimos en el subdirectorio recién creado con el
comando cd practica05




                                            2
c. Copie en ese directorio los ficheros docs.xml y docs.dtd
              que se encuentran en directorio /home/rai


Para llevar a cabo este proceso, es necesario introducir los siguientes comandos: cp
home/rai/docs.xml, cp home/rai/docs.dtd




                      Ilustración2 Copiar en el directorio docs.dtd/docs.xml




           d. Vea el contenido de ambos ficheros


Para ver el contenido de los ficheros docs.dtd, así como docs.xml, debemos introducir el
comando, ya visto anteriormente en otras prácticas, “more”, seguido del nombre
correspondiente, o en su defecto el comando ” less” seguido también del nombre
correspondiente, tal como aparece en la imagen inferior.




                                 Ilustración3 Contenido fichero




                                              3
e. Compruebe que el fichero docs.xml es válido mediante
              la orden (ejecute xml val -help para obtener ayuda
              sobre la opción val de xml)




                                    Ilustración4 Buscar ayuda



Después de comprobar, utilizando la ayuda, cual es la orden que nos interesa ejecutar para
poder dar validez al fichero docs.xml, hemos llegado a la conclusión de que la sentencia a
utilizar sería: xml val -E docs.xml




                              Ilustración5 Validación fichero docs.xml


Tal como apreciamos en la captura de pantalla nos muestra que el fichero docs.xml es válido.




                                               4
3. Comando de extracción de campos en documentos XML



            a. Utilice la orden siguiente para extraer el contenido del
               campo TITULO del primer DOC del fichero


xml sel -E "iso8859-1" -T -t -c "/DTT/DOC[1]/TITULO" docs.xml

-T :eliminar etiquetas




                              Ilustración6 Extracción del campo Título




                                               5
b. Si quiere obtener el título de los primeros tres
              documentos (&lt; es la entity de <):

xml sel -E "iso8859-1" -T -t -c "/DTT/DOC[position() &lt;=3]/TITULO" docs.xml




                           Ilustración7 Título tres primeros documentos




                                              6
c. Si quiere obtener los titulos de los documentos 5, 6, 8,
              10, 14, 15, 18 y 20

Para logralo debemos ejecutar la siguiente orden, de tal modo que queden incluidos todos los
documentos, y esto se consigue separándolos por el operador OR.



xml sel -E "iso8859-1" -T -t -c "/DTT/DOC[position()=5 or position()=6 or position()=8 or
position()=10 or position()=14 or position()=15 or position()=18 or position()=20]/TITULO"
docs.xml




                         Ilustración8 Extracción de campos títulos 5,6,8,10




                                               7
4. Comandos de sustitución de texto



            a. Busque ayuda de la utilidad tr (man tr) .

Realice los siguientes ejemplos para ver su uso. La utilidad tr se utiliza normalmente en modo
tubería, es decir, tomando la salida de un comando como entrada para tr. En los siguientes
ejemplos recuerde que el comando echo simplemente muestra en pantalla la cadena de texto
entrecomillada: esa cadena se utiliza como entrada para el comando tr.



echo 'casa' | tr a e Con esta sentencia se sustituye el carácter “a” por el carácter “e”




                                Ilustración9 Sustitución de caracteres



echo 'El Señor de los Anillos' | tr A-Z a-z Con esta sentencia, cualquier carácter en
mayúsculas aparecerá en minúsculas.




                             Ilustración10          Mayúsculas/minúsculas




                                                8
echo 'El SEÑOR de los Anillos' | tr A-Z a-z Con esta sentencia, al igual que en el caso anterior,
mostrará todos los caracteres en minúsculas.




                           Ilustración11       Mayúsculas/minúsculas (II)



echo 'El SEÑOR de los Anillos' | tr [:upper:] [:lower:] Esta sentencia es otra forma de llevar a
cabo la orden anterior, es decir, convertir los caracteres de mayúsculas (upper) a minúsculas
(lower).




                          Ilustración12        Mayúsculas/minúsculas (III)




                                               9
echo '¡Qué! No. Adiós, María.' | tr aéíóúü aeiou Con esta sentencia cualquier carácter que
aparezca acentuado aparecerá sin acentuar.




                       Ilustración13       Sustitución caracteres acentuados



echo '¡Qué! No. Adiós, María.' | tr [:punct:] + Con esta sentencia se sustituyen los signos de
puntuación por el símbolo “+”




                     Ilustración14       Sustitución signos de puntuación por +



echo '¡Qué! No. Adiós, María.' | tr -d [:punct:] Con esta sentencia se sustituyen los signos de
puntuación por espacios en blanco




             Ilustración15       Sustitución signos de puntuación por espacios en blanco




                                              10
echo '¡Qué! No. Adiós, María.' | tr [:punct:] '_' Con esta sentencia se sustituyen los signos de
puntuación por el símbolo “_”




                      Ilustración16       Sustitución signos de puntuación por “_”



echo '¡Qué! No. Adiós, María.' | tr ' [:punct:]' '_' Con esta sentencia se sustituyen los signos de
puntuación por el símbolo “_”




                     Ilustración17       Sustitución signos de puntuación por “__”



echo '¡Qué! No. Adiós, María.' | tr -s ' [:punct:]' '_' Con esta sentencia se sustituyen los signos
de puntuación por el símbolo “__” *




                         Ilustración18       Sustitución signos puntuación “_”




                                                11
echo '¡Qué! No. Adiós, María.' | tr -s ' [:punct:]' 'n' Con esta sentencia sustituye cada signo
de puntuación por un salto de línea, y ordena.




    Ilustración19        Sustitución signos de puntuación por saltos de línea



echo 'El holandés errante, el elegante, dijo hola sobre la ola, en el barco de Lola' | tr -s '
[:punct:]' 'n' Estamos en el mismo caso que el anterior ejemplo.




         Ilustración20        Sustitución signos de puntuación por saltos de línea y ordenación



echo 'El holandés errante, el elegante, dijo hola sobre la ola, en el barco de Lola' | tr -cs '
[:alnum:]' 'n' . Con esta sentencia sustituye los espacios por saltos de línea y signos de
puntuación, de tal modo que en cada línea tenemos una palabra.




                                 Ilustración21         Palabra por línea




                                                 12
5. Comandos para ordenar y contar palabras

    A partir de un texto, el objetivo es obtener una palabra en cada línea, luego ordenarlas y
    contar las ordenadas, de esa manera tendremos las palabras del texto junto con su
    frecuencia de aparición.


            a. Obtenga ayuda del comando sort y del comando uniq, y
               luego ejecute:
                  echo 'mi fa sol do si si la la sol sol la si do sol' | tr ' ' 'n' | sort

                  echo 'mi fa sol do si si la la sol sol la si do sol' | tr ' ' 'n' | sort | uniq

                  echo 'mi fa sol do si si la la sol sol la si do sol' | tr ' ' 'n' | sort | uniq –c




                                  Ilustración22            Comandos sort y uniq



Uniq: muestra en la pantalla una lista de palabras de tal manera que si una palabra es igual a la
siguiente no la pone.

Sort: para ordenar

-c: para contar




                                                      13
b. Si queremos ordenarlos por el número de apariciones
                en orden de más a menos frecuente:

echo 'mi fa sol do si si la la sol sol la si do sol' | tr ' ' 'n' | sort | uniq -c | sort -n –r retorno de
carro?

-n: salto de línea

-r: retorno de carro




                                Ilustración23         Número de apariciones




                                                    14
6. Ejercicios



            a. Utilice el fichero ibersid2001.doc y conviértalo a
               fichero plano

 Con la utilidad wvText. almacene el resultado en un fichero de nombre
ibersid2001.txt.

Como ya hemos visto en anteriores prácticas convierte las palabras de los documentos a texto
plano, lo único que debemos hacer es introducir la siguiente orden, poniendo en primer lugar
el nombre del documento que queremos convertir con su correspondiente extensión y tras
“>”, el nombre del documento con la extensión nueva:

        WvText ibersid2001.doc > ibersid2001.txt




            b. Obtenga todas las palabras del documento anterior

Teniendo en cuenta que el texto debe estar en minúsculas y los acentos deben ser sustituidos
por vocales no acentuadas. Cuente el número de palabras totales y el número de palabras
únicas.

Palabras totales:
cat ibersid2001.txt | tr [:upper:] [:lower:] | tr áéíóúü aeiouu | tr –cs '[:alnum:]' 'n' | wc –w




                         Ilustración24        Palabras totales ibersid2001.txt




                                                15
Palabras únicas:
cat ibersid2001.txt | tr [:upper:] [:lower:] | tr áéíóúü aeiouu | tr –cs '[:alnum:]' 'n' | sort |
uniq | wc –w




                    Ilustración25       Palabras únicas documento ibersid2001.txt




                                               16
c. Obtenga la frecuencia de aparición de cada palabra del
               fichero ibersid2001.txt

Tteniendo en cuenta que el texto debe estar en minúsculas y los acentos deben ser sustituidos
por vocales no acentuadas. Debe ordenar el resultado por frecuencia de aparición.

Nota: dado que seguramente no verá todas las palabras, redirija la salida para tener un fichero
de nombre ibersid2001.frec.txt.




                    Ilustración26      Para cada título de manera independiente




                                              17
d. Ley de Zipf

La llamada Ley de Zipf, formulada en la década de los cuarenta por el lingüista de Harvard
George Kingsley Zipf (1902-1950), afirma que un pequeño número de palabras son utilizadas
con mucha frecuencia, mientras que frecuentemente ocurre que un gran número de palabras
son poco empleadas. Esta afirmación, expresada matemáticamente quedaría de la siguiente
forma:



donde Pn representa la frecuencia de una palabra ordenada n-ésima y a es casi 1. Esto significa
que el segundo elemento se repetirá aproximadamente con una frecuencia de 1/2 de la del
primero, y el tercer elemento con una frecuencia de 1/3 y así sucesivamente. Una ley no
empírica, pero más precisa, derivada de los trabajos de Claude Shannon fue descubierta por
Benoît Mandelbrot.

En definitiva viene a decir que en todas las lenguas conocidas la longitud de las palabras es
inversamente proporcional a su frecuencia de aparición (cuantas más veces aparece una
palabra en un idioma, más corta es). Muchos lenguajes artificiales como los élficos de Tolkien o
el Klingon de Star Trek no cumplen esta regla. Esto es debido a que la explicación a esta ley se
basa en la economía lingüística: las palabras que más utilizamos son más cortas y así requieren
menos energía, por ello es el uso de una lengua el que acaba por imponer esta ley.




 Utilice Excel u OpenOffice Calc para representar la información que ha obtenido, y verifique
que la frecuencia de aparición de los términos de este documento siguen una distribución
zipfiana. Intente conseguir la regresión logarítmica de los puntos representados (la curva que
se ajusta a dichos puntos, según la ley de Zipf)

▪ Nota: tiene la hoja de cálculo en Studium con el nombre ibersid2001.xls




                                              18
Utilizamos el Filezilla para
                                      disponer del documento,
                                      vamos a Excel y abrimos.




Ilustración27   Filezilla




Ilustración28   Ley de Zipf I
                                      Hay que representar la
                                      frecuencia frente al orden




Ilustración29   Ley de Zipf II




                                 19
Asistente para gráficos




Ilustración30   Ley de Zipf III
                                       Insertamos el gráfico al que
                                       hemos llamado “Ley de Zipf”




Ilustración31   Ley de Zipf V
                                       Primeramente me posiciono
                                       en el eje X




Ilustración32   Ley de Zipf VII




                                  20
A continuación se realiza la
                                        misma operación solo que
                                        esta vez con el eje Y.

                                        Tras esto, en el gráfico se
                                        pulsa la opción “agregar
                                        línea     de     tendencia”
                                        (potencial)




Ilustración33   Ley de Zipf VIII




                                        Para verlo solo hay que
                                        posicionarse sobre la línea y
                                        seleccionar “mostrar gráfico
                                        de la ecuación”




Ilustración34   Ley de Zipf IX




                                   21
e. Seleccione las palabras que puedan ser vacías

Luego compare la lista que ha obtenido con una lista estandar

Elimine las palabras que considere vacias del fichero ibersid.frec.txt.




    Ilustración35       Listado de palabras vacúas

http://members.unine.ch/jacques.savoy/clef/spanishSmart.txt).




                                                22
1. El         46. I               91. Cual
2. La         47. Han             92. B
3. De         48. Entre           93. Aunque
4. En         49. Aquellos        94. Además
5. Que        50. Son             95. Ya
6. Los        51. Pueden          96. Verse
7. Y          52. Otro            97. Unos
8. Es         53. Mayor           98. Tras
9. Se         54. Lo              99. Todos
10. a         55. Esto            100.       Todas
11. Una       56. Tanto           101.       Toda
12. Un        57. Sido            102.       Solo
13. Para      58. Poco            103.       Sino
14. Del       59. Pero            104.       Sin
15. Con       60. M               105.       Siendo
16. Por       61. Ese             106.       Seria
17. Como      62. Esa             107.       Ser
18. Mas       63. Decir           108.       Según
19. No        64. Debe            109.       S
20. Las       65. Mismo           110.       Q
21. Of        66. Manera          111.       Primeros
22. Cada      67. Dado            112.       Primero
23. And       68. Cuenta          113.       Otra
24. Al        69. W               114.       On
25. De        70. Través          115.       Nuestra
26. Uno       71. Tiene           116.       Ningún
27. In        72. Tener           117.       Nada
28. J         73. Tales           118.       Muy
29. Puede     74. Primera         119.       Muchos
30. G         75. Poder           120.       Mucho
31. Esta      76. Ri              121.       More
32. C         77. P               122.       Mejor
33. Así       78. Nuevos          123.       Mediante
34. También   79. Nuevo           124.       Le
35. Otros     80. Nueva           125.       K
36. Parte     81. Nj              126.       Is
37. Si        82. New             127.       Hemos
38. O         83. Hace            128.       Ha
39. N         84. Etc             129.       Fue
40. Este      85. Et              130.       Donde
41. D         86. Esos            131.       Desde
42. Sus       87. Ello            132.       By
43. Su        88. Ellas           133.       Alguna
44. R         89. E               134.       1992b
45. I         90. Dos             135.       With




                             23
136.   Where        181.    F
137.   Veces        182.    Estas
138.   Unas         183.    Esas
139.   To           184.    Entonces
140.   Tienen       185.    Ed
141.   Those        186.    Diversos
142.   This         187.    Dicho
143.   They         188.    Df
144.   These        189.    Dentro
145.   Then         190.    Demás
146.   Their        191.    Deben
147.   That         192.    Dar
148.   Tf           193.    Cuyos
149.   Tendrán      194.    Cuyo
150.   Tal          195.    Cuarto
151.   Sobre        196.    Cierto
152.   Siguientes   197.    Casi
153.   Siguiente    198.    Better
154.   Sigue        199.    Bastantes
155.   Siempre      200.    Bastante
156.   Segundo      201.    Are
157.   Second       202.    Aquí
158.   Sean         203.    Aquellas
159.   Sea          204.    Ambas
160.   Podría       205.    Algunos
161.   Podrá        206.    Algún
162.   Podemos      207.    Ad
163.   Otras        208.    Acm
164.   Other        209.    Fin
165.   Nr           210.    An
166.   Mismos       211.    Ambos
167.   Misma        212.    1992ª
168.   Menos        213.    Unos
169.   Mejores      214.    Pues
170.   Miles        215.    Partir
171.   Md           216.    Obstante
172.   L            217.    Ik
173.   Lado         218.    Existen
174.   Junto        219.    By
175.   Igual        220.    Frente
176.   Hoy          221.    Estos
177.   Hay
178.   Gran
179.   Fueron
180.   For




                           24
Ilustración36   Excel palabras vacías




                                        25
f. Aplique lematización utilizando los lematizadores
               para el español que se indican

 Un s-stemmer para el espanol que elimina terminaciones aplicando las siguientes reglas en el
orden que se indican:

• si la palabra termina en -eses, sustituya por -es (p.e., corteses → cortes)
• si la palabra termina en -es, sustituya por -z (p.e., veces → vez)
• elimine las terminaciones -as, -es y -os
• elimine las terminaciones -a, -e y –o

▪ Un suffix-stripping denominado Snowball, muy utilizado para gran cantidad de idiomas. Para
mas informacion, conectese a http://snowball.tartarus.org/.




                 Ilustración37       Listado de palabras contenidas en ibersid2001.txt


cat ibersid2001.txt | tr [:upper:] [:lower:] | tr áéíóúü aeiouu | tr -cs '[:alnum:]' 'n' |sort
|uniq | more




                                                26
Redirijo a ibersid2001.palabras.txt, lo pasaré por un stemmer simple. Asi obtengo las palabras
lematixadas con el lematizador simple.

Debemos crear un fichero .txt que contenga el listado de palabras resultante después de
eliminar las palabras vacías y pasarlo a través de filezilla a práctica05 para poder trabajar sobre
él.



 Stemming es un método para reducir una palabra a su raíz o mejor a un stem o tema. Hay
algunos algoritmos de stemming que ayudan en sistemas de recuperación de información.
Stemming aumenta el recall que es una medida sobre el número de documentos que se
pueden encontrar con una consulta. Por ejemplo una consulta sobre "bibliotecas" también
encuentra documentos en los que solo aparezca "bibliotecario" porque el stem de las dos
palabras es el mismo ("bibliotec").

cat ibersid2001.palabras.txt | stemmer-simple-spanish | more




                                 Ilustración38        Stemmer simple




Para ver la diferencia entre los dos métodos, contamos los términos en ambos casos (wc –w).
Con el stemmer simple observamos que nos devuelve un resultado de exactamente 650
palabras.




                                                 27
cat ibersid2001.palabras.txt | stemmer-simple-spanish | sort |uniq | wc -w




                                Ilustración39        Stemmer wc -w




Si quiero repetir el proceso pero con el snowball:

Se trata de un pequeño lenguaje para el manejo de strings que permite implementar
algoritmos de normalización del lenguaje (steeming algorithms) mediante sencillos scripts.
Posteriormente mediante un compilador se genera una salida en C o en Java.

Como en cualquier buscador de calidad pretendíamos conseguir que las consultas fueran case-
insensitive y accent-insensitive. Pero además, en esta ocasión también queríamos que las
búsquedas fueran independientes, hasta cierto punto, de las terminaciones morfológicas. Es
decir, que se pudiera buscar indistintamente por "documentos ténicos" y "documentación
técnica", o por "acceso", "accesible", "accesibilidad", etc.

Para eso necesitabamos implementar un algoritmo de normalización

(stemmer) que redujera los términos de la consulta a las unidades mínimas con significado
léxico (lexemas). Este tipo de algoritmos, basados en el algoritmo de Porter




                                                28
cat ibersid2001.palabras.txt | stemmer-snowball-spanish | more




                                 Ilustración40       snowball



Para ver la diferencia entre los dos métodos, contamos los términos en ambos casos (wc –w).
Con el snowball observamos que nos devuelve un resultado de exactamente 572 palabras




                              Ilustración41        snowball wc -w




                                              29
Para contar las palabras que hay antes y después de eliminar las palabras vacías se introducen
las órdenes que se muestran en la ilustración inferior.

Antes: 938

Después: 716




                        Ilustración42      Contar palabras antes y después



Importe estos tres ficheros (ibersid2001.palabras.txt, ibersid2001.lema1.txt                e
ibersid2001.lema2.txt) a una hoja de cálculo Excel y vea cómo han quedado los términos.

                           Lema1         Lema2       Inersid2001.pal
                                                        abras.txt

                                0              0             0
                                1              1             1
                                10             10           10
                               1074           1074         1074
                               109            109           109
                               145            145           145
                                15             15           15
                                16             16           16
                               1965           1965         1965
                               1968           1968         1968
                               1971           1971         1971
                               1977           1977         1977


                                             30
1983      1983      1983
 1987      1987      1987
 1988      1988      1988
 1990      1990      1990
 1991      1991      1991
 1992      1992      1992
 1994      1994      1994
 1998      1998      1998
   2         2        2
  200       200      200
 2000      2000      2000
  215       215      215
  22        22        22
  24        24        24
  241       241      241
  26        26        26
  263       263      263
  28        28        28
  288       288      288
  292       292      292
  297       297      297
   3         3        3
  300       300      300
  313       313      313
  32        32        32
  323       323      323
  363       363      363
 37008     37008    37008
  392       392      392
   4         4        4
  41        41        41
  461       461      461
  467       467      467
   5         5        5
  500       500      500
  513       513      513
  523       523      523
  53        53        53
   6         6        6
   7         7        7
  70        70        70
   8         8        8
  94        94        94
abundant   abund   abundante
 acces     acces    acceso
acepten    acept    acepten


           31
acerc          acerc           acerca
  actuand           actu         actuando
   acuerd          acuerd         acuerdo
   adding          adding          adding
  adecuad          adecu         adecuadas
  adecuad          adecu         adecuado
  adecuad          adecu         adecuados
adicionalment     adicional    adicionalmente
   adolec          adolec         adolece
    afzaz           afzaz          afzazo
   ajustar          ajust          ajustar
  ajustaran         ajust        ajustaran
 algorithms      algorithms      algorithms
  algoritm        algoritm       algoritmo
  algoritm        algoritm       algoritmos
    allan           allan           allan
    allow          allow           allow
   allows          allows          allows
    alons          alons           alonso
     alta           alta            alta
    alto            alto            alto
     alt            altos           altos
  american         americ        american
 ampliament        ampli        ampliamente
    angel          angel           angel
    angul          angul           angulo
   annual          annual          annual
anteriorment      anterior     anteriormente
    años            años            años
   aparec          aparec         aparece
  aparecer         aparec         aparecer
  aparicion      aparicion       aparicion
  apartad          apart         apartado
    aplic           aplic          aplica
 aplicacion      aplicacion      aplicacion
 aplicacion         aplic       aplicaciones
  aplicand          aplic        aplicando
   aplicar          aplic          aplicar
   aplicars         aplic         aplicarse
    aplic           aplic          aplico
 application     application     application
  approach       approach       approaches
aproximacion    aproximacion   aproximacion
   arrojar          arroj         arrojara
   articul         articul        articulos
 asignacion      asignacion      asignacion


                   32
aspect            aspect            aspecto
    aspect            aspect           aspectos
     audit             audit             audit
   aument            aument            aumenta
  aumentar           aument            aumentar
  automatic         automatic          automatic
  automatic          automat          automatica
     baez              baez              baeza
  basandos              bas           basandose
     base               bas               base
    based               bas              based
 basicament            basic         basicamente
     basic             basic             basico
     basic             basic            basicos
    belkin            belkin             belkin
  beneficios         benefici         beneficioso
   berrocal          berrocal           berrocal
   bethesd           bethesd           bethesda
   bibliotec         bibliotec         biblioteca
    binari            binari            binaria
     brev              brev              breve
   buckley           buckley            buckley
     busc              busc              busca
  buscador          buscador          buscadores
   busqued           busqued           busqueda
   busqued           busqued          busquedas
     cabo               cab              cabo
    calcul            calcul            calcula
   calcular           calcul            calcular
    calcul            calcul            calculo
    calcul            calcul            calculos
   cantidad           cantid           cantidad
  capacidad           capac            capacidad
 caracteristic      caracterist      caracteristica
 caracteristic      caracterist      caracteristicas
caracterizacion   caracterizacion   caracterizacion
caracterizador      caracteriz      caracterizadores
 caracterizar       caracteriz        caracterizar
     carl              carl              carlos
     caso               cas               caso
 cataloguing       cataloguing        cataloguing
categorizacion    categorizacion    categorizacion
     cient             cient            cientos
     clas              clas              clase
 classification    classification    classification
     clav              clav              clave


                      33
cliffs          cliffs            cliffs
   coincidir        coincid          coincidir
   coleccion       coleccion        coleccion
 combinandol        combin        combinandola
   comparar         compar          comparar
   complet         complet          completo
 compondran       compondr         compondran
   compon          compon           compone
  component       component       componentes
comportamient      comport       comportamiento
   comput           comput          computa
 computacion     computacion      computacion
computacional    computacional    computacional
    comun           comun            comun
   concept         concept          concepto
   concept         concept          conceptos
conceptualment    conceptual     conceptualmente
  conclusion      conclusion       conclusiones
  concretars        concret        concretarse
  conferenc        conferenc       conference
  conjuncion      conjuncion      conjunciones
   conjunt          conjunt         conjunto
    conoc           conoc            conoce
   conocid          conoc           conocidas
   conocid          conoc           conocido
  conseguid        consegu         conseguida
  conseguir        consegu          conseguir
   consider        consider         considera
 consideracion   consideracion    consideracion
  considerad       consider       considerados
  consideran       consider        consideran
  considerars      consider        considerarse
   consider        consider         considere
   consigu          consig          consigue
 consiguiend        consigu       consiguiendo
    consist          cons            consiste
   consisten        consist         consisten
  consistency     consistency      consistency
   constant        constant        constantes
 construccion    construccion      construccion
   construy         constru         construye
    consult         consult          consulta
    consult         consult         consultas
  consytency      consytency       consytency
    contar           cont             contar
  contendran       contendr        contendran


                    34
contenid        conten        contenido
continuacion   continuacion   continuacion
contrapuest    contrapuest    contrapuestas
  contrari       contrari       contrario
contribuyen      contribu     contribuyen
convencional   convencional   convencional
   cosen          cosen          coseno
   costos         costos         costoso
   creat          creat          creates
   criteri        criteri        criterio
    croft         croft           croft
   cuadr          cuadr          cuadro
    cual           cual          cuales
   cuand          cuand          cuando
   cuent          cuent         cuentas
    curv           curv           curva
    curv           curv          curvas
    data           dat            data
  debem            deb          debemos
  decidir         decid          decidir
   decirs          dec           decirse
 decrecient     decrecient     decreciente
  definid         defin         definido
 definitori     definitori     definitorias
   degre          degre          degree
 demostrad       demostr      demostrado
 demuestr       demuestr       demuestra
departament    departament    departamento
  describ        describ        describe
describiend      describ      describiendo
  describir      describ        describir
descripcion    descripcion     descripcion
 descriptor     descriptor     descriptor
  descrit        descrit        descrito
    dese          dese           desea
  desead           des          deseados
    dese          dese           desee
 destacabl        destac       destacable
 destacad         destac       destacado
  destacar        destac        destacar
 deteccion      deteccion       deteccion
determinad      determin      determinada
determinad      determin      determinadas
determinad      determin      determinado
determinar      determin       determinar
 devolviend      devolv       devolviendo


                  35
devuelt          devuelt         devueltos
     dia              dia               dia
     diaz             diaz             diaz
   diferent         diferent        diferentes
    dificil          dificil          dificil
   difundid         difund          difundido
    direct           direct          directo
discriminacion   discriminacion   discriminacion
 discriminar       discrimin       discriminar
discriminatori   discriminatori   discriminatorio
   diseñad           diseñ          diseñadas
   diseñar           diseñ           diseñar
  disminuir         disminu         disminuir
   dispon           dispon           dispone
   disponer         dispon           disponer
  distinguir        distingu        distinguir
  distorsion       distorsion      distorsiones
  document         document         document
documentacion    documentacion    documentacion
  document         document        documento
  document         document        documentos
 documents        documents        documents
    donn             donn             donna
    dotars            dot            dotarse
  ecuacion         ecuacion          ecuacion
    editor           editor           editor
 efectivament        efect        efectivamente
    efect            efect            efecto
  efectuad           efectu         efectuada
   efectuar          efectu          efectuar
    effect           effect           effect
   efficient        efficient        efficient
   eficienci        eficient        eficiencia
   eficient         eficient        eficientes
   ejecutad          ejecut         ejecutada
   ejempl           ejempl           ejemplo
   ejempl           ejempl           ejemplos
 elaboracion      elaboracion      elaboracion
   elaborar          elabor          elaborar
  electronic        electron       electronico
   element          element          element
   element          element         elemento
   element          element         elementos
   elevad             elev           elevado
 eliminacion      eliminacion      eliminacion
   eliminan          elimin          eliminan


                    36
eliminarl        elimin        eliminarlo
   embarg          embarg          embargo
  encontrad        encontr       encontrados
  encontrar        encontr         encontrar
  encontrars       encontr        encontrarse
  engelwood      engelwood        engelwood
  englewood      englewood        englewood
    entrad         entrad          entrada
 environment     environment     environment
   escalar          escal           escalar
    escas           escas           escaso
   español         español         español
   esperad          esper          esperado
   esquem          esquem         esquemas
  establecer       establec       establecer
   estandar        estandar       estandares
    estim           estim           estima
  estimacion      estimacion      estimacion
  estimacion        estim        estimaciones
   estimar          estim           estimar
   estimarl         estim         estimarlos
  estimating      estimating      estimating
    estudi          estudi          estudio
  etiquetad        etiquet        etiquetado
  evaluacion      evaluacion      evaluacion
  evaluation      evaluation      evaluation
    evitar           evit           evitar
   examin          examin          examina
 examinaron        examin         examinaron
   exampl          exampl          examples
exhaustividad      exhaust       exhaustividad
  expansion       expansion       expansion
 experimental    experimental    experimental
 experimental    experimental   experimentales
experimentaron   experiment     experimentaron
 experiment      experiment      experimento
 experiment      experiment      experimentos
 experiments     experiments     experiments
    expres          expres         expresa
   expresad         expres        expresadas
    extens          extens         extensos
  extraccion      extraccion      extraccion
extremadament      extrem       extremadamente
   facultad         facult         facultad
   feedback       feedback         feedback
     figu            fig             figue


                    37
figuerol      figuerol       figuerola
   figur         figur         figura
  filtrad         filtr       filtrado
  finaliz       finaliz       finaliza
 followed       follow        followed
   form          form          forma
  formad         form         formada
  formad         form         formado
formalment      formal      formalmente
  forman         form         forman
  format        format        formato
  formul        formul        formula
formulacion   formulacion   formulacion
formulation   formulation   formulation
   frak          frak          frakes
francament       franc      francamente
  francisc      francisc      francisco
 frecuenci     frecuenci     frecuencia
frequency     frequency      frequency
   gast          gast          gasto
  general       general       general
  gomez         gomez          gomez
   grad          grad          grado
  grams         grams          grams
   grup          grup          grupo
  habrian        habri        habrian
    hall          hall          hall
  harter         hart          harter
herramient    herramient    herramientas
   hert          hert           hert
    hill          hill           hill
    hoc           hoc           hoc
homogene       homogen      homogeneas
  hooper         hoop         hooper
    ide           ide          ideas
 identific      identif      identifica
  identify      identify      identify
    idf           idf            idf
  impact        impact         impact
  impact        impact        impacto
   impid         impid         impide
  implic        implic        implica
importanci      import      importancia
important     important      important
important       import      importante
important       import      importantes


                38
improvement     improvement     improvement
 improving       improving       improving
  incapaz         incapac         incapaces
   incluir          inclu           incluir
   incluy           inclu          incluye
inconsistenci   inconsistent    inconsistencia
 increment       increment       incremento
 indexacion      indexacion      indexacion
  indexer          index           indexer
  indexing        indexing        indexing
  indican           indic          indican
   indicar          indic          indicar
    indic           indic           indice
    indiz           indic          indices
  ineficaz        ineficac        ineficaces
informacion     informacion     informacion
 informatic       informat       informatica
 informatic       informat      informaticas
information     information      information
 informativ        inform        informativa
 informativ        inform       informativas
    ingl           ingles           ingles
   inicial         inicial          inicial
   inicial         inicial         iniciales
   initial         initial          initial
   intent          intent          intenta
interaccion     interaccion      interaccion
 interaction     interaction     interaction
  interfac        interfac        interface
  interfaz        interfaz         interfaz
interindexer     interindex     interindexer
  internal        internal         internal
  internet        internet        internet
introduccion    introduccion    introduccion
introduction    introduction    introduction
   invers          invers          inversa
inversament        invers       inversamente
   invers          invers          inverse
   invers          invers          inverso
investigacion   investigacion   investigacion
    jose             jos             jose
  journal         journal          journal
 keywords        keywords         keywords
  lanzaron          lanz          lanzaron
    larg            larg            largos
lematizacion    lematizacion    lematizacion


                   39
lenguaj        lenguaj       lenguaje
    lexic          lexic         lexicas
     libr           libr          libre
     like           lik            like
  linguistic      linguist     linguisticas
     list           list           list
   llamad          llam         llamado
   lopez           lopez          lopez
    lugar          lugar         lugares
  magnitud       magnitud      magnitudes
management     management     management
 mangiaterr     mangiaterr     mangiaterra
   manual         manual         manual
   manual         manual        manuales
manualment        manual      manualmente
   marcar          marc          marcar
  marcaron         marc         marcaron
  martinez       martinez       martinez
   mcgill         mcgill         mcgill
  mcgraw         mcgraw         mcgraw
   means          means          means
measurements   measurements   measurements
 mecanism         mecan        mecanismo
 mecanism         mecan        mecanismos
    medi           medi          media
   medid           med           medida
   mejor          mejor          mejora
  mejoran         mejor         mejoran
  mejorar         mejor         mejorar
   metod          metod         metodos
    mide           mid            mide
   mode            mod           mode
   model          model          modelo
   model          model         modelos
  modern         modern         modern
modification   modification   modification
   modo            mod           modo
  moment         moment         momento
  mostrad         mostr         mostrado
 multipalabr    multipalabr   multipalabra
   natural        natural        natural
  necesari       necesari       necesario
 necesidad        neces        necesidad
 necesidad        neces        necesidades
   negativ        negativ       negative
   negativ        negat         negativo


                  40
negativ         negat          negativos
     nist            nist            nist
normalizacion   normalizacion   normalizacion
 normalizar       normaliz       normalizar
normalment         normal       normalmente
notablement        notabl       notablemente
   notori          notori          notoria
  numeric          numer          numerico
   numer           numer           numero
   obedec          obedec         obedece
   objetiv          objet          objetivo
  observar         observ         observar
 obtencion       obtencion        obtencion
  obtener          obten           obtener
 obteniend         obten         obteniendo
obteniendos        obten        obteniendose
  obtienen         obtien         obtienen
 obtuvieron        obtuv         obtuvieron
 obviament          obvi         obviamente
   obviar           obvi           obviar
  ocurrenci       ocurrent       ocurrencia
  ofrecen           ofrec          ofrecen
   opcion          opcion          opcion
 operacion          oper         operaciones
    opta            opta            opta
   orden           orden            orden
  ordenad          orden         ordenados
  ordenar          orden           ordenar
organization    organization    organization
   origin          origin           origin
   original        original       originales
    pagin           pagin          paginas
   palabr          palabr          palabra
   palabr          palabr         palabras
   palabr          palabr         palabras
  partiend          part          partiendo
    pasa             pas            pasa
     pas             pas            pasos
peculiaridad      peculiar      peculiaridades
   pequeñ          pequeñ         pequeña
   pequeñ          pequeñ         pequeño
 performanc      performanc     performance
  permitan         permit         permitan
   permit          permit          permite
  permiten         permit         permiten
   person          person          persona


                   41
pertenec       pertenec        pertenece
  pertinent      pertinent       pertinente
  pertinent      pertinent      pertinentes
    peso            pes             peso
     pes            pes            pesos
   pierden         pierd          pierden
  plantear         plant          plantear
  polisemi        polisemi       polisemia
    pose           pose            posee
 posibilidad      posibil        posibilidad
 posibiliten      posibilit      posibiliten
    posibl         posibl         posible
   positiv        positiv         positive
   positiv         posit          positivos
      pp             pp              pp
  precision      precision        precision
    precis         precis         preciso
   pregunt        pregunt        preguntas
   prentic        prentic         prentice
 preposicion    preposicion    preposiciones
  privilegiar     privilegi      privilegiar
  problem         problem        problema
  problem         problem        problemas
 proceedings    proceedings     proceedings
  procesad        proces         procesadas
 procesaron       proces         procesaron
   proces         proces          proceso
   process        process         process
 processing      processing      processing
   produc         produc          produce
  producen        produc         producen
  producid        produc         producidas
   product        product         producto
 proporcion     proporcion       proporcion
proporcional    proporcional    proporcional
proporcionand   proporcion     proporcionando
proporcionen    proporcion      proporcionen
  propuest       propuest        propuesto
  propuest       propuest        propuestos
 provenient     provenient      provenientes
 publication    publication      publication
  pudieran          pud           pudieran
    punt           punt            punto
   quality        quality          quality
  quaterly        quaterly        quaterly
    queri          queri          queries


                  42
query            query             query
     raiz             raic             raices
   ranking          ranking           ranking
realimentacion   realimentacion    realimentacion
 realimentad       realiment       realimentada
 realimentad       realiment       realimentadas
    realiz           realiz            realiza
   realizad          realiz          realizada
   realizad          realiz          realizado
   realizar          realiz           realizar
   recalcul         recalcul         recalculo
    recall           recall            recall
    recib            recib             recibe
   recoger           recog            recoger
 recuperacion    recuperacion      recuperacion
 recuperacion       recuper       recuperaciones
  recuperad         recuper         recuperados
  recuperar         recuper          recuperar
  reduccion        reduccion         reduccion
  referenci         referent        referencias
    refin            refin             refine
   relacion         relacion          relacion
   relevanc         relevanc         relevance
  relevanci          relev           relevancia
   relevant         relevant          relevant
   relevant          relev           relevantes
  represent        represent        representa
representacion   representacion   representacion
representacion     represent      representaciones
 representan       represent        representan
 representant      represent       representante
  resolucion       resolucion        resolucion
   resolver          resolv           resolver
respectivament      respect       respectivamente
   resultad          result          resultados
   resultan          result           resultan
  resultand          result          resultando
   results          results           results
   resumen           resum           resumen
   retrieval        retrieval         retrieval
   review           review            review
   revisar           revis            revisara
    revist           revist           revistas
    rocchi           rocchi           rocchio
    roman             rom             roman
   routing          routing           routing


                     43
salamanc      salamanc     salamanca
  salton        salton        salton
    san           san           san
  satisfac      satisfac     satisface
  scienc        scienc        science
seguidament     seguid     seguidamente
  seguid         segu         seguido
  seguir         segu         seguir
segurament       segur     seguramente
 seleccion     seleccion    selecciona
seleccionad    seleccion   seleccionado
seleccionad    seleccion   seleccionados
seleccionar    seleccion    seleccionar
 semantic       semant      semantico
 semejanz       semej       semejanza
  sentid         sent         sentido
  señalad        señal      señalados
  señalar        señal        señalar
  shown         shown         shown
significativ    signific   significativas
  siguient     siguient     siguientes
  similar       similar      similares
 similitud     similitud     similitud
   simpl         simpl        simple
 sinonimi      sinonimi      sinonimia
  sistem        sistem        sistema
  sistem        sistem       sistemas
   smart        smart          smart
  society       society       society
 sofisticad     sofistic    sofisticados
  somer         somer         somera
   spain         spain         spain
  spanish      spanish        spanish
  special       special       special
 stemming      stemming     stemming
   stops         stops         stops
  structur     structur     structures
  stubbs        stubbs        stubbs
 subcaden      subcaden     subcadenas
  subjetiv      subjet       subjetiva
   suel          suel          suele
  suelen         suel         suelen
  system        system        system
  systems      systems       systems
  tamañ         tamañ        tamaños
 techniqu      techniqu     technique


                44
techniqu      techniqu     techniques
technology    technology    technology
  tecnic        tecnic        tecnica
  tecnic        tecnic       tecnicas
 tematic        temat        tematico
   term         term           term
  termin       termin        termino
  termin       termin        terminos
   tesin        tesin         tesina
   tests        tests          tests
   text          text          text
   text          text          texto
  tiemp         tiemp         tiempo
   tiend        tiend         tiende
   tipo           tip          tipo
   toma          tom           toma
  tomar          tom          tomar
totalment       total       totalmente
  trabaj        trabaj        trabajo
   trec          trec          trec
  unidad       unidad        unidades
universidad    univers      universidad
   usad         usad          usado
   usal          usal          usal
   usars        usars         usarse
   user          user          user
   users        users          users
   using        using          using
  usually      usually        usually
  usuari        usuari        usuario
  usuari        usuari       usuarios
    util         util           util
    util         util          utiles
   utilic       utilic        utilice
   utiliz       utiliz        utiliza
 utilizabl      utiliz      utilizables
utilizacion   utilizacion   utilizacion
  utilizad      utiliz       utilizada
  utilizad      utiliz       utilizado
  utilizad      utiliz      utilizados
 utilizand      utiliz      utilizando
  utilizar      utiliz        utilizar
 utilizaron     utiliz       utilizaron
utilization   utilization   utilization
  vaciad         vaci        vaciado
   vaci          vaci         vacias


                45
valor          valor           valor
  valor          valor          valores
 vector         vector          vector
 vector         vector         vectores
vectorial      vectorial       vectorial
vectorizad     vectoriz       vectorizada
  vien           vien            viene
   vist           vist           vista
visualizar      visualiz       visualizar
  vitori         vitori         vitoria
witghting      witghting       witghting
  words         words           words
   yat            yat            yates
  york           york            york
  zazo            zaz            zazo



    1. Tabla   Diferencias lematización




                46
7. CONCLUSIONES

Dados los problemas que plantea el lenguaje natural (información pobremente estructurada,
diferentes formatos de documentos, problemas con codificación de la información, problemas
de detección y conversión de formatos y codificación, normalización de términos, etc.) se
hace necesario el empleo de herramientas especializadas a la hora de tratarlo para conseguir
una recuperación óptima de información, que satisfaga las necesidades de la búsqueda.

.




                                            47
8. BIBLIOGRAFÍA

–   Indización automática – la enciclopedia libre. Actualizado el. [On-line] 30 de
    septiembte. Consulta realizada el 3 de marzo de 2010. URL:
    http://es.wikipedia.org/wiki/Indizaci%C3%B3n_autom%C3%A1tica

–   Ley de Zipf – la enciclopedia libre. Actualizado el 9 de octubre. [On-line]. Consulta
    realizada el 7 de marzo de 2010. URL: http://es.wikipedia.org/wiki/Stemming

–   Stemming – la enciclopedia libre. Actualizado el 2 de octubre. [On-line]. Consulta
    realizada el 7 de marzo de 2010
    URL:http://es.wikipedia.org/wiki/George_Kingsley_Zipf




                                          48

Más contenido relacionado

La actualidad más candente

La actualidad más candente (10)

Tutorial microsoft
Tutorial microsoftTutorial microsoft
Tutorial microsoft
 
Manual informatico
Manual informaticoManual informatico
Manual informatico
 
Gramatica alemana
Gramatica alemanaGramatica alemana
Gramatica alemana
 
Manual usuario modelo b 510 dn
Manual usuario  modelo b 510 dnManual usuario  modelo b 510 dn
Manual usuario modelo b 510 dn
 
Ortografía
OrtografíaOrtografía
Ortografía
 
trabajo final .
trabajo final .trabajo final .
trabajo final .
 
GNU/Linux Mandrake 10.1 Guía De Comienzo (Español)
GNU/Linux Mandrake 10.1 Guía De Comienzo (Español)GNU/Linux Mandrake 10.1 Guía De Comienzo (Español)
GNU/Linux Mandrake 10.1 Guía De Comienzo (Español)
 
Tutorial xhtml y css
Tutorial xhtml y cssTutorial xhtml y css
Tutorial xhtml y css
 
Con clasecursoc++
Con clasecursoc++Con clasecursoc++
Con clasecursoc++
 
Manual visual basic en excel
Manual visual basic en excelManual visual basic en excel
Manual visual basic en excel
 

Similar a Practica5 final

Similar a Practica5 final (20)

Curso power point 97
Curso power point 97Curso power point 97
Curso power point 97
 
Libro alumnos
Libro alumnosLibro alumnos
Libro alumnos
 
Excel, Tecnicas Avanzadas.pdf
Excel, Tecnicas Avanzadas.pdfExcel, Tecnicas Avanzadas.pdf
Excel, Tecnicas Avanzadas.pdf
 
Modulo i introduccion las herramientas tecnologicas
Modulo i introduccion las herramientas tecnologicasModulo i introduccion las herramientas tecnologicas
Modulo i introduccion las herramientas tecnologicas
 
Turabian manual de formato y estilo
Turabian manual de formato y estiloTurabian manual de formato y estilo
Turabian manual de formato y estilo
 
Manual microsoft office excel 2010
Manual microsoft office excel 2010Manual microsoft office excel 2010
Manual microsoft office excel 2010
 
Manual microsoft office excel 2010
Manual microsoft office excel 2010Manual microsoft office excel 2010
Manual microsoft office excel 2010
 
Manual microsoft office excel 2010
Manual microsoft office excel 2010Manual microsoft office excel 2010
Manual microsoft office excel 2010
 
Manual microsoft office excel 2010
Manual microsoft office excel 2010Manual microsoft office excel 2010
Manual microsoft office excel 2010
 
Manualoracle 1
Manualoracle 1Manualoracle 1
Manualoracle 1
 
PROGRAMACIÓN CON LATEX
PROGRAMACIÓN CON LATEXPROGRAMACIÓN CON LATEX
PROGRAMACIÓN CON LATEX
 
Funciones cuadráticas
Funciones cuadráticasFunciones cuadráticas
Funciones cuadráticas
 
Microsoft wordxp
Microsoft wordxpMicrosoft wordxp
Microsoft wordxp
 
Microsoft wordxp
Microsoft wordxpMicrosoft wordxp
Microsoft wordxp
 
Microsoft wordxp
Microsoft wordxpMicrosoft wordxp
Microsoft wordxp
 
Microsoft wordxp
Microsoft wordxpMicrosoft wordxp
Microsoft wordxp
 
Manual word pdf
Manual  word pdfManual  word pdf
Manual word pdf
 
145805578 disenando-documentos-con-word-2010-pni-senati
145805578 disenando-documentos-con-word-2010-pni-senati145805578 disenando-documentos-con-word-2010-pni-senati
145805578 disenando-documentos-con-word-2010-pni-senati
 
Todo linux
Todo linuxTodo linux
Todo linux
 
Manual LaTeX
Manual LaTeXManual LaTeX
Manual LaTeX
 

Último

periodico mural y sus partes y caracteristicas
periodico mural y sus partes y caracteristicasperiodico mural y sus partes y caracteristicas
periodico mural y sus partes y caracteristicas123yudy
 
PLANIFICACION ANUAL 2024 - INICIAL UNIDOCENTE.docx
PLANIFICACION ANUAL 2024 - INICIAL UNIDOCENTE.docxPLANIFICACION ANUAL 2024 - INICIAL UNIDOCENTE.docx
PLANIFICACION ANUAL 2024 - INICIAL UNIDOCENTE.docxJUANSIMONPACHIN
 
CIENCIAS NATURALES 4 TO ambientes .docx
CIENCIAS NATURALES 4 TO  ambientes .docxCIENCIAS NATURALES 4 TO  ambientes .docx
CIENCIAS NATURALES 4 TO ambientes .docxAgustinaNuez21
 
PINTURA ITALIANA DEL CINQUECENTO (SIGLO XVI).ppt
PINTURA ITALIANA DEL CINQUECENTO (SIGLO XVI).pptPINTURA ITALIANA DEL CINQUECENTO (SIGLO XVI).ppt
PINTURA ITALIANA DEL CINQUECENTO (SIGLO XVI).pptAlberto Rubio
 
Instrucciones para la aplicacion de la PAA-2024b - (Mayo 2024)
Instrucciones para la aplicacion de la PAA-2024b - (Mayo 2024)Instrucciones para la aplicacion de la PAA-2024b - (Mayo 2024)
Instrucciones para la aplicacion de la PAA-2024b - (Mayo 2024)veganet
 
Monitoreo a los coordinadores de las IIEE JEC_28.02.2024.vf.pptx
Monitoreo a los coordinadores de las IIEE JEC_28.02.2024.vf.pptxMonitoreo a los coordinadores de las IIEE JEC_28.02.2024.vf.pptx
Monitoreo a los coordinadores de las IIEE JEC_28.02.2024.vf.pptxJUANCARLOSAPARCANARE
 
FICHA DE MONITOREO Y ACOMPAÑAMIENTO 2024 MINEDU
FICHA DE MONITOREO Y ACOMPAÑAMIENTO  2024 MINEDUFICHA DE MONITOREO Y ACOMPAÑAMIENTO  2024 MINEDU
FICHA DE MONITOREO Y ACOMPAÑAMIENTO 2024 MINEDUgustavorojas179704
 
Los Nueve Principios del Desempeño de la Sostenibilidad
Los Nueve Principios del Desempeño de la SostenibilidadLos Nueve Principios del Desempeño de la Sostenibilidad
Los Nueve Principios del Desempeño de la SostenibilidadJonathanCovena1
 
Técnicas de grabado y estampación : procesos y materiales
Técnicas de grabado y estampación : procesos y materialesTécnicas de grabado y estampación : procesos y materiales
Técnicas de grabado y estampación : procesos y materialesRaquel Martín Contreras
 
Estrategia de Enseñanza y Aprendizaje.pdf
Estrategia de Enseñanza y Aprendizaje.pdfEstrategia de Enseñanza y Aprendizaje.pdf
Estrategia de Enseñanza y Aprendizaje.pdfromanmillans
 
Contextualización y aproximación al objeto de estudio de investigación cualit...
Contextualización y aproximación al objeto de estudio de investigación cualit...Contextualización y aproximación al objeto de estudio de investigación cualit...
Contextualización y aproximación al objeto de estudio de investigación cualit...Angélica Soledad Vega Ramírez
 
cuadernillo de lectoescritura para niños de básica
cuadernillo de lectoescritura para niños de básicacuadernillo de lectoescritura para niños de básica
cuadernillo de lectoescritura para niños de básicaGianninaValeskaContr
 
libro para colorear de Peppa pig, ideal para educación inicial
libro para colorear de Peppa pig, ideal para educación iniciallibro para colorear de Peppa pig, ideal para educación inicial
libro para colorear de Peppa pig, ideal para educación inicialLorenaSanchez350426
 
PROGRAMACION ANUAL DE MATEMATICA 2024.docx
PROGRAMACION ANUAL DE MATEMATICA 2024.docxPROGRAMACION ANUAL DE MATEMATICA 2024.docx
PROGRAMACION ANUAL DE MATEMATICA 2024.docxEribertoPerezRamirez
 

Último (20)

periodico mural y sus partes y caracteristicas
periodico mural y sus partes y caracteristicasperiodico mural y sus partes y caracteristicas
periodico mural y sus partes y caracteristicas
 
PLANIFICACION ANUAL 2024 - INICIAL UNIDOCENTE.docx
PLANIFICACION ANUAL 2024 - INICIAL UNIDOCENTE.docxPLANIFICACION ANUAL 2024 - INICIAL UNIDOCENTE.docx
PLANIFICACION ANUAL 2024 - INICIAL UNIDOCENTE.docx
 
Sesión La luz brilla en la oscuridad.pdf
Sesión  La luz brilla en la oscuridad.pdfSesión  La luz brilla en la oscuridad.pdf
Sesión La luz brilla en la oscuridad.pdf
 
VISITA À PROTEÇÃO CIVIL _
VISITA À PROTEÇÃO CIVIL                  _VISITA À PROTEÇÃO CIVIL                  _
VISITA À PROTEÇÃO CIVIL _
 
CIENCIAS NATURALES 4 TO ambientes .docx
CIENCIAS NATURALES 4 TO  ambientes .docxCIENCIAS NATURALES 4 TO  ambientes .docx
CIENCIAS NATURALES 4 TO ambientes .docx
 
PINTURA ITALIANA DEL CINQUECENTO (SIGLO XVI).ppt
PINTURA ITALIANA DEL CINQUECENTO (SIGLO XVI).pptPINTURA ITALIANA DEL CINQUECENTO (SIGLO XVI).ppt
PINTURA ITALIANA DEL CINQUECENTO (SIGLO XVI).ppt
 
Instrucciones para la aplicacion de la PAA-2024b - (Mayo 2024)
Instrucciones para la aplicacion de la PAA-2024b - (Mayo 2024)Instrucciones para la aplicacion de la PAA-2024b - (Mayo 2024)
Instrucciones para la aplicacion de la PAA-2024b - (Mayo 2024)
 
Monitoreo a los coordinadores de las IIEE JEC_28.02.2024.vf.pptx
Monitoreo a los coordinadores de las IIEE JEC_28.02.2024.vf.pptxMonitoreo a los coordinadores de las IIEE JEC_28.02.2024.vf.pptx
Monitoreo a los coordinadores de las IIEE JEC_28.02.2024.vf.pptx
 
Earth Day Everyday 2024 54th anniversary
Earth Day Everyday 2024 54th anniversaryEarth Day Everyday 2024 54th anniversary
Earth Day Everyday 2024 54th anniversary
 
FICHA DE MONITOREO Y ACOMPAÑAMIENTO 2024 MINEDU
FICHA DE MONITOREO Y ACOMPAÑAMIENTO  2024 MINEDUFICHA DE MONITOREO Y ACOMPAÑAMIENTO  2024 MINEDU
FICHA DE MONITOREO Y ACOMPAÑAMIENTO 2024 MINEDU
 
Los Nueve Principios del Desempeño de la Sostenibilidad
Los Nueve Principios del Desempeño de la SostenibilidadLos Nueve Principios del Desempeño de la Sostenibilidad
Los Nueve Principios del Desempeño de la Sostenibilidad
 
Técnicas de grabado y estampación : procesos y materiales
Técnicas de grabado y estampación : procesos y materialesTécnicas de grabado y estampación : procesos y materiales
Técnicas de grabado y estampación : procesos y materiales
 
La luz brilla en la oscuridad. Necesitamos luz
La luz brilla en la oscuridad. Necesitamos luzLa luz brilla en la oscuridad. Necesitamos luz
La luz brilla en la oscuridad. Necesitamos luz
 
Estrategia de Enseñanza y Aprendizaje.pdf
Estrategia de Enseñanza y Aprendizaje.pdfEstrategia de Enseñanza y Aprendizaje.pdf
Estrategia de Enseñanza y Aprendizaje.pdf
 
Contextualización y aproximación al objeto de estudio de investigación cualit...
Contextualización y aproximación al objeto de estudio de investigación cualit...Contextualización y aproximación al objeto de estudio de investigación cualit...
Contextualización y aproximación al objeto de estudio de investigación cualit...
 
Aedes aegypti + Intro to Coquies EE.pptx
Aedes aegypti + Intro to Coquies EE.pptxAedes aegypti + Intro to Coquies EE.pptx
Aedes aegypti + Intro to Coquies EE.pptx
 
TL/CNL – 2.ª FASE .
TL/CNL – 2.ª FASE                       .TL/CNL – 2.ª FASE                       .
TL/CNL – 2.ª FASE .
 
cuadernillo de lectoescritura para niños de básica
cuadernillo de lectoescritura para niños de básicacuadernillo de lectoescritura para niños de básica
cuadernillo de lectoescritura para niños de básica
 
libro para colorear de Peppa pig, ideal para educación inicial
libro para colorear de Peppa pig, ideal para educación iniciallibro para colorear de Peppa pig, ideal para educación inicial
libro para colorear de Peppa pig, ideal para educación inicial
 
PROGRAMACION ANUAL DE MATEMATICA 2024.docx
PROGRAMACION ANUAL DE MATEMATICA 2024.docxPROGRAMACION ANUAL DE MATEMATICA 2024.docx
PROGRAMACION ANUAL DE MATEMATICA 2024.docx
 

Practica5 final

  • 1. RECUPERACIÓN AUTOMATIZADA DE LA INFORMACIÓN 11 de marzo de 2010 INDIZACIÓN AUTOMATIZADA Practica 5 Raquel Carretero Bailón Licenciatura en Documentación Universidad de Salamanca
  • 2. ÍNDICE 1. INTRODUCCIÓN ..................................................................................................................... 1 2. Entorno .................................................................................................................................. 2 a. Conéctese a su cuenta en FENIX.USAL.ES. ............................................................................ 2 b. Cree un subdirectorio de nombre practica05. ...................................................................... 2 c. Copie en ese directorio los ficheros docs.xml y docs.dtd que se encuentran en directorio /home/rai ...................................................................................................................................... 3 d. Vea el contenido de ambos ficheros ..................................................................................... 3 e. Compruebe que el fichero docs.xml es válido mediante la orden (ejecute xml val -help para obtener ayuda sobre la opción val de xml) ........................................................................... 4 3. Comando de extracción de campos en documentos XML .................................................... 5 a. Utilice la orden siguiente para extraer el contenido del campo TITULO del primer DOC del fichero ........................................................................................................................................... 5 b. Si quiere obtener el título de los primeros tres documentos (&lt; es la entity de <): .......... 6 c. Si quiere obtener los titulos de los documentos 5, 6, 8, 10, 14, 15, 18 y 20 ........................ 7 4. Comandos de sustitución de texto........................................................................................ 8 a. Busque ayuda de la utilidad tr (man tr) ................................................................................ 8 5. Comandos para ordenar y contar palabras ......................................................................... 13 a. Obtenga ayuda del comando sort y del comando uniq, y luego ejecute:........................... 13 b. Si queremos ordenarlos por el número de apariciones en orden de más a menos frecuente: .................................................................................................................................... 14 6. Ejercicios.............................................................................................................................. 15 a. Utilice el fichero ibersid2001.doc y conviértalo a fichero plano ...................................... 15 b. Obtenga todas las palabras del documento anterior ......................................................... 15 c. Obtenga la frecuencia de aparición de cada palabra del fichero ibersid2001.txt .............. 17 d. Ley de Zipf ........................................................................................................................... 18 e. Seleccione las palabras que puedan ser vacías ................................................................... 22 f. Aplique lematización utilizando los lematizadores para el español que se indican ........... 26 7. CONCLUSIONES ................................................................................................................... 47 8. BIBLIOGRAFÍA ...................................................................................................................... 48 I
  • 3. ÍNDICE IMÁGENES Ilustración1 Conexión fénix.usal.es ....................................................................................... 2 Ilustración2 Copiar en el directorio docs.dtd/docs.xml ........................................................ 3 Ilustración3 Contenido fichero.............................................................................................. 3 Ilustración4 Buscar ayuda ..................................................................................................... 4 Ilustración5 Validación fichero docs.xml............................................................................... 4 Ilustración6 Extracción del campo Título .............................................................................. 5 Ilustración7 Título tres primeros documentos...................................................................... 6 Ilustración8 Extracción de campos títulos 5,6,8,10 .............................................................. 7 Ilustración9 Sustitución de caracteres .................................................................................. 8 Ilustración10 Mayúsculas/minúsculas ................................................................................ 8 Ilustración11 Mayúsculas/minúsculas (II) ........................................................................... 9 Ilustración12 Mayúsculas/minúsculas (III) .......................................................................... 9 Ilustración13 Sustitución caracteres acentuados ............................................................. 10 Ilustración14 Sustitución signos de puntuación por + ...................................................... 10 Ilustración15 Sustitución signos de puntuación por espacios en blanco .......................... 10 Ilustración16 Sustitución signos de puntuación por “_” ................................................... 11 Ilustración17 Sustitución signos de puntuación por “__” ................................................ 11 Ilustración18 Sustitución signos puntuación “_” .............................................................. 11 Ilustración19 Sustitución signos de puntuación por saltos de línea ................................. 12 Ilustración20 Sustitución signos de puntuación por saltos de línea y ordenación ........... 12 Ilustración21 Palabra por línea ......................................................................................... 12 Ilustración22 Comandos sort y uniq.................................................................................. 13 Ilustración23 Número de apariciones ............................................................................... 14 Ilustración24 Palabras totales ibersid2001.txt .................................................................. 15 Ilustración25 Palabras únicas documento ibersid2001.txt ............................................... 16 Ilustración26 Para cada título de manera independiente................................................. 17 Ilustración27 Filezilla ......................................................................................................... 19 Ilustración28 Ley de Zipf I ................................................................................................. 19 Ilustración29 Ley de Zipf II ................................................................................................ 19 Ilustración30 Ley de Zipf III ............................................................................................... 20 Ilustración31 Ley de Zipf V ................................................................................................ 20 Ilustración32 Ley de Zipf VII .............................................................................................. 20 II
  • 4. Ilustración33 Ley de Zipf VIII ............................................................................................. 21 Ilustración34 Ley de Zipf IX ............................................................................................... 21 Ilustración35 Listado de palabras vacúas .......................................................................... 22 Ilustración36 Excel palabras vacías ................................................................................... 25 Ilustración37 Listado de palabras contenidas en ibersid2001.txt..................................... 26 Ilustración38 Stemmer simple .......................................................................................... 27 Ilustración39 Stemmer wc -w............................................................................................ 28 Ilustración40 snowball ...................................................................................................... 29 Ilustración41 snowball wc -w ............................................................................................ 29 Ilustración42 Contar palabras antes y después ................................................................ 30 III
  • 5. ÍNDICE TABLAS 1. Tabla Diferencias lematización ................................................................................. 46 IV
  • 6. RESUMEN Como conseguir una recuperación efectiva de información, relevante, que se acople a las necesidades del usuario, utilizando diferentes herramientas para realizar una indización automática. PALABRAS CLAVE Palabras vacías, indización automática, lematización, simple-stemming, stemming-snowball V
  • 7. 1. INTRODUCCIÓN La indización automática es la selección de un conjunto de términos que representen íntegramente un documento (texto, imagen, sonido) por medio de un programa informático. Hasta finales de la década de 1950, la indización se venía realizando en las Bibliotecas y Centros de Documentación de manera intelectual. Desde entonces se viene trabajando en automatizar esta tarea. Algunas de los mecanismos que vienen utilizando los programas informáticos para conseguir una indización automática son las siguientes: • Convertir la cadena de entrada a minúsculas • Convertir acentos a formas no acentuadas • Convertir la cadena de entrada en palabras, una en cada línea • Eliminar palabras vacias • Aplicar lematizacion utilizando un par de lematizadores 1
  • 8. 2. Entorno a. Conéctese a su cuenta en FENIX.USAL.ES. Tal y como hemos hecho en las anteriores prácticas nos conectamos a nuestra cuenta de fénix.usal.es sin olvidar cambiar el idioma antes de hacerlo. Ilustración1 Conexión fénix.usal.es b. Cree un subdirectorio de nombre practica05. Utilizamos el comando mkdir seguido del nombre que queramos asignarle, en nuestro caso, practica04, tal que quede de la siguiente manera: mkdir practica05. Una vez realizado este paso, nos introducimos en el subdirectorio recién creado con el comando cd practica05 2
  • 9. c. Copie en ese directorio los ficheros docs.xml y docs.dtd que se encuentran en directorio /home/rai Para llevar a cabo este proceso, es necesario introducir los siguientes comandos: cp home/rai/docs.xml, cp home/rai/docs.dtd Ilustración2 Copiar en el directorio docs.dtd/docs.xml d. Vea el contenido de ambos ficheros Para ver el contenido de los ficheros docs.dtd, así como docs.xml, debemos introducir el comando, ya visto anteriormente en otras prácticas, “more”, seguido del nombre correspondiente, o en su defecto el comando ” less” seguido también del nombre correspondiente, tal como aparece en la imagen inferior. Ilustración3 Contenido fichero 3
  • 10. e. Compruebe que el fichero docs.xml es válido mediante la orden (ejecute xml val -help para obtener ayuda sobre la opción val de xml) Ilustración4 Buscar ayuda Después de comprobar, utilizando la ayuda, cual es la orden que nos interesa ejecutar para poder dar validez al fichero docs.xml, hemos llegado a la conclusión de que la sentencia a utilizar sería: xml val -E docs.xml Ilustración5 Validación fichero docs.xml Tal como apreciamos en la captura de pantalla nos muestra que el fichero docs.xml es válido. 4
  • 11. 3. Comando de extracción de campos en documentos XML a. Utilice la orden siguiente para extraer el contenido del campo TITULO del primer DOC del fichero xml sel -E "iso8859-1" -T -t -c "/DTT/DOC[1]/TITULO" docs.xml -T :eliminar etiquetas Ilustración6 Extracción del campo Título 5
  • 12. b. Si quiere obtener el título de los primeros tres documentos (&lt; es la entity de <): xml sel -E "iso8859-1" -T -t -c "/DTT/DOC[position() &lt;=3]/TITULO" docs.xml Ilustración7 Título tres primeros documentos 6
  • 13. c. Si quiere obtener los titulos de los documentos 5, 6, 8, 10, 14, 15, 18 y 20 Para logralo debemos ejecutar la siguiente orden, de tal modo que queden incluidos todos los documentos, y esto se consigue separándolos por el operador OR. xml sel -E "iso8859-1" -T -t -c "/DTT/DOC[position()=5 or position()=6 or position()=8 or position()=10 or position()=14 or position()=15 or position()=18 or position()=20]/TITULO" docs.xml Ilustración8 Extracción de campos títulos 5,6,8,10 7
  • 14. 4. Comandos de sustitución de texto a. Busque ayuda de la utilidad tr (man tr) . Realice los siguientes ejemplos para ver su uso. La utilidad tr se utiliza normalmente en modo tubería, es decir, tomando la salida de un comando como entrada para tr. En los siguientes ejemplos recuerde que el comando echo simplemente muestra en pantalla la cadena de texto entrecomillada: esa cadena se utiliza como entrada para el comando tr. echo 'casa' | tr a e Con esta sentencia se sustituye el carácter “a” por el carácter “e” Ilustración9 Sustitución de caracteres echo 'El Señor de los Anillos' | tr A-Z a-z Con esta sentencia, cualquier carácter en mayúsculas aparecerá en minúsculas. Ilustración10 Mayúsculas/minúsculas 8
  • 15. echo 'El SEÑOR de los Anillos' | tr A-Z a-z Con esta sentencia, al igual que en el caso anterior, mostrará todos los caracteres en minúsculas. Ilustración11 Mayúsculas/minúsculas (II) echo 'El SEÑOR de los Anillos' | tr [:upper:] [:lower:] Esta sentencia es otra forma de llevar a cabo la orden anterior, es decir, convertir los caracteres de mayúsculas (upper) a minúsculas (lower). Ilustración12 Mayúsculas/minúsculas (III) 9
  • 16. echo '¡Qué! No. Adiós, María.' | tr aéíóúü aeiou Con esta sentencia cualquier carácter que aparezca acentuado aparecerá sin acentuar. Ilustración13 Sustitución caracteres acentuados echo '¡Qué! No. Adiós, María.' | tr [:punct:] + Con esta sentencia se sustituyen los signos de puntuación por el símbolo “+” Ilustración14 Sustitución signos de puntuación por + echo '¡Qué! No. Adiós, María.' | tr -d [:punct:] Con esta sentencia se sustituyen los signos de puntuación por espacios en blanco Ilustración15 Sustitución signos de puntuación por espacios en blanco 10
  • 17. echo '¡Qué! No. Adiós, María.' | tr [:punct:] '_' Con esta sentencia se sustituyen los signos de puntuación por el símbolo “_” Ilustración16 Sustitución signos de puntuación por “_” echo '¡Qué! No. Adiós, María.' | tr ' [:punct:]' '_' Con esta sentencia se sustituyen los signos de puntuación por el símbolo “_” Ilustración17 Sustitución signos de puntuación por “__” echo '¡Qué! No. Adiós, María.' | tr -s ' [:punct:]' '_' Con esta sentencia se sustituyen los signos de puntuación por el símbolo “__” * Ilustración18 Sustitución signos puntuación “_” 11
  • 18. echo '¡Qué! No. Adiós, María.' | tr -s ' [:punct:]' 'n' Con esta sentencia sustituye cada signo de puntuación por un salto de línea, y ordena. Ilustración19 Sustitución signos de puntuación por saltos de línea echo 'El holandés errante, el elegante, dijo hola sobre la ola, en el barco de Lola' | tr -s ' [:punct:]' 'n' Estamos en el mismo caso que el anterior ejemplo. Ilustración20 Sustitución signos de puntuación por saltos de línea y ordenación echo 'El holandés errante, el elegante, dijo hola sobre la ola, en el barco de Lola' | tr -cs ' [:alnum:]' 'n' . Con esta sentencia sustituye los espacios por saltos de línea y signos de puntuación, de tal modo que en cada línea tenemos una palabra. Ilustración21 Palabra por línea 12
  • 19. 5. Comandos para ordenar y contar palabras A partir de un texto, el objetivo es obtener una palabra en cada línea, luego ordenarlas y contar las ordenadas, de esa manera tendremos las palabras del texto junto con su frecuencia de aparición. a. Obtenga ayuda del comando sort y del comando uniq, y luego ejecute: echo 'mi fa sol do si si la la sol sol la si do sol' | tr ' ' 'n' | sort echo 'mi fa sol do si si la la sol sol la si do sol' | tr ' ' 'n' | sort | uniq echo 'mi fa sol do si si la la sol sol la si do sol' | tr ' ' 'n' | sort | uniq –c Ilustración22 Comandos sort y uniq Uniq: muestra en la pantalla una lista de palabras de tal manera que si una palabra es igual a la siguiente no la pone. Sort: para ordenar -c: para contar 13
  • 20. b. Si queremos ordenarlos por el número de apariciones en orden de más a menos frecuente: echo 'mi fa sol do si si la la sol sol la si do sol' | tr ' ' 'n' | sort | uniq -c | sort -n –r retorno de carro? -n: salto de línea -r: retorno de carro Ilustración23 Número de apariciones 14
  • 21. 6. Ejercicios a. Utilice el fichero ibersid2001.doc y conviértalo a fichero plano Con la utilidad wvText. almacene el resultado en un fichero de nombre ibersid2001.txt. Como ya hemos visto en anteriores prácticas convierte las palabras de los documentos a texto plano, lo único que debemos hacer es introducir la siguiente orden, poniendo en primer lugar el nombre del documento que queremos convertir con su correspondiente extensión y tras “>”, el nombre del documento con la extensión nueva: WvText ibersid2001.doc > ibersid2001.txt b. Obtenga todas las palabras del documento anterior Teniendo en cuenta que el texto debe estar en minúsculas y los acentos deben ser sustituidos por vocales no acentuadas. Cuente el número de palabras totales y el número de palabras únicas. Palabras totales: cat ibersid2001.txt | tr [:upper:] [:lower:] | tr áéíóúü aeiouu | tr –cs '[:alnum:]' 'n' | wc –w Ilustración24 Palabras totales ibersid2001.txt 15
  • 22. Palabras únicas: cat ibersid2001.txt | tr [:upper:] [:lower:] | tr áéíóúü aeiouu | tr –cs '[:alnum:]' 'n' | sort | uniq | wc –w Ilustración25 Palabras únicas documento ibersid2001.txt 16
  • 23. c. Obtenga la frecuencia de aparición de cada palabra del fichero ibersid2001.txt Tteniendo en cuenta que el texto debe estar en minúsculas y los acentos deben ser sustituidos por vocales no acentuadas. Debe ordenar el resultado por frecuencia de aparición. Nota: dado que seguramente no verá todas las palabras, redirija la salida para tener un fichero de nombre ibersid2001.frec.txt. Ilustración26 Para cada título de manera independiente 17
  • 24. d. Ley de Zipf La llamada Ley de Zipf, formulada en la década de los cuarenta por el lingüista de Harvard George Kingsley Zipf (1902-1950), afirma que un pequeño número de palabras son utilizadas con mucha frecuencia, mientras que frecuentemente ocurre que un gran número de palabras son poco empleadas. Esta afirmación, expresada matemáticamente quedaría de la siguiente forma: donde Pn representa la frecuencia de una palabra ordenada n-ésima y a es casi 1. Esto significa que el segundo elemento se repetirá aproximadamente con una frecuencia de 1/2 de la del primero, y el tercer elemento con una frecuencia de 1/3 y así sucesivamente. Una ley no empírica, pero más precisa, derivada de los trabajos de Claude Shannon fue descubierta por Benoît Mandelbrot. En definitiva viene a decir que en todas las lenguas conocidas la longitud de las palabras es inversamente proporcional a su frecuencia de aparición (cuantas más veces aparece una palabra en un idioma, más corta es). Muchos lenguajes artificiales como los élficos de Tolkien o el Klingon de Star Trek no cumplen esta regla. Esto es debido a que la explicación a esta ley se basa en la economía lingüística: las palabras que más utilizamos son más cortas y así requieren menos energía, por ello es el uso de una lengua el que acaba por imponer esta ley. Utilice Excel u OpenOffice Calc para representar la información que ha obtenido, y verifique que la frecuencia de aparición de los términos de este documento siguen una distribución zipfiana. Intente conseguir la regresión logarítmica de los puntos representados (la curva que se ajusta a dichos puntos, según la ley de Zipf) ▪ Nota: tiene la hoja de cálculo en Studium con el nombre ibersid2001.xls 18
  • 25. Utilizamos el Filezilla para disponer del documento, vamos a Excel y abrimos. Ilustración27 Filezilla Ilustración28 Ley de Zipf I Hay que representar la frecuencia frente al orden Ilustración29 Ley de Zipf II 19
  • 26. Asistente para gráficos Ilustración30 Ley de Zipf III Insertamos el gráfico al que hemos llamado “Ley de Zipf” Ilustración31 Ley de Zipf V Primeramente me posiciono en el eje X Ilustración32 Ley de Zipf VII 20
  • 27. A continuación se realiza la misma operación solo que esta vez con el eje Y. Tras esto, en el gráfico se pulsa la opción “agregar línea de tendencia” (potencial) Ilustración33 Ley de Zipf VIII Para verlo solo hay que posicionarse sobre la línea y seleccionar “mostrar gráfico de la ecuación” Ilustración34 Ley de Zipf IX 21
  • 28. e. Seleccione las palabras que puedan ser vacías Luego compare la lista que ha obtenido con una lista estandar Elimine las palabras que considere vacias del fichero ibersid.frec.txt. Ilustración35 Listado de palabras vacúas http://members.unine.ch/jacques.savoy/clef/spanishSmart.txt). 22
  • 29. 1. El 46. I 91. Cual 2. La 47. Han 92. B 3. De 48. Entre 93. Aunque 4. En 49. Aquellos 94. Además 5. Que 50. Son 95. Ya 6. Los 51. Pueden 96. Verse 7. Y 52. Otro 97. Unos 8. Es 53. Mayor 98. Tras 9. Se 54. Lo 99. Todos 10. a 55. Esto 100. Todas 11. Una 56. Tanto 101. Toda 12. Un 57. Sido 102. Solo 13. Para 58. Poco 103. Sino 14. Del 59. Pero 104. Sin 15. Con 60. M 105. Siendo 16. Por 61. Ese 106. Seria 17. Como 62. Esa 107. Ser 18. Mas 63. Decir 108. Según 19. No 64. Debe 109. S 20. Las 65. Mismo 110. Q 21. Of 66. Manera 111. Primeros 22. Cada 67. Dado 112. Primero 23. And 68. Cuenta 113. Otra 24. Al 69. W 114. On 25. De 70. Través 115. Nuestra 26. Uno 71. Tiene 116. Ningún 27. In 72. Tener 117. Nada 28. J 73. Tales 118. Muy 29. Puede 74. Primera 119. Muchos 30. G 75. Poder 120. Mucho 31. Esta 76. Ri 121. More 32. C 77. P 122. Mejor 33. Así 78. Nuevos 123. Mediante 34. También 79. Nuevo 124. Le 35. Otros 80. Nueva 125. K 36. Parte 81. Nj 126. Is 37. Si 82. New 127. Hemos 38. O 83. Hace 128. Ha 39. N 84. Etc 129. Fue 40. Este 85. Et 130. Donde 41. D 86. Esos 131. Desde 42. Sus 87. Ello 132. By 43. Su 88. Ellas 133. Alguna 44. R 89. E 134. 1992b 45. I 90. Dos 135. With 23
  • 30. 136. Where 181. F 137. Veces 182. Estas 138. Unas 183. Esas 139. To 184. Entonces 140. Tienen 185. Ed 141. Those 186. Diversos 142. This 187. Dicho 143. They 188. Df 144. These 189. Dentro 145. Then 190. Demás 146. Their 191. Deben 147. That 192. Dar 148. Tf 193. Cuyos 149. Tendrán 194. Cuyo 150. Tal 195. Cuarto 151. Sobre 196. Cierto 152. Siguientes 197. Casi 153. Siguiente 198. Better 154. Sigue 199. Bastantes 155. Siempre 200. Bastante 156. Segundo 201. Are 157. Second 202. Aquí 158. Sean 203. Aquellas 159. Sea 204. Ambas 160. Podría 205. Algunos 161. Podrá 206. Algún 162. Podemos 207. Ad 163. Otras 208. Acm 164. Other 209. Fin 165. Nr 210. An 166. Mismos 211. Ambos 167. Misma 212. 1992ª 168. Menos 213. Unos 169. Mejores 214. Pues 170. Miles 215. Partir 171. Md 216. Obstante 172. L 217. Ik 173. Lado 218. Existen 174. Junto 219. By 175. Igual 220. Frente 176. Hoy 221. Estos 177. Hay 178. Gran 179. Fueron 180. For 24
  • 31. Ilustración36 Excel palabras vacías 25
  • 32. f. Aplique lematización utilizando los lematizadores para el español que se indican Un s-stemmer para el espanol que elimina terminaciones aplicando las siguientes reglas en el orden que se indican: • si la palabra termina en -eses, sustituya por -es (p.e., corteses → cortes) • si la palabra termina en -es, sustituya por -z (p.e., veces → vez) • elimine las terminaciones -as, -es y -os • elimine las terminaciones -a, -e y –o ▪ Un suffix-stripping denominado Snowball, muy utilizado para gran cantidad de idiomas. Para mas informacion, conectese a http://snowball.tartarus.org/. Ilustración37 Listado de palabras contenidas en ibersid2001.txt cat ibersid2001.txt | tr [:upper:] [:lower:] | tr áéíóúü aeiouu | tr -cs '[:alnum:]' 'n' |sort |uniq | more 26
  • 33. Redirijo a ibersid2001.palabras.txt, lo pasaré por un stemmer simple. Asi obtengo las palabras lematixadas con el lematizador simple. Debemos crear un fichero .txt que contenga el listado de palabras resultante después de eliminar las palabras vacías y pasarlo a través de filezilla a práctica05 para poder trabajar sobre él. Stemming es un método para reducir una palabra a su raíz o mejor a un stem o tema. Hay algunos algoritmos de stemming que ayudan en sistemas de recuperación de información. Stemming aumenta el recall que es una medida sobre el número de documentos que se pueden encontrar con una consulta. Por ejemplo una consulta sobre "bibliotecas" también encuentra documentos en los que solo aparezca "bibliotecario" porque el stem de las dos palabras es el mismo ("bibliotec"). cat ibersid2001.palabras.txt | stemmer-simple-spanish | more Ilustración38 Stemmer simple Para ver la diferencia entre los dos métodos, contamos los términos en ambos casos (wc –w). Con el stemmer simple observamos que nos devuelve un resultado de exactamente 650 palabras. 27
  • 34. cat ibersid2001.palabras.txt | stemmer-simple-spanish | sort |uniq | wc -w Ilustración39 Stemmer wc -w Si quiero repetir el proceso pero con el snowball: Se trata de un pequeño lenguaje para el manejo de strings que permite implementar algoritmos de normalización del lenguaje (steeming algorithms) mediante sencillos scripts. Posteriormente mediante un compilador se genera una salida en C o en Java. Como en cualquier buscador de calidad pretendíamos conseguir que las consultas fueran case- insensitive y accent-insensitive. Pero además, en esta ocasión también queríamos que las búsquedas fueran independientes, hasta cierto punto, de las terminaciones morfológicas. Es decir, que se pudiera buscar indistintamente por "documentos ténicos" y "documentación técnica", o por "acceso", "accesible", "accesibilidad", etc. Para eso necesitabamos implementar un algoritmo de normalización (stemmer) que redujera los términos de la consulta a las unidades mínimas con significado léxico (lexemas). Este tipo de algoritmos, basados en el algoritmo de Porter 28
  • 35. cat ibersid2001.palabras.txt | stemmer-snowball-spanish | more Ilustración40 snowball Para ver la diferencia entre los dos métodos, contamos los términos en ambos casos (wc –w). Con el snowball observamos que nos devuelve un resultado de exactamente 572 palabras Ilustración41 snowball wc -w 29
  • 36. Para contar las palabras que hay antes y después de eliminar las palabras vacías se introducen las órdenes que se muestran en la ilustración inferior. Antes: 938 Después: 716 Ilustración42 Contar palabras antes y después Importe estos tres ficheros (ibersid2001.palabras.txt, ibersid2001.lema1.txt e ibersid2001.lema2.txt) a una hoja de cálculo Excel y vea cómo han quedado los términos. Lema1 Lema2 Inersid2001.pal abras.txt 0 0 0 1 1 1 10 10 10 1074 1074 1074 109 109 109 145 145 145 15 15 15 16 16 16 1965 1965 1965 1968 1968 1968 1971 1971 1971 1977 1977 1977 30
  • 37. 1983 1983 1983 1987 1987 1987 1988 1988 1988 1990 1990 1990 1991 1991 1991 1992 1992 1992 1994 1994 1994 1998 1998 1998 2 2 2 200 200 200 2000 2000 2000 215 215 215 22 22 22 24 24 24 241 241 241 26 26 26 263 263 263 28 28 28 288 288 288 292 292 292 297 297 297 3 3 3 300 300 300 313 313 313 32 32 32 323 323 323 363 363 363 37008 37008 37008 392 392 392 4 4 4 41 41 41 461 461 461 467 467 467 5 5 5 500 500 500 513 513 513 523 523 523 53 53 53 6 6 6 7 7 7 70 70 70 8 8 8 94 94 94 abundant abund abundante acces acces acceso acepten acept acepten 31
  • 38. acerc acerc acerca actuand actu actuando acuerd acuerd acuerdo adding adding adding adecuad adecu adecuadas adecuad adecu adecuado adecuad adecu adecuados adicionalment adicional adicionalmente adolec adolec adolece afzaz afzaz afzazo ajustar ajust ajustar ajustaran ajust ajustaran algorithms algorithms algorithms algoritm algoritm algoritmo algoritm algoritm algoritmos allan allan allan allow allow allow allows allows allows alons alons alonso alta alta alta alto alto alto alt altos altos american americ american ampliament ampli ampliamente angel angel angel angul angul angulo annual annual annual anteriorment anterior anteriormente años años años aparec aparec aparece aparecer aparec aparecer aparicion aparicion aparicion apartad apart apartado aplic aplic aplica aplicacion aplicacion aplicacion aplicacion aplic aplicaciones aplicand aplic aplicando aplicar aplic aplicar aplicars aplic aplicarse aplic aplic aplico application application application approach approach approaches aproximacion aproximacion aproximacion arrojar arroj arrojara articul articul articulos asignacion asignacion asignacion 32
  • 39. aspect aspect aspecto aspect aspect aspectos audit audit audit aument aument aumenta aumentar aument aumentar automatic automatic automatic automatic automat automatica baez baez baeza basandos bas basandose base bas base based bas based basicament basic basicamente basic basic basico basic basic basicos belkin belkin belkin beneficios benefici beneficioso berrocal berrocal berrocal bethesd bethesd bethesda bibliotec bibliotec biblioteca binari binari binaria brev brev breve buckley buckley buckley busc busc busca buscador buscador buscadores busqued busqued busqueda busqued busqued busquedas cabo cab cabo calcul calcul calcula calcular calcul calcular calcul calcul calculo calcul calcul calculos cantidad cantid cantidad capacidad capac capacidad caracteristic caracterist caracteristica caracteristic caracterist caracteristicas caracterizacion caracterizacion caracterizacion caracterizador caracteriz caracterizadores caracterizar caracteriz caracterizar carl carl carlos caso cas caso cataloguing cataloguing cataloguing categorizacion categorizacion categorizacion cient cient cientos clas clas clase classification classification classification clav clav clave 33
  • 40. cliffs cliffs cliffs coincidir coincid coincidir coleccion coleccion coleccion combinandol combin combinandola comparar compar comparar complet complet completo compondran compondr compondran compon compon compone component component componentes comportamient comport comportamiento comput comput computa computacion computacion computacion computacional computacional computacional comun comun comun concept concept concepto concept concept conceptos conceptualment conceptual conceptualmente conclusion conclusion conclusiones concretars concret concretarse conferenc conferenc conference conjuncion conjuncion conjunciones conjunt conjunt conjunto conoc conoc conoce conocid conoc conocidas conocid conoc conocido conseguid consegu conseguida conseguir consegu conseguir consider consider considera consideracion consideracion consideracion considerad consider considerados consideran consider consideran considerars consider considerarse consider consider considere consigu consig consigue consiguiend consigu consiguiendo consist cons consiste consisten consist consisten consistency consistency consistency constant constant constantes construccion construccion construccion construy constru construye consult consult consulta consult consult consultas consytency consytency consytency contar cont contar contendran contendr contendran 34
  • 41. contenid conten contenido continuacion continuacion continuacion contrapuest contrapuest contrapuestas contrari contrari contrario contribuyen contribu contribuyen convencional convencional convencional cosen cosen coseno costos costos costoso creat creat creates criteri criteri criterio croft croft croft cuadr cuadr cuadro cual cual cuales cuand cuand cuando cuent cuent cuentas curv curv curva curv curv curvas data dat data debem deb debemos decidir decid decidir decirs dec decirse decrecient decrecient decreciente definid defin definido definitori definitori definitorias degre degre degree demostrad demostr demostrado demuestr demuestr demuestra departament departament departamento describ describ describe describiend describ describiendo describir describ describir descripcion descripcion descripcion descriptor descriptor descriptor descrit descrit descrito dese dese desea desead des deseados dese dese desee destacabl destac destacable destacad destac destacado destacar destac destacar deteccion deteccion deteccion determinad determin determinada determinad determin determinadas determinad determin determinado determinar determin determinar devolviend devolv devolviendo 35
  • 42. devuelt devuelt devueltos dia dia dia diaz diaz diaz diferent diferent diferentes dificil dificil dificil difundid difund difundido direct direct directo discriminacion discriminacion discriminacion discriminar discrimin discriminar discriminatori discriminatori discriminatorio diseñad diseñ diseñadas diseñar diseñ diseñar disminuir disminu disminuir dispon dispon dispone disponer dispon disponer distinguir distingu distinguir distorsion distorsion distorsiones document document document documentacion documentacion documentacion document document documento document document documentos documents documents documents donn donn donna dotars dot dotarse ecuacion ecuacion ecuacion editor editor editor efectivament efect efectivamente efect efect efecto efectuad efectu efectuada efectuar efectu efectuar effect effect effect efficient efficient efficient eficienci eficient eficiencia eficient eficient eficientes ejecutad ejecut ejecutada ejempl ejempl ejemplo ejempl ejempl ejemplos elaboracion elaboracion elaboracion elaborar elabor elaborar electronic electron electronico element element element element element elemento element element elementos elevad elev elevado eliminacion eliminacion eliminacion eliminan elimin eliminan 36
  • 43. eliminarl elimin eliminarlo embarg embarg embargo encontrad encontr encontrados encontrar encontr encontrar encontrars encontr encontrarse engelwood engelwood engelwood englewood englewood englewood entrad entrad entrada environment environment environment escalar escal escalar escas escas escaso español español español esperad esper esperado esquem esquem esquemas establecer establec establecer estandar estandar estandares estim estim estima estimacion estimacion estimacion estimacion estim estimaciones estimar estim estimar estimarl estim estimarlos estimating estimating estimating estudi estudi estudio etiquetad etiquet etiquetado evaluacion evaluacion evaluacion evaluation evaluation evaluation evitar evit evitar examin examin examina examinaron examin examinaron exampl exampl examples exhaustividad exhaust exhaustividad expansion expansion expansion experimental experimental experimental experimental experimental experimentales experimentaron experiment experimentaron experiment experiment experimento experiment experiment experimentos experiments experiments experiments expres expres expresa expresad expres expresadas extens extens extensos extraccion extraccion extraccion extremadament extrem extremadamente facultad facult facultad feedback feedback feedback figu fig figue 37
  • 44. figuerol figuerol figuerola figur figur figura filtrad filtr filtrado finaliz finaliz finaliza followed follow followed form form forma formad form formada formad form formado formalment formal formalmente forman form forman format format formato formul formul formula formulacion formulacion formulacion formulation formulation formulation frak frak frakes francament franc francamente francisc francisc francisco frecuenci frecuenci frecuencia frequency frequency frequency gast gast gasto general general general gomez gomez gomez grad grad grado grams grams grams grup grup grupo habrian habri habrian hall hall hall harter hart harter herramient herramient herramientas hert hert hert hill hill hill hoc hoc hoc homogene homogen homogeneas hooper hoop hooper ide ide ideas identific identif identifica identify identify identify idf idf idf impact impact impact impact impact impacto impid impid impide implic implic implica importanci import importancia important important important important import importante important import importantes 38
  • 45. improvement improvement improvement improving improving improving incapaz incapac incapaces incluir inclu incluir incluy inclu incluye inconsistenci inconsistent inconsistencia increment increment incremento indexacion indexacion indexacion indexer index indexer indexing indexing indexing indican indic indican indicar indic indicar indic indic indice indiz indic indices ineficaz ineficac ineficaces informacion informacion informacion informatic informat informatica informatic informat informaticas information information information informativ inform informativa informativ inform informativas ingl ingles ingles inicial inicial inicial inicial inicial iniciales initial initial initial intent intent intenta interaccion interaccion interaccion interaction interaction interaction interfac interfac interface interfaz interfaz interfaz interindexer interindex interindexer internal internal internal internet internet internet introduccion introduccion introduccion introduction introduction introduction invers invers inversa inversament invers inversamente invers invers inverse invers invers inverso investigacion investigacion investigacion jose jos jose journal journal journal keywords keywords keywords lanzaron lanz lanzaron larg larg largos lematizacion lematizacion lematizacion 39
  • 46. lenguaj lenguaj lenguaje lexic lexic lexicas libr libr libre like lik like linguistic linguist linguisticas list list list llamad llam llamado lopez lopez lopez lugar lugar lugares magnitud magnitud magnitudes management management management mangiaterr mangiaterr mangiaterra manual manual manual manual manual manuales manualment manual manualmente marcar marc marcar marcaron marc marcaron martinez martinez martinez mcgill mcgill mcgill mcgraw mcgraw mcgraw means means means measurements measurements measurements mecanism mecan mecanismo mecanism mecan mecanismos medi medi media medid med medida mejor mejor mejora mejoran mejor mejoran mejorar mejor mejorar metod metod metodos mide mid mide mode mod mode model model modelo model model modelos modern modern modern modification modification modification modo mod modo moment moment momento mostrad mostr mostrado multipalabr multipalabr multipalabra natural natural natural necesari necesari necesario necesidad neces necesidad necesidad neces necesidades negativ negativ negative negativ negat negativo 40
  • 47. negativ negat negativos nist nist nist normalizacion normalizacion normalizacion normalizar normaliz normalizar normalment normal normalmente notablement notabl notablemente notori notori notoria numeric numer numerico numer numer numero obedec obedec obedece objetiv objet objetivo observar observ observar obtencion obtencion obtencion obtener obten obtener obteniend obten obteniendo obteniendos obten obteniendose obtienen obtien obtienen obtuvieron obtuv obtuvieron obviament obvi obviamente obviar obvi obviar ocurrenci ocurrent ocurrencia ofrecen ofrec ofrecen opcion opcion opcion operacion oper operaciones opta opta opta orden orden orden ordenad orden ordenados ordenar orden ordenar organization organization organization origin origin origin original original originales pagin pagin paginas palabr palabr palabra palabr palabr palabras palabr palabr palabras partiend part partiendo pasa pas pasa pas pas pasos peculiaridad peculiar peculiaridades pequeñ pequeñ pequeña pequeñ pequeñ pequeño performanc performanc performance permitan permit permitan permit permit permite permiten permit permiten person person persona 41
  • 48. pertenec pertenec pertenece pertinent pertinent pertinente pertinent pertinent pertinentes peso pes peso pes pes pesos pierden pierd pierden plantear plant plantear polisemi polisemi polisemia pose pose posee posibilidad posibil posibilidad posibiliten posibilit posibiliten posibl posibl posible positiv positiv positive positiv posit positivos pp pp pp precision precision precision precis precis preciso pregunt pregunt preguntas prentic prentic prentice preposicion preposicion preposiciones privilegiar privilegi privilegiar problem problem problema problem problem problemas proceedings proceedings proceedings procesad proces procesadas procesaron proces procesaron proces proces proceso process process process processing processing processing produc produc produce producen produc producen producid produc producidas product product producto proporcion proporcion proporcion proporcional proporcional proporcional proporcionand proporcion proporcionando proporcionen proporcion proporcionen propuest propuest propuesto propuest propuest propuestos provenient provenient provenientes publication publication publication pudieran pud pudieran punt punt punto quality quality quality quaterly quaterly quaterly queri queri queries 42
  • 49. query query query raiz raic raices ranking ranking ranking realimentacion realimentacion realimentacion realimentad realiment realimentada realimentad realiment realimentadas realiz realiz realiza realizad realiz realizada realizad realiz realizado realizar realiz realizar recalcul recalcul recalculo recall recall recall recib recib recibe recoger recog recoger recuperacion recuperacion recuperacion recuperacion recuper recuperaciones recuperad recuper recuperados recuperar recuper recuperar reduccion reduccion reduccion referenci referent referencias refin refin refine relacion relacion relacion relevanc relevanc relevance relevanci relev relevancia relevant relevant relevant relevant relev relevantes represent represent representa representacion representacion representacion representacion represent representaciones representan represent representan representant represent representante resolucion resolucion resolucion resolver resolv resolver respectivament respect respectivamente resultad result resultados resultan result resultan resultand result resultando results results results resumen resum resumen retrieval retrieval retrieval review review review revisar revis revisara revist revist revistas rocchi rocchi rocchio roman rom roman routing routing routing 43
  • 50. salamanc salamanc salamanca salton salton salton san san san satisfac satisfac satisface scienc scienc science seguidament seguid seguidamente seguid segu seguido seguir segu seguir segurament segur seguramente seleccion seleccion selecciona seleccionad seleccion seleccionado seleccionad seleccion seleccionados seleccionar seleccion seleccionar semantic semant semantico semejanz semej semejanza sentid sent sentido señalad señal señalados señalar señal señalar shown shown shown significativ signific significativas siguient siguient siguientes similar similar similares similitud similitud similitud simpl simpl simple sinonimi sinonimi sinonimia sistem sistem sistema sistem sistem sistemas smart smart smart society society society sofisticad sofistic sofisticados somer somer somera spain spain spain spanish spanish spanish special special special stemming stemming stemming stops stops stops structur structur structures stubbs stubbs stubbs subcaden subcaden subcadenas subjetiv subjet subjetiva suel suel suele suelen suel suelen system system system systems systems systems tamañ tamañ tamaños techniqu techniqu technique 44
  • 51. techniqu techniqu techniques technology technology technology tecnic tecnic tecnica tecnic tecnic tecnicas tematic temat tematico term term term termin termin termino termin termin terminos tesin tesin tesina tests tests tests text text text text text texto tiemp tiemp tiempo tiend tiend tiende tipo tip tipo toma tom toma tomar tom tomar totalment total totalmente trabaj trabaj trabajo trec trec trec unidad unidad unidades universidad univers universidad usad usad usado usal usal usal usars usars usarse user user user users users users using using using usually usually usually usuari usuari usuario usuari usuari usuarios util util util util util utiles utilic utilic utilice utiliz utiliz utiliza utilizabl utiliz utilizables utilizacion utilizacion utilizacion utilizad utiliz utilizada utilizad utiliz utilizado utilizad utiliz utilizados utilizand utiliz utilizando utilizar utiliz utilizar utilizaron utiliz utilizaron utilization utilization utilization vaciad vaci vaciado vaci vaci vacias 45
  • 52. valor valor valor valor valor valores vector vector vector vector vector vectores vectorial vectorial vectorial vectorizad vectoriz vectorizada vien vien viene vist vist vista visualizar visualiz visualizar vitori vitori vitoria witghting witghting witghting words words words yat yat yates york york york zazo zaz zazo 1. Tabla Diferencias lematización 46
  • 53. 7. CONCLUSIONES Dados los problemas que plantea el lenguaje natural (información pobremente estructurada, diferentes formatos de documentos, problemas con codificación de la información, problemas de detección y conversión de formatos y codificación, normalización de términos, etc.) se hace necesario el empleo de herramientas especializadas a la hora de tratarlo para conseguir una recuperación óptima de información, que satisfaga las necesidades de la búsqueda. . 47
  • 54. 8. BIBLIOGRAFÍA – Indización automática – la enciclopedia libre. Actualizado el. [On-line] 30 de septiembte. Consulta realizada el 3 de marzo de 2010. URL: http://es.wikipedia.org/wiki/Indizaci%C3%B3n_autom%C3%A1tica – Ley de Zipf – la enciclopedia libre. Actualizado el 9 de octubre. [On-line]. Consulta realizada el 7 de marzo de 2010. URL: http://es.wikipedia.org/wiki/Stemming – Stemming – la enciclopedia libre. Actualizado el 2 de octubre. [On-line]. Consulta realizada el 7 de marzo de 2010 URL:http://es.wikipedia.org/wiki/George_Kingsley_Zipf 48