1. Universidad de Oriente
Facultad de Matemática y Computación
Departamento de Computación
Trabajo de Diploma
Empleo de Algoritmos de
Agrupamiento como Métodos de
Condensado en Minería de Textos
Presentado en opción al Título de
Licenciado en Ciencia de la Computación
Autor:
José Antonio Molinet Berenguer
Dirigido por:
MSc. Adrian Fonseca Bruzón
Dr. C. Reynaldo Gil García
Santiago de Cuba, Mayo 2010
2. A mi hermano y mis padres
Por ser mis guías para llegar hasta aquí
3. Agradecimientos
Mi mayor agradecimiento en la vida siempre será a mis padres y mi hermano, por brindarme su amor
y apoyo constantemente. Por confiar en mí y demostrarlo sin reservas. Por soportar tantos años de
estar fuera y ayudarme a mí a soportarlos también.
Esta tesis sería una obra inconclusa sin la presencia de Adrian, desde hace años ya, para evocar toda
mi voluntad. Su ayuda como tutor ha sido decisiva para este trabajo, pero su amistad ha sido
transcendental para mi vida.
Son años de comprensión, convivencia y muchas fiestas más las que nos unieron. Los amigos que están
y los que ya se han ido (de diferentes formas) pero que nunca se olvidan. A Luis Manuel, que todavía
le debo un viaje a Gibara, este es tu trabajo de diploma también.
A algunos que cuando empezamos no sabíamos cuando acabar, pero que cambiamos muchas
historias. A Gustavo y su familia por considerarme parte de ellos. A los amigos que siempre hemos
estado ahí, sin crear una jerarquía: Eubis y Victor los primeros en recibirme. Yidier y los inagotables
problemas del mundo. Reinier y sus temas sorpresivos, solo válidos para Elisabeth. Shippuden (o José
por su nombre científico) de insaciables ganas de ayudar (con la comida) a los mareados. Eduardo y
su búsqueda del juego perfecto, o la manera perfecta de jugarlo. A Packy por sus cuerdas desafinadas
en la última nota sin perjudicar las primeras. A Erick, la especialidad de la casa según los eruditos de
la cocina y la incondicionalidad según los corazones (afirmado por Dai, compañera de todos y peso
completo en sinceridad). A Adriana, mástil y proa de los náufragos de espíritu. A Frank veterano de
aventuras y a Silvia. A Pedro, Papote, Lorena y sus compañeras, Yuri y todos los que están al pie de
página. A los viejos compañeros del D, de las peñas, festivales. A mis compañeros del aula. A José
Ramón y Fleitas por soportar mi música y llegar a gustarle.
Especial, como ella, es mi agradecimiento para mi novia Darling, quien ha estado a mi lado
literalmente hasta el último segundo de la realización de esta Tesis. Su presencia diaria y su apoyo,
fueron la base de toda mi expresión y el desenlace de todas mis dudas. A su mamá le hago extensivo mi
agradecimiento, por su sonrisa encantadora y llena de esperanza.
Parte importante del desarrollo de este trabajo es debido a la ayuda de los profesores de CERPAMID,
los cuales permiten la superación de varios estudiantes, gracias por esta oportunidad. A la profesora
Aurora por ser el ejemplo a seguir por todo estudiante. Al profesor Gil por permitirme su
conocimiento. De manera general a todos los trabajadores de CERPAMID y de DATYS, por
acogernos en sus instalaciones y hacernos sentir parte de ellos.
Quisiera agradecer también a todos aquellos profesores o estudiantes con los que he compartido
estos años y me han ayudado a formarme como profesional y ser humano.
4. I
Resumen
En la Minería de Textos, los clasificadores basados en vecindad han sido extensamente
aplicados por sus buenos resultados y relativa facilidad de implementación. Uno de los
aspectos singularmente negativos asociados a las distintas variantes conocidas de este tipo de
clasificadores radica en la necesidad de disponer de un conjunto de entrenamiento
relativamente grande. Esto conlleva a que el cálculo de los vecinos sea computacionalmente
costoso, lo que podría imposibilitar su empleo en determinadas aplicaciones reales donde es
necesaria una respuesta rápida por parte del clasificador. Con el objetivo de eliminar este
inconveniente, en este trabajo se propone el empleo de algoritmos de agrupamiento para
reducir la talla del conjunto de entrenamiento de los clasificadores basados en vecindad. Para
probar la propuesta se realizaron un número grande de experimentos con colecciones de
documentos de referencia internacional. Los resultados obtenidos, al aplicar nuestra propuesta
a las tareas de Categorización de Documentos y el Filtrado Adaptativo de Documentos,
muestran que la propuesta aquí presentada al ser comparada con los métodos de condensado
tradicionales obtiene resultados similares o superiores de clasificación, pero reduce
considerablemente más el conjunto de entrenamiento inicial.
5. II
Abstract
In Text Mining, Nearest Neighbors classifiers have been widely used because of their good
performance and relative simplicity of implementation. A negative point of these classifiers is
the need for a large number of samples in the training set to obtain good results. Due to this
need, the calculation of the nearest neighbors is computationally expensive and may restrict its
application in some real problems which require a rapid response by the classifier. In order to
eliminate this inconvenient, in this work we propose to employ a clustering algorithm to
reduce the size of the training set for neighborhood-based classifiers. To test the proposal, a
large number of experiments were conducted using reference document collections. The
results obtained in Text Categorization and Adaptive Document Filtering, show that our
proposal, when compared to traditional condensing algorithms, obtains similar or better results
in classification, and additionally it achieves a better reduction of the initial training set.
6. III
Índice
Introducción................................................................................................................................ 1
Capítulo 1.................................................................................................................................... 3
1.1 Conceptos Fundamentales............................................................................................ 3
1.1.1 Formulación General de un Problema de Clasificación Supervisada................... 4
1.1.2 Representación de los Documentos ...................................................................... 5
1.1.2.1 Esquemas de pesado de términos.......................................................................... 6
1.1.3 Medida de semejanza............................................................................................ 7
1.2 Clasificadores basados en Criterios de Vecindad ........................................................ 7
1.2.1 Construcción de la Vecindad................................................................................ 8
1.2.1.1 Vecindad de los k vecinos más cercanos .............................................................. 8
1.2.1.2 Vecindad αβ.......................................................................................................... 9
1.2.2 Métodos de Votación.......................................................................................... 11
1.2.3 Reglas de Decisión.............................................................................................. 12
1.3 Métodos de Condensado ............................................................................................ 12
1.3.1 Condensado del Vecino más Cercano ................................................................ 13
1.3.2 Reducido del Vecino más Cercano..................................................................... 15
1.3.3 Subconjunto Consistente Mínimo....................................................................... 16
1.3.4 Subconjunto Selectivo Modificado..................................................................... 18
1.4 Algoritmos de Agrupamiento..................................................................................... 19
1.4.1 Algoritmos de pasada simple.............................................................................. 20
1.4.1.1 Algoritmo SinglePass ......................................................................................... 20
1.4.2 Algoritmos basados en grafos............................................................................. 22
1.4.2.1 Algoritmo GLC................................................................................................... 23
1.4.2.2 Algoritmo Compacto Incremental ...................................................................... 24
1.4.2.3 Algoritmo Estrellas Grado.................................................................................. 26
1.5 Filtrado Adaptativo de Documento............................................................................ 28
7. IV
1.5.1 Esquema General de un Sistema de Filtrado Adaptativo de Documentos ......... 29
1.5.2 Estructura de un Sistema de Filtrado Adaptativo de Documentos ..................... 30
1.5.3 Algoritmo de Filtrado Adaptativo de Documentos............................................. 31
Capítulo 2.................................................................................................................................. 34
2.1 Algoritmos de Agrupamiento como métodos de condensado.................................... 36
2.2 Experimentos.............................................................................................................. 39
2.2.1 Medidas de Evaluación....................................................................................... 39
2.2.2 Categorización de Documentos .......................................................................... 40
2.2.2.1 Colecciones de Prueba........................................................................................ 40
2.2.2.2 Descripción de los experimentos ........................................................................ 42
2.2.2.3 Resultados experimentales.................................................................................. 43
2.2.2.4 Conclusiones....................................................................................................... 51
2.2.3 Filtrado Adaptativo de Documentos................................................................... 51
2.2.3.1 Colecciones de Prueba........................................................................................ 52
2.2.3.2 Descripción de los experimentos ........................................................................ 53
2.2.3.3 Resultados experimentales.................................................................................. 53
2.2.3.4 Conclusiones....................................................................................................... 56
Conclusiones............................................................................................................................. 57
Recomendaciones ..................................................................................................................... 58
Referencias Bibliográficas........................................................................................................ 59
8. 1
Introducción
El empleo de Internet, como forma principal de comunicación e intercambio en el mundo, ha
propiciado un aumento constante del volumen de información que circula en la red. La mayor
parte de esta información se encuentra almacenada en forma textual no estructurada, por
ejemplo, noticias periodísticas, correos electrónicos, foros de discusión, informes médicos,
actas de reuniones, artículos científicos, libros, páginas Web, etc. El acelerado crecimiento de
la información presente en Internet impide su análisis de forma manual o la realización de una
exploración efectiva. Para facilitar a los usuarios la obtención de la información que necesitan,
en un tiempo razonable, es imprescindible el desarrollo de técnicas que permitan el
procesamiento automático y eficiente de esta información.
Los primeros esfuerzos encaminados a resolver este problema dieron surgimiento a la Minería
de Textos. La cual toma auge a mediados de los años noventa producto del incremento de la
información disponible en medios electrónicos. Hoy día se considera que más de un 80% de la
información disponible en Internet se encuentra almacenada en forma textual. La Minería de
Textos es una disciplina dentro del Reconocimiento de Patrones que tiene por objetivo
descubrir el conocimiento que no existe de forma explícita en los documentos, sino que surge
de relacionar el contenido de varios de ellos.
Entre las tareas de la Minería de Textos encontramos:
Categorización de Documentos.
Agrupamiento de Documentos.
Filtrado de Información.
La Categorización de Documentos (o Clasificación de Documentos) consiste en asignar a un
documento una o más categorías (tópicos, asuntos) previamente definidas. Esta tarea se basa
en la disponibilidad de un conjunto inicial de documentos clasificados en estas categorías
(conjunto de entrenamiento). La Categorización de Documentos es un componente importante
en la gestión de información, en tareas como el filtrado de spam, la clasificación en tiempo
real del correo electrónico, el direccionamiento de documentos, la clasificación de páginas
web, entre otras.
El Agrupamiento de Documentos es una las técnicas más utilizadas para descubrir
conocimientos. El objetivo de esta tarea consiste en obtener una estructuración de un conjunto
de documentos en grupos de forma tal que los documentos dentro de un mismo grupo posean
9. Introducción
2
un alto grado de semejanza y los pertenecientes a grupos diferentes sean poco semejantes entre
sí. Entre los diferentes contextos en que se aplica esta tarea se encuentran la Recuperación de
Información y el seguimiento y detección de sucesos en un flujo continuo de noticias.
El Filtrado de Información es el proceso de recuperar de un flujo de documentos, aquellos que
satisfacen las necesidades de información de un usuario (perfil de usuario). Existe un conjunto
de Sistemas de Filtrado de Documentos que poseen la propiedad de poder recibir información
de los usuarios indicando cuándo un documento ha sido incorrectamente recuperado, los
cuales son conocidos como Sistemas de Filtrado Adaptativo de Documentos. Estos sistemas
son capaces de actualizar el perfil de los usuarios, permitiéndoles obtener una mayor
efectividad en su desempeño.
Varios han sido los clasificadores que se han aplicado en el área de la Minería de Textos.
Entre los más empleados se encuentran los basados en vecindad, debido a su relativa
simplicidad de implementación y los buenos resultados que obtienen durante el proceso de
clasificación. Estos algoritmos poseen el inconveniente de requerir de un conjunto de
entrenamiento relativamente grande. Esta condición conlleva a un elevado costo
computacional y provoca que su aplicación se vea limitada en ciertos entornos reales en los
cuales se requiere de una respuesta rápida por parte del clasificador. Por otro lado, es probable
que en el conjunto de entrenamiento exista gran cantidad de información redundante no
necesaria para el proceso de clasificación.
En la Minería de Datos este problema se ha estudiado y se han obtenido algoritmos que
permiten eliminar del conjunto de entrenamiento aquellas muestras redundantes, conocidos
por el nombre de Algoritmos de Condensado. Sin embargo, en la Minería de Textos este
problema no ha sido abordado con igual intensidad. De forma general, el objetivo para
cualquier procedimiento de condensado, consistirá en descartar del conjunto de entrenamiento
toda la información que no sea relevante para el proceso de clasificación.
Este trabajo tiene por objetivo evaluar el desempeño de los algoritmos de agrupamiento al
emplearlos para reducir el conjunto de entrenamiento de los clasificadores basados en
vecindad al ser aplicados a la Minería de Textos.
El presente Trabajo de Diploma está estructurado de la siguiente forma: Introducción, dos
capítulos, conclusiones y bibliografía. El primer capítulo es una pequeña revisión bibliográfica
en la que se exponen los conceptos y algoritmos fundamentales que permitirán al lector
entender el resto de la tesis. En el capítulo dos se expone nuestra propuesta de emplear
algoritmos de agrupamientos para reducir el conjunto de entrenamiento y se muestran los
resultados experimentales obtenidos al aplicarla en las tareas de Categorización de
Documentos y el Filtrado Adaptativo de Documentos.
10. 3
Capítulo 1
Fundamentos Teóricos
En el presente capítulo se exponen los principales aspectos teóricos que se emplean en nuestro
trabajo. En primer lugar, se especifican los conceptos fundamentales en los que se basan los
distintos algoritmos aquí tratados. Se explican dos variantes de los clasificadores basados en
vecindad. Además, se detallan algunos de los algoritmos de condensado más aplicados en la
Minería de Datos y se analizan sus principales ventajas y limitaciones. A continuación, se
muestran los algoritmos de agrupamiento que serán empleados en nuestra propuesta, se
clasifican atendiendo a determinados criterios y se analizan sus beneficios y desventajas. Por
último, se describe la tarea de Filtrado Adaptativo de Documentos y se explica el algoritmo
empleado en el presente trabajo.
1.1 Conceptos Fundamentales
Entre los problemas fundamentales del Reconocimiento de Patrones se encuentran la
Clasificación Supervisada y la Clasificación No Supervisada. En un problema de clasificación
supervisada existe un universo de objetos dividido en clases y se dispone de muestras de cada
una de ellas. Se persigue entonces, determinar a qué clases corresponde un nuevo objeto. Los
algoritmos que realizan este proceso son conocidos como clasificadores. Por el contrario, en
un problema de clasificación no supervisada se desconocen las clases en que se distribuye el
universo de objetos y no se poseen muestras de ellas. Se tiene como objetivo entonces,
estructurar el conjunto de objetos en grupos. Los algoritmos que realizan esta tarea son
conocidos como algoritmos de agrupamiento.
Dentro del Reconocimiento de Patrones existen 3 aproximaciones fundamentales en función
del tipo de espacio de representación utilizado y de cómo se estructura la información
correspondiente a cada representación. El Reconocimiento Sintáctico o Estructural de Formas
[Fuyama, 1982], el cual define explícitamente la estructura de las características asociadas a
los modelos, así como las relaciones permitidas entre ellas. El segundo grupo corresponde al
Reconocimiento Lógico Combinatorio [Shulcloper, 1995]. Este enfoque se basa en la idea de
que la modelación del problema debe ser lo más cercana posible a la realidad del mismo, sin
hacer suposiciones que carezcan de fundamento. La última vertiente corresponde al
11. Capítulo1. Fundamentos Teóricos
4
Reconocimiento Estadístico de Formas [Devroye, 1996]. En él se asume que el espacio de
representación posee una estructura de espacio vectorial.
Dentro del Reconocimiento Estadístico de Formas se suele hacer distinción entre las
aproximaciones paramétricas y las no paramétricas. En el primer caso, se asume un
conocimiento a priori sobre la forma funcional de las distribuciones de probabilidad de cada
clase sobre el espacio de representación, por el contrario, las aproximaciones no paramétricas
no suponen ninguna forma de las distribuciones de probabilidad sobre el espacio de
representación.
Dentro de los clasificadores estadísticos no paramétricos es necesario destacar las
aproximaciones basadas en criterios de vecindad. Los clasificadores basados en criterios de
vecindad suponen que los objetos se ubican en el espacio de representación de forma tal que
los objetos pertenecientes a la misma clase están más cercanos entre sí que a objetos de otras
clases. Bajo esta óptica, los esquemas de clasificación únicamente exigirán la definición de
una cierta medida de similitud entre los distintos elementos del espacio de representación, es
decir, que éste sea métrico (o, pseudo-métrico).
La principal ventaja que presenta la clasificación basada en criterios de vecindad respecto a
otros métodos no paramétricos, es su simplicidad conceptual, que podría resumirse como: la
clasificación de un nuevo objeto se puede estimar en función de la clasificación conocida de
los objetos dentro de un entorno suficientemente pequeño al nuevo objeto.
1.1.1 Formulación General de un Problema de Clasificación Supervisada
En general, cualquier problema de clasificación supervisada abordado con un enfoque
estadístico se podrá caracterizar del siguiente modo:
Sea E el espacio de representación de un determinado problema de clasificación, en el cual se
tienen M clases, Ω = {ω1, ω2,…, ωM}, de manera que formen una partición de E. Además, se
dispone de N prototipos (o muestras pre-clasificadas) pertenecientes al espacio, las cuales se
tomarán como conjunto de entrenamiento (CE), el que a su vez se representará como:
CE = {X, Ω} = {(x1, ω1), (x2, ω2),…, (xN, ωN)}
El problema consistirá en dado una nueva muestra x de E, estadísticamente independiente del
conjunto {X, Ω}, la cual puede estar contenida en cualquiera de las M clases, determinar a qué
clase del espacio pertenece. Este procedimiento es conocido como Regla de Clasificación o
Clasificador y se representa como:
δ: E Ω, δ(x) = ωi i = 1,…, M
12. Capítulo1. Fundamentos Teóricos
5
Existen distintas alternativas para expresar un determinado clasificador δ. Una de las
representaciones está dada en términos de un conjunto de funciones discriminantes, Di(x) i =
1,…, M, es decir, una por cada clase en el espacio E [Duda, 1973]. En este caso, el clasificador
se puede expresar de la siguiente manera:
δ(x) = ωi Di(x) > Dj(x) j≠ i i, j = 1,…, M
Por tanto, el clasificador asigna el objeto x a la clase o partición ωi del espacio de
representación E cuya función discriminante asociada Di(x), sea mayor. Debemos señalar que
existen determinadas zonas del espacio en las que distintas funciones discriminantes pueden
tomar el mismo valor, es decir, particiones del espacio que podrían pertenecer con la misma
probabilidad a más de una clase. Estas zonas o regiones indefinidas se denominan fronteras de
decisión, correspondiendo a los casos donde se cumple la siguiente igualdad:
Di(x) = Dj(x) j ≠ i i, j = 1,…, M
En el caso de los clasificadores basados en criterios de vecindad, la definición de una regla de
clasificación δ se basa en la distribución de los prototipos del conjunto CE en un entorno de x
suficientemente pequeño.
1.1.2 Representación de los Documentos
Los objetos tratados en la Minería de Textos son documentos textuales. Debido a que los
distintos algoritmos que se analizarán serán aplicados en esta área, es preciso contar con una
forma consistente de representar los documentos (su contenido). En este sentido, el
formalismo más utilizado es el modelo vectorial [Salton, 1989]. En este modelo cada
documento de la colección ξ está representado por un vector m-dimensional (m es el cardinal
del conjunto de términos distintos presentes en la colección de documentos), en el que cada
componente representa el peso del término asociado a esa dimensión, esto es, d = (w1,…, wm).
El peso wi representa una estimación (usualmente estadística, aunque no necesariamente) de la
utilidad del término como descriptor del documento, es decir, de la utilidad para distinguir ese
documento del resto de los documentos de la colección [Greengrass, 2001]. El peso del
término ti en el documento d se representa como w(ti, d). Si ti no aparece en d entonces su peso
es 0. Un término recibe un peso de 0 en los documentos en los cuales éste no ocurre.
Normalmente los términos muy comunes y los poco frecuentes son eliminados y las formas
diferentes de una palabra son reducidas a su forma canónica. Para tomar en consideración
documentos de diferentes longitudes, es usual que los vectores sean normalizados, aplicando
diferentes técnicas de normalización. La mayoría de los vectores de documentos son dispersos.
13. Capítulo1. Fundamentos Teóricos
6
1.1.2.1 Esquemas de pesado de términos
De las diferentes técnicas existentes para determinar el peso de los términos de un documento,
las siguientes son algunas de las más empleadas:
Booleano: Los pesos wi {0,1} indican la presencia o ausencia del término ti en el
documento.
Frecuencia de un término o TF (Term Frequency) [Salton 1989]: Cada término tiene
una importancia proporcional a la cantidad de veces que aparece en un documento,
denotado por TF(ti, d). El peso del término ti en el documento d es w(ti, d) = TF(ti, d).
Hay que señalar que es muy importante normalizar de alguna manera la frecuencia de
un término en un documento para moderar el efecto de las altas frecuencias y para
compensar la longitud del documento (en documentos más largos, previsiblemente
aparecerá más veces cada término). Una de las técnicas más usada es la normalización
por la longitud, que consiste en dividir cada frecuencia por la longitud del documento.
Otra variante es la normalización del coseno, donde se divide cada valor por la norma
euclidiana del vector del documento.
TF-IDF: Mientras el factor TF tiene que ver con la frecuencia de un término en un
documento, el IDF (Inverse Document Frequency) tiene que ver con la frecuencia de
un término en la colección de documentos. Así, la importancia de un término es
inversamente proporcional al número de documentos que lo contiene:
w(ti, d) = TF(ti, d) IDF(ti)
IDF(ti) = log
donde df(ti) es el número de documentos de la colección ξ que contienen al menos una
vez al término ti y N representa el total de documentos de la colección ξ. Es decir,
mientras menos documentos contengan al término ti mayor es su IDF(ti). El factor
TF(ti, d) contribuye a mejorar la relevancia y el factor IDF(ti) contribuye a mejorar la
precisión, pues representa la especificidad del término, distinguiendo los documentos
en los que éste aparece de aquellos en los que no aparece.
ltc: El pesado ltc [Salton, 1989] es una variante del esquema TF-IDF y se define como:
ltc = 1 log , log
14. Capítulo1. Fundamentos Teóricos
7
1.1.3 Medida de semejanza
Para determinar cuándo dos documentos son “parecidos” y cuándo no, es necesario definir una
medida de semejanza que exprese el grado de parecido entre ellos. En la Minería de Textos es
muy usual el empleo de la medida del coseno. Esta medida se define de la siguiente forma:
sem(di, dj) = cos(di, dj) = =
∑
∑ ∑
donde es la k-ésima componente del vector que representa al documento di, o sea w(tk, di),
es decir, el peso del término tk en el documento di. El valor de esta medida se encuentra en el
rango [0,1], de forma tal que mientras más cerca se encuentre del máximo, sem(di, dj) 1,
más semejantes son los documentos di y dj.
1.2 Clasificadores basados en Criterios de Vecindad
En la Minería de Textos son ampliamente utilizados los clasificadores basados en criterios de
vecindad. Estos clasificadores generalmente involucran tres pasos [Gil, 2006]:
(i) Encontrar la vecindad V(d) del documento d a clasificar, en el conjunto de
entrenamiento CE.
(ii) Cálculo del voto. Cada clase ωi Ω, emite un voto Ψ(ωi) por el documento a
clasificar.
(iii) Aplicar una regla de decisión Γ(d), en función a los votos emitidos por cada una de las
clases.
El primer paso asume la definición de una vecindad que permita determinar las muestras del
conjunto de entrenamiento que se considerarán para clasificar un nuevo documento d. Luego,
basado en las muestras seleccionadas en el primer paso, cada clase emite un voto por el
documento d. Por último, se aplica una regla de decisión para determinar en base a los votos
de cada clase a cuál pertenece el nuevo documento. Debido a que cada uno de estos pasos
puede realizarse de diferentes formas, combinarlos da origen a distintas reglas de clasificación
o clasificadores.
Un aspecto a tener en cuenta es que la efectividad de estos clasificadores solamente se verá
condicionada por la disponibilidad de un número suficientemente grande de prototipos en el
15. Capítulo1. Fundamentos Teóricos
8
conjunto de entrenamiento y que éstos hayan sido, como cabría esperar, correctamente
clasificados. Desde un punto de vista práctico, la necesidad de disponer de un elevado número
de prototipos para una aplicación efectiva de esta regla, puede llegar a convertirse en un serio
inconveniente en cuanto al coste computacional requerido para buscar, dentro del conjunto de
entrenamiento, los prototipos que conformarán la vecindad.
1.2.1 Construcción de la Vecindad
El clasificador del vecino más cercano (Nearest Neighbour, NN) es uno de los métodos
estadísticos no paramétricos más conocidos y extensamente usados. Como extensión de este
surge el clasificador de los k vecinos más cercanos (k-Nearest Neighbour, k-NN), el cual
considera para clasificar un nuevo documento no sólo el documento más cercano, sino los k
documentos más cercanos a él. Con el objetivo de eliminar la restricción que impone k-NN al
fijar un número de vecinos aparece el clasificador αβ-NN, el cual sólo considera aquellos
documentos que estén suficientemente cerca del documento a clasificar.
1.2.1.1 Vecindad de los k vecinos más cercanos
Uno de los clasificadores más difundidos en la literatura es la regla k-NN [Fix, 1951]. La idea
fundamental sobre la que se apoya este clasificador es que muestras de una misma clase
probablemente se encontrarán próximas en el espacio de representación. Para calcular la
vecindad de un documento d considera un cierto número de prototipos (k) que se encuentren
en un entorno suficientemente próximo a d.
A partir de un cierto conjunto de entrenamiento, CE = {(d1, ω1), (d2, ω2),…, (dN, ωN)}, se
puede definir la vecindad Vk(d) de un documento d E como el conjunto de prototipos que
cumple:
Vk(d)
|Vk(d)| = k
p Vk(d), q - Vk(d) sem(p, d) > sem(q, d)
donde =
La expresión sem(· , ·) hace referencia a la semejanza entre dos documentos y es el
conjunto de prototipos por cada clase. En definitiva, el significado de esta expresión se puede
resumir en que la vecindad está conformada por los k prototipos, del conjunto de
entrenamiento, más semejantes al nuevo documento d.
16. En
En
es e
1.2
Uno
pre
los
la fig. 1.1 se
la misma ci
el nuevo doc
Figura 1.1: V
.1.2 Vecin
o de los pri
fijar un núm
siguientes in
(i) Los k v
(fig. 1.2
(ii) Es posib
espacio
a d y e
vecinos
e muestra un
, cj y ck son
cumento a se
Vecindad cal
dad αβ
incipales inc
mero k de do
nconvenient
ecinos más c
2(a)).
ble que los k
de represen
el resto no
alejados de
n ejemplo de
las clases e
er clasificado
culada media
convenientes
ocumentos a
tes:
cercanos pu
k vecinos má
ntación, lo qu
se encuentre
cisivos en la
el cálculo de
en las que es
o.
ante el clasific
s que presen
tener en cu
eden estar d
ás cercanos n
ue provoca
en lo sufici
a clasificació
Ca
e la vecindad
stá dividido e
cador de los k
nta el clasifi
uenta para ca
demasiado lej
no estén hom
que pocos v
entemente c
ón.
apítulo1. Fu
d mediante e
el espacio d
k vecinos más
icador k-NN
alcular la vec
ejos del docu
mogéneamen
vecinos sean
cerca (fig. 1
undamentos T
el clasificado
e representa
s cercanos (k =
N es la nece
cindad, la cu
umento d a c
nte distribuid
realmente s
1.2(b)), siend
Teóricos
9
or k-NN.
ación y d
= 6).
sidad de
ual sufre
clasificar
dos en el
similares
do estos
17. Capítulo1. Fundamentos Teóricos
10
(a) (b)
Figura 1.2: Inconvenientes de la vecindad de los k vecinos más cercanos.
El clasificador αβ-NN [Gil, 2006] aborda estos problemas y sólo considera los prototipos que
se encuentran en un área lo suficientemente cercana y pequeña a la muestra d a ser clasificada.
A diferencia del clasificador k-NN, el número de vecinos que forman parte de la vecindad no
es fijo y los prototipos cuya semejanza con d es muy pequeña son descartados.
En el conjunto de entrenamiento CE = {(d1, ω1), (d2, ω2),…, (dN, ωN)}, se puede definir la
vecindad Vαβ (d) de un documento d E como el conjunto de prototipos que cumple:
Vαβ (d)
p Vαβ (d) sem(p, d)
p Vαβ (d) sem(p, d) sem(d, q) α
donde = y sem(d, q) =max … ,
Esta vecindad (fig. 1.3) tiene en cuenta a todos los prototipos que se encuentran en una región
esférica con centro en d. Para poder definir esta región se utilizan los parámetros α y β.
Figura 1.3: Vecindad αβ.
18. Capítulo1. Fundamentos Teóricos
11
Durante el proceso de construcción de la vecindad todos aquellos prototipos del conjunto de
entrenamiento cuya semejanza con d sea inferior a β son descartados. Para garantizar que en la
vecindad de d sólo estén aquellos prototipos muy similares a él el radio de la región se ajusta
automáticamente a partir del vecino más similar a d (representado por el punto blanco en la
figura 1.3). Este radio es igual a la diferencia entre el parámetro α y el valor de la semejanza
entre d y su vecino más cercano. En la figura, sólo los prototipos que se encuentren en la
región sombreada formarán parte de la vecindad de d.
1.2.2 Métodos de Votación
Los métodos de votación asignan un voto por cada clase. El voto de una clase permite valorar
cuán probable es que el documento a clasificar pertenezca a ella. El cálculo del voto se realiza
teniendo en cuenta los elementos contenidos en la vecindad. Diferentes esquemas de votación
han sido empleados en la literatura, a continuación se relacionan algunos de ellos.
Ψ(ωi) = ∑ (d, p) (1.1) Ψ(ωi) =
∑ ,
(1.2)
Ψ(ωi) =
∑ ,
∑ ,
(1.3)
Donde i representa la clase, (d) los documentos de la clase i que pertenecen a la
vecindad de d, sem(· , ·) la semejanza entre dos documentos y Ni el número de documentos en
(d).
El método de votación de la expresión 1.1 define el voto de una clase como la suma de las
semejanzas entre el documento a clasificar d y los elementos de la clase que pertenecen a la
vecindad. De esta forma, el voto de una clase depende del número de elementos de la clase
que pertenecen a la vecindad y de cuán semejantes sean estos al documento a clasificar.
En la expresión 1.2 el voto de una clase se calcula como el promedio de las semejanzas entre
el documento a clasificar y los documentos de la clase que pertenecen a la vecindad. En este
método, a diferencia del anterior, no influye el número de documentos que posea la clase en la
vecindad, sino cuán semejantes son estos al documento a clasificar. Esto impide que un
número elevado de documentos poco semejantes a d determinen su clasificación.
19. Capítulo1. Fundamentos Teóricos
12
En el caso de la expresión 1.3 el voto de una clase se obtiene al dividir las semejanzas de d
con los elementos de la clase en la vecindad entre el total de semejanzas de d con los
elementos de la vecindad.
1.2.3 Reglas de Decisión
Una vez calculado el voto de cada una de las clases, se aplica una regla de decisión que
permita determinar a cuáles clases pertenece el documento d. A continuación se expondrán
algunas de estas reglas.
La regla Mayoría Simple considera que el documento pertenece a aquella clase cuyo voto es
mayor al de las demás:
Γ(d) = ω’ ω Ω, Ψ(ω’) > Ψ(ω) (1.4)
La expresión 1.5 surge como una extensión de la regla anterior introduciendo un umbral
mínimo exigido al voto de la clase para clasificar al nuevo documento.
Γ(d) = ω’ Ψ(ω’) > y ω Ω, Ψ(ω’) > (ω) (1.5)
Esta regla no tiene en cuenta el hecho de que un documento puede abordar más de una
temática a la vez. Para dar solución a este problema se emplea la expresión:
Γ(d) = {ω Ω | Ψ(ω) > } (1.6)
Esta regla permite el uso de los clasificadores basados en vecindad en entornos donde existe
solapamiento entre las diferentes clases del espacio.
1.3 Métodos de Condensado
Uno de los aspectos negativos que presentan los distintos clasificadores basados en vecindad
radica en la necesidad de disponer de un elevado número de prototipos para su entrenamiento.
Este hecho provoca que el proceso de búsqueda de los vecinos más cercanos sea
computacionalmente costoso, limitando su aplicación en determinados problemas prácticos
donde se requiere una respuesta rápida por parte del clasificador.
Con el objetivo de ampliar el campo de aplicaciones reales de las distintas reglas basadas en
criterios de vecindad se han desarrollado diversas técnicas. Una de las alternativas más
20. Capítulo1. Fundamentos Teóricos
13
empleadas para acelerar el cálculo de la vecindad consiste en reducir el número de prototipos
en el conjunto de entrenamiento sin originar un incremento del correspondiente error de
clasificación. Estos métodos son conocidos como Algoritmos de Condensado, los cuales han
sido ampliamente abordados en la Minería de Datos, pero no se ha estudiado con igual
intensidad su aplicación en la Minería de Textos. Por ello, en este epígrafe nos referiremos a
objetos de forma general y no a documentos.
De forma general, el objetivo de los métodos de condensado es reducir significativamente la
cantidad de objetos en el conjunto de entrenamiento, con la menor afectación posible a la
eficacia del clasificador.
En dependencia de la estrategia seguida por los métodos de condensado para construir el
nuevo conjunto de entrenamiento, estos pueden ser clasificados en: incrementales,
decrementales o por lotes [Wilson, 2000]. Los primeros inician con el conjunto condensado
vacío y van agregando a este aquellos prototipos que cumplan un determinado criterio. Por el
contrario, los que emplean una estrategia decremental o por lotes, tendrán inicialmente en el
conjunto condensado todos los elementos del conjunto de entrenamiento y en cada paso
determinan que prototipos o conjuntos de estos eliminar.
Según el origen de los objetos del conjunto condensado, estos métodos se pueden clasificar en:
métodos de selección o de reemplazo [Bezdek, 2001]. Los primeros escogen los prototipos del
conjunto de entrenamiento original, mientras que el resto, obtienen nuevos objetos aplicando
sobre los elementos del conjunto de entrenamiento inicial una determinada función de
transformación.
1.3.1 Condensado del Vecino más Cercano
El Condensado del Vecino más Cercano (Condensed Nearest Neighbors, CNN) [Hart, 1968]
es considerado en la literatura como la primera propuesta formal de condensado para la regla
de clasificación NN (Nearest Neighbour). Este método ha sido ampliamente usado tanto en
investigaciones científicas como en aplicaciones prácticas. Según este método, un conjunto
condensado deberá cumplir las propiedades de ser reducido y consistente. Se entiende por
consistente un conjunto S X donde X ≠ , si al utilizar al subconjunto S como conjunto de
entrenamiento, se puede clasificar correctamente a todo el conjunto X.
El algoritmo CNN se clasifica dentro de los métodos de selección incremental. El mismo se
basa en la siguiente idea: para clasificar correctamente los objetos de una clase sólo es
necesario mantener aquellos elementos cercanos a la frontera de decisión. De esta forma, se
eliminan todos los elementos del interior de la clase, sin afectar la consistencia del conjunto
condensado.
21. Capítulo1. Fundamentos Teóricos
14
Este algoritmo comienza seleccionando de manera aleatoria un objeto correspondiente a cada
una de las distintas clases y se añaden a S (inicialmente S es un conjunto vacío).
Posteriormente, cada elemento en el conjunto de entrenamiento X es clasificado con la regla
NN empleando únicamente los objetos de S. Cuando un objeto es clasificado erróneamente,
entonces éste se añade a S para garantizar que será clasificado correctamente. El proceso se
repite hasta que no existan objetos en X que sean clasificados de manera errónea.
El algoritmo CNN puede ser descrito por los siguientes pasos:
Algoritmo: Condensed Nearest Neighbors (CNN)
Entrada: X Conjunto de entrenamiento
Salida: S Conjunto condensado
Método:
1- Inicialización: R X
2- Sea S conjunto formado inicialmente por un prototipo por clase.
3- Repetir:
3.1- Para cada prototipo xi R:
3.1.1- Si xi es mal clasificado utilizando la regla NN y los objetos
del conjunto S entonces hacer:
R = R - {xi}
S = S {xi}
4- Hasta que no haya cambios en R o R =
5- Devolver S
Para quedarse con los elementos fronterizos, el algoritmo propuesto por Hart agrega al
conjunto S los prototipos que fueron mal clasificados por la regla NN. Considera que si un
elemento es incorrectamente clasificado, se deberá probablemente al hecho de encontrarse
próximo a la frontera de decisión.
Este algoritmo es muy sencillo de implementar y rápido (su coste computacional es lineal con
respecto a la talla de X en cada iteración); en la práctica, se obtiene un conjunto consistente
después de muy pocas iteraciones. Por otra parte, la talla del conjunto condensado resulta, en
22. Capítulo1. Fundamentos Teóricos
15
la mayoría de los casos, considerablemente pequeña comparada con el tamaño del conjunto
original, siempre y cuando en éste no exista solapamiento entre las regiones de clases distintas.
Entre los aspectos negativos de este algoritmo se puede señalar que:
1. No es posible afirmar que se obtiene el subconjunto consistente mínimo del conjunto
original, pues su construcción depende del orden en que se analicen los prototipos del
conjunto inicial, pudiéndose obtener diferentes resultados en cada corrida y de
distintos tamaños, siendo todos consistentes.
2. Este método es sensible al ruido (objetos que pertenecen a una clase pero se
encuentran en el espacio de otra), ya que todo prototipo ruidoso será clasificado
erróneamente y por tanto será incluido en el conjunto condensado S, impidiendo una
reducción considerable sin aportar información relevante al clasificador.
1.3.2 Reducido del Vecino más Cercano
El algoritmo Reducido del Vecino más Cercano (Reduced Nearest Neighbors, RNN) [Gates,
1972] realiza una extensión decremental del algoritmo CNN. El RNN es un procedimiento de
condensado iterativo con el fin de eliminar de un conjunto consistente, obtenido a partir del
algoritmo CNN, aquellos prototipos que no resulten necesarios para mantener la propiedad de
consistencia.
En este algoritmo se aplica primeramente el algoritmo CNN al conjunto de entrenamiento X.
Luego, del conjunto S obtenido, se elimina cada objeto que no sea necesario para clasificar
correctamente todos los elementos del conjunto original X. Este es un método de selección
que emplea una estrategia decremental para construir el nuevo conjunto de entrenamiento.
El algoritmo RNN se puede escribir de la siguiente forma:
Algoritmo: Reduced Nearest Neighbors (RNN)
Entrada: X Conjunto de entrenamiento
Salida: S Conjunto condensado
Método:
1- Inicialización: S , T X
2- Aplicar el algoritmo CNN al conjunto T
3- Para cada prototipo si S (conjunto resultante del paso anterior)
23. Capítulo1. Fundamentos Teóricos
16
3.1- S = S - {si}
3.2- Para cada prototipo xi X:
3.2.1- Si xi es mal clasificado utilizando la regla NN y los objetos
del conjunto S entonces hacer:
S = S {si} e ir al Paso3
4- Devolver S
Este método de condensado, en la mayoría de los casos, reduce más el conjunto de
entrenamiento que el algoritmo CNN, aunque las diferencias suelen ser poco significativas.
Además, no asegura que el subconjunto consistente que se obtiene es mínimo y los resultados
que se logran durante el proceso de clasificación son similares a los obtenidos por el algoritmo
CNN. Este método, al igual que el CNN, depende del orden de presentación de los objetos y es
sensible a la presencia de ruido.
1.3.3 Subconjunto Consistente Mínimo
Un paso importante para la obtención del subconjunto mínimo consistente fue dado en
[Dasarathy, 1994], donde se presenta el algoritmo Subconjunto Consistente Mínimo (Minimal
Consistent Subset, MCS). El mismo se basa en el concepto de subconjunto de vecinos más
cercanos de clase diferente (Nearest Unlike Neighbour Subset, NUNS) [Dasarathy, 1991]. En
el algoritmo MCS la consistencia se asegura al considerar que, para clasificar correctamente
un elemento del conjunto de entrenamiento, sólo es necesario tener en el conjunto condensado
una muestra de su misma clase que sea más cercana a él que su vecino más cercano de clase
diferente (Nearest Unlike Neighbour, NUN).
Este algoritmo consiste en seleccionar aquellos elementos que aseguren la correcta
clasificación (según la regla NN) de la mayor cantidad de objetos de su clase. Primero se
calcula el número de objetos que soporta cada elemento del conjunto de entrenamiento (un
objeto y soporta a uno x, si la distancia entre y y x es inferior a la distancia entre x y su NUN).
Estos elementos son ordenados descendentemente según la cantidad de objetos que soportan, y
el primero es elegido. Luego se eliminan los objetos que ya son soportados por el seleccionado
y se repite el paso anterior, hasta que ya no puedan eliminarse más objetos. En este conjunto
resultante, varios objetos ya fueron eliminados, por lo que los NUN posiblemente cambiaron y
se repite todo el proceso nuevamente con los nuevos objetos.
Una forma de expresar el algoritmo MCS puede ser la siguiente:
24. Capítulo1. Fundamentos Teóricos
17
Algoritmo: Minimal Consistent Subset (MCS)
Entrada: X Conjunto de entrenamiento
Salida: S Conjunto condensado
Método:
1- Inicialización: S , T X
2- Para cada prototipo xi X:
2.1- , inicializar el conjunto de objetos que soporta
3- Para cada prototipo xi X:
3.1- Calcular el vecino más cercano de clase diferente de xi en T ( )
3.2- Calcular los prototipos de T más cercanos a xi que ( )
3.3- Para cada prototipo yi :
3.3.1- = {xi}
3.4- Si = {xi}:
3.4.1- S = S {xi}
4- El prototipo que soporte un mayor número de objetos se agrega a :
4.1- mvs max | |
4.2- S = S {xi}
5- Para cada prototipo vi Vmvs:
5.1- Para cada prototipo xi X:
5.1.1- Si vi : = - {vi}
6- Si queda algún prototipo xi tal que , ir a 4
7- Mientras |T|>|S| hacer: T S, S e ir a 2
Este es un método de selección que se vale de una estrategia incremental para construir el
conjunto condensado. El mismo no depende del orden en que se presenten los objetos y
obtiene un conjunto consistente, que aunque no es siempre el mínimo, sí es de cardinal
pequeño (en [Wilfong, 1991] se demostró que encontrar el conjunto consistente mínimo es un
problema NP-completo). Además, su sensibilidad al ruido es inferior a los métodos
25. Capítulo1. Fundamentos Teóricos
18
anteriormente explicados. Como aspecto negativo se le puede señalar que modifica
ligeramente, en algunos casos, las fronteras de decisión entre las clases.
1.3.4 Subconjunto Selectivo Modificado
El algoritmo Subconjunto Selectivo Modificado (Modified Selective Subset, MSS)
[Barandela, 2005] es una modificación realizada al algoritmo Subconjunto Selectivo (SS)
propuesto en [Ritter, 1975]. En este último se extiende el concepto de conjunto consistente
agregando una condición más fuerte, conocida como propiedad selectiva. Esta propiedad
permite obtener el conjunto condensado de forma independiente al orden de presentación de
los objetos. Surge así el concepto de conjunto selectivo, el cual se puede expresar de la
siguiente manera:
Un subconjunto T del conjunto de entrenamiento CE es un subconjunto selectivo (SS), si
satisface las siguientes condiciones:
(i) T es consistente.
(ii) Todos los prototipos en el conjunto de entrenamiento original están más cercanos a un
vecino selectivo (un miembro de SS) de la misma clase que a cualquier prototipo de
una clase diferente.
El algoritmo SS tiene como objetivo calcular el subconjunto selectivo mínimo del conjunto de
entrenamiento. Para ello se basa, a parte del concepto de conjunto selectivo, en otras
definiciones. Entre ellas se encuentra la del vecino relacionado, en la misma se plantea que un
prototipo xj es un vecino relacionado con otro prototipo xi, ambos de la misma clase, si xj es
más cercano a xi que el enemigo más cercano de xi. En la literatura, el enemigo más cercano es
nombrado también NUN (vecino más cercano de clase diferente, por sus siglas en inglés). Otra
definición utilizada es la de vecindad relativa, en la cual se considera como vecindad relativa
de xi al conjunto de todos los vecinos relacionados con xi, siendo representada mediante Yi.
Haciendo uso de las definiciones anteriores, el subconjunto selectivo mínimo se puede
expresar como el subconjunto más pequeño del conjunto de entrenamiento, el cual contiene al
menos un miembro de Yi para cada prototipo xi del conjunto de entrenamiento.
El propósito de MSS es obtener un subconjunto selectivo, no necesariamente el mínimo, con
prototipos más cercanos a la frontera de decisión que los obtenidos por SS y con menor costo
computacional. Para ello sustituye el concepto de subconjunto selectivo por el de subconjunto
selectivo modificado. El cual se puede expresar como el subconjunto del conjunto de
entrenamiento CE que contiene, para todo xi del CE, aquel elemento de Yi más cercano al NUN
de xi.
26. Capítulo1. Fundamentos Teóricos
19
Para obtener el conjunto condensado S, el algoritmo MSS, por cada clase ωi en que se divide
el conjunto de entrenamiento X, busca el vecino más cercano de clase diferente de cada
prototipo xi que la conforma ( ). Luego calcula la vecindad relativa Yi de cada xi y
agrega a S el prototipo de Yi más cerca a .
El algoritmo MSS está conformado por los siguientes pasos:
Algoritmo: Modified Selective Subset (MSS)
Entrada: X Conjunto de entrenamiento
Salida: S Conjunto condensado
Método:
1- Inicialización: S
2- Para cada clase ωi Ω (clases en que se divide X):
2.1- Para cada prototipo xi de la clase ωi:
2.1.1- Calcular el enemigo más cercano de xi ( )
2.1.2- Calcular la vecindad relativa de xi (Yi)
2.1.3- Sea xj Yi, el vecino relacionado de xi más cercano a :
S = S {xj}
Este algoritmo selecciona objetos del conjunto de entrenamiento original y construye el
conjunto condensado de forma incremental. Su resultado no depende del orden de
presentación de los objetos y aunque no obtiene siempre un conjunto selectivo menor que el
SS, sí asegura una mejor representación de las fronteras de decisión que este, lo que permite
lograr mejores resultados en la clasificación. Este método al igual que los anteriores no
considera el caso de solapamiento entre las clases y su desempeño puede verse afectado por la
presencia de ruido en el conjunto de entrenamiento.
1.4 Algoritmos de Agrupamiento
Los algoritmos de agrupamiento se han empleado en un gran número de tareas de la Minería
de Textos. En este epígrafe se mostrarán algunos de los más utilizados en esta área, los cuales
formarán parte de nuestra propuesta.
27. Capítulo1. Fundamentos Teóricos
20
El objetivo de los algoritmos de agrupamiento es, dado un conjunto de n documentos descritos
a través de m rasgos, crear particiones o cubrimientos de este conjunto. La estructuración
obtenida debe cumplir que la semejanza de los documentos dentro de un mismo grupo sea
máxima mientras que la semejanza entre los documentos pertenecientes a grupos diferentes
sea mínima. El problema así planteado es NP-duro, pues para obtener la solución hay que
buscar todas las combinaciones posibles de grupos a formar. Por ejemplo, la cantidad de
particiones de tamaño k de un conjunto de n documentos es aproximadamente igual
!
[Duda,
1973]. En la práctica se utilizan distintas heurísticas que tratan de maximizar la semejanza
intra-grupo y/o minimizar la semejanza inter-grupo.
Debido a la gran diversidad de algoritmos de agrupamiento existentes se han creado varias
clasificaciones de los mismos atendiendo a distintos aspectos. Atendiendo a la forma en que
procesan los documentos, los algoritmos de agrupamientos se pueden clasificar en: estáticos,
incrementales o dinámicos. Considerando la pertenencia de los documentos a los grupos en:
disjuntos o solapados. También se pueden clasificar atendiendo al mecanismo en que se basan
para agrupar, quedando divididos en: algoritmos de pasada simple, basados en grafos, de
optimización, basados en densidad o basados en árboles.
1.4.1 Algoritmos de pasada simple
Los algoritmos de pasada simple procesan los documentos uno a uno y los comparan con los
grupos existentes. Si existen grupos que cumplan cierto criterio de semejanza con el nuevo
documento, éste se coloca en el grupo más semejante. En caso contrario, se crea un nuevo
grupo con ese documento. También existen variantes que colocan al nuevo documento en
todos aquellos grupos que satisfacen el criterio de semejanza, creando grupos solapados en
lugar de disjuntos. En general, estos algoritmos definen una función de semejanza entre un
documento y un grupo y fijan un cierto umbral para controlar la asignación de los documentos
a los grupos.
1.4.1.1 Algoritmo SinglePass
El SinglePass [Hill, 1968] es el más utilizado de la familia de los algoritmos de agrupamientos
de pasada simple. Este algoritmo calcula la semejanza del nuevo documento con cada grupo a
través de su representante, el cual se calcula como la media de los documentos pertenecientes
al grupo. Si no existen grupos cuya semejanza es mayor que un umbral β, se crea un grupo que
contiene solamente al nuevo documento. En caso contrario, el nuevo documento se asigna al
grupo más semejante.
28. Capítulo1. Fundamentos Teóricos
21
Este algoritmo se puede describir por los siguientes pasos:
Algoritmo: SinglePass
Entrada: C Colección de documentos a agrupar
β Umbral mínimo de semejanza
Salida: G Conjunto de grupos
Método:
1- Inicialización: G
2- Para cada documento di C:
2.1- MS (grupos semejantes a di)
2.2- Para cada grupo gj G:
2.2.1- Calcular la semejanza entre di y el representante de gj
2.2.2- Si dicha semejanza es mayor que β, entonces:
MS = MS {gj}
2.3- Si MS ≠ , colocar di en el gj MS cuyo representante fue el más
semejante a di:
gj = gj {di}
Si no, formar un nuevo grupo con di:
gk = {di}
2.4- G = G {gk}
Una variante de este algoritmo consiste en agregar el nuevo documento a todos los grupos con
cuyos representantes posee una semejanza mayor que el umbral. Obteniendo grupos solapados
en vez de disjuntos.
Este algoritmo presenta como principal ventaja el ser muy rápido, pues posee una complejidad
lineal (O(n)) con respecto al número de documentos. Sus principales limitaciones son: la
dependencia de los grupos del orden de presentación de los documentos, la asignación de los
documentos a los grupos es irrevocable y se restringe la forma de los grupos a esféricas o
elipsoidales.
29. Capítulo1. Fundamentos Teóricos
22
1.4.2 Algoritmos basados en grafos
Los algoritmos de agrupamiento basados en grafos, construyen un cubrimiento de un subgrafo
del grafo de semejanzas. Estos algoritmos permiten trabajar con documentos descritos por
variables cuantitativas y cualitativas mezcladas, incluso con ausencia de información y no
imponen restricciones a la función de semejanza entre documentos.
Se llama grafo de semejanzas al grafo completo donde los vértices son los documentos a
agrupar y las aristas se etiquetan con las semejanzas entre los documentos. Dos documentos
cuya semejanza es mayor o igual que un cierto umbral β (definido por el usuario) se
denominan β-semejantes [Shulcloper, 2002]. Si un documento no es β-semejante con ningún
otro documento se denomina β-aislado. Muchos algoritmos de agrupamiento de este tipo se
basan en la construcción del grafo de β-semejanza (fig. 1.4(a)). Este grafo es un subgrafo del
grafo de semejanzas donde se eliminan las aristas con peso menor que β, es decir, sólo están
conectados los documentos β-semejantes.
Del grafo de semejanzas se puede obtener además el grafo de máxima β-semejanza (fig.
1.4(b)), el cual es un grafo orientado donde los vértices son los documentos a agrupar y existe
un arco del vértice di al vértice dj si se cumple que dj es el documento más semejante a di y
dicha semejanza supera el umbral β (dj es el más β-semejante a di). Denotaremos como max-S
(fig. 1.4(c)) al grafo que se obtiene del grafo de máxima β-semejanza ignorando la orientación
de sus arcos.
(a) Grafo de β-semejanza, (b) Grafo de máxima (c) Grafo max-S.
donde β = 0,4. β-semejanza.
Figura 1.4: Grafos basados en la β-semejanza.
30. Capítulo1. Fundamentos Teóricos
23
1.4.2.1 Algoritmo GLC
Dentro de los algoritmos de agrupamientos basados en grafos el GLC [Shulcloper, 2002] se
destaca por su simplicidad conceptual. Este algoritmo obtiene de forma incremental las
componentes conexas del grafo de β-semejanza. Cada vez que llega un nuevo documento, se
compara con los documentos de los grupos existentes. Si el nuevo documento no es β-
semejante con ningún documento de los grupos existentes, se crea un nuevo grupo unitario
con ese documento. En caso contrario, todos los grupos para los cuales existe al menos un
documento β-semejante con el nuevo documento se unen y forman un nuevo grupo al que se
agrega también el nuevo documento.
El algoritmo GLC está conformado por los siguientes pasos:
Algoritmo: GLC
Entrada: C Colección de documentos a agrupar
β Umbral mínimo de semejanza
Salida: G Conjunto de grupos
Método:
1- Inicialización: G
2- Para cada documento di C:
2.1- L (lista de grupos a unir)
2.2- Para cada grupo gk G:
2.2.1- Para cada documento dj gk:
2.2.1.1- Calcular la semejanza entre di y el dj.
2.2.1.2- Si dicha semejanza es mayor que β, entonces:
L = L {gk}, ir a 2.2
2.3- Si L ≠ , unir todos los grupos que están en L en un grupo
y agregar di a él
Sino, formar un nuevo grupo con di: gk = {di}
2.4- G = G {gk}
31. Capítulo1. Fundamentos Teóricos
24
Este algoritmo tiene una complejidad temporal, en el peor de los casos, de O(n2
), pues para
cada nuevo documento hay que calcular su semejanza con los restantes. No obstante, es bueno
destacar que en este algoritmo, en muchos casos, no se requiere comparar al nuevo documento
con todos los documentos de los grupos existentes. Esto es debido a que en cuanto se
encuentra en un grupo con un documento β-semejante al nuevo, no se necesita comparar con
los restantes documentos de dicho grupo, por lo que, en el mejor de los casos, su complejidad
es O(n).
El algoritmo GLC es independiente del orden de presentación de los documentos y no impone
restricciones a la forma de los grupos obtenidos. Su mayor limitación es que las componentes
conexas sobre el grafo de β-semejanza presentan un elevado efecto de encadenamiento, por lo
que pueden obtenerse grupos de documentos poco cohesionados, esto es, grupos con formas
“alargadas" que incluyan documentos poco semejantes.
1.4.2.2 Algoritmo Compacto Incremental
El algoritmo de agrupamiento Compacto Incremental [Pons, 2002] obtiene de forma
incremental los conjuntos compactos de una colección de documentos. Los conjuntos
compactos coinciden con las componentes conexas del grafo max-S. Este algoritmo almacena
para cada documento su máxima β-semejanza (MaxSem), los documentos que son los más β-
semejantes a él (AEl) y los documentos de los que él es su más β-semejante (DeEl).
Cada vez que se presenta un nuevo documento, se calcula su semejanza con los documentos
de los grupos existentes y se actualiza el grafo. La llegada del nuevo documento puede
provocar cambios en el agrupamiento, pues algunos de los conjuntos compactos existentes
pierden esta propiedad y surgen otros nuevos. Por tanto, al finalizar la actualización del grafo
de máxima β-semejanza, se reconstruyen los conjuntos compactos a partir del nuevo
documento y de los documentos que pertenecen a los grupos que pueden perder la propiedad
de ser compacto. Los conjuntos compactos que no tienen documentos conectados con el nuevo
documento no se modifican.
Durante la actualización del grafo max-S, el algoritmo construye los siguientes conjuntos:
GruposAProcesar: Un grupo pertenece a este conjunto si tiene algún documento d’ que
cumple las condiciones siguientes:
(i) El nuevo documento es el más β-semejante a d’ y los documentos existentes que eran
sus más β-semejantes dejan de serlo.
32. Capítulo1. Fundamentos Teóricos
25
(ii) d´ tenía al menos dos documentos que eran sus más β-semejantes o d´ es el más β-
semejante a uno o más documento de ese grupo.
A este conjunto pertenecen los grupos que potencialmente pueden dejar de ser compactos
cuando se eliminan de ellos los documentos d´ que cumplen las condiciones anteriores y, por
lo tanto, deben ser reconstruidos.
DocumentosAUnir: Un documento d´ pertenece a este conjunto si cumple las condiciones
siguientes:
(i) El nuevo documento es el más β-semejante a d´ y el único documento más β-semejante
a d´ deja de serlo.
(ii) d´ no es el más β-semejante a ningún documento de su grupo.
Los elementos incorporados al conjunto DocumentosAUnir pertenecerán al mismo grupo que
el nuevo documento.
GruposAUnir: Un grupo pertenece a este conjunto si no pertenece a GruposAProcesar y tiene
al menos un documento d´ que cumple una de las condiciones siguientes:
(i) d´ es el más β-semejante al nuevo documento.
(ii) El nuevo documento se incorpora al conjunto de documentos más β-semejantes a d´, es
decir, el nuevo documento está conectado con d´ y no se rompe ningún arco de d´ en el
grafo de máxima β-semejanza.
Todos los documentos que pertenecen a los grupos del conjunto GruposAUnir formarán parte
del mismo grupo que el nuevo documento.
El algoritmo Compacto Incremental se puede describir entonces como:
Algoritmo: Compacto Incremental
Entrada: C Colección de documentos a agrupar
β Umbral mínimo de semejanza
Salida: G Conjunto de grupos
Método:
1- Inicialización: G
2- Para cada documento di C:
2.1- Actualización del grafo de máxima β-semejanza
33. Capítulo1. Fundamentos Teóricos
26
2.1.1- Calcular la semejanza con cada documento existente
2.1.2- Calcular MaxSem(di), AEl(di), DeEl(di) y actualizarlos en los
documentos que se modifican
2.1.3- Crear los conjuntos GruposAProcesar, GruposAUnir y
DocumentosAUnir. Cada vez que se incorpora un documento a
DocumentosAUnir se elimina del grupo al que pertenecía
2.2- Reconstrucción de los conjuntos compactos
2.2.1- Sea C el conjunto formado por el nuevo documento y todos los
documentos que pertenecen a los grupos de GruposAProcesar
2.2.2- Formar los conjuntos compactos existentes entre los documentos
de C y añadirlos a la lista de grupos existentes
2.2.3- Añadir al conjunto compacto al que pertenece el nuevo
documento, todos los documentos de DocumentosAUnir y todos
los que pertenecen a los grupos de GruposAUnir
2.2.4- Eliminar los grupos de GruposAProcesar y de GruposAUnir de la
lista de grupos existentes
Este algoritmo tiene una complejidad temporal, en el peor de los casos, de O(n2
), pues para
cada nuevo documento hay que calcular su semejanza con los restantes. Los grupos que
descubre este algoritmo poseen formas arbitrarias y el agrupamiento obtenido no depende del
orden de presentación de los documentos y es poco sensible al parámetro de entrada β.
Además, los grupos formados son disjuntos y más cohesionados y pequeños que los formados
por las componentes conexas basadas solamente en la β-semejanza, lo cual reduce
considerablemente el efecto de encadenamiento.
1.4.2.3 Algoritmo Estrellas Grado
El algoritmo Estrellas Grado [Gil, 2008] trata de obtener de forma incremental el conjunto
dominante mínimo del grafo de β-semejanzas. El cual es el menor subconjunto de vértices del
grafo, tal que, todos los vértices del grafo están en él o tienen al menos un vecino. A los
elementos del conjunto dominante mínimo se les denomina estrellas y a sus vecinos satélites.
Obtener el conjunto dominante mínimo es un problema NP-duro. Por tanto, el algoritmo
34. Capítulo1. Fundamentos Teóricos
27
utiliza una estrategia voraz (greedy) para construir un cubrimiento del grafo de β-semejanza
mediante subgrafos en forma de estrella.
La estrategia utilizada para encontrar el conjunto dominante mínimo consiste en seleccionar
los vértices que cubren al mayor número de vértices que no han sido cubiertos previamente.
Un grafo en forma de estrella de k + 1 vértices consiste en una estrella, que formará parte del
conjunto dominante, y k satélites. Cada subgrafo en forma de estrella del grafo de β-semejanza
forma un grupo (fig. 1.5). Los documentos de mayor conectividad en el grafo son estrellas.
Los documentos aislados también son estrellas.
Figura 1.5: Subgrafos con forma de estrella, donde A, B, C (estrellas) son vértices que
pertenecen al conjunto dominante encontrado y el resto de los vértices son satélites.
El algoritmo Estrellas Grado se puede describir por los pasos:
Algoritmo: Estrellas Grado
Entrada: C Colección de documentos a agrupar
β Umbral mínimo de semejanza
Salida: G Conjunto de grupos
Método:
1- Inicialización: G , Q (Cola de documentos a ser analizados)
2- Para cada documento di C:
2.1- Actualizar el grafo de β-semejanza, sea NA el conjunto
de las nuevas aristas
2.2- Q = Q {di}
2.3- Agregar a Q todas las vértices s tal que v, v’, (v, v’) NA
y v sea vecino de s. Agregar a Q todos los vecinos de s y
si s es una estrella marcarla como satélite
35. Capítulo1. Fundamentos Teóricos
28
2.4- Mientras Q ≠ :
2.4.1- Extraigo de Q el vértice v de mayor grado
2.4.2- Si v es satélite y no tiene ninguna estrella vecina de grado
mayor, hacer:
2.4.2.1- Marcar a v como estrella
2.4.2.2- Si v tiene estrellas vecinas de menor grado,
marcarlas como satélites y poner en Q todos los
vecinos de dichas estrellas
Este algoritmo garantiza una semejanza de al menos β entre la estrella y todos los documentos
del grupo (sus satélites), pero el valor de semejanza no se garantiza entre los satélites. La
complejidad temporal de este algoritmo es O(n2
), pues hay que calcular la semejanza entre
todos los documentos. Los grupos obtenidos son solapados, pues un documento puede ser
satélite de más de una estrellas y dos estrellas ser vecinas. Los grupos obtenidos no dependen
del orden de presentación de los documentos. Además, este algoritmo no presenta el efecto de
encadenamiento.
1.5 Filtrado Adaptativo de Documento
Un Sistema de Filtrado de Documentos monitorea un flujo de información textual con el
objetivo de encontrar aquellos documentos que satisfacen las necesidades de información de
un usuario. Estos sistemas, por cada nuevo documento deben determinar si entregan o no el
documento al usuario en función de cuánto empareja la información del documento con la
necesidad de información expresada por el usuario.
Los sistemas de Filtrado Adaptativo de Documentos son sistemas de filtrado capaces de
actualizar su conocimiento sobre la necesidad de información del usuario. Para ello, se basan
en la retroalimentación explícita o implícita del mismo. Esta retroalimentación provee al
sistema de muestras que le permiten ajustar el perfil del usuario (representación de la
necesidad informacional expresada por el usuario), facilitando así el aprendizaje en línea.
En un entorno real, inicialmente el conocimiento que se tiene de la necesidad de información
del usuario es muy escaso, por tal razón, se espera que los sistemas de Filtrado Adaptativo de
Documentos sean capaces de comenzar su tarea de clasificación con muy pocas muestras de
entrenamiento. Esto hace que la tarea sea particularmente difícil, debido a que los algoritmos
36. Capítulo1. Fundamentos Teóricos
29
tradicionales de aprendizaje requieren de un número considerable de muestras para la
construcción del clasificador.
1.5.1 Esquema General de un Sistema de Filtrado Adaptativo de
Documentos
En la siguiente imagen se puede apreciar el esquema general de un sistema de Filtrado
Adaptativo de Documentos, aunque en la misma sólo se muestra un solo usuario con el fin de
facilitar su comprensión, estos sistema pueden manipular las necesidades de varios usuarios
simultáneamente.
Figura 1.6: Esquema general de un sistema de Filtrado Adaptativo de Documentos.
Cuando un usuario tiene una nueva necesidad de información debe brindar al sistema algunos
documentos de ejemplos que aborden la temática de su interés. Con estos documentos el
sistema crea un nuevo perfil para comenzar a dar atención a esta solicitud. A medida que van
arribando nuevos documentos, el sistema analiza cada uno de ellos y brinda al usuario
aquellos documentos para los cuales determinó que su contenido concuerda con la
información almacenada en el perfil. Es importante destacar que el usuario tiene acceso sólo a
los documentos que el sistema recupera como relevantes para el perfil. El usuario debe leer los
documentos brindados y retroalimentar al sistema de forma explícita identificando cuáles de
los documentos recuperados realmente se ajustan a su necesidad de información y cuáles no.
En una aplicación real, el sistema puede aprovechar determinadas acciones del usuario, como
puede ser borrar un documento sin leerlo o salvarlo a disco, para utilizarla como
37. Capítulo1. Fundamentos Teóricos
30
retroalimentación implícita. El sistema con esta retroalimentación se mantiene actualizando el
perfil de forma constante.
La retroalimentación permite al sistema actualizar de forma constante el perfil y de esta
manera obtener nuevas muestras de entrenamiento para el aprendizaje en línea. Estos sistemas
deben ser capaces de aprovechar al máximo la retroalimentación brindada, con vistas a obtener
un perfil que realmente se ajuste a los intereses de información del usuario, evitando
abrumarlo con información irrelevante y “falsas alarmas”.
1.5.2 Estructura de un Sistema de Filtrado Adaptativo de Documentos
Varios enfoques relacionados con el Filtrado Adaptativo han sido reportados en la literatura.
Estos enfoques se dividen en dos grandes grupos, los que afrontan el problema como una tarea
de Recuperación de Información más actualización de umbral y los que lo afrontan como una
tarea de Categorización de Textos. Entre los sistemas desarrollados para el Filtrado Adaptativo
de Documentos podemos destacar el sistema del Consorcio KerMIT [Cancedda, 2003], el
sistema de la Academia de Ciencias de China [Xu, 2002], LR Rocchio [Zhang, 2004],
CLARIT [Zhai, 1998], entre otros. Se considera que las componentes principales de un
Sistema de Filtrado Adaptativo de Documentos son las siguientes [Fonseca, 2008]:
Un modelo de representación de los documentos.
Un modelo de representación del perfil.
Un algoritmo de clasificación.
Un método de actualización del perfil.
El modelo vectorial [Salton, 1989] ha sido uno de los modelos de representación de
documentos más empleados en la tarea del filtrado adaptativo. Una representación alternativa
que ha ido alcanzando un gran auge es la basada en los modelos de lenguaje. Un modelo de
lenguaje M permite estimar la probabilidad de observar o generar una frase s con dicho
modelo.
La mayoría de los Sistemas de Filtrado Adaptativo de Documentos representan el perfil por
medio de un vector, el cual se construye a partir de las muestras de entrenamiento
suministradas al sistema. La construcción de este vector, en muchos casos, se realiza
utilizando centroides, asumiendo que los documentos se encuentran homogéneamente
distribuidos a su alrededor. Otros sistemas representan el perfil por medio de un conjunto de
38. Capítulo1. Fundamentos Teóricos
31
documentos. Esta representación les permite poder aprender la distribución de los documentos
que forman el perfil. Por último, los sistemas que utilizan modelos de lenguaje representan el
perfil por medio de dos modelos, uno construido a partir de las muestras relevantes y otro
construido a partir de las muestras no relevantes.
Varios algoritmos de clasificación han sido utilizados en los sistemas de Filtrado Adaptativo
de Documentos para determinar cuándo entregar o no un documento al usuario. Entre los más
utilizados encontramos el algoritmo de Rocchio [Allan, 1996], el algoritmo de Winnow
[Littlestone, 1988], las máquinas de vectores soporte (SVM - Support Vector Machines)
[Vapnik, 1995] y el clasificador k-NN [Fix, 1951].
Los métodos de actualización del perfil constituyen un elemento fundamental en los Sistemas
de Filtrado Adaptativo de Documentos. Estos métodos permiten al sistema ajustarse mejor a
las necesidades de información del usuario y con ello poder aumentar su efectividad. De forma
general, este proceso incluye un conjunto de tareas entre las que se encuentran la actualización
de la representación de los documentos que pertenecen al perfil, la actualización de estructuras
internas del sistema, el ajuste de los umbrales y parámetros que utiliza el algoritmo, entrenar
nuevamente el clasificador utilizado, entre otras. No en todos los casos se realizan todas estas
tareas. En dependencia del tipo de representación del perfil utilizada y del clasificador
empleado en el sistema serán los pasos que debe seguir el algoritmo para realizar la
actualización del perfil de usuario.
1.5.3 Algoritmo de Filtrado Adaptativo de Documentos
El algoritmo propuesto en [Fonseca, 2008] pertenece al grupo de enfoques que afrontan el
problema del filtrado adaptativo como una tarea de Categorización de Textos. Este algoritmo
enfrenta el problema de la distribución irregular de los documentos representando el perfil por
medio de un conjunto de documentos. De esta forma el algoritmo es capaz de aprender la
distribución de los documentos en el perfil. El conjunto de documentos que conforman cada
perfil está dividido en dos clases: Relevantes y No Relevantes. Estas clases se construyen
empleando los documentos de muestras iniciales y aquellos con los cuales el usuario
retroalimenta al sistema. Para representar los documentos se utiliza el modelo vectorial y el
peso de un término t en un documento d se calcula mediante la expresión:
w(t, d) = 1 log ,
39. Capítulo1. Fundamentos Teóricos
32
donde TF(t, d) representa la frecuencia del término t en el documento d, dfR (ti) y dfNR(ti)
representan la cantidad de documentos relevantes y no relevantes respectivamente que
contienen al menos una vez al término ti. NR y NNR representan el total de documentos
relevantes y no relevantes respectivamente en el perfil.
Este algoritmo utiliza un clasificador basado en vecindad. Para calcular la vecindad es
empleada la regla αβ-NN. El cálculo del voto y la regla de decisión están dados por las
expresiones 1.1 del epígrafe 1.2.2 y 1.6 del epígrafe 1.2.3 respectivamente. Cada vez que llega
un nuevo documento se clasifica utilizando como conjunto de entrenamiento los documentos
de las clases Relevantes y No Relevantes que representan al perfil. Si el clasificador asigna el
documento a la clase Relevante, este es entregado al usuario. Este proceso se realiza para cada
perfil presente en el sistema.
El perfil se actualiza cada vez que el usuario brinda retroalimentación al sistema indicando
cuándo un documento recuperado es realmente relevante o no. Durante el proceso de
actualización se adiciona el documento a la clase correspondiente, Relevante o No Relevante,
y se calcula el peso de los términos en los documentos.
De forma general, el proceso de filtrado según el método propuesto en [Fonseca, 2008] se
puede expresar por el siguiente algoritmo:
I. Construcción de los perfiles iniciales P
Por cada perfil P:
i. Construir la clase Relevante con los documentos asignados por el usuario
La clase No Relevante estará inicialmente vacía
ii. Calcular el peso de cada término de los documentos presentes en el perfil
II. Proceso de clasificación.
Por cada documento d que arriba:
Por cada perfil P:
i. Para cada término t d calcular su peso
ii. Construir la vecindad αβ
iii. Calcular el voto de cada clase (Relevante y No Relevante)
iv. Si al aplicar la regla de decisión se asigna d a la clase Relevante, entregar
d al usuario
III. Actualización de los perfiles P
Para cada perfil P en el que se tiene retroalimentación del documento d:
40. Capítulo1. Fundamentos Teóricos
33
i. Asignar d a la clase correspondiente
ii. Actualizar el peso de los términos de todos los documentos del perfil
Este algoritmo considera que la representación de los documentos en un perfil no debe
suponer una distribución homogénea de los mismos y que la clasificación de un nuevo
documento solo está determinada por los documentos del perfil suficientemente cercanos a él.
Además, que el peso de un término está influenciado por su frecuencia en el documento al que
pertenece, pero también por su frecuencia entre los documentos de las clases Relevante y No
Relevante.
41. 34
Capítulo 2
Empleo de Algoritmos de Agrupamiento como
métodos de condensado
Los clasificadores basados en vecindad han sido extensamente empleados en las tareas de
Minería de Textos gracias a su relativa simplicidad de implementación y los buenos resultados
que obtienen durante el proceso de clasificación. Uno de los aspectos singularmente negativos
asociados a las distintas variantes conocidas de este tipo de clasificadores radica en la
necesidad de disponer de un conjunto de entrenamiento relativamente grande con el fin de
obtener buenos resultados. Esto conlleva a que el cálculo de la vecindad sea
computacionalmente costoso, lo que podría imposibilitar su aplicación en determinados
problemas reales donde es necesaria una respuesta rápida por parte del clasificador.
Con el objetivo de acelerar el cálculo de los vecinos más cercanos se han desarrollado una
amplia variedad de técnicas, entre ellas, los métodos de condensado. Estos permiten reducir la
talla del conjunto de entrenamiento sin que se produzca un incremento significativo del error
de clasificación. Los métodos de condensado eliminan la redundancia de información,
presente en el conjunto de entrenamiento original, construyendo un nuevo conjunto de
entrenamiento (conjunto condensado) donde sólo estén aquellos prototipos que aporten
información relevante al clasificador.
(a) Conjunto de entrenamiento inicial (b) Conjunto condensado
Figura 2.1: Al aplicar un método de condensado sobre (a) se eliminan todos los
documentos del interior de las clases, obteniéndose un nuevo conjunto (b) donde sólo
estén los documentos cercanos a la frontera de decisión. Las líneas discontinuas
representan la frontera de decisión.
42. Capítulo2. Empleo de Algoritmos de Agrupamiento como métodos de condensado
35
La mayoría de los algoritmos de condensado tratan de mantener en el conjunto de
entrenamiento sólo aquellos documentos que son muy cercanos a las fronteras de decisión,
como se muestra en la fig. 2.1. Se basan en el hecho de que para clasificar correctamente un
nuevo documento sólo es necesario tener bien definidas las fronteras de decisión entre las
distintas clases o categorías.
Estos algoritmos de condensado son sensibles al ruido. La presencia de documentos ruidosos
provoca que las fronteras de decisión obtenidas estén alejadas de las reales y sean muy
irregulares, afectando la reducción del conjunto de entrenamiento y el posterior desempeño de
los clasificadores. En la fig. 2.2 (b) se muestra el conjunto obtenido al aplicar un método de
condensado sobre un conjunto de entrenamiento con documentos ruidosos (fig. 2.2(a)).
(a) Conjunto de entrenamiento (b) Conjunto condensado
Figura 2.2: Sensibilidad al ruido de los métodos de condensado. Las líneas discontinuas
representan la frontera de decisión real y las líneas continuas las obtenidas por el
algoritmo.
Algunos algoritmos tratan de evitar la presencia de ruido empleando técnicas de edición antes
de condensar el conjunto de entrenamiento. Los algoritmos de edición intentan eliminar del
conjunto de entrenamiento aquellos prototipos erróneamente etiquetados y, al mismo tiempo,
limpiar los posibles solapamientos entre regiones de clases distintas [Vázquez, 2008]. Pero
esto a su vez impide su aplicación en colecciones de documento que presentan un alto grado
de solapamiento entre las clases.
Los métodos de condensado son incapaces de eliminar el desbalance entre las clases
(presencia de un número mucho mayor de documentos en unas clases que en otras), tal como
se muestra en la fig. 2.3. Las categorías más representadas generalmente poseen un mayor
número de documentos cercanos a la frontera de decisión que otras. Esto provoca que al
aplicar un algoritmo de condensado, el cual obtiene un conjunto compuesto por los
documentos cercanos a la frontera, se mantenga el desbalance entre las clases.
43. Capítulo2. Empleo de Algoritmos de Agrupamiento como métodos de condensado
36
(a) Conjunto de entrenamiento (b) Conjunto condensado
Figura 2.3: En (a) una clase está representada por un número mayor de documentos que
otra. Al aplicar un método de condensado sobre (a) se obtiene un conjunto (b) que
mantiene el desbalance entre las clases.
El desempeño de los algoritmos de condensado, al ser aplicados a colecciones de documentos,
se ve afectado producto de la alta dimensionalidad propia de los documentos textuales
(elevado número de rasgos o características que lo describen) y por la presencia de un gran
número de clases. En estos casos las fronteras de decisión son muy complejas y resulta difícil
representarlas. Por último, destacar que la gran mayoría de los métodos de condensados
asumen como clasificador la regla del vecino más cercano (NN), sin considerar otras reglas
basadas en vecindad.
2.1 Algoritmos de Agrupamiento como métodos de condensado
Las algoritmos de condensado se han empleado con éxito en colecciones de datos
estructurados. Sin embargo, no se ha estudiado con igual intensidad el comportamiento de
estos algoritmos en la Minería de Textos.
En las colecciones de documentos el conjunto de muestras de una clase o categoría puede estar
dividido en varias subclases más específicas que responden a la temática original. Los
métodos de condensado tradicionales basan su desempeño en determinar cuáles son los
documentos más cercanos a las fronteras de decisión, pero no tienen en cuenta la estructura de
las clases en el espacio de representación. Esto conlleva a que las categorías que estén
formadas por varias zonas en el espacio no sean correctamente representadas por los
documentos escogidos para conformar el nuevo conjunto de entrenamiento.
Con el objetivo de considerar la estructura de las clases se propone un nuevo método de
condensado. El mismo determina cada una de las subclases en que se divide una clase y
elimina toda la información empleada para representar dichas zonas que resulte redundante.
44. Capítulo2. Empleo de Algoritmos de Agrupamiento como métodos de condensado
37
Nuestra propuesta consiste en aplicar un algoritmo de agrupamiento al conjunto de muestras
de cada clase. El conjunto de entrenamiento condensado estará compuesto por los centroides
de los grupos obtenidos en cada una de las clases. En este trabajo consideramos el centroide de
un grupo como la media de los objetos pertenecientes al grupo.
Al aplicar un algoritmo de agrupamiento sobre el conjunto de muestras de una clase este
obtiene los grupos de objetos que abordan un subtema común. Por ello, al sustituir este grupo
de documentos por el centroide se reduce el número de muestras y se mantiene la
representatividad del subtema en la matriz de aprendizaje final. De esta forma se reduce el
conjunto de entrenamiento del clasificador manteniendo la estructura interna de cada una de
las clases del problema.
Para resumir, los pasos de nuestra propuesta se muestran en el siguiente algoritmo:
Entrada: X Conjunto de entrenamiento
Salida: S Conjunto condensado
Método:
1- Inicialización: S
2- Para cada clase ωi Ω (clases en que se divide X):
2.1- R = {di | di ωi} conjunto de prototipos de la clase ωi
2.2- G = Agrupamiento (R), aplicar un algoritmo de agrupamiento
al conjunto R
2.3- Para cada grupo gi G:
2.3.1- ci = Centroide (gi), ci es el centroide del grupo gi
2.3.2- Etiquetar ci como prototipo de la clase ωi
2.3.3- S = S {ci}
A diferencia de los métodos de condensado tradicionales; esta propuesta no asume
independencia entre las clases ni basa su funcionamiento en búsqueda de documentos cercanos
a la frontera de decisión, sino que reduce el conjunto de entrenamiento respetando la estructura
de la clase. Esto conlleva a que pueda ser aplicada en colecciones de documentos donde existe
solapamiento entre las diferentes clases del problema. Por otro lado, el empleo de algoritmos
de agrupamiento provoca que la propuesta sea menos sensible a la presencia de objetos
45. Capítulo2. Empleo de Algoritmos de Agrupamiento como métodos de condensado
38
ruidosos en el conjunto de entrenamiento. La fig. 2.4 muestra su desempeño ante la presencia
de ruido en el conjunto de entrenamiento. En la misma se puede observar que la frontera
obtenida es menos irregular que la obtenida por los métodos tradicionales.
(a) (b) (c)
Figura 2.4: En (a) y (b) se muestran las regiones que conforman a cada una de las clases y
la frontera de decisión obtenida por un algoritmo de condensado tradicional. En (c)
aparece el conjunto de entrenamiento después de aplicar nuestra propuesta y la frontera de
decisión obtenida.
El desbalance entre las clases es un problema común en la Minería de Textos que afecta el
desempeño de los clasificadores basados en vecindad. En esta propuesta, el número de
muestras presentes en el conjunto reducido estará condicionado, únicamente, por el número de
grupos diferentes obtenidos. Esto conlleva a que en el conjunto condensado obtenido el
desbalance entre las clases sea inferior al existente en el conjunto de entrenamiento inicial
como se puede apreciar en la fig. 2.5.
(a) (b)
Figura 2.5: Reducción del desbalance entre las clases. En (a) se muestra el conjunto de
entrenamiento inicial y las subclases de cada una de las clases. En (b) se tiene el resultado
de aplicar el método propuesto.
En la fig. 2.5 (a) se muestra un conjunto de entrenamiento en el que existe desbalance entre
sus dos categorías. Al aplicar nuestra propuesta se descubren las distintas regiones de cada
46. Capítulo2. Empleo de Algoritmos de Agrupamiento como métodos de condensado
39
clase y se obtienen las nuevas muestras que representarán a estas (fig. 2.5 (b)). Nótese que en
la fig. 2.5 (a) la relación entre las clases era de 13 y 7, mientras que luego de aplicar la
reducción la relación es de 5 y 4.
2.2 Experimentos
En este epígrafe se describen los experimentos realizados con el objetivo de evaluar la
efectividad del método propuesto en dos de las tareas de la Minería de Textos: la
Categorización de Documentos y el Filtrado Adaptativo de Documentos.
2.2.1 Medidas de Evaluación
Entre las medidas de evaluación más empleadas se encuentra la medida F1 [Rijsbergen, 1979],
en ella se comparan las clases obtenidas manualmente por un experto con las obtenidas al
aplicar un método de clasificación.
La medida F1 combina los factores de relevancia y precisión empleados en el área de
Recuperación de Información. La relevancia y la precisión se pueden definir para una clase o
tópico como [Yang, 1999]:
relevancia si 0. En otro caso, está indefinida.
precisión si 0. En otro caso, está indefinida.
Donde es el número de documentos de la clase que fueron clasificados correctamente, la
cantidad que se clasificaron en la clase sin pertenecer a ella y c el número de documentos que
conforman el tópico, según la clasificación manual, pero no fueron clasificados en él. La
medida F1 se define entonces para una clase como:
F1 2 ·
· ó
ó
La fórmula anterior indica el grado de similitud por clase entre la clasificación manual y la
obtenida por el método. La calidad global se analizó tomando en cuenta las medidas: F1micro-
promediada (F1-Micro) y F1macro-promediada (F1-Macro). La medida F1-Micro da el
mismo peso a cada documento, por tanto, se considera un promedio por documento. Mientras
que la medida F1-Macro da un peso similar a cada tópico, por lo que se considera un
promedio por tópico.
47. Capítulo2. Empleo de Algoritmos de Agrupamiento como métodos de condensado
40
La medida F1-Micro se calcula de la siguiente forma:
F1-Micro 2 ·
· ó
ó
micro-relevancia ∑
micro-precisión
1
∑ ó1
donde Nclases corresponde a la cantidad de clases.
La medida F1-Macro se calcula como la media de la medida F1 para cada clase:
F1-Macro ∑ 1
Cuanto mayor sea el valor de estas medidas mejor será la calidad de la clasificación lograda
por el método.
2.2.2 Categorización de Documentos
En la Categorización de Documentos, la fase de aprendizaje del clasificador se realiza una sola
vez antes de comenzar el proceso de clasificación. Los experimentos realizados estuvieron
enfocados en comparar los algoritmos de condensado tradicionales y nuestra propuesta en
cuanto a:
a) los resultados obtenidos por los clasificadores basados en vecindad al emplear el
conjunto de entrenamiento obtenido por el algoritmo de condensado.
b) reducción del conjunto de entrenamiento.
Adicionalmente, se compararon los resultados de nuestra propuesta contra los alcanzados por
el clasificador con el conjunto de entrenamiento inicial.
2.2.2.1 Colecciones de Prueba
Para evaluar la calidad del algoritmo propuesto se utilizaron 18 colecciones de documentos en
los idiomas español e inglés, provenientes de diversas fuentes. En la tabla 2.1 se muestran las
principales características de cada una de estas colecciones.
48. Capítulo2. Empleo de Algoritmos de Agrupamiento como métodos de condensado
41
Colección Fuente
Cantidad de Docs.
Dimensión
Tópicos
Entren. Prueba Cantidad Tamaño Prom.
reu10 Reuters 5920 2313 18486 10 910
reu90 Reuters 7058 2740 32928 90 136
reu115 Reuters 7063 2740 32940 115 107
tdt TDT2 6589 3235 55112 193 58
eln TREC-4 3841 1987 84344 50 158
afp TREC-5 469 226 12575 25 32
classic CLUTO 2366 4730 41681 4 1773
hitech CLUTO 760 1530 22498 6 383
k1a CLUTO 785 1554 21839 20 117
k1b CLUTO 781 1557 21839 6 390
la12 CLUTO 2094 4184 30125 6 1046
new3 CLUTO 3181 6376 70822 44 217
ohscal CLUTO 3725 7436 11465 10 1116
re0 CLUTO 505 998 2886 13 115
re1 CLUTO 560 1096 3758 25 66
reviews CLUTO 1358 2710 36746 5 813
sports CLUTO 2863 5717 27673 7 1225
wap CLUTO 528 1031 8460 20 78
Tabla 2.1: Descripción de las colecciones de prueba.
Las colecciones reu10, reu90 y reu115 [Debole, 2005] son los subconjuntos más empleados
de la colección Reuters-215781
distribución 1.0. La colección Reuters-21578 está compuesta
por 12902 noticias en idioma inglés clasificadas en 135 categorías relacionadas con la
economía. Esta colección se divide (según la división “ModApté”) en un conjunto de
entrenamiento de 9603 documentos y en un conjunto de prueba de 3299 documentos. La
colección reu10 está compuesta por las 10 clases con el mayor número de documentos de
entrenamiento. La reu90 contiene las 90 clases que presentan al menos un documento en el
conjunto de entrenamiento y uno en el de prueba. Por último, la reu115 posee las 115 clases
que tienen al menos un documento en el conjunto de entrenamiento.
La colección tdt corresponde a la TDT2 versión 4.0 [NIST, 1998] que se emplea en las
competencias internacionales de Detección y Seguimiento de Tópicos. Esta colección contiene
1
Disponible en http://kdd.ics.uci.edu.
49. Capítulo2. Empleo de Algoritmos de Agrupamiento como métodos de condensado
42
9824 noticias en inglés divididas en 193 tópicos, publicadas en 1998 por dos agencias de
noticias, dos programas de radio y dos programas de televisión. La colección eln, empleada en
la TREC-4 [Robertson, 1995], está conformada por 5829 artículos en español agrupados en 50
categorías, publicados por el periódico mexicano “El Norte” en el año 1994. La colección afp
proviene de la conferencia TREC-52
y contiene artículos periodísticos escritos en español,
publicados por la agencia de noticias AFP entre los años 1994 y 1996, clasificados en 25
tópicos. De esta colección disponemos solamente de los 695 artículos publicados en el año
1994.
El resto de las colecciones fueron seleccionadas de la herramienta CLUTO suministrada por el
Dr. C. George Karypis [Karypis, 2004] y pueden ser descargadas desde su web3
. Estas
colecciones presentan la característica de traer el peso de cada término de un documento, por
lo que no es necesario aplicar ningún esquema de pesado para obtenerlo.
En la tabla 2.1 la tercera y cuarta columnas contienen el número de documentos presentes en
el conjunto de entrenamiento y en el conjunto de prueba respectivamente. La columna
nombrada “Dimensión” contiene la cantidad de términos diferentes presentes en la colección.
La última columna se refiere a la cantidad promedio de documentos por tópico.
En las colecciones tdt, eln y afp se tomó la tercera parte de los documentos como conjunto de
prueba y el resto como conjunto de entrenamiento, las clases que tenían menos de tres
documentos fueron eliminadas. En la colecciones reu10, reu90 y reu115 se respetó la división
“ModApté”. En las demás colecciones se tomó la tercera parte como conjunto de
entrenamiento y el resto como conjunto de prueba. El dividir las colecciones de distintas
formas permite obtener una mayor representatividad de los posibles casos reales.
La selección de colecciones de diferentes tamaños y dimensiones nos permitió estudiar el
comportamiento de nuestra propuesta y los métodos tradicionales de condensados ante
colecciones de documentos con características variadas.
2.2.2.2 Descripción de los experimentos
Con el objetivo de evaluar el desempeño del método propuesto se comparó este con los
algoritmos CNN, RNN, MCS y MSS. Para ello, se aplicaron los métodos mencionados al
2
Text REtrieval Conference. http://trec.nist.gov.
3
http://glaros.dtc.umn.edu/gkhome/fetch/sw/cluto/datasets.tar.gz
50. Capítulo2. Empleo de Algoritmos de Agrupamiento como métodos de condensado
43
conjunto de entrenamiento de cada colección y el conjunto condensado obtenido se empleó
para clasificar los documentos de prueba.
En los experimentos se emplearon los clasificadores k-NN y αβ-NN. En ellos, el voto fue
calculado por la expresión 1.3 del epígrafe 1.2.2 y la regla de decisión por la expresión 1.6 del
epígrafe 1.2.3. Los algoritmos de agrupamiento empleados en nuestro método, para descubrir
los grupos por clase, fueron: GLC, Compacto Incremental, Estrellas Grado y SinglePass (con
solapamiento). De esta forma se pudo evaluar el comportamiento de la propuesta al utilizar
distintos esquemas de agrupamiento.
Para representar los documentos se utilizó el conocido modelo vectorial. En algunas
colecciones los términos ya poseían un peso determinado, en el resto, se empleó para calcular
el peso de cada término el esquema TF con la normalización del coseno. La semejanza entre
dos documentos se calculó con la medida del coseno.
Se asignó diferentes valores a los parámetros de cada algoritmo para que los resultados
experimentales reflejaran su mejor desempeño. En el clasificador k-NN al parámetro k se le
asignaron los valores 1, 3, 5, 7, 9, 11, 13 y 15. En la regla αβ-NN los valores de α fueron 0.02,
0.05, 0.07, 0.1, 0.15, 0.2, 0.25 y 0.3 y el valor de β se fijó en 0.1, pues su función es sólo
garantizar que los documentos muy lejanos no influyan en la clasificación. Al umbral μ
utilizado por la regla de decisión se le asignaron los valores 0.15, 0.2, 0.25, 0.3 y 0.35. El
valor del parámetro β en los algoritmos de agrupamiento se tomó igual a 0.25. Luego, para
cada algoritmo, se escogió la combinación de parámetros que permitió obtener los mejores
resultados.
Para estimar la calidad de la clasificación se emplearon las medidas F1-Micro y F1-Macro. La
eficacia de los métodos de condensado en cuanto a compresión del conjunto de entrenamiento
se determinó por el porciento de reducción del mismo. El cual se calcula como la razón entre
el número de muestras eliminadas y el total original.
2.2.2.3 Resultados experimentales
En este subepígrafe se describen los resultados obtenidos en los experimentos. Primero se
mostrarán las tablas que contienen los resultados de la clasificación y luego los porcientos de
reducción logrados por cada método de condensado en las distintas colecciones.
En las tablas, la columna “Sin Cond.” hace referencia a la clasificación lograda sin
modificarse el conjunto de entrenamiento. El resto de las columnas, con nombre de algoritmo,
muestran la clasificación conseguida cuando los conjuntos de entrenamiento son condensados
por el método correspondiente. En el caso de las columnas que hacen referencia a los
51. Capítulo2. Empleo de Algoritmos de Agrupamiento como métodos de condensado
44
algoritmos de agrupamiento, corresponde a usar estos dentro de nuestra propuesta. La fila
“Prom.” se refiere al promedio de los resultados obtenidos por los algoritmos en cada
colección. El mejor resultado en cada colección es resaltado en negrita (considerando
solamente los métodos de condensado).
En las tablas 2.2 y 2.3 se muestran los valores de F1-Micro y F1-Macro respectivamente,
alcanzados por el clasificador k-NN con los diferentes conjuntos de entrenamiento.
Colecc.
Sin
Cond.
Estrella Compacto GLC SinglePass CNN RNN MCS MSS
reu10 0.82 0.83 0.8 0.65 0.83 0.81 0.81 0.77 0.8
reu90 0.46 0.44 0.4 0.32 0.45 0.45 0.45 0.44 0.45
re115 0.45 0.42 0.4 0.31 0.44 0.46 0.44 0.43 0.45
tdt 0.82 0.78 0.77 0.75 0.81 0.78 0.77 0.76 0.78
eln 0.6 0.58 0.55 0.35 0.59 0.57 0.57 0.55 0.58
afp 0.79 0.79 0.8 0.78 0.77 0.72 0.74 0.73 0.77
classic 0.93 0.91 0.9 0.66 0.93 0.9 0.88 0.89 0.92
hitech 0.67 0.67 0.68 0.57 0.68 0.64 0.64 0.64 0.67
k1a 0.64 0.65 0.64 0.58 0.64 0.61 0.61 0.61 0.64
k1b 0.87 0.82 0.89 0.72 0.87 0.85 0.84 0.86 0.84
la12 0.77 0.75 0.8 0.64 0.78 0.78 0.76 0.76 0.75
new3 0.78 0.75 0.76 0.56 0.78 0.76 0.75 0.75 0.77
ohscal 0.65 0.64 0.63 0.49 0.65 0.63 0.61 0.63 0.64
re0 0.71 0.67 0.66 0.59 0.68 0.67 0.67 0.68 0.71
re1 0.65 0.65 0.67 0.55 0.67 0.64 0.65 0.63 0.64
reviews 0.89 0.89 0.91 0.78 0.9 0.88 0.87 0.88 0.86
sports 0.94 0.94 0.93 0.73 0.93 0.91 0.89 0.91 0.93
wap 0.63 0.64 0.63 0.59 0.64 0.62 0.6 0.62 0.63
Prom. 0.726 0.712 0.712 0.59 0.724 0.704 0.696 0.697 0.712
Tabla 2.2: Valores de la medida F1-Micro obtenidos con el clasificador k-NN.
Según los datos reflejados en la tabla 2.2, al emplear el algoritmo SinglePass en nuestra
propuesta se obtiene en 10 colecciones mejores resultados en la clasificación que los logrados
por el resto de los métodos de condensados. Además, supera en 5 colecciones los valores
alcanzados sin reducir el conjunto de entrenamiento. Por su parte, los algoritmos Compacto y
Estrella muestran un desempeño equivalente, superando en 6 y 4 colecciones respectivamente