El documento presenta una introducción al Laboratorio de Ingeniería Cognitiva y Semántica (LiNCS) de la École de technologie supérieure en Montreal. Explica brevemente las técnicas de minería de textos y análisis de textos, e ilustra su aplicación en tres proyectos: Textrix para detectar discursos peligrosos en internet, Correspondencia para medir la similitud entre modelos, y Binocle para extraer conocimiento de documentos corporativos a través del análisis de textos.
1. isummit 2010
Minería y «Text Analytics»
Sylvie Ratté, Ph.D.
Directora del Laboratorio de Ingeniería Cognitiva y Semántica
École de technologie supérieure, Montréal, QC
3. 1. Breve presentación
LiNCS y la ÉTS
«Visualización» de textos
1. «Text analytics» y minería de textos
2. Técnicas
3. Proyecto Binocle
4. 4
1. Breve presentación: LiNCS / ÉTS1. Breve presentación: LiNCS / ÉTS
ÉTS - École de technologie supérieure
•'Top' 5 de las 45 escuelas y
facultades de ingeniería en Canadá
•Uno de cada cuatro Ingenieros de
la Provincia de Québec se graduó
de la ETS
•Más de 4 500 estudiantes
•Edificios ultra moderno
•1000 unidades en las residencias
5. 5
1. Breve presentación: LiNCS / ÉTS1. Breve presentación: LiNCS / ÉTS
LiNCS - Laboratorio de Ingeniería Cognitiva y Semántica
Focos en el trazado entre la
descripción escrita en lenguaje
natural y su representación
visual (modelos, diagramas y
mapas conceptuales).
Minería de textos
Minería del Web
Minería de redes
Modelos de lenguaje
Sylvie Ratté y Christian
Desrosiers
6. grupos y classificaciones
6
1. Breve presentación: «Visualización» de textos1. Breve presentación: «Visualización» de textos
Dar sentido a la
informaciónDependiendo
del dominio...Según las
especializaciones ...De
acuerdo con las
preferencias del usuario
...Según los requisitos...
7. alertas
7
1. Breve presentación: «Visualización» de textos1. Breve presentación: «Visualización» de textos
Dar sentido a la
informaciónDependiendo
del dominio...Según las
especializaciones ...De
acuerdo con las
preferencias del usuario
...Según los requisitos...
8. representación del dominio
8
1. Breve presentación: «Visualización» de textos1. Breve presentación: «Visualización» de textos
Dar sentido a la
informaciónDependiendo
del dominio...Según las
especializaciones ...De
acuerdo con las
preferencias del usuario
...Según los requisitos...
9. representación de procesos
9
1. Breve presentación: «Visualización» de textos1. Breve presentación: «Visualización» de textos
Dar sentido a la
informaciónDependiendo
del dominio...Según las
especializaciones ...De
acuerdo con las
preferencias del usuario
...Según los requisitos...
10. 1. Breve presentación
2. «Text analytics» y minería de textos
Porque los textos?
Porque es difícil?
Porque es fácil?
1. Textrix (Anastasia)
2. Correspondencia
3. Binocle
11. 12
2. «text analytics» y Minería de textos: porque los textos?2. «text analytics» y Minería de textos: porque los textos?
Estimación:
80%-85% de los datos disponibles son textos LN (lenguajes
naturales)
Ejemplo en Biotecnología:
80% del conocimiento in artículos científicos
Vamos a ser optimista : 60 artículos / semana ...!
de los cuales: 10% son interesantes... 6 / semana, 300 / años
MedLine: publica 10 000 artículos / mes !!!
Chemical Abstract Registry: 4000 elementos / día,
2.5 millones en 2004
12. 13
2. «text analytics» y Minería de textos: porque los textos?2. «text analytics» y Minería de textos: porque los textos?
Extracción de relaciones en textos de biomedicina
Análisis de las diferencias entre descripciones en LN
y «workflows»
Informaciones mobiles sobre medicamentos por SMS
en LN
Buscar defectos en requisitos de confidentialidad
Análisis de intenciones humanas
Construcción automática de diagramas UML
Integración de modelos de procesos de negocios
con documentos de «Governance»
Clasificación automática de reportes de radiología
Extracción de las interacciones entre proteínas
13. 14
Natural Language Processing
NLP
Minería de textos
MT
IR
Busceda de information
(information retrieval)
Semantic Web
Web 2.0
Text Analytics
Analítica de
textos
2. «text analytics» y Minería de textos2. «text analytics» y Minería de textos
14. 15
QuickTime™ and a
xvid decompressor
are needed to see this picture.
2. «text analytics» y Minería de textos: porque es difícil?2. «text analytics» y Minería de textos: porque es difícil?
15. 16
• I put the bouquet of flowers that you gave me for Mother's day
in the vase that you gave me for my birthday on the chest of
drawers that you gave me for armistice day
• 4862 arbres syntaxiques (Church & Patil 82)
2. «text analytics» y Minería de textos: porque es difícil?2. «text analytics» y Minería de textos: porque es difícil?
16. 17
2. «text analytics» y Minería de textos: porque es difícil?2. «text analytics» y Minería de textos: porque es difícil?
George W. Bush pensaba que tranquilamente podría
terminar su mandato después de una gira en Irak. En una
conferencia de prensa un periodista lanzó, sin golpearlo,
dos zapatos e lo insultó cuando éste dio la mano
al primer ministro iraquí en su oficina en
Bagdad.Mientras los dos hombres se reunieron en el
despacho privado del primer ministro Nouri al-Maliki, un
periodista iraquí saltó y lanzó sus zapatos al presidente
de los EE.UU..
Quien dio la
mano al ministro ?
Quien dio la
mano al ministro ?
La oficina de
quien?
La oficina de
quien?
el periodista y Bush?
el ministro y el
periodista?
Bush y el ministro?
el periodista y Bush?
el ministro y el
periodista?
Bush y el ministro?
19. 20
…
tokenizer+pos-tagger
lemmatizer
chunker
taxonomy
24
2. «text analytics» y Minería de textos: porque es fácil?2. «text analytics» y Minería de textos: porque es fácil?
1 1 3
1 2 1
4 1 1
documento 1
documento 2
documento 3
Con una representación simple se puede hacer mucho
gradualmente, pasar a una representación mas «semántica»
Palabras
Raíces de palabras
Grupos de palabras
Conceptos
20. el Colonel Rubio ha estrangulado a la Señorita Amapola sobre el balcon con una cuerda.
SN
SN SN SNSVSV
SVSV SP SP
SVSV
SVSV
Frase
SN SN SN SNSV
21
2. «text analytics» y Minería de textos: porque es fácil?2. «text analytics» y Minería de textos: porque es fácil?
por 90% de los casos, no es necesario de tener una
representación completa
21. 1. Breve presentación
2. «Text analytics» y minería de textos
3. Textrix (Anastasia)
Descripción
Técnicas
Particularidades
1. Correspondencia
2. Binocle
22. 23
3.Textrix: Descripción3.Textrix: Descripción
Encontrar las personas peligrosas sobre el Internet
VirginiaTech (transcripción de mensaje sobre
video)Colombine (transcripción de
«journal»)Dawson (blog)LA Fitness Gym (sitio web)
...
Objetivo : alertar una persona para revisar el caso
25. 1. Breve presentación
2. «Text analytics» y minería de textos
3. Textrix (Anastasia)
4. Correspondencia
Concepto general
Aplicaciones
Particularidades
1. Binocle
26. 27
4. Correspondencia: Concepto general4. Correspondencia: Concepto general
Evaluar la similitud entre dos modelos
Entre modelos extraídosde documentosde datos
Entre un modelo que pre-existe (ontología del
dominio, estándar) y un modelo extraído
• Entre un modelo que pre-existe (ontología del
dominio, estándar) y un modelo extraído
28. 29
4. Correspondencia: Particularidades4. Correspondencia: Particularidades
Multidisciplinario
Lingüística
Ontología
Modelos de negocios
Minería de procesos
Técnicas exploradas: Medidas semánticas
29. 1. Breve presentación del LiNCS / ÉTS
2. «Text analytics» y minería de textos
3. Textrix (Anastasia)
4. Correspondencia
5. Binocle
Descripción
Ejemplo de «text analytics»
30. 32
Las empresas modernas generan documentos…
… en cientos …
… en miles …
5. Proyecto Binocle: descripción5. Proyecto Binocle: descripción
31. 33
Misión
Descripción de puestos
Normas
Política interna
Formularios
Estándares
Contratos
Procesos de negocio
Planificación estratégica
Minutos
5. Proyecto Binocle: descripción5. Proyecto Binocle: descripción
32. 34
Esencial para la evolución de la organización
Necesario para la formación de los interesados
Un activo estratégico
Pero :
Complejo
Costoso
Difícil
5. Proyecto Binocle: descripción5. Proyecto Binocle: descripción
Controlar :
33. 35
« El registro revisa cada aplicación. »« El registro revisa cada aplicación. »
Un experto analiza las frases pertinentes del ámbito
« El registro revisa cada aplicación. »registro aplicaciónrevisa
Registro Aplicaciónrevisa
5. Proyecto Binocle: descripción5. Proyecto Binocle: descripción
Análisis tradicional de textos
35. 37
?
5. Proyecto Binocle: Ejemplo de «text analytics»5. Proyecto Binocle: Ejemplo de «text analytics»
Metodología exploratoria de
documentos reales a través de una
cadena iterativa de tratamiento.
36. 38
EXTRACCION DE
CONCEPTOS
DEFINICION DE
LAS RELACIONES
REPARTO DE LAS
FUNCIONES
A
B
C
D
A
B
C
DE
F
E
F
5. Proyecto Binocle: Ejemplo de «text analytics»5. Proyecto Binocle: Ejemplo de «text analytics»
• Extracción de los términos candidatos • Evaluación
de la pertinencia • Modelo del conocimiento
38. 40
Perfil de proyecto y evaluación de los riesgos
proyecto
Perfil de proyecto
evaluación de los riesgos
Perfil
evaluación
riesgos
5. Proyecto Binocle: Ejemplo de «text analytics»5. Proyecto Binocle: Ejemplo de «text analytics»
39. ConclusionConclusion
Características de los proyecto
Multidisciplinario
Técnicas mezcladas con semántica
Aplicaciones innovadoras con impactos reales:
sobre la productividad
sobre la competitividad
40. 42
Una invitación de minería en el sector educativoUna invitación de minería en el sector educativo
• http://www.kdd.org/kdd2010/kddcup.shtml
• How generally or narrowly do students learn?
• How quickly or slowly?
• Will the rate of improvement vary between students?
• What does it mean for one problem to be similar to another?
• It might depend on whether the knowledge required for one
problem is the same as the knowledge required for another.
• But is it possible to infer the knowledge requirements of
problems directly from student performance data, without
human analysis of the tasks?
• This year's challenge asks you to predict student performance
on mathematical problems from logs of student interaction
with Intelligent Tutoring Systems.
41. Referencias
lincs.etsmtl.ca
• Ratté, S., Ménard, P.A., Text mining and Text Analytics, in S. Ratté, F. Padilla (eds), Data
Mining and Text Analytics, UAA Press, Mexico (à paraître).
• Ménard, P.A., Ratté, S. “Classifier-based acronym extraction for business documents, Knowledge
and Information Systems, Online First, 2010.
• Cryans, J-D, Ratté, S., Champagne, R. Adaptation of Apriori to MapReduce to build a warehouse
of relations between named entities accross the Web, 2nd International Conference on
Advances in Databases, Knowledge, and Data Applications, Menuires, France, avril
2010.Tardif, O., Ratté, S. A Lightweight Pronoun Resolution Algorithm for French Corporate
Texts, ICACTE - International Conference on Advanced Computer Theory and Engineering,
IEEE Computer Society, Phuket, Thailande, 2008, pp. 714 – 718.Ratté, S., Njomgue, W.,
Ménard, P.A. Highlighting document’s structure, World Academy of Science, Engineering and
Technology 31, 2007, pp. 34-38.
Notas del editor
Voy a empezar con una breve presentacion de la ETS y de mi laboratorio
Despues vamos a ofrecer una vista general del text analytics y de la mineria de textos
Finalmente, termino esta ponencia con la breve presentacion de tres proyecto global de investigaciones.
primero : que es la ETS que es el LiNCS y que es la visualizacion de textos
La ETS o escuela de tecnologia superior se ubica en Montreal, Quebec Canada. La ETS forma Ingenieros civiles, de electricidad, de produccion automatisada, de engeneria de software y de tecnologia de informacion. Tiene tambien un programa graduado en Innovation.
Dos profesors: yo tengo una maestria en matematic-informatica, specializacion en Inteligencia Artificial, un doctorado en linguistica computacional y un postdoctorado en ciencias cognitivas del MIT. Mi collega, Christian Desrosiers tiene una maestria en matematica, un doctorado en informatica con especialidad en mineria de redes.
La idea detras lo que llamé la "vizualizacion" de textos, es muy sencilla y consiste en dar sentido a la informacion escrita en lenguaje natural. Pero este requisito se debe realizar: dependiendo del dominio, segun las especializaciones, de acuerdo con las preferencias del usarios, segun los requisitos del contexto de trabajo. Por supuesto, algunas tareas tipicas de minerias, como la clasificacion o la construccion de grupos similars estan parte de las tecnicas que se necesitan.
Dar sentido puede tambien decir que se puede proponer etiquetas adequadas para documentos sobre el Web o sobre otro tipos de base
dar sentido y visualizar puede significar: extraer la informacion interesante de los textos y representarla de manera adequada.
segun que son los conceptos estaticos que nos interesan o los conceptos dinamicos.
Pasamos al dominio "text analytics" y las mineria de textos. Vamos a contestar a tres preguntas: porque los textos, porque es dificil, porque es facil...
La principal rason de escoger los textos es que hay muchas informaciones en formato textual. si ustedes son super lectores, ...
Las aplicaciones se realizan en biologia, en medecina, en ingeneria de software, en ciencias cognitivas, en informatica mobile, en realidad hay una aplicacion potencial cada vez que se encuentra un pedazo de texto.
Historicamente, lo que se llama "text analytics" nacio el los anos 2000. Es el resultado de la union de las tecnicas (mas simbolicas, mas tradicional) del tratamiento de lenguage natural (NLP), de las tecnicas de aprentisaje (con la mineria de textos, mas estastistica), de la tecnicas de la busceda de informacion (por la evaluacion) y de las tecnicas asociadas al web semantico.
Ahora porque es dificil. Primero: es dificil cuando queremos "comprender" un texto. En este caso, Es dificil porque el lenguaje natural es ambiguo.
Ahora porque es dificil. Primero: es dificil cuando queremos "comprender" un texto. En este caso, Es dificil porque el lenguaje natural es ambiguo.
muy muy muy ambiguo
Es dificil porque, escribiendo textos, no queremos fastidiar la gente. Asi utilizamos muchas palabras y grupos de palabras que refieren al mismo concepto y utilisamos pronombre para evitar la redundancia.
Y si queremos tratar de documentos en general, es dificil porque un documento contiene: titulos, imagenes, tablas y graficos ademas del texto.
Finalmente, es dificil porque un mismo concepto puede tener muchas formas. Pero, al mismo tiempo, y de manera que surpriendo los primeros investigadores, se puede obtener resultados bastante bueno con herramientas simples. A cada uno de escoger hasta que punto es necesario de solucionar las dificuldades.
Se realizo que podemos caminar mucho con una representacion donde los documentos estan representados con vectores de frequencias (hay mas ...). La cuestion es de saber que vamos a contar? las frequencias de las palabras? en este caso vamos a necesitar un tokenizer para reconocer las palabras y quizas una lista de palabras que no queremos (la, los, uno, un, tu, nos, que, cual, etc.) y posiblemente un pos-tagger, si queremos eliminar los ajetivos y los adverbios. Vamos a contar frequencias de raices de palabras (no queremos contar canto, cantamos de manera separada pero solamente una vez). En este caso vamos a necesitar un lemmatizer. Si son los grupos de palabras que nos interesan, necesitamos un chunker, si son los conceptos que nos interesan, necesitaremos un taxonomias o una ontologia y una manera de establecer la relacion entre las formas y los conceptos. Cada etapa, es mas costoso pero no todos los problemas necesitan tanto.
De la misma forma, se pensaba que para comprender textos, se necesitaba construir una estructura completa. Por supuesto, hay algunos casos que si, pero por muchos tipos de aplicaciones, una estructura parcial es suficiente
Pasamos ahora a la breve presentacion de tres proyectos global que hacemos en el laboratorio. Textrix es el nombre de una aragna. Esta aragna...
esta aragna atravesa el Web para encontrar las personas desviadas susceptible de cometer un acto raro. En los casos recientes, ese tipo de persona se declara sobre blog, chat, forum o sitio web. Por el primero prototipo, teniamos textos variados de asesinos. Objetivo : alertar una persona para revisar el caso
Se utilizo una herramientas simple para sacar paginas del Internet. y dos tecnicas fueron comparadas
un estudiante de maestria en criminologia, un psicologo profesional, una linguista y un especialista en mineria de textos trabajan ahora sobre la continuacion del proyecto. Con el prototipo, se obtuvo resultados bastante interesantes.
Correspondencia no es un proyecto como tal sino un programa de investigacion con muchs aplicaciones potenciales. El concepto general
el concepto general es de evaluar....
de nuevo, un tal programs se necesita recursos en muchas disciplinas. A propositos, estamos explorando algunas medidas semanticas.
El proyecto Binocle contituye en punto de partida de toda la historia del laboratorio.
estabamos
esta documentación se presenta de muchas formas
Control de esta fuente de información es necesario
En el caso de Binocle queríamos ayudar el ingeniero de software a captar rápidamente los conceptos y relaciones generales (a un buen nivel de abstracción) del punto de vista de un ingeniero de software. Por eso los conceptos y relaciones extraidos son vizualizados en forma de modelo de dominio en UML.
el objetivo es de Realizar un sistema que permite traducir visualmente textos corporativos de definición de reglas de negocios en el contexto de la ingeniería de software.
Enfoque: Metodología exploratoria de documentos reales a través de una cadena iterativa de tratamiento.
Extracción de los términos candidatos • Evaluación de la pertinencia • Modelo del conocimiento
determinar los términos pertinentes del dominio; eliminar el ruido
de nuevo utilizamos una mezca de tecnicas: unas mas simbolicas y unas mas probabilisticas. Por ejemplo, identificamos con un «chunker» los expresiones largas y despues, aplicamos calculos de probabilidades para éliminar algunas y conservar otras.
En conclusion, podemos decir que todos los proyectos de text analytics y de mineria de textos son mutidisciplinario y usan de tecnicas mezcladas. Es la fuerza y el potencial. Y para terminar, como no hacer una invitacion a explorar otro problema de correspondencia?