SlideShare una empresa de Scribd logo
1 de 41
isummit 2010
Minería y «Text Analytics»
Sylvie Ratté, Ph.D.
Directora del Laboratorio de Ingeniería Cognitiva y Semántica
École de technologie supérieure, Montréal, QC
2
ProgramaPrograma
1. Breve presentación
2. «Text analytics» y minería de textos
3. Textrix (Anastasia)
4. Correspondencia
5. Binocle
1. Breve presentación
LiNCS y la ÉTS
«Visualización» de textos
1. «Text analytics» y minería de textos
2. Técnicas
3. Proyecto Binocle
4
1. Breve presentación: LiNCS / ÉTS1. Breve presentación: LiNCS / ÉTS
ÉTS - École de technologie supérieure
•'Top' 5 de las 45 escuelas y
facultades de ingeniería en Canadá
•Uno de cada cuatro Ingenieros de
la Provincia de Québec se graduó
de la ETS
•Más de 4 500 estudiantes
•Edificios ultra moderno
•1000 unidades en las residencias
5
1. Breve presentación: LiNCS / ÉTS1. Breve presentación: LiNCS / ÉTS
LiNCS - Laboratorio de Ingeniería Cognitiva y Semántica
Focos en el trazado entre la
descripción escrita en lenguaje
natural y su representación
visual (modelos, diagramas y
mapas conceptuales).
Minería de textos
Minería del Web
Minería de redes
Modelos de lenguaje
Sylvie Ratté y Christian
Desrosiers
grupos y classificaciones
6
1. Breve presentación: «Visualización» de textos1. Breve presentación: «Visualización» de textos
Dar sentido a la
informaciónDependiendo
del dominio...Según las
especializaciones ...De
acuerdo con las
preferencias del usuario
...Según los requisitos...
alertas
7
1. Breve presentación: «Visualización» de textos1. Breve presentación: «Visualización» de textos
Dar sentido a la
informaciónDependiendo
del dominio...Según las
especializaciones ...De
acuerdo con las
preferencias del usuario
...Según los requisitos...
representación del dominio
8
1. Breve presentación: «Visualización» de textos1. Breve presentación: «Visualización» de textos
Dar sentido a la
informaciónDependiendo
del dominio...Según las
especializaciones ...De
acuerdo con las
preferencias del usuario
...Según los requisitos...
representación de procesos
9
1. Breve presentación: «Visualización» de textos1. Breve presentación: «Visualización» de textos
Dar sentido a la
informaciónDependiendo
del dominio...Según las
especializaciones ...De
acuerdo con las
preferencias del usuario
...Según los requisitos...
1. Breve presentación
2. «Text analytics» y minería de textos
Porque los textos?
Porque es difícil?
Porque es fácil?
1. Textrix (Anastasia)
2. Correspondencia
3. Binocle
12
2. «text analytics» y Minería de textos: porque los textos?2. «text analytics» y Minería de textos: porque los textos?
Estimación:
80%-85% de los datos disponibles son textos LN (lenguajes
naturales)
Ejemplo en Biotecnología:
80% del conocimiento in artículos científicos
Vamos a ser optimista : 60 artículos / semana ...!
de los cuales: 10% son interesantes... 6 / semana, 300 / años
MedLine: publica 10 000 artículos / mes !!!
Chemical Abstract Registry: 4000 elementos / día,
2.5 millones en 2004
13
2. «text analytics» y Minería de textos: porque los textos?2. «text analytics» y Minería de textos: porque los textos?
Extracción de relaciones en textos de biomedicina
Análisis de las diferencias entre descripciones en LN
y «workflows»
Informaciones mobiles sobre medicamentos por SMS
en LN
Buscar defectos en requisitos de confidentialidad
Análisis de intenciones humanas
Construcción automática de diagramas UML
Integración de modelos de procesos de negocios
con documentos de «Governance»
Clasificación automática de reportes de radiología
Extracción de las interacciones entre proteínas
14
Natural Language Processing
NLP
Minería de textos
MT
IR
Busceda de information
(information retrieval)
Semantic Web
Web 2.0
Text Analytics
Analítica de
textos
2. «text analytics» y Minería de textos2. «text analytics» y Minería de textos
15
QuickTime™ and a
xvid decompressor
are needed to see this picture.
2. «text analytics» y Minería de textos: porque es difícil?2. «text analytics» y Minería de textos: porque es difícil?
16
• I put the bouquet of flowers that you gave me for Mother's day
in the vase that you gave me for my birthday on the chest of
drawers that you gave me for armistice day
• 4862 arbres syntaxiques (Church & Patil 82)
2. «text analytics» y Minería de textos: porque es difícil?2. «text analytics» y Minería de textos: porque es difícil?
17
2. «text analytics» y Minería de textos: porque es difícil?2. «text analytics» y Minería de textos: porque es difícil?
George W. Bush pensaba que tranquilamente podría
terminar su mandato después de una gira en Irak. En una
conferencia de prensa un periodista lanzó, sin golpearlo,
dos zapatos e lo insultó cuando éste dio la mano
al primer ministro iraquí en su oficina en
Bagdad.Mientras los dos hombres se reunieron en el
despacho privado del primer ministro Nouri al-Maliki, un
periodista iraquí saltó y lanzó sus zapatos al presidente
de los EE.UU..
Quien dio la
mano al ministro ?
Quien dio la
mano al ministro ?
La oficina de
quien?
La oficina de
quien?
el periodista y Bush?
el ministro y el
periodista?
Bush y el ministro?
el periodista y Bush?
el ministro y el
periodista?
Bush y el ministro?
imágenestítulos
tablas
gráficos
y seguro...
texto
18
2. «text analytics» y Minería de textos: porque es difícil?2. «text analytics» y Minería de textos: porque es difícil?
alucinación
platilo volador
OVNI
nave extraterrestre
19
2. «text analytics» y Minería de textos: porque es difícil?2. «text analytics» y Minería de textos: porque es difícil?
20
…
tokenizer+pos-tagger
lemmatizer
chunker
taxonomy
24
2. «text analytics» y Minería de textos: porque es fácil?2. «text analytics» y Minería de textos: porque es fácil?
1 1 3
1 2 1
4 1 1
documento 1
documento 2
documento 3
Con una representación simple se puede hacer mucho
gradualmente, pasar a una representación mas «semántica»
Palabras
Raíces de palabras
Grupos de palabras
Conceptos
el Colonel Rubio ha estrangulado a la Señorita Amapola sobre el balcon con una cuerda.
SN
SN SN SNSVSV
SVSV SP SP
SVSV
SVSV
Frase
SN SN SN SNSV
21
2. «text analytics» y Minería de textos: porque es fácil?2. «text analytics» y Minería de textos: porque es fácil?
por 90% de los casos, no es necesario de tener una
representación completa
1. Breve presentación
2. «Text analytics» y minería de textos
3. Textrix (Anastasia)
Descripción
Técnicas
Particularidades
1. Correspondencia
2. Binocle
23
3.Textrix: Descripción3.Textrix: Descripción
Encontrar las personas peligrosas sobre el Internet
VirginiaTech (transcripción de mensaje sobre
video)Colombine (transcripción de
«journal»)Dawson (blog)LA Fitness Gym (sitio web)
...
Objetivo : alertar una persona para revisar el caso
24
3.Textrix:Técnicas3.Textrix:Técnicas
Crawler: Herititrix
Clasificación:Crawl-by-examples (google summer
code 2006)Frases claves (patrones de expresiones
regulares)
Alertas:
por correo electrónico
por SMS
por SMS
25
3.Textrix: Particularidades3.Textrix: Particularidades
MultidisplinarioCriminologíaPsicologíaMinería de
textosLingüística
Algoritmo Crawl-by-examples: 28% de precision y
54% de recall
Algoritmo frases clave: 55,5 % de precision y 57% de
recall
Simplicidad y inteligencia
Simplicidad y inteligencia
1. Breve presentación
2. «Text analytics» y minería de textos
3. Textrix (Anastasia)
4. Correspondencia
Concepto general
Aplicaciones
Particularidades
1. Binocle
27
4. Correspondencia: Concepto general4. Correspondencia: Concepto general
Evaluar la similitud entre dos modelos
Entre modelos extraídosde documentosde datos
Entre un modelo que pre-existe (ontología del
dominio, estándar) y un modelo extraído
• Entre un modelo que pre-existe (ontología del
dominio, estándar) y un modelo extraído
28
4. Correspondencia:Aplicaciones4. Correspondencia:Aplicaciones
Minería de procesos y «text analytics»:
Similitud de los procesos de negocios documentados
y la realidad
Similitud entre los modelos de «personas» y los
requisitos de un empleador, un proyecto, un
director de tesis.
29
4. Correspondencia: Particularidades4. Correspondencia: Particularidades
Multidisciplinario
Lingüística
Ontología
Modelos de negocios
Minería de procesos
Técnicas exploradas: Medidas semánticas
1. Breve presentación del LiNCS / ÉTS
2. «Text analytics» y minería de textos
3. Textrix (Anastasia)
4. Correspondencia
5. Binocle
Descripción
Ejemplo de «text analytics»
32
Las empresas modernas generan documentos…
… en cientos …
… en miles …
5. Proyecto Binocle: descripción5. Proyecto Binocle: descripción
33
Misión
Descripción de puestos
Normas
Política interna
Formularios
Estándares
Contratos
Procesos de negocio
Planificación estratégica
Minutos
5. Proyecto Binocle: descripción5. Proyecto Binocle: descripción
34
Esencial para la evolución de la organización
Necesario para la formación de los interesados
Un activo estratégico
Pero :
Complejo
Costoso
Difícil
5. Proyecto Binocle: descripción5. Proyecto Binocle: descripción
Controlar :
35
« El registro revisa cada aplicación. »« El registro revisa cada aplicación. »
Un experto analiza las frases pertinentes del ámbito
« El registro revisa cada aplicación. »registro aplicaciónrevisa
Registro Aplicaciónrevisa
5. Proyecto Binocle: descripción5. Proyecto Binocle: descripción
Análisis tradicional de textos
36
documentos de
empresas
5. Proyecto Binocle: descripción5. Proyecto Binocle: descripción
37
?
5. Proyecto Binocle: Ejemplo de «text analytics»5. Proyecto Binocle: Ejemplo de «text analytics»
Metodología exploratoria de
documentos reales a través de una
cadena iterativa de tratamiento.
38
EXTRACCION DE
CONCEPTOS
DEFINICION DE
LAS RELACIONES
REPARTO DE LAS
FUNCIONES
A
B
C
D
A
B
C
DE
F
E
F
5. Proyecto Binocle: Ejemplo de «text analytics»5. Proyecto Binocle: Ejemplo de «text analytics»
• Extracción de los términos candidatos • Evaluación
de la pertinencia • Modelo del conocimiento
39
caro
ruta
señal
prioridad
hoja
libro
5. Proyecto Binocle: Ejemplo de «text analytics»5. Proyecto Binocle: Ejemplo de «text analytics»
Extracción de los «conceptos potenciales»
40
Perfil de proyecto y evaluación de los riesgos
proyecto
Perfil de proyecto
evaluación de los riesgos
Perfil
evaluación
riesgos
5. Proyecto Binocle: Ejemplo de «text analytics»5. Proyecto Binocle: Ejemplo de «text analytics»
ConclusionConclusion
Características de los proyecto
Multidisciplinario
Técnicas mezcladas con semántica
Aplicaciones innovadoras con impactos reales:
sobre la productividad
sobre la competitividad
42
Una invitación de minería en el sector educativoUna invitación de minería en el sector educativo
• http://www.kdd.org/kdd2010/kddcup.shtml
• How generally or narrowly do students learn?
• How quickly or slowly?
• Will the rate of improvement vary between students?
• What does it mean for one problem to be similar to another?
• It might depend on whether the knowledge required for one
problem is the same as the knowledge required for another.
• But is it possible to infer the knowledge requirements of
problems directly from student performance data, without
human analysis of the tasks?
• This year's challenge asks you to predict student performance
on mathematical problems from logs of student interaction
with Intelligent Tutoring Systems.
Referencias
lincs.etsmtl.ca
• Ratté, S., Ménard, P.A., Text mining and Text Analytics, in S. Ratté, F. Padilla (eds), Data
Mining and Text Analytics, UAA Press, Mexico (à paraître).
• Ménard, P.A., Ratté, S. “Classifier-based acronym extraction for business documents, Knowledge
and Information Systems, Online First, 2010.
• Cryans, J-D, Ratté, S., Champagne, R. Adaptation of Apriori to MapReduce to build a warehouse
of relations between named entities accross the Web, 2nd International Conference on
Advances in Databases, Knowledge, and Data Applications, Menuires, France, avril
2010.Tardif, O., Ratté, S. A Lightweight Pronoun Resolution Algorithm for French Corporate
Texts, ICACTE - International Conference on Advanced Computer Theory and Engineering,
IEEE Computer Society, Phuket, Thailande, 2008, pp. 714 – 718.Ratté, S., Njomgue, W.,
Ménard, P.A. Highlighting document’s structure, World Academy of Science, Engineering and
Technology 31, 2007, pp. 34-38.

Más contenido relacionado

Similar a I summit utpl-conferencia

Fuentes de información en Biblioteconomía y Documentación
Fuentes de información en Biblioteconomía y DocumentaciónFuentes de información en Biblioteconomía y Documentación
Fuentes de información en Biblioteconomía y DocumentaciónJulio Alonso Arévalo
 
Inicio del curso de ITICs
Inicio del curso de ITICsInicio del curso de ITICs
Inicio del curso de ITICsBilly1768
 
4 de castro gestiòn_edtoriale, los actrores del proceso madrid course
4 de castro  gestiòn_edtoriale, los actrores del proceso madrid course4 de castro  gestiòn_edtoriale, los actrores del proceso madrid course
4 de castro gestiòn_edtoriale, los actrores del proceso madrid coursePaola De Castro
 
Planificador proyecto
Planificador proyectoPlanificador proyecto
Planificador proyectoizzyzp
 
Unidad 1 introducción a la rtc
Unidad 1 introducción a la rtcUnidad 1 introducción a la rtc
Unidad 1 introducción a la rtcdanijhoe
 
PROCESADOR DE TEXTOS
PROCESADOR DE TEXTOSPROCESADOR DE TEXTOS
PROCESADOR DE TEXTOSLisIzurieta
 
2016 unesp-tic-bibliotecas
2016 unesp-tic-bibliotecas2016 unesp-tic-bibliotecas
2016 unesp-tic-bibliotecasErnest Abadal
 
TIC y bibliotecas: situación actual y perspectivas
TIC y bibliotecas: situación actual y perspectivasTIC y bibliotecas: situación actual y perspectivas
TIC y bibliotecas: situación actual y perspectivasErnest Abadal
 
Experiencias3 Llera Mt Df
Experiencias3 Llera Mt DfExperiencias3 Llera Mt Df
Experiencias3 Llera Mt DfFESABID
 

Similar a I summit utpl-conferencia (20)

Smart Art
Smart ArtSmart Art
Smart Art
 
Planificador proyecto
Planificador proyectoPlanificador proyecto
Planificador proyecto
 
Fuentes de información en Biblioteconomía y Documentación
Fuentes de información en Biblioteconomía y DocumentaciónFuentes de información en Biblioteconomía y Documentación
Fuentes de información en Biblioteconomía y Documentación
 
Inicio del curso de ITICs
Inicio del curso de ITICsInicio del curso de ITICs
Inicio del curso de ITICs
 
4 de castro gestiòn_edtoriale, los actrores del proceso madrid course
4 de castro  gestiòn_edtoriale, los actrores del proceso madrid course4 de castro  gestiòn_edtoriale, los actrores del proceso madrid course
4 de castro gestiòn_edtoriale, los actrores del proceso madrid course
 
Planificador proyecto
Planificador proyectoPlanificador proyecto
Planificador proyecto
 
Unidad 1 introducción a la rtc
Unidad 1 introducción a la rtcUnidad 1 introducción a la rtc
Unidad 1 introducción a la rtc
 
Trabajo de campo
Trabajo de campoTrabajo de campo
Trabajo de campo
 
4 infatec04
4 infatec044 infatec04
4 infatec04
 
Diccionario conectores
Diccionario conectoresDiccionario conectores
Diccionario conectores
 
4 infatec04
4 infatec044 infatec04
4 infatec04
 
Pg redes2
Pg redes2Pg redes2
Pg redes2
 
4 infatec04
4 infatec044 infatec04
4 infatec04
 
Procesador de textos
Procesador de textosProcesador de textos
Procesador de textos
 
Segundo seminario Tics
Segundo seminario TicsSegundo seminario Tics
Segundo seminario Tics
 
traficando
traficando   traficando
traficando
 
PROCESADOR DE TEXTOS
PROCESADOR DE TEXTOSPROCESADOR DE TEXTOS
PROCESADOR DE TEXTOS
 
2016 unesp-tic-bibliotecas
2016 unesp-tic-bibliotecas2016 unesp-tic-bibliotecas
2016 unesp-tic-bibliotecas
 
TIC y bibliotecas: situación actual y perspectivas
TIC y bibliotecas: situación actual y perspectivasTIC y bibliotecas: situación actual y perspectivas
TIC y bibliotecas: situación actual y perspectivas
 
Experiencias3 Llera Mt Df
Experiencias3 Llera Mt DfExperiencias3 Llera Mt Df
Experiencias3 Llera Mt Df
 

Más de eccutpl

Jorge lopez web_apps
Jorge lopez web_appsJorge lopez web_apps
Jorge lopez web_appseccutpl
 
Integración de Mecanismos de Seguridad en la arquitectura de Aplicaciones Sof...
Integración de Mecanismos de Seguridad en la arquitectura de Aplicaciones Sof...Integración de Mecanismos de Seguridad en la arquitectura de Aplicaciones Sof...
Integración de Mecanismos de Seguridad en la arquitectura de Aplicaciones Sof...eccutpl
 
Sistemas Recomendadores - ws14
Sistemas Recomendadores - ws14Sistemas Recomendadores - ws14
Sistemas Recomendadores - ws14eccutpl
 
Seguridad de la información
Seguridad de la informaciónSeguridad de la información
Seguridad de la informacióneccutpl
 
Adquisicion Reconstruccion RM Parte 2
Adquisicion Reconstruccion RM Parte 2Adquisicion Reconstruccion RM Parte 2
Adquisicion Reconstruccion RM Parte 2eccutpl
 
Adquisicion Reconstruccion RM Parte 1
Adquisicion Reconstruccion RM Parte 1Adquisicion Reconstruccion RM Parte 1
Adquisicion Reconstruccion RM Parte 1eccutpl
 
Adquisicion Reconstruccion RM Part3
Adquisicion Reconstruccion RM Part3Adquisicion Reconstruccion RM Part3
Adquisicion Reconstruccion RM Part3eccutpl
 
Memoria pabloirarrázaval
Memoria pabloirarrázavalMemoria pabloirarrázaval
Memoria pabloirarrázavaleccutpl
 
Memoria Fernando Barrios
Memoria Fernando BarriosMemoria Fernando Barrios
Memoria Fernando Barrioseccutpl
 
Guillermo montilla memoriatalleresponencia
Guillermo montilla memoriatalleresponenciaGuillermo montilla memoriatalleresponencia
Guillermo montilla memoriatalleresponenciaeccutpl
 
Violeta bazante gestion de información científica
Violeta bazante gestion de información científicaVioleta bazante gestion de información científica
Violeta bazante gestion de información científicaeccutpl
 
Drupal mas que un cms
Drupal mas que un cmsDrupal mas que un cms
Drupal mas que un cmseccutpl
 
Identificación y seguimiento de artefactos en el proceso de desarrollo de sof...
Identificación y seguimiento de artefactos en el proceso de desarrollo de sof...Identificación y seguimiento de artefactos en el proceso de desarrollo de sof...
Identificación y seguimiento de artefactos en el proceso de desarrollo de sof...eccutpl
 
Estructurar proyectos de desarrolla de software basados
Estructurar proyectos de desarrolla de software basadosEstructurar proyectos de desarrolla de software basados
Estructurar proyectos de desarrolla de software basadoseccutpl
 
Guía utilizacion de patentes
Guía utilizacion de patentesGuía utilizacion de patentes
Guía utilizacion de patenteseccutpl
 
1. uso de la información tecnológica
1.  uso de la información tecnológica1.  uso de la información tecnológica
1. uso de la información tecnológicaeccutpl
 
2. herramientas para la búsqueda de información de patentes
2.  herramientas para la búsqueda de información de patentes2.  herramientas para la búsqueda de información de patentes
2. herramientas para la búsqueda de información de patenteseccutpl
 
Patentes de invención
Patentes de invenciónPatentes de invención
Patentes de invencióneccutpl
 
I summit utpl-taller
I summit utpl-tallerI summit utpl-taller
I summit utpl-tallereccutpl
 
Ordenar arreglos en java
Ordenar arreglos en javaOrdenar arreglos en java
Ordenar arreglos en javaeccutpl
 

Más de eccutpl (20)

Jorge lopez web_apps
Jorge lopez web_appsJorge lopez web_apps
Jorge lopez web_apps
 
Integración de Mecanismos de Seguridad en la arquitectura de Aplicaciones Sof...
Integración de Mecanismos de Seguridad en la arquitectura de Aplicaciones Sof...Integración de Mecanismos de Seguridad en la arquitectura de Aplicaciones Sof...
Integración de Mecanismos de Seguridad en la arquitectura de Aplicaciones Sof...
 
Sistemas Recomendadores - ws14
Sistemas Recomendadores - ws14Sistemas Recomendadores - ws14
Sistemas Recomendadores - ws14
 
Seguridad de la información
Seguridad de la informaciónSeguridad de la información
Seguridad de la información
 
Adquisicion Reconstruccion RM Parte 2
Adquisicion Reconstruccion RM Parte 2Adquisicion Reconstruccion RM Parte 2
Adquisicion Reconstruccion RM Parte 2
 
Adquisicion Reconstruccion RM Parte 1
Adquisicion Reconstruccion RM Parte 1Adquisicion Reconstruccion RM Parte 1
Adquisicion Reconstruccion RM Parte 1
 
Adquisicion Reconstruccion RM Part3
Adquisicion Reconstruccion RM Part3Adquisicion Reconstruccion RM Part3
Adquisicion Reconstruccion RM Part3
 
Memoria pabloirarrázaval
Memoria pabloirarrázavalMemoria pabloirarrázaval
Memoria pabloirarrázaval
 
Memoria Fernando Barrios
Memoria Fernando BarriosMemoria Fernando Barrios
Memoria Fernando Barrios
 
Guillermo montilla memoriatalleresponencia
Guillermo montilla memoriatalleresponenciaGuillermo montilla memoriatalleresponencia
Guillermo montilla memoriatalleresponencia
 
Violeta bazante gestion de información científica
Violeta bazante gestion de información científicaVioleta bazante gestion de información científica
Violeta bazante gestion de información científica
 
Drupal mas que un cms
Drupal mas que un cmsDrupal mas que un cms
Drupal mas que un cms
 
Identificación y seguimiento de artefactos en el proceso de desarrollo de sof...
Identificación y seguimiento de artefactos en el proceso de desarrollo de sof...Identificación y seguimiento de artefactos en el proceso de desarrollo de sof...
Identificación y seguimiento de artefactos en el proceso de desarrollo de sof...
 
Estructurar proyectos de desarrolla de software basados
Estructurar proyectos de desarrolla de software basadosEstructurar proyectos de desarrolla de software basados
Estructurar proyectos de desarrolla de software basados
 
Guía utilizacion de patentes
Guía utilizacion de patentesGuía utilizacion de patentes
Guía utilizacion de patentes
 
1. uso de la información tecnológica
1.  uso de la información tecnológica1.  uso de la información tecnológica
1. uso de la información tecnológica
 
2. herramientas para la búsqueda de información de patentes
2.  herramientas para la búsqueda de información de patentes2.  herramientas para la búsqueda de información de patentes
2. herramientas para la búsqueda de información de patentes
 
Patentes de invención
Patentes de invenciónPatentes de invención
Patentes de invención
 
I summit utpl-taller
I summit utpl-tallerI summit utpl-taller
I summit utpl-taller
 
Ordenar arreglos en java
Ordenar arreglos en javaOrdenar arreglos en java
Ordenar arreglos en java
 

I summit utpl-conferencia

  • 1. isummit 2010 Minería y «Text Analytics» Sylvie Ratté, Ph.D. Directora del Laboratorio de Ingeniería Cognitiva y Semántica École de technologie supérieure, Montréal, QC
  • 2. 2 ProgramaPrograma 1. Breve presentación 2. «Text analytics» y minería de textos 3. Textrix (Anastasia) 4. Correspondencia 5. Binocle
  • 3. 1. Breve presentación LiNCS y la ÉTS «Visualización» de textos 1. «Text analytics» y minería de textos 2. Técnicas 3. Proyecto Binocle
  • 4. 4 1. Breve presentación: LiNCS / ÉTS1. Breve presentación: LiNCS / ÉTS ÉTS - École de technologie supérieure •'Top' 5 de las 45 escuelas y facultades de ingeniería en Canadá •Uno de cada cuatro Ingenieros de la Provincia de Québec se graduó de la ETS •Más de 4 500 estudiantes •Edificios ultra moderno •1000 unidades en las residencias
  • 5. 5 1. Breve presentación: LiNCS / ÉTS1. Breve presentación: LiNCS / ÉTS LiNCS - Laboratorio de Ingeniería Cognitiva y Semántica Focos en el trazado entre la descripción escrita en lenguaje natural y su representación visual (modelos, diagramas y mapas conceptuales). Minería de textos Minería del Web Minería de redes Modelos de lenguaje Sylvie Ratté y Christian Desrosiers
  • 6. grupos y classificaciones 6 1. Breve presentación: «Visualización» de textos1. Breve presentación: «Visualización» de textos Dar sentido a la informaciónDependiendo del dominio...Según las especializaciones ...De acuerdo con las preferencias del usuario ...Según los requisitos...
  • 7. alertas 7 1. Breve presentación: «Visualización» de textos1. Breve presentación: «Visualización» de textos Dar sentido a la informaciónDependiendo del dominio...Según las especializaciones ...De acuerdo con las preferencias del usuario ...Según los requisitos...
  • 8. representación del dominio 8 1. Breve presentación: «Visualización» de textos1. Breve presentación: «Visualización» de textos Dar sentido a la informaciónDependiendo del dominio...Según las especializaciones ...De acuerdo con las preferencias del usuario ...Según los requisitos...
  • 9. representación de procesos 9 1. Breve presentación: «Visualización» de textos1. Breve presentación: «Visualización» de textos Dar sentido a la informaciónDependiendo del dominio...Según las especializaciones ...De acuerdo con las preferencias del usuario ...Según los requisitos...
  • 10. 1. Breve presentación 2. «Text analytics» y minería de textos Porque los textos? Porque es difícil? Porque es fácil? 1. Textrix (Anastasia) 2. Correspondencia 3. Binocle
  • 11. 12 2. «text analytics» y Minería de textos: porque los textos?2. «text analytics» y Minería de textos: porque los textos? Estimación: 80%-85% de los datos disponibles son textos LN (lenguajes naturales) Ejemplo en Biotecnología: 80% del conocimiento in artículos científicos Vamos a ser optimista : 60 artículos / semana ...! de los cuales: 10% son interesantes... 6 / semana, 300 / años MedLine: publica 10 000 artículos / mes !!! Chemical Abstract Registry: 4000 elementos / día, 2.5 millones en 2004
  • 12. 13 2. «text analytics» y Minería de textos: porque los textos?2. «text analytics» y Minería de textos: porque los textos? Extracción de relaciones en textos de biomedicina Análisis de las diferencias entre descripciones en LN y «workflows» Informaciones mobiles sobre medicamentos por SMS en LN Buscar defectos en requisitos de confidentialidad Análisis de intenciones humanas Construcción automática de diagramas UML Integración de modelos de procesos de negocios con documentos de «Governance» Clasificación automática de reportes de radiología Extracción de las interacciones entre proteínas
  • 13. 14 Natural Language Processing NLP Minería de textos MT IR Busceda de information (information retrieval) Semantic Web Web 2.0 Text Analytics Analítica de textos 2. «text analytics» y Minería de textos2. «text analytics» y Minería de textos
  • 14. 15 QuickTime™ and a xvid decompressor are needed to see this picture. 2. «text analytics» y Minería de textos: porque es difícil?2. «text analytics» y Minería de textos: porque es difícil?
  • 15. 16 • I put the bouquet of flowers that you gave me for Mother's day in the vase that you gave me for my birthday on the chest of drawers that you gave me for armistice day • 4862 arbres syntaxiques (Church & Patil 82) 2. «text analytics» y Minería de textos: porque es difícil?2. «text analytics» y Minería de textos: porque es difícil?
  • 16. 17 2. «text analytics» y Minería de textos: porque es difícil?2. «text analytics» y Minería de textos: porque es difícil? George W. Bush pensaba que tranquilamente podría terminar su mandato después de una gira en Irak. En una conferencia de prensa un periodista lanzó, sin golpearlo, dos zapatos e lo insultó cuando éste dio la mano al primer ministro iraquí en su oficina en Bagdad.Mientras los dos hombres se reunieron en el despacho privado del primer ministro Nouri al-Maliki, un periodista iraquí saltó y lanzó sus zapatos al presidente de los EE.UU.. Quien dio la mano al ministro ? Quien dio la mano al ministro ? La oficina de quien? La oficina de quien? el periodista y Bush? el ministro y el periodista? Bush y el ministro? el periodista y Bush? el ministro y el periodista? Bush y el ministro?
  • 17. imágenestítulos tablas gráficos y seguro... texto 18 2. «text analytics» y Minería de textos: porque es difícil?2. «text analytics» y Minería de textos: porque es difícil?
  • 18. alucinación platilo volador OVNI nave extraterrestre 19 2. «text analytics» y Minería de textos: porque es difícil?2. «text analytics» y Minería de textos: porque es difícil?
  • 19. 20 … tokenizer+pos-tagger lemmatizer chunker taxonomy 24 2. «text analytics» y Minería de textos: porque es fácil?2. «text analytics» y Minería de textos: porque es fácil? 1 1 3 1 2 1 4 1 1 documento 1 documento 2 documento 3 Con una representación simple se puede hacer mucho gradualmente, pasar a una representación mas «semántica» Palabras Raíces de palabras Grupos de palabras Conceptos
  • 20. el Colonel Rubio ha estrangulado a la Señorita Amapola sobre el balcon con una cuerda. SN SN SN SNSVSV SVSV SP SP SVSV SVSV Frase SN SN SN SNSV 21 2. «text analytics» y Minería de textos: porque es fácil?2. «text analytics» y Minería de textos: porque es fácil? por 90% de los casos, no es necesario de tener una representación completa
  • 21. 1. Breve presentación 2. «Text analytics» y minería de textos 3. Textrix (Anastasia) Descripción Técnicas Particularidades 1. Correspondencia 2. Binocle
  • 22. 23 3.Textrix: Descripción3.Textrix: Descripción Encontrar las personas peligrosas sobre el Internet VirginiaTech (transcripción de mensaje sobre video)Colombine (transcripción de «journal»)Dawson (blog)LA Fitness Gym (sitio web) ... Objetivo : alertar una persona para revisar el caso
  • 23. 24 3.Textrix:Técnicas3.Textrix:Técnicas Crawler: Herititrix Clasificación:Crawl-by-examples (google summer code 2006)Frases claves (patrones de expresiones regulares) Alertas: por correo electrónico por SMS por SMS
  • 24. 25 3.Textrix: Particularidades3.Textrix: Particularidades MultidisplinarioCriminologíaPsicologíaMinería de textosLingüística Algoritmo Crawl-by-examples: 28% de precision y 54% de recall Algoritmo frases clave: 55,5 % de precision y 57% de recall Simplicidad y inteligencia Simplicidad y inteligencia
  • 25. 1. Breve presentación 2. «Text analytics» y minería de textos 3. Textrix (Anastasia) 4. Correspondencia Concepto general Aplicaciones Particularidades 1. Binocle
  • 26. 27 4. Correspondencia: Concepto general4. Correspondencia: Concepto general Evaluar la similitud entre dos modelos Entre modelos extraídosde documentosde datos Entre un modelo que pre-existe (ontología del dominio, estándar) y un modelo extraído • Entre un modelo que pre-existe (ontología del dominio, estándar) y un modelo extraído
  • 27. 28 4. Correspondencia:Aplicaciones4. Correspondencia:Aplicaciones Minería de procesos y «text analytics»: Similitud de los procesos de negocios documentados y la realidad Similitud entre los modelos de «personas» y los requisitos de un empleador, un proyecto, un director de tesis.
  • 28. 29 4. Correspondencia: Particularidades4. Correspondencia: Particularidades Multidisciplinario Lingüística Ontología Modelos de negocios Minería de procesos Técnicas exploradas: Medidas semánticas
  • 29. 1. Breve presentación del LiNCS / ÉTS 2. «Text analytics» y minería de textos 3. Textrix (Anastasia) 4. Correspondencia 5. Binocle Descripción Ejemplo de «text analytics»
  • 30. 32 Las empresas modernas generan documentos… … en cientos … … en miles … 5. Proyecto Binocle: descripción5. Proyecto Binocle: descripción
  • 31. 33 Misión Descripción de puestos Normas Política interna Formularios Estándares Contratos Procesos de negocio Planificación estratégica Minutos 5. Proyecto Binocle: descripción5. Proyecto Binocle: descripción
  • 32. 34 Esencial para la evolución de la organización Necesario para la formación de los interesados Un activo estratégico Pero : Complejo Costoso Difícil 5. Proyecto Binocle: descripción5. Proyecto Binocle: descripción Controlar :
  • 33. 35 « El registro revisa cada aplicación. »« El registro revisa cada aplicación. » Un experto analiza las frases pertinentes del ámbito « El registro revisa cada aplicación. »registro aplicaciónrevisa Registro Aplicaciónrevisa 5. Proyecto Binocle: descripción5. Proyecto Binocle: descripción Análisis tradicional de textos
  • 34. 36 documentos de empresas 5. Proyecto Binocle: descripción5. Proyecto Binocle: descripción
  • 35. 37 ? 5. Proyecto Binocle: Ejemplo de «text analytics»5. Proyecto Binocle: Ejemplo de «text analytics» Metodología exploratoria de documentos reales a través de una cadena iterativa de tratamiento.
  • 36. 38 EXTRACCION DE CONCEPTOS DEFINICION DE LAS RELACIONES REPARTO DE LAS FUNCIONES A B C D A B C DE F E F 5. Proyecto Binocle: Ejemplo de «text analytics»5. Proyecto Binocle: Ejemplo de «text analytics» • Extracción de los términos candidatos • Evaluación de la pertinencia • Modelo del conocimiento
  • 37. 39 caro ruta señal prioridad hoja libro 5. Proyecto Binocle: Ejemplo de «text analytics»5. Proyecto Binocle: Ejemplo de «text analytics» Extracción de los «conceptos potenciales»
  • 38. 40 Perfil de proyecto y evaluación de los riesgos proyecto Perfil de proyecto evaluación de los riesgos Perfil evaluación riesgos 5. Proyecto Binocle: Ejemplo de «text analytics»5. Proyecto Binocle: Ejemplo de «text analytics»
  • 39. ConclusionConclusion Características de los proyecto Multidisciplinario Técnicas mezcladas con semántica Aplicaciones innovadoras con impactos reales: sobre la productividad sobre la competitividad
  • 40. 42 Una invitación de minería en el sector educativoUna invitación de minería en el sector educativo • http://www.kdd.org/kdd2010/kddcup.shtml • How generally or narrowly do students learn? • How quickly or slowly? • Will the rate of improvement vary between students? • What does it mean for one problem to be similar to another? • It might depend on whether the knowledge required for one problem is the same as the knowledge required for another. • But is it possible to infer the knowledge requirements of problems directly from student performance data, without human analysis of the tasks? • This year's challenge asks you to predict student performance on mathematical problems from logs of student interaction with Intelligent Tutoring Systems.
  • 41. Referencias lincs.etsmtl.ca • Ratté, S., Ménard, P.A., Text mining and Text Analytics, in S. Ratté, F. Padilla (eds), Data Mining and Text Analytics, UAA Press, Mexico (à paraître). • Ménard, P.A., Ratté, S. “Classifier-based acronym extraction for business documents, Knowledge and Information Systems, Online First, 2010. • Cryans, J-D, Ratté, S., Champagne, R. Adaptation of Apriori to MapReduce to build a warehouse of relations between named entities accross the Web, 2nd International Conference on Advances in Databases, Knowledge, and Data Applications, Menuires, France, avril 2010.Tardif, O., Ratté, S. A Lightweight Pronoun Resolution Algorithm for French Corporate Texts, ICACTE - International Conference on Advanced Computer Theory and Engineering, IEEE Computer Society, Phuket, Thailande, 2008, pp. 714 – 718.Ratté, S., Njomgue, W., Ménard, P.A. Highlighting document’s structure, World Academy of Science, Engineering and Technology 31, 2007, pp. 34-38.

Notas del editor

  1. Voy a empezar con una breve presentacion de la ETS y de mi laboratorio Despues vamos a ofrecer una vista general del text analytics y de la mineria de textos Finalmente, termino esta ponencia con la breve presentacion de tres proyecto global de investigaciones.
  2. primero : que es la ETS que es el LiNCS y que es la visualizacion de textos
  3. La ETS o escuela de tecnologia superior se ubica en Montreal, Quebec Canada. La ETS forma Ingenieros civiles, de electricidad, de produccion automatisada, de engeneria de software y de tecnologia de informacion. Tiene tambien un programa graduado en Innovation.
  4. Dos profesors: yo tengo una maestria en matematic-informatica, specializacion en Inteligencia Artificial, un doctorado en linguistica computacional y un postdoctorado en ciencias cognitivas del MIT. Mi collega, Christian Desrosiers tiene una maestria en matematica, un doctorado en informatica con especialidad en mineria de redes.
  5. La idea detras lo que llamé la "vizualizacion" de textos, es muy sencilla y consiste en dar sentido a la informacion escrita en lenguaje natural. Pero este requisito se debe realizar: dependiendo del dominio, segun las especializaciones, de acuerdo con las preferencias del usarios, segun los requisitos del contexto de trabajo. Por supuesto, algunas tareas tipicas de minerias, como la clasificacion o la construccion de grupos similars estan parte de las tecnicas que se necesitan.
  6. Dar sentido puede tambien decir que se puede proponer etiquetas adequadas para documentos sobre el Web o sobre otro tipos de base
  7. dar sentido y visualizar puede significar: extraer la informacion interesante de los textos y representarla de manera adequada.
  8. segun que son los conceptos estaticos que nos interesan o los conceptos dinamicos.
  9. Pasamos al dominio "text analytics" y las mineria de textos. Vamos a contestar a tres preguntas: porque los textos, porque es dificil, porque es facil...
  10. La principal rason de escoger los textos es que hay muchas informaciones en formato textual. si ustedes son super lectores, ...
  11. Las aplicaciones se realizan en biologia, en medecina, en ingeneria de software, en ciencias cognitivas, en informatica mobile, en realidad hay una aplicacion potencial cada vez que se encuentra un pedazo de texto.
  12. Historicamente, lo que se llama "text analytics" nacio el los anos 2000. Es el resultado de la union de las tecnicas (mas simbolicas, mas tradicional) del tratamiento de lenguage natural (NLP), de las tecnicas de aprentisaje (con la mineria de textos, mas estastistica), de la tecnicas de la busceda de informacion (por la evaluacion) y de las tecnicas asociadas al web semantico. Ahora porque es dificil. Primero: es dificil cuando queremos "comprender" un texto. En este caso, Es dificil porque el lenguaje natural es ambiguo.
  13. Ahora porque es dificil. Primero: es dificil cuando queremos "comprender" un texto. En este caso, Es dificil porque el lenguaje natural es ambiguo.
  14. muy muy muy ambiguo
  15. Es dificil porque, escribiendo textos, no queremos fastidiar la gente. Asi utilizamos muchas palabras y grupos de palabras que refieren al mismo concepto y utilisamos pronombre para evitar la redundancia.
  16. Y si queremos tratar de documentos en general, es dificil porque un documento contiene: titulos, imagenes, tablas y graficos ademas del texto.
  17. Finalmente, es dificil porque un mismo concepto puede tener muchas formas. Pero, al mismo tiempo, y de manera que surpriendo los primeros investigadores, se puede obtener resultados bastante bueno con herramientas simples. A cada uno de escoger hasta que punto es necesario de solucionar las dificuldades.
  18. Se realizo que podemos caminar mucho con una representacion donde los documentos estan representados con vectores de frequencias (hay mas ...). La cuestion es de saber que vamos a contar? las frequencias de las palabras? en este caso vamos a necesitar un tokenizer para reconocer las palabras y quizas una lista de palabras que no queremos (la, los, uno, un, tu, nos, que, cual, etc.) y posiblemente un pos-tagger, si queremos eliminar los ajetivos y los adverbios. Vamos a contar frequencias de raices de palabras (no queremos contar canto, cantamos de manera separada pero solamente una vez). En este caso vamos a necesitar un lemmatizer. Si son los grupos de palabras que nos interesan, necesitamos un chunker, si son los conceptos que nos interesan, necesitaremos un taxonomias o una ontologia y una manera de establecer la relacion entre las formas y los conceptos. Cada etapa, es mas costoso pero no todos los problemas necesitan tanto.
  19. De la misma forma, se pensaba que para comprender textos, se necesitaba construir una estructura completa. Por supuesto, hay algunos casos que si, pero por muchos tipos de aplicaciones, una estructura parcial es suficiente
  20. Pasamos ahora a la breve presentacion de tres proyectos global que hacemos en el laboratorio. Textrix es el nombre de una aragna. Esta aragna...
  21. esta aragna atravesa el Web para encontrar las personas desviadas susceptible de cometer un acto raro. En los casos recientes, ese tipo de persona se declara sobre blog, chat, forum o sitio web. Por el primero prototipo, teniamos textos variados de asesinos. Objetivo : alertar una persona para revisar el caso
  22. Se utilizo una herramientas simple para sacar paginas del Internet. y dos tecnicas fueron comparadas
  23. un estudiante de maestria en criminologia, un psicologo profesional, una linguista y un especialista en mineria de textos trabajan ahora sobre la continuacion del proyecto. Con el prototipo, se obtuvo resultados bastante interesantes.
  24. Correspondencia no es un proyecto como tal sino un programa de investigacion con muchs aplicaciones potenciales. El concepto general
  25. el concepto general es de evaluar....
  26. de nuevo, un tal programs se necesita recursos en muchas disciplinas. A propositos, estamos explorando algunas medidas semanticas.
  27. El proyecto Binocle contituye en punto de partida de toda la historia del laboratorio.
  28. estabamos
  29. esta documentación se presenta de muchas formas
  30. Control de esta fuente de información es necesario
  31. En el caso de Binocle queríamos ayudar el ingeniero de software a captar rápidamente los conceptos y relaciones generales (a un buen nivel de abstracción) del punto de vista de un ingeniero de software. Por eso los conceptos y relaciones extraidos son vizualizados en forma de modelo de dominio en UML.
  32. el objetivo es de Realizar un sistema que permite traducir visualmente textos corporativos de definición de reglas de negocios en el contexto de la ingeniería de software.
  33. Enfoque: Metodología exploratoria de documentos reales a través de una cadena iterativa de tratamiento.
  34. Extracción de los términos candidatos • Evaluación de la pertinencia • Modelo del conocimiento
  35. determinar los términos pertinentes del dominio; eliminar el ruido
  36. de nuevo utilizamos una mezca de tecnicas: unas mas simbolicas y unas mas probabilisticas. Por ejemplo, identificamos con un «chunker» los expresiones largas y despues, aplicamos calculos de probabilidades para éliminar algunas y conservar otras.
  37. En conclusion, podemos decir que todos los proyectos de text analytics y de mineria de textos son mutidisciplinario y usan de tecnicas mezcladas. Es la fuerza y el potencial. Y para terminar, como no hacer una invitacion a explorar otro problema de correspondencia?
  38. Muchas gracias