SlideShare uma empresa Scribd logo
1 de 24
Baixar para ler offline
An´alisis de Sentimientos sobre un
Corpus en Espa˜nol
Experimentaci´on con un Caso de Estudio
Luciana Dubiau
ldubiau@fi.uba.ar
Juan M Ale
ale@acm.org
Facultad de Ingenier´ıa
Universidad de Buenos Aires
ASAI 2013 - 42 JAIIO
Introducci´on
An´alisis de Sentimientos
• Tambi´en llamado Extracci´on de Opiniones, Miner´ıa de
Opiniones, Miner´ıa de Sentimientos o An´alisis Subjetivo.
• Definici´on Estudio computacional de opiniones,
sentimientos y emociones expresadas en textos (Pang and
Lee, 2008).
• Objetivo Determinar la actitud de un escritor ante
determinados productos, situaciones, personas u
organizaciones.
• Componentes de Opini´on (Liu, 2010)
• Target: objeto de opini´on.
• Features: aspectos o atributos que generan opini´on.
• Holder: quien expresa la opini´on.
• Orientaci´on Sem´antica: positiva, negativa, neutra.
• Tiempo: momento en que se expresa la opini´on.
Introducci´on
Ejemplo: Cr´ıtica sobre Restaurante
“Me gusta mucho este restaurante. La comida es fresca y se nota que hay
rotaci´on continua. El ambiente es bastante ruidoso pero los mozos son
muy amables y los precios muy accesibles.”
• Target: restaurante
• Features: comida, ambiente, mozos, precios
• Polaridad de la opini´on:
• me gusta mucho este restaurante
• comida fresca
• ambiente bastante ruidoso
• mozos muy amables
• precios muy accesibles
• Polaridad general del documento: positiva
• Holder: autor del comentario
• Tiempo: fecha del comentario
Introducci´on
¿Qu´e tipo de informaci´on puede
obtenerse?
• Polaridad de sentimientos en cr´ıticas sobre
arte, productos, servicios o personas
• Nivel de fidelizaci´on de clientes
• Opini´on p´ublica sobre situaciones de inter´es
social
• Popularidad de representantes pol´ıticos y
predicci´on sobre resultados de elecciones
• Tendencias de mercado
Ejemplos de Aplicaciones
• http://sentione.pl/
• http://www.sentiment140.com/
• http://socialmention.com/
• http://www.tweetfeel.com/
• http://7puentes.com/en/products/ventura/
Introducci´on
Tareas de An´alisis de Sentimientos
• Clasificaci´on Binaria: polaridad general del documento
positiva o negativa
• Clasificaci´on en M´ultiples Categor´ıas: grado de polaridad
del documento en una escala.
• Clasificaci´on de Aspectos: identificaci´on de aspectos
mencionados en el texto y emociones asociadas.
Ejemplo:
• Comida: positiva
• Ambiente: negativa
• Servicio: positiva
En este trabajo nos enfocaremos en clasificaci´on binaria a nivel
de documento.
Resumen
¿En qu´e consiste este trabajo?
• Investigaci´on, evaluaci´on y comparaci´on experimental de
t´ecnicas de PLN para an´alisis de informaci´on subjetiva en
idioma espa˜nol.
• Se implement´o una herramienta de an´alisis de sentimientos
que provee m´etricas sobre performance de modelos de
clasificaci´on en funci´on distintos par´ametros de entrada.
• Como corpus de datos se utiliz´o un sitio de cr´ıtica
gastron´omica.
Principales contribuciones
• Proveer un an´alisis de performance de t´ecnicas de
clasificaci´on subjetiva de textos en funci´on de distintos
par´ametros para el idioma espa˜nol.
• Aportar el corpus construido como un recurso ling¨u´ıstico.
T´ecnicas de Clasificaci´on
T´ecnicas de Machine Learning - Aprendizaje Supervisado
• Na¨ıve Bayes
Se basa en el teorema de Bayes y en la premisa de independencia de los
atributos para obtener la probabilidad de que un documento pertenezca a
una clase.
P(Ci|D) ∝ P(Ci)
n
k=1 P(fk|Ci)
• Modelos de M´axima Entrop´ıa (MaxEnt)
Los documentos son descriptos a partir de una lista de atributos, siendo
cada uno una restricci´on del modelo. El m´etodo se basa en seleccionar la
distribuci´on de probabilidad que satisfaga todas las restricciones del modelo
y maximice la entrop´ıa.
P(c|x) =
exp( N
i=0 wcifi)
c ∈C exp( N
i=0 wc ifi)
T´ecnicas de Clasificaci´on
T´ecnicas de Machine Learning - Aprendizaje Supervisado
• Support Vector Machines (SVM)
El entrenamiento consiste en encontrar un
hiperplano que separe los vectores de atributos que
representan los documentos siendo esta separaci´on
la m´as grande posible.
Support Vectors: definen los m´argenes de la
m´axima separaci´on entre las clases.
f(x) = sign( i αixi · x + b)
• ´Arboles de Decisi´on
El entrenamiento consiste en la construcci´on de un
´arbol de decisi´on de m´ultiples caminos en el que
para cada nodo se busca el atributo que provee
mayor ganancia de informaci´on para la clase
→ Reglas de Decisi´on
contiene(‘excelente’)
contiene(‘comida’)
contiene(‘malo’)
POS
0.6
NEG
0.8
si no
contiene(‘fria’)
POS
0.6
NEG
0.7
si no
si no
POS
0.9
si no
T´ecnicas de Clasificaci´on
Clasificaci´on No Supervisada o Semi-Supervisada
• Algoritmo de Turney
1 Se extraen los bigramas del documento que cumplen con
determinados patrones de opini´on.
2 Se calcula la distancia sem´antica de estos bigramas a los
t´erminos “poor” y “excellent”:
SO(phrase) = log2[hits(phrase NEAR “excellent”)hits(“poor”)
hits(phrase NEAR “poor”)hits(“excellent”) ]
3 Si SO > 0 → positivo , sino → negativo
T´ecnicas de Preprocesamiento de Texto
Preprocesamientos con los que experimentamos en este trabajo:
• Tokenizaci´on
Separaci´on de oraciones, palabras y signos de puntuaci´on.
• Stemming
Se reemplazan los t´erminos por su ra´ız o stem eliminando terminaciones.
Ejemplo: stem(“recomendable”) = stem(“recomendamos”) =
stem(“recomendar”) = “recomend”
• Lematizaci´on
Se reemplazan los t´erminos por su lema que es la representaci´on de todas las
formas flexionadas de la palabra.
Ejemplo: lema(“p´esimo”) = malo, lema(“buen´ısimo”) = bueno,
lema(“empieza”) = empezar.
• Eliminaci´on de stopwords “de”, “la”, “el”, “que”, etc.
• Eliminaci´on de signos de puntuaci´on, caracteres especiales y caracteres
repetidos m´as de N veces.
• Filtrado de Palabras por m´ınimo de longitud.
• Transformaci´on a min´uscula.
• Tratamiento de Negaciones
Se agrega el prefijo “NOT ” a los t´erminos que siguen a una negaci´on hasta
el siguiente signo de puntuaci´on.
Implementaci´on y Herramientas
Se desarroll´o una herramienta en lenguaje Python para
clasificaci´on autom´atica de textos seg´un polaridad de
sentimientos que se ejecuta en funci´on de los siguientes
par´ametros:
• Algoritmos de clasificaci´on: Na¨ıve Bayes, MaxEnt, SVM,
Decision Trees y adaptaci´on del algoritmo de Turney.
• Tama˜no de Corpus
• Tipos de atributos extra´ıdos:
• Presencia de Unigramas
• Frecuencia de Unigramas
• Presencia de Bigramas
• Presencia de Unigramas + Bigramas
• Presencia de Adjetivos
• Preprocesamientos de Texto
Implementaci´on y Herramientas
Herramientas Externas
Seleccionadas en base a la precisi´on de los resultados y velocidad de convergencia.
• Na¨ıve Bayes
→ NLTK
http://nltk.org
• C´alculo de pesos en modelos de M´axima Entrop´ıa
→ megam
http://www.umiacs.umd.edu/~hal/megam/
• SVM y Decision Trees (CART)
→ sci-kit learn
http://scikit-learn.org/
• Lematizaci´on, Stemming y POS Tagging
→ Freeling
http://nlp.lsi.upc.edu/freeling/
Implementaci´on y Herramientas
Adaptaci´on del Algoritmo de Turney al Idioma Espa˜nol
• El operador NEAR se defini´o como la ocurrencia conjunta
de los t´erminos en la misma oraci´on.
• Patrones de opini´on:
Primera Palabra Segunda Palabra Tercera Palabra
(No Extra´ıda)
Adjetivo Nombre Cualquiera
Nombre Adjetivo No Nombre
Adverbio Adjetivo No Nombre
Adverbio Verbo Cualquiera
Verbo Adverbio Cualquiera
• T´erminos utilizados para representar polaridad:
• Positivos: excelente, excelentes, bueno/a, buenos/as,
buenisimo/a, buenisimos/as, rico/a, ricos/as, espectacular,
genial.
• Negativos: mal, malo/a, malos/as, feo/a, feos/as, horrible,
horribles, pesimo/a, pesimos/as, desastre, mediocre.
Caso de Estudio
Gu´ıa ´Oleo
http://guiaoleo.com
• Sitio de cr´ıtica
gastron´omica
• Los usuarios
emiten opiniones
sobre restaurantes
en las categor´ıas:
comida, ambiente
y servicio
asignando
puntajes:
1 → malo / regular
2 → bueno
3 → muy bueno
4 → excelente
Caso de Estudio
Construcci´on del Corpus
1 Se extrajeron los comentarios del sitio en estudio junto
con el puntaje asignado por el usuario.
2 Se etiquet´o el set de datos a partir del siguiente
criterio:
• Suma de puntos ≥ 10 → POSITIVO
• 1 punto en la categor´ıa “comida” (la m´as relevante)
o 2 puntos en esta categor´ıa y 1 punto en el resto
→ NEGATIVO
• El resto de los comentarios se descartaron
3 El dataset final incluye un total de 34808 comentarios
positivos y 16912 negativos.
Experimentaci´on
Experiencias Realizadas
• Mejora de performance aplicando preprocesamientos de texto.
• Performance de clasificadores en funci´on de distintos par´ametros.
Par´ametros Generales
• Tama˜no de Corpus entre 500 y 22000 documentos
• Corpus Balanceado
• 5-fold cross validation para m´etodos supervisados.
• Criterio para la extracci´on de features:
• Unigramas → frecuencia mayor a 10.
• Adjetivos y Bigramas → frecuencia mayor a 4.
• M´aximo de 3000 atributos.
M´etricas
Accuracy =
tp+tn
tp+fp+tn+fn
; Precision =
tp
tp+fp
; Recall =
tp
tp+fn
; F1 = 2P R
P +R
Por ser un corpus balanceado analizamos la performance en base a la accuracy sin
perder informaci´on de alguna de las clases.
Experimentaci´on
Efectividad de Preprocesadores: Tama˜no m´aximo de Corpus,
Unigramas como Features y Algoritmo Na¨ıve Bayes
Preproceso Accuracy Mejora (%)
NP (Sin Preproceso) 0.868
SW (Eliminaci´on de stopwords) 0.895 3.11%
NEG (Tratamiento de negaciones) 0.875 0.81%
WL (Filtrado de palabras de menos de 3 caracteres) 0.883 1.73%
DC (Eliminaci´on de caracteres repetidos m´as de 2 veces) 0.867 -0.12%
STEM (Stemming) 0.861 -0.81%
LC (Transformaci´on de capitalizaciones) 0.868 0.00%
PUNCT (Eliminaci´on de signos de puntuaci´on) 0.871 0.35%
SC (Transformaci´on de caracteres especiales) 0.869 0.12%
LEMMA (Lematizaci´on) 0.867 -0.12%
Combinaci´on 1: SW + NEG 0.905 4.26%
Combinaci´on 2: SW + NEG + WL 0.911 4.95%
Combinaci´on 3: SW + NEG + WL + PUNCT 0.914 5.3%
Combinaci´on 4: SW + NEG + WL + PUNCT + SC 0.918 5.76%
Combinaci´on 5: SW + NEG + WL + PUNCT + SC + LC 0.924 6.45%
Combinaci´on 6: SW + NEG + WL + PUNCT + SC + LC +
LEMMA
0.92 5.99%
Combinaci´on 7: SW + NEG + WL + PUNCT + SC + LC +
DC
0.924 6.45%
Combinaci´on 8: SW + NEG + WL + PUNCT + SC + LC +
STEM
0.918 5.76%
Experimentaci´on
Efectividad de PreprocesadoresSW
NEG
WL
DC
STEM
LC
PUNCT
SC
LEMMA
COMB1COMB2COMB3COMB4COMB5COMB6COMB7COMB8
−2
0
2
4
6
8
3.11%
0.81%
1.73%
−0.12%
−0.81%
0%
0.35%
0.12%
−0.12%
4.26%
4.95%
5.3%
5.76%
6.45%
5.99%
6.45%
5.76%
MejoradeAccuracy(%)
An´alisis de Resultados
• Hay preprocesamientos
que aplicados en forma
aislada no representan
una mejora pero s´ı lo
hacen en combinaci´on
con otros
(transformaci´on a
min´uscula).
• Contrario a lo que
ocurre en tareas de IR,
realizar stemming o
lematizaci´on sobre el
texto empeora los
resultados.
• La mejora que
representa la
combinaci´on de
preprocesos resulta
mayor que la suma de
las mejoras individuales.
Experimentaci´on
Efectividad de Clasificadores Supervisados por Algoritmo
0 5000 10000 15000 20000
0.75
0.8
0.85
0.9
0.95
Tama˜no del Corpus
Accuracy
(a) Presencia de Unigramas
0 5000 10000 15000 20000
0.75
0.8
0.85
0.9
0.95
Tama˜no del Corpus
(b) Frecuencia de Unigramas
0 5000 10000 15000 20000
0.6
0.7
0.8
0.9
Tama˜no del Corpus
(c) Bigramas
0 5000 10000 15000 20000
0.75
0.8
0.85
0.9
0.95
Tama˜no del Corpus
Accuracy
(d) Unigramas + Bigramas
0 5000 10000 15000 20000
0.8
0.85
0.9
Tama˜no del Corpus
(d) Adjetivos
Na¨ıve Bayes
MaxEnt
SVM
Decision Trees
Experimentaci´on
Efectividad de Clasificadores Supervisados por Atributo
0 5000 10000 15000 20000
0.7
0.8
0.9
Tama˜no del Corpus
Accuracy
(a) Na¨ıve Bayes (NLTK)
0 5000 10000 15000 20000
0.7
0.8
0.9
Tama˜no del Corpus
(b) MaxEnt (megam)
0 5000 10000 15000 20000
0.7
0.8
0.9
Tama˜no del Corpus
Accuracy
(c) SVM (sci-kit learn)
0 5000 10000 15000 20000
0.6
0.7
0.8
0.9
Tama˜no del Corpus
(d) Decision Trees (sci-kit learn)
Presencia de Unigramas
Frecuencia de Unigramas
Presencia de Bigramas
Presencia de Unigramas y Bigramas
Presencia de Adjetivos
Experimentaci´on
Comparaci´on de Clasificadores Supervisados y No Supervisados
para M´aximo Tama˜no de Corpus
Na¨ıve Bayes MaxEnt SVM DecisionTrees Turney
0.6
0.7
0.8
0.9
1
0.92
0.94
0.94
0.88
0.92
0.94
0.95
0.88
0.88
0.84
0.86
0.8
0.94
0.95
0.95
0.88
0.91
0.88
0.9
0.85
0.84
Accuracy
Presencia de Unigramas Frecuencia de Unigramas Presencia de Bigramas
Presencia de Unigramas y Bigramas Presencia de Adjetivos Patrones de Opini´on
Experimentaci´on
Efectividad de Clasificadores - An´alisis de Resultados
• Na¨ıve Bayes arroja los mejores resultados para corpus peque˜nos pero su
performance decrece levemente para los tama˜nos de corpus m´as grandes.
• MaxEnt y SVM mejoran su performance a medida que crece el tama˜no de
corpus y alcanzan la m´axima performance de la experiencia.
• Como ya se conoce la performance de Decision Trees es notablemente peor
que la obtenida con los otros modelos.
• Para todos los clasificadores supervisados los mejores resultados se
obtienen utilizando como atributos la combinaci´on de presencia de
unigramas y bigramas.
• Utilizar adjetivos como atributos arroja resultados considerablemente
peores que utilizando todos los unigramas.
• Al igual que para el idioma ingl´es (Pang and Lee, 2002) considerar
frecuencia de unigramas como atributos no representa una mejora notable
con respecto a presencia.
• El algoritmo de Turney arroja muy buenos resultados comparables a los
obtenidos para m´etodos supervisados usando bigramas como atributos
considerando que no requiere un corpus etiquetado para el entrenamiento.
Conclusiones y Trabajo Futuro
Conclusiones
• Analizamos el impacto en la performance de los clasificadores
ante la variaci´on de par´ametros de entrada para un corpus en
espa˜nol.
• Hallamos que aplicar preprocesamientos influye
considerablemente en los resultados.
• Alcanzamos la m´axima precisi´on utilizando MaxEnt y SVM para
corpus grandes y Na¨ıve Bayes para corpus m´as peque˜nos.
• Mostramos que Turney tambi´en resulta una opci´on adecuada
para el idioma espa˜nol cuando no se tiene un corpus etiquetado y
puede refinarse para un dominio espec´ıfico.
Pr´oximos Pasos
• Evaluar la performance de los modelos en estudio cuando se
entrena con el corpus propuesto y se clasifica otro dominio.
• Realizar experiencias para corpus desbalanceados.
• Proponer otros preprocesamientos y tipos de atributos que
permitan mejorar los resultados y generalizar los clasificadores.
¿Preguntas?
“There’s no right,
there’s no wrong,
there’s only popular opinion.”
(Twelve Monkeys, 2005)

Mais conteúdo relacionado

Semelhante a Presentación ASAI 2013 - Análisis de Sentimientos sobre un Corpus en Español - 42 JAIIO

¿Podemos predecir si Twitter hundirá un banco?
¿Podemos predecir si Twitter hundirá un banco?¿Podemos predecir si Twitter hundirá un banco?
¿Podemos predecir si Twitter hundirá un banco?Carlos Perales
 
Charla ArgenTesting: Potenciando las pruebas exploratorias a nivel de equipo
Charla ArgenTesting: Potenciando las pruebas exploratorias a nivel de equipoCharla ArgenTesting: Potenciando las pruebas exploratorias a nivel de equipo
Charla ArgenTesting: Potenciando las pruebas exploratorias a nivel de equipoClaudia Badell
 
Fp sesion 1 ppt
Fp sesion 1 pptFp sesion 1 ppt
Fp sesion 1 pptThejacob18
 
Unidad 1 algoritmos y programas
Unidad 1 algoritmos y programasUnidad 1 algoritmos y programas
Unidad 1 algoritmos y programasRoberth Camana
 
Practicar con weka.pptx
Practicar con weka.pptxPracticar con weka.pptx
Practicar con weka.pptxDarnelyC
 
software estimation (in spanish)
software estimation (in spanish)software estimation (in spanish)
software estimation (in spanish)Fáber D. Giraldo
 
Cuantificadores Difusos-PostgreSQLf
Cuantificadores Difusos-PostgreSQLfCuantificadores Difusos-PostgreSQLf
Cuantificadores Difusos-PostgreSQLfGustavo Bazan Maal
 
Construcción de un test (2).pptx
Construcción de un test (2).pptxConstrucción de un test (2).pptx
Construcción de un test (2).pptxsandrojoelcanalpea
 
Taller los estudios de base para Fundos Zamoranos
Taller los estudios de base para Fundos ZamoranosTaller los estudios de base para Fundos Zamoranos
Taller los estudios de base para Fundos ZamoranosAbdel Alarcón
 
Evento en Córdoba 2016 - Taller de testing exploratorio - Federico Toledo
Evento en Córdoba 2016 - Taller de testing exploratorio - Federico ToledoEvento en Córdoba 2016 - Taller de testing exploratorio - Federico Toledo
Evento en Córdoba 2016 - Taller de testing exploratorio - Federico ToledoFederico Toledo
 
Clase12dsblok
Clase12dsblokClase12dsblok
Clase12dsblokkaneke
 
Unidad 2 programación estructurada
Unidad 2 programación estructuradaUnidad 2 programación estructurada
Unidad 2 programación estructuradaRoberth Camana
 
Aplicaciones de PLN en empresas - Fab Lab ESAN
Aplicaciones de PLN en empresas - Fab Lab ESANAplicaciones de PLN en empresas - Fab Lab ESAN
Aplicaciones de PLN en empresas - Fab Lab ESANYabed Contreras Zambrano
 
Tsp (Team Software Process )
Tsp (Team Software Process )Tsp (Team Software Process )
Tsp (Team Software Process )silviachmn
 

Semelhante a Presentación ASAI 2013 - Análisis de Sentimientos sobre un Corpus en Español - 42 JAIIO (20)

¿Podemos predecir si Twitter hundirá un banco?
¿Podemos predecir si Twitter hundirá un banco?¿Podemos predecir si Twitter hundirá un banco?
¿Podemos predecir si Twitter hundirá un banco?
 
Charla ArgenTesting: Potenciando las pruebas exploratorias a nivel de equipo
Charla ArgenTesting: Potenciando las pruebas exploratorias a nivel de equipoCharla ArgenTesting: Potenciando las pruebas exploratorias a nivel de equipo
Charla ArgenTesting: Potenciando las pruebas exploratorias a nivel de equipo
 
Fp sesion 1 ppt
Fp sesion 1 pptFp sesion 1 ppt
Fp sesion 1 ppt
 
Estadística: Contar Apariciones de variables
Estadística: Contar Apariciones de variablesEstadística: Contar Apariciones de variables
Estadística: Contar Apariciones de variables
 
Unidad 1 algoritmos y programas
Unidad 1 algoritmos y programasUnidad 1 algoritmos y programas
Unidad 1 algoritmos y programas
 
Catedra psp
Catedra pspCatedra psp
Catedra psp
 
Practicar con weka.pptx
Practicar con weka.pptxPracticar con weka.pptx
Practicar con weka.pptx
 
software estimation (in spanish)
software estimation (in spanish)software estimation (in spanish)
software estimation (in spanish)
 
Qualitytest
QualitytestQualitytest
Qualitytest
 
Cuantificadores Difusos-PostgreSQLf
Cuantificadores Difusos-PostgreSQLfCuantificadores Difusos-PostgreSQLf
Cuantificadores Difusos-PostgreSQLf
 
Construcción de un test (2).pptx
Construcción de un test (2).pptxConstrucción de un test (2).pptx
Construcción de un test (2).pptx
 
Programación
ProgramaciónProgramación
Programación
 
Taller los estudios de base para Fundos Zamoranos
Taller los estudios de base para Fundos ZamoranosTaller los estudios de base para Fundos Zamoranos
Taller los estudios de base para Fundos Zamoranos
 
Evento en Córdoba 2016 - Taller de testing exploratorio - Federico Toledo
Evento en Córdoba 2016 - Taller de testing exploratorio - Federico ToledoEvento en Córdoba 2016 - Taller de testing exploratorio - Federico Toledo
Evento en Córdoba 2016 - Taller de testing exploratorio - Federico Toledo
 
Clase12dsblok
Clase12dsblokClase12dsblok
Clase12dsblok
 
Unidad 2 programación estructurada
Unidad 2 programación estructuradaUnidad 2 programación estructurada
Unidad 2 programación estructurada
 
Aplicaciones de PLN en empresas - Fab Lab ESAN
Aplicaciones de PLN en empresas - Fab Lab ESANAplicaciones de PLN en empresas - Fab Lab ESAN
Aplicaciones de PLN en empresas - Fab Lab ESAN
 
Metricas
MetricasMetricas
Metricas
 
Tsp (Team Software Process )
Tsp (Team Software Process )Tsp (Team Software Process )
Tsp (Team Software Process )
 
Métricas
MétricasMétricas
Métricas
 

Último

Carta de Premio y Excel angeline 11-2pdf
Carta de Premio y Excel angeline 11-2pdfCarta de Premio y Excel angeline 11-2pdf
Carta de Premio y Excel angeline 11-2pdfangelinebocanegra1
 
Los mejores simuladores de circuitos electrónicos.pdf
Los mejores simuladores de circuitos electrónicos.pdfLos mejores simuladores de circuitos electrónicos.pdf
Los mejores simuladores de circuitos electrónicos.pdfodalistar77
 
Actividad 1-PRESENTACIÓN ANIMADA.pptxPreservación y conservación de los docum...
Actividad 1-PRESENTACIÓN ANIMADA.pptxPreservación y conservación de los docum...Actividad 1-PRESENTACIÓN ANIMADA.pptxPreservación y conservación de los docum...
Actividad 1-PRESENTACIÓN ANIMADA.pptxPreservación y conservación de los docum...OLGAMILENAMONTAEZNIO
 
Inteligencia artificial dentro de la contabilidad
Inteligencia artificial dentro de la contabilidadInteligencia artificial dentro de la contabilidad
Inteligencia artificial dentro de la contabilidaddanik1023m
 
TENDENCIAS DE IA Explorando el futuro de la tecnologia.pdf
TENDENCIAS DE IA Explorando el futuro de la tecnologia.pdfTENDENCIAS DE IA Explorando el futuro de la tecnologia.pdf
TENDENCIAS DE IA Explorando el futuro de la tecnologia.pdfJoseAlejandroPerezBa
 
VIDEOS DE APOYO.docx E
VIDEOS DE APOYO.docx                                  EVIDEOS DE APOYO.docx                                  E
VIDEOS DE APOYO.docx Emialexsolar
 
La Electricidad y La Electrónica.pdf....
La Electricidad y La Electrónica.pdf....La Electricidad y La Electrónica.pdf....
La Electricidad y La Electrónica.pdf....Aaron Betancourt
 
Actividad 14_ Diseño de Algoritmos Paralelos.pdf
Actividad 14_ Diseño de Algoritmos Paralelos.pdfActividad 14_ Diseño de Algoritmos Paralelos.pdf
Actividad 14_ Diseño de Algoritmos Paralelos.pdfalejandrogomezescoto
 
El diseño de Algoritmos Paralelos.pdf - analisis de algortimos
El diseño de Algoritmos Paralelos.pdf - analisis de algortimosEl diseño de Algoritmos Paralelos.pdf - analisis de algortimos
El diseño de Algoritmos Paralelos.pdf - analisis de algortimosLCristinaForchue
 
Matriz de integración de tecnologías- Paola Carvajal.docx
Matriz de integración de tecnologías- Paola Carvajal.docxMatriz de integración de tecnologías- Paola Carvajal.docx
Matriz de integración de tecnologías- Paola Carvajal.docxPaolaCarolinaCarvaja
 
Tecnológia 2024.docx.Tecnológia 2024.docx.
Tecnológia 2024.docx.Tecnológia 2024.docx.Tecnológia 2024.docx.Tecnológia 2024.docx.
Tecnológia 2024.docx.Tecnológia 2024.docx.marianarodriguezc797
 
Presentación - Diseño de Algoritmos Paralelos - Grupo 2.pdf
Presentación - Diseño de Algoritmos Paralelos - Grupo 2.pdfPresentación - Diseño de Algoritmos Paralelos - Grupo 2.pdf
Presentación - Diseño de Algoritmos Paralelos - Grupo 2.pdfymiranda2
 
La tablet trabajo en grupo del grado 9-2
La tablet trabajo en grupo del grado 9-2La tablet trabajo en grupo del grado 9-2
La tablet trabajo en grupo del grado 9-2montoyagabriela340
 
Inmersión global en ciberseguridad e IA en la conferencia RSA.pdf
Inmersión global en ciberseguridad e IA en la conferencia RSA.pdfInmersión global en ciberseguridad e IA en la conferencia RSA.pdf
Inmersión global en ciberseguridad e IA en la conferencia RSA.pdfOBr.global
 
PRESENTACION DEL TEMA LOS MEJORES SIMULADORES DE CIRCUITOS ELCTRONICOS
PRESENTACION DEL TEMA LOS MEJORES SIMULADORES DE CIRCUITOS ELCTRONICOSPRESENTACION DEL TEMA LOS MEJORES SIMULADORES DE CIRCUITOS ELCTRONICOS
PRESENTACION DEL TEMA LOS MEJORES SIMULADORES DE CIRCUITOS ELCTRONICOSLincangoKevin
 
Análisis de artefactos tecnologicos .pdf
Análisis de artefactos tecnologicos .pdfAnálisis de artefactos tecnologicos .pdf
Análisis de artefactos tecnologicos .pdfcastrodanna185
 
De Código a Ejecución: El Papel Fundamental del MSIL en .NET
De Código a Ejecución: El Papel Fundamental del MSIL en .NETDe Código a Ejecución: El Papel Fundamental del MSIL en .NET
De Código a Ejecución: El Papel Fundamental del MSIL en .NETGermán Küber
 
Actividad 14: Diseño de Algoritmos Paralelos Actividad 14: Diseño de Algoritm...
Actividad 14: Diseño de Algoritmos Paralelos Actividad 14: Diseño de Algoritm...Actividad 14: Diseño de Algoritmos Paralelos Actividad 14: Diseño de Algoritm...
Actividad 14: Diseño de Algoritmos Paralelos Actividad 14: Diseño de Algoritm...RaymondCode
 

Último (20)

Carta de Premio y Excel angeline 11-2pdf
Carta de Premio y Excel angeline 11-2pdfCarta de Premio y Excel angeline 11-2pdf
Carta de Premio y Excel angeline 11-2pdf
 
Los mejores simuladores de circuitos electrónicos.pdf
Los mejores simuladores de circuitos electrónicos.pdfLos mejores simuladores de circuitos electrónicos.pdf
Los mejores simuladores de circuitos electrónicos.pdf
 
Actividad 1-PRESENTACIÓN ANIMADA.pptxPreservación y conservación de los docum...
Actividad 1-PRESENTACIÓN ANIMADA.pptxPreservación y conservación de los docum...Actividad 1-PRESENTACIÓN ANIMADA.pptxPreservación y conservación de los docum...
Actividad 1-PRESENTACIÓN ANIMADA.pptxPreservación y conservación de los docum...
 
BEDEC Proyecto y obra , novedades 2024 - Xavier Folch
BEDEC Proyecto y obra , novedades 2024 - Xavier FolchBEDEC Proyecto y obra , novedades 2024 - Xavier Folch
BEDEC Proyecto y obra , novedades 2024 - Xavier Folch
 
Inteligencia artificial dentro de la contabilidad
Inteligencia artificial dentro de la contabilidadInteligencia artificial dentro de la contabilidad
Inteligencia artificial dentro de la contabilidad
 
TENDENCIAS DE IA Explorando el futuro de la tecnologia.pdf
TENDENCIAS DE IA Explorando el futuro de la tecnologia.pdfTENDENCIAS DE IA Explorando el futuro de la tecnologia.pdf
TENDENCIAS DE IA Explorando el futuro de la tecnologia.pdf
 
VIDEOS DE APOYO.docx E
VIDEOS DE APOYO.docx                                  EVIDEOS DE APOYO.docx                                  E
VIDEOS DE APOYO.docx E
 
La Electricidad y La Electrónica.pdf....
La Electricidad y La Electrónica.pdf....La Electricidad y La Electrónica.pdf....
La Electricidad y La Electrónica.pdf....
 
Actividad 14_ Diseño de Algoritmos Paralelos.pdf
Actividad 14_ Diseño de Algoritmos Paralelos.pdfActividad 14_ Diseño de Algoritmos Paralelos.pdf
Actividad 14_ Diseño de Algoritmos Paralelos.pdf
 
El diseño de Algoritmos Paralelos.pdf - analisis de algortimos
El diseño de Algoritmos Paralelos.pdf - analisis de algortimosEl diseño de Algoritmos Paralelos.pdf - analisis de algortimos
El diseño de Algoritmos Paralelos.pdf - analisis de algortimos
 
BEDEC Sostenibilidad, novedades 2024 - Laura Silva
BEDEC Sostenibilidad, novedades 2024 - Laura SilvaBEDEC Sostenibilidad, novedades 2024 - Laura Silva
BEDEC Sostenibilidad, novedades 2024 - Laura Silva
 
Matriz de integración de tecnologías- Paola Carvajal.docx
Matriz de integración de tecnologías- Paola Carvajal.docxMatriz de integración de tecnologías- Paola Carvajal.docx
Matriz de integración de tecnologías- Paola Carvajal.docx
 
Tecnológia 2024.docx.Tecnológia 2024.docx.
Tecnológia 2024.docx.Tecnológia 2024.docx.Tecnológia 2024.docx.Tecnológia 2024.docx.
Tecnológia 2024.docx.Tecnológia 2024.docx.
 
Presentación - Diseño de Algoritmos Paralelos - Grupo 2.pdf
Presentación - Diseño de Algoritmos Paralelos - Grupo 2.pdfPresentación - Diseño de Algoritmos Paralelos - Grupo 2.pdf
Presentación - Diseño de Algoritmos Paralelos - Grupo 2.pdf
 
La tablet trabajo en grupo del grado 9-2
La tablet trabajo en grupo del grado 9-2La tablet trabajo en grupo del grado 9-2
La tablet trabajo en grupo del grado 9-2
 
Inmersión global en ciberseguridad e IA en la conferencia RSA.pdf
Inmersión global en ciberseguridad e IA en la conferencia RSA.pdfInmersión global en ciberseguridad e IA en la conferencia RSA.pdf
Inmersión global en ciberseguridad e IA en la conferencia RSA.pdf
 
PRESENTACION DEL TEMA LOS MEJORES SIMULADORES DE CIRCUITOS ELCTRONICOS
PRESENTACION DEL TEMA LOS MEJORES SIMULADORES DE CIRCUITOS ELCTRONICOSPRESENTACION DEL TEMA LOS MEJORES SIMULADORES DE CIRCUITOS ELCTRONICOS
PRESENTACION DEL TEMA LOS MEJORES SIMULADORES DE CIRCUITOS ELCTRONICOS
 
Análisis de artefactos tecnologicos .pdf
Análisis de artefactos tecnologicos .pdfAnálisis de artefactos tecnologicos .pdf
Análisis de artefactos tecnologicos .pdf
 
De Código a Ejecución: El Papel Fundamental del MSIL en .NET
De Código a Ejecución: El Papel Fundamental del MSIL en .NETDe Código a Ejecución: El Papel Fundamental del MSIL en .NET
De Código a Ejecución: El Papel Fundamental del MSIL en .NET
 
Actividad 14: Diseño de Algoritmos Paralelos Actividad 14: Diseño de Algoritm...
Actividad 14: Diseño de Algoritmos Paralelos Actividad 14: Diseño de Algoritm...Actividad 14: Diseño de Algoritmos Paralelos Actividad 14: Diseño de Algoritm...
Actividad 14: Diseño de Algoritmos Paralelos Actividad 14: Diseño de Algoritm...
 

Presentación ASAI 2013 - Análisis de Sentimientos sobre un Corpus en Español - 42 JAIIO

  • 1. An´alisis de Sentimientos sobre un Corpus en Espa˜nol Experimentaci´on con un Caso de Estudio Luciana Dubiau ldubiau@fi.uba.ar Juan M Ale ale@acm.org Facultad de Ingenier´ıa Universidad de Buenos Aires ASAI 2013 - 42 JAIIO
  • 2. Introducci´on An´alisis de Sentimientos • Tambi´en llamado Extracci´on de Opiniones, Miner´ıa de Opiniones, Miner´ıa de Sentimientos o An´alisis Subjetivo. • Definici´on Estudio computacional de opiniones, sentimientos y emociones expresadas en textos (Pang and Lee, 2008). • Objetivo Determinar la actitud de un escritor ante determinados productos, situaciones, personas u organizaciones. • Componentes de Opini´on (Liu, 2010) • Target: objeto de opini´on. • Features: aspectos o atributos que generan opini´on. • Holder: quien expresa la opini´on. • Orientaci´on Sem´antica: positiva, negativa, neutra. • Tiempo: momento en que se expresa la opini´on.
  • 3. Introducci´on Ejemplo: Cr´ıtica sobre Restaurante “Me gusta mucho este restaurante. La comida es fresca y se nota que hay rotaci´on continua. El ambiente es bastante ruidoso pero los mozos son muy amables y los precios muy accesibles.” • Target: restaurante • Features: comida, ambiente, mozos, precios • Polaridad de la opini´on: • me gusta mucho este restaurante • comida fresca • ambiente bastante ruidoso • mozos muy amables • precios muy accesibles • Polaridad general del documento: positiva • Holder: autor del comentario • Tiempo: fecha del comentario
  • 4. Introducci´on ¿Qu´e tipo de informaci´on puede obtenerse? • Polaridad de sentimientos en cr´ıticas sobre arte, productos, servicios o personas • Nivel de fidelizaci´on de clientes • Opini´on p´ublica sobre situaciones de inter´es social • Popularidad de representantes pol´ıticos y predicci´on sobre resultados de elecciones • Tendencias de mercado Ejemplos de Aplicaciones • http://sentione.pl/ • http://www.sentiment140.com/ • http://socialmention.com/ • http://www.tweetfeel.com/ • http://7puentes.com/en/products/ventura/
  • 5. Introducci´on Tareas de An´alisis de Sentimientos • Clasificaci´on Binaria: polaridad general del documento positiva o negativa • Clasificaci´on en M´ultiples Categor´ıas: grado de polaridad del documento en una escala. • Clasificaci´on de Aspectos: identificaci´on de aspectos mencionados en el texto y emociones asociadas. Ejemplo: • Comida: positiva • Ambiente: negativa • Servicio: positiva En este trabajo nos enfocaremos en clasificaci´on binaria a nivel de documento.
  • 6. Resumen ¿En qu´e consiste este trabajo? • Investigaci´on, evaluaci´on y comparaci´on experimental de t´ecnicas de PLN para an´alisis de informaci´on subjetiva en idioma espa˜nol. • Se implement´o una herramienta de an´alisis de sentimientos que provee m´etricas sobre performance de modelos de clasificaci´on en funci´on distintos par´ametros de entrada. • Como corpus de datos se utiliz´o un sitio de cr´ıtica gastron´omica. Principales contribuciones • Proveer un an´alisis de performance de t´ecnicas de clasificaci´on subjetiva de textos en funci´on de distintos par´ametros para el idioma espa˜nol. • Aportar el corpus construido como un recurso ling¨u´ıstico.
  • 7. T´ecnicas de Clasificaci´on T´ecnicas de Machine Learning - Aprendizaje Supervisado • Na¨ıve Bayes Se basa en el teorema de Bayes y en la premisa de independencia de los atributos para obtener la probabilidad de que un documento pertenezca a una clase. P(Ci|D) ∝ P(Ci) n k=1 P(fk|Ci) • Modelos de M´axima Entrop´ıa (MaxEnt) Los documentos son descriptos a partir de una lista de atributos, siendo cada uno una restricci´on del modelo. El m´etodo se basa en seleccionar la distribuci´on de probabilidad que satisfaga todas las restricciones del modelo y maximice la entrop´ıa. P(c|x) = exp( N i=0 wcifi) c ∈C exp( N i=0 wc ifi)
  • 8. T´ecnicas de Clasificaci´on T´ecnicas de Machine Learning - Aprendizaje Supervisado • Support Vector Machines (SVM) El entrenamiento consiste en encontrar un hiperplano que separe los vectores de atributos que representan los documentos siendo esta separaci´on la m´as grande posible. Support Vectors: definen los m´argenes de la m´axima separaci´on entre las clases. f(x) = sign( i αixi · x + b) • ´Arboles de Decisi´on El entrenamiento consiste en la construcci´on de un ´arbol de decisi´on de m´ultiples caminos en el que para cada nodo se busca el atributo que provee mayor ganancia de informaci´on para la clase → Reglas de Decisi´on contiene(‘excelente’) contiene(‘comida’) contiene(‘malo’) POS 0.6 NEG 0.8 si no contiene(‘fria’) POS 0.6 NEG 0.7 si no si no POS 0.9 si no
  • 9. T´ecnicas de Clasificaci´on Clasificaci´on No Supervisada o Semi-Supervisada • Algoritmo de Turney 1 Se extraen los bigramas del documento que cumplen con determinados patrones de opini´on. 2 Se calcula la distancia sem´antica de estos bigramas a los t´erminos “poor” y “excellent”: SO(phrase) = log2[hits(phrase NEAR “excellent”)hits(“poor”) hits(phrase NEAR “poor”)hits(“excellent”) ] 3 Si SO > 0 → positivo , sino → negativo
  • 10. T´ecnicas de Preprocesamiento de Texto Preprocesamientos con los que experimentamos en este trabajo: • Tokenizaci´on Separaci´on de oraciones, palabras y signos de puntuaci´on. • Stemming Se reemplazan los t´erminos por su ra´ız o stem eliminando terminaciones. Ejemplo: stem(“recomendable”) = stem(“recomendamos”) = stem(“recomendar”) = “recomend” • Lematizaci´on Se reemplazan los t´erminos por su lema que es la representaci´on de todas las formas flexionadas de la palabra. Ejemplo: lema(“p´esimo”) = malo, lema(“buen´ısimo”) = bueno, lema(“empieza”) = empezar. • Eliminaci´on de stopwords “de”, “la”, “el”, “que”, etc. • Eliminaci´on de signos de puntuaci´on, caracteres especiales y caracteres repetidos m´as de N veces. • Filtrado de Palabras por m´ınimo de longitud. • Transformaci´on a min´uscula. • Tratamiento de Negaciones Se agrega el prefijo “NOT ” a los t´erminos que siguen a una negaci´on hasta el siguiente signo de puntuaci´on.
  • 11. Implementaci´on y Herramientas Se desarroll´o una herramienta en lenguaje Python para clasificaci´on autom´atica de textos seg´un polaridad de sentimientos que se ejecuta en funci´on de los siguientes par´ametros: • Algoritmos de clasificaci´on: Na¨ıve Bayes, MaxEnt, SVM, Decision Trees y adaptaci´on del algoritmo de Turney. • Tama˜no de Corpus • Tipos de atributos extra´ıdos: • Presencia de Unigramas • Frecuencia de Unigramas • Presencia de Bigramas • Presencia de Unigramas + Bigramas • Presencia de Adjetivos • Preprocesamientos de Texto
  • 12. Implementaci´on y Herramientas Herramientas Externas Seleccionadas en base a la precisi´on de los resultados y velocidad de convergencia. • Na¨ıve Bayes → NLTK http://nltk.org • C´alculo de pesos en modelos de M´axima Entrop´ıa → megam http://www.umiacs.umd.edu/~hal/megam/ • SVM y Decision Trees (CART) → sci-kit learn http://scikit-learn.org/ • Lematizaci´on, Stemming y POS Tagging → Freeling http://nlp.lsi.upc.edu/freeling/
  • 13. Implementaci´on y Herramientas Adaptaci´on del Algoritmo de Turney al Idioma Espa˜nol • El operador NEAR se defini´o como la ocurrencia conjunta de los t´erminos en la misma oraci´on. • Patrones de opini´on: Primera Palabra Segunda Palabra Tercera Palabra (No Extra´ıda) Adjetivo Nombre Cualquiera Nombre Adjetivo No Nombre Adverbio Adjetivo No Nombre Adverbio Verbo Cualquiera Verbo Adverbio Cualquiera • T´erminos utilizados para representar polaridad: • Positivos: excelente, excelentes, bueno/a, buenos/as, buenisimo/a, buenisimos/as, rico/a, ricos/as, espectacular, genial. • Negativos: mal, malo/a, malos/as, feo/a, feos/as, horrible, horribles, pesimo/a, pesimos/as, desastre, mediocre.
  • 14. Caso de Estudio Gu´ıa ´Oleo http://guiaoleo.com • Sitio de cr´ıtica gastron´omica • Los usuarios emiten opiniones sobre restaurantes en las categor´ıas: comida, ambiente y servicio asignando puntajes: 1 → malo / regular 2 → bueno 3 → muy bueno 4 → excelente
  • 15. Caso de Estudio Construcci´on del Corpus 1 Se extrajeron los comentarios del sitio en estudio junto con el puntaje asignado por el usuario. 2 Se etiquet´o el set de datos a partir del siguiente criterio: • Suma de puntos ≥ 10 → POSITIVO • 1 punto en la categor´ıa “comida” (la m´as relevante) o 2 puntos en esta categor´ıa y 1 punto en el resto → NEGATIVO • El resto de los comentarios se descartaron 3 El dataset final incluye un total de 34808 comentarios positivos y 16912 negativos.
  • 16. Experimentaci´on Experiencias Realizadas • Mejora de performance aplicando preprocesamientos de texto. • Performance de clasificadores en funci´on de distintos par´ametros. Par´ametros Generales • Tama˜no de Corpus entre 500 y 22000 documentos • Corpus Balanceado • 5-fold cross validation para m´etodos supervisados. • Criterio para la extracci´on de features: • Unigramas → frecuencia mayor a 10. • Adjetivos y Bigramas → frecuencia mayor a 4. • M´aximo de 3000 atributos. M´etricas Accuracy = tp+tn tp+fp+tn+fn ; Precision = tp tp+fp ; Recall = tp tp+fn ; F1 = 2P R P +R Por ser un corpus balanceado analizamos la performance en base a la accuracy sin perder informaci´on de alguna de las clases.
  • 17. Experimentaci´on Efectividad de Preprocesadores: Tama˜no m´aximo de Corpus, Unigramas como Features y Algoritmo Na¨ıve Bayes Preproceso Accuracy Mejora (%) NP (Sin Preproceso) 0.868 SW (Eliminaci´on de stopwords) 0.895 3.11% NEG (Tratamiento de negaciones) 0.875 0.81% WL (Filtrado de palabras de menos de 3 caracteres) 0.883 1.73% DC (Eliminaci´on de caracteres repetidos m´as de 2 veces) 0.867 -0.12% STEM (Stemming) 0.861 -0.81% LC (Transformaci´on de capitalizaciones) 0.868 0.00% PUNCT (Eliminaci´on de signos de puntuaci´on) 0.871 0.35% SC (Transformaci´on de caracteres especiales) 0.869 0.12% LEMMA (Lematizaci´on) 0.867 -0.12% Combinaci´on 1: SW + NEG 0.905 4.26% Combinaci´on 2: SW + NEG + WL 0.911 4.95% Combinaci´on 3: SW + NEG + WL + PUNCT 0.914 5.3% Combinaci´on 4: SW + NEG + WL + PUNCT + SC 0.918 5.76% Combinaci´on 5: SW + NEG + WL + PUNCT + SC + LC 0.924 6.45% Combinaci´on 6: SW + NEG + WL + PUNCT + SC + LC + LEMMA 0.92 5.99% Combinaci´on 7: SW + NEG + WL + PUNCT + SC + LC + DC 0.924 6.45% Combinaci´on 8: SW + NEG + WL + PUNCT + SC + LC + STEM 0.918 5.76%
  • 18. Experimentaci´on Efectividad de PreprocesadoresSW NEG WL DC STEM LC PUNCT SC LEMMA COMB1COMB2COMB3COMB4COMB5COMB6COMB7COMB8 −2 0 2 4 6 8 3.11% 0.81% 1.73% −0.12% −0.81% 0% 0.35% 0.12% −0.12% 4.26% 4.95% 5.3% 5.76% 6.45% 5.99% 6.45% 5.76% MejoradeAccuracy(%) An´alisis de Resultados • Hay preprocesamientos que aplicados en forma aislada no representan una mejora pero s´ı lo hacen en combinaci´on con otros (transformaci´on a min´uscula). • Contrario a lo que ocurre en tareas de IR, realizar stemming o lematizaci´on sobre el texto empeora los resultados. • La mejora que representa la combinaci´on de preprocesos resulta mayor que la suma de las mejoras individuales.
  • 19. Experimentaci´on Efectividad de Clasificadores Supervisados por Algoritmo 0 5000 10000 15000 20000 0.75 0.8 0.85 0.9 0.95 Tama˜no del Corpus Accuracy (a) Presencia de Unigramas 0 5000 10000 15000 20000 0.75 0.8 0.85 0.9 0.95 Tama˜no del Corpus (b) Frecuencia de Unigramas 0 5000 10000 15000 20000 0.6 0.7 0.8 0.9 Tama˜no del Corpus (c) Bigramas 0 5000 10000 15000 20000 0.75 0.8 0.85 0.9 0.95 Tama˜no del Corpus Accuracy (d) Unigramas + Bigramas 0 5000 10000 15000 20000 0.8 0.85 0.9 Tama˜no del Corpus (d) Adjetivos Na¨ıve Bayes MaxEnt SVM Decision Trees
  • 20. Experimentaci´on Efectividad de Clasificadores Supervisados por Atributo 0 5000 10000 15000 20000 0.7 0.8 0.9 Tama˜no del Corpus Accuracy (a) Na¨ıve Bayes (NLTK) 0 5000 10000 15000 20000 0.7 0.8 0.9 Tama˜no del Corpus (b) MaxEnt (megam) 0 5000 10000 15000 20000 0.7 0.8 0.9 Tama˜no del Corpus Accuracy (c) SVM (sci-kit learn) 0 5000 10000 15000 20000 0.6 0.7 0.8 0.9 Tama˜no del Corpus (d) Decision Trees (sci-kit learn) Presencia de Unigramas Frecuencia de Unigramas Presencia de Bigramas Presencia de Unigramas y Bigramas Presencia de Adjetivos
  • 21. Experimentaci´on Comparaci´on de Clasificadores Supervisados y No Supervisados para M´aximo Tama˜no de Corpus Na¨ıve Bayes MaxEnt SVM DecisionTrees Turney 0.6 0.7 0.8 0.9 1 0.92 0.94 0.94 0.88 0.92 0.94 0.95 0.88 0.88 0.84 0.86 0.8 0.94 0.95 0.95 0.88 0.91 0.88 0.9 0.85 0.84 Accuracy Presencia de Unigramas Frecuencia de Unigramas Presencia de Bigramas Presencia de Unigramas y Bigramas Presencia de Adjetivos Patrones de Opini´on
  • 22. Experimentaci´on Efectividad de Clasificadores - An´alisis de Resultados • Na¨ıve Bayes arroja los mejores resultados para corpus peque˜nos pero su performance decrece levemente para los tama˜nos de corpus m´as grandes. • MaxEnt y SVM mejoran su performance a medida que crece el tama˜no de corpus y alcanzan la m´axima performance de la experiencia. • Como ya se conoce la performance de Decision Trees es notablemente peor que la obtenida con los otros modelos. • Para todos los clasificadores supervisados los mejores resultados se obtienen utilizando como atributos la combinaci´on de presencia de unigramas y bigramas. • Utilizar adjetivos como atributos arroja resultados considerablemente peores que utilizando todos los unigramas. • Al igual que para el idioma ingl´es (Pang and Lee, 2002) considerar frecuencia de unigramas como atributos no representa una mejora notable con respecto a presencia. • El algoritmo de Turney arroja muy buenos resultados comparables a los obtenidos para m´etodos supervisados usando bigramas como atributos considerando que no requiere un corpus etiquetado para el entrenamiento.
  • 23. Conclusiones y Trabajo Futuro Conclusiones • Analizamos el impacto en la performance de los clasificadores ante la variaci´on de par´ametros de entrada para un corpus en espa˜nol. • Hallamos que aplicar preprocesamientos influye considerablemente en los resultados. • Alcanzamos la m´axima precisi´on utilizando MaxEnt y SVM para corpus grandes y Na¨ıve Bayes para corpus m´as peque˜nos. • Mostramos que Turney tambi´en resulta una opci´on adecuada para el idioma espa˜nol cuando no se tiene un corpus etiquetado y puede refinarse para un dominio espec´ıfico. Pr´oximos Pasos • Evaluar la performance de los modelos en estudio cuando se entrena con el corpus propuesto y se clasifica otro dominio. • Realizar experiencias para corpus desbalanceados. • Proponer otros preprocesamientos y tipos de atributos que permitan mejorar los resultados y generalizar los clasificadores.
  • 24. ¿Preguntas? “There’s no right, there’s no wrong, there’s only popular opinion.” (Twelve Monkeys, 2005)