2. Campi di applicazione
• Brand reputation
• Campagne pubblicitarie ed eventi
• Opinioni sui prodotti
Le aziende possono monitorare (per sé e i concorrenti):
• Opinioni dei votanti e previsioni elettorali
• Opinioni dei politici
• Opinioni dei cittadini
In politica:
• Felicità: cfr. iHappy di Voices from the Blogs, anche su Twitter e sulla pagina Felicità
Metriche sociali:
• Film, libri
• Viaggi, hotel, ristoranti
Analisi di basi dati opinion oriented (recensioni):
26/04/2016 2
3. Una questione di termini legati dalla soggettività
Sentimento
Facoltà e capacità di sentire, in quanto
presuppone una valutazione, un
discernimento (nella sfera etica o
estetica)
Più vicino al sign. di concetto, stima,
opinione
Ogni forma di affetto, di impulso
dell’animo, di movimento psichico, di
emozione
La sfera dei sentimenti, l’affettività
(spesso in contrapp. all’attività
intellettuale, alla ragione)
Opinione
Concetto che una o più persone si
formano riguardo a particolari fatti,
fenomeni, manifestazioni, quando,
mancando un criterio di certezza assoluta
per giudicare della loro natura (o delle loro
cause, delle loro qualità, ecc.), si propone
un’interpretazione personale che si ritiene
esatta e a cui si dà perciò il proprio
assenso
≈ avviso, convincimento, convinzione,
giudizio, idea, modo di vedere, parere,
pensiero, posizione, punto di vista, veduta.
↔ (dato di) fatto, realtà
Confrontiamo il Merriam Webster
26/04/2016 3
4. Prima di Facebook e Twitter
1994:
in ambiente linguistico computazionale, nasce l’interesse per il linguaggio della
soggettività nei testi narrativi.
2001:
per la prima volta, il market sentiment viene analizzato attraverso i messaggi dei bulletin
board finanziari. Esiste una relazione statistica reciproca tra le opinioni dei piccoli
investitori e l’andamento del mercato azionario.
L’attenzione è rivolta a identificare la polarità del sentimento (positivo, negativo, ev.
neutro ovvero assente).
2003:
nasce il termine opinion mining: «[…] the ideal opinion-mining tool would “process a set
of search results for a given item, generating a list of product attributes (quality, features,
etc.) and aggregating opinions about each of them (poor, mixed, good)”».
Il termine si riferisce quindi in particolare all’individuazione delle opinioni espresse circa
diversi aspetti di un prodotto. I testi analizzati sono recensioni online (film, ristoranti,
destinazioni di viaggio, automobili, banche, Epinions), perché si rendono disponibili vasti
corpora facilmente accessibili.
26/04/2016 4
5. Soggettività e oggettività
Dati e fatti Opinioni personali
Forni a microonde su Amazon Forni a microonde su AltroConsumo
26/04/2016 5
6. Sentiment Analysis e Opinion Mining:
oggetto e sue definizioni
Sentimento (componente di affettività) /Opinione (componente di razionalità)
L’opinione è rappresentata da una quintupla:
1. L’oggetto di cui si parla
2. La caratteristica (attributo, aspetto, feature) dell’oggetto, cui si riferisce l’opinione
3. La polarità (positiva, negativa, neutra o mista) dell’opinione espressa
4. L’opinion holder che esprime l’opinione
5. La data dell’opinione.
Valutazione personale riguardo a un’entità (oggetto) o un aspetto (feature,
caratteristica) di essa da parte di una fonte (opinion holder).
L’entità può essere un prodotto, una persona, un evento, un’organizzazione
o un argomento (topic).
26/04/2016 6
Liu, Bing. «Sentiment analysis and opinion
mining». Synthesis lectures on human
language technologies 5, n. 1 (2012): 1–
167.
7. Funzioni SA/OM
• P.es. libro = romanzo = testo = racconto = vicenda
Estrazione degli oggetti, ovvero entità, e
associazione delle espressioni alle categorie (=
named entity recognition (NER) in information
extraction)
• Espressioni esplicite:sintagmi nominali (Il prezzo è ottimo).
• Espressioni implicite:possono essere ricondotte a sintagmi
nominali (La lavatrice è cara = il prezzo è alto).
Estrazione degli aspetti, ovvero feature o
caratteristiche, e associazione delle
espressioni alle categorie
• ONU = Nazioni Unite = UNO
Estrazione degli opinion holder e loro
categorizzazione
• positivo, negativo, neutro o misto; numerico
Classificazione del sentimento
relativamente alle varie caratteristiche
dell’oggetto
• Riconoscimento dei sinonimi; esplicitazione degli aspetti;
problema della coreferenza (anafora, catafora, deissi);
interpretazione delle negazioni e dell’ironia
Operazioni linguistiche
26/04/2016 7
8. Tipologia delle opinioni
• Dirette: affermazione che si riferisce direttamente all’oggetto o a un suo aspetto
(Moment è rapidamente efficace).
• Indirette:affermazione da cui è possibile ricavare un’opinione sull’oggetto attraverso
la descrizione dei suoi effetti (Dopo aver preso una pastiglia, il mal di testa è
scomparso in 5 minuti = aspetto implicito di rapidità/efficacia).
Opinioni regolari
• esprimono un confronto di valore tra due oggetti o una preferenza dell’opinion holder
in base a una caratteristica comune agli oggetti. Si esprimono utilizzando il
comparativo o superlativo degli aggettivi o avverbi: Nutella è più buona della
cioccolata; Nutella è il massimo; preferisco l’Oransoda alla Fanta.
Opinioni
comparative
• affermazioni soggettive che esprimono un’opinione regolare o comparativa (La
Nutella ha un gusto indimenticabile; meglio mangiare l’insalata piuttosto che le
patate).
Opinioni esplicite
• affermazionioggettive che implicano un’opinione (Ho la Candy da 10 anni e non si è
mai rotta = aspetto implicito di durata; le Candy a freddo lavano meglio delle Indesit
= aspetto implicito di efficacia e risparmio).
Opinioni implicite
26/04/2016 8
9. Soggettività, opinioni, emozioni…
• La soggettività non implica
sempre l’espressione di un
sentimento (Pensavo che
avrei preso un voto migliore)
• Affermazioni oggettive
possono sottintendere
un’opinione personale
implicita (Gli auricolari non
durano mai più di un mese)
Proposizione oggettiva: dati
o fatti circa un’entità
Proposizione soggettiva:
parere o convinzione
personale
• 6 emozioni primarie:
amore, gioia, sorpresa,
rabbia, tristezza e paura
Emozioni sentimenti e
pensieri soggettivi
• l’intensità delle prime
influisce sulla forza dei
secondi.
Emozioni e
sentimenti sono
correlati
26/04/2016 9
10. … convergono nei giudizi
SA valuta la soggettività in termini di sentimento positivo o negativo, di cui la componente emotiva
definisce l’intensità.
OM identifica le valutazioni personali circa oggetti e loro aspetti che possono essere tradotte in
sentimento positivo/negativo di intensità variabile.
Le nostre valutazioni sono fondate su principi razionali e/o emozionali
Valutazione razionale: basata su considerazioni
pratiche, utilitarie, fattuali (La risoluzione dello
schermo è ottima; quest’auto sembra fatta per me).
Valutazione emozionale: basata su reazioni provocate
dalla nostra relazione con noi stessi e col mondo
(Questo profumo mi rilassa; adoro il mio iPhone).
Emozioni, sentimenti e opinioni sono interdipendenti. Le opinioni prese in considerazione per SA/OM
sono di tipo valutativo (esplicito o implicito).
26/04/2016 10
11. Obiettivi SA/OM
Valutare le opinioni su un argomento di interesse utilizzando tecniche automatiche di Machine Learning, in
particolare:
1. determining the SO-polarity of a text, as in deciding whether a given text has a factual nature (i.e. describes a
given situation or event, without expressing a positive or a negative opinion on it) or expresses an opinion on its
subject matter. This amounts to performing binary text categorizationunder categories Subjective and Objective;
2. determining the PN-polarity of a text, as in deciding if a given Subjective text expresses a Positive or a
Negative opinion on its subject matter;
3. determining the strength of the PN-polarity of a text, as in deciding e.g., whether the Positive opinion expressed
by a text on its subject matter is Weakly Positive, Mildly Positive, or Strongly Positive;
4. extracting opinions from a text, as in determining whether a given linguistic expression within a text conveys an
opinion or not, and (if positive) determining who holds this opinion, who or what is the object of this opinion, and
what type of opinion it is.
26/04/2016 11
Esuli, Andrea, e FabrizioSebastiani. «SentiWordNet: A high-coveragelexical
resource for opinion mining». Technical Report 2007-TR-02. Pisa: Istituto di
Scienza e Tecnologie dell’Informazione,Consiglio Nazionale delle Ricerche, 2007.
13. Discipline coinvolte
• Information Extraction (IE)
• Information Retrieval (IR)
• Text Clustering/Classification (TC)
• Text Summarization (TS)
Text Mining
• Analisi testuale
• Annotazione linguistica
• Lessicografia computazionale
• Statistica linguistica
Linguistica
Computazionale/TAL
26/04/2016 13
14. Processo di elaborazione
Tokenizzazione
Stemming
POS Tagging
Chunking
Objective
Subjective
Positive
Negative
Neutral
Mixed
26/04/2016 14
Rambocas, Meena, e João Gama. «The Role of Sentiment
Analysis». FEP Working Papers, n. 489 (aprile 2013).
15. Granularità dell’analisi
• individua se un documento è soggettivo e se l’opinione globale espressa è positiva,
negativa o mista (neutra).Documento
• valuta se ogni singolo periodo di un documento è soggettivo e quale sia la sua
polarità.Periodo
• valuta l’orientamento delle opinioni considerando sintagmi ovvero n-grammi.Sintagma
• in questo caso si considera la singola caratteristica dell’oggetto, indipendentemente
dal livello sintattico. Un sistema per estrarre automaticamente gli aspetti è di
considerare come tali i sintagmi nominali di alta frequenza.
Aspetto
• si considera la polarità delle parole a priori, ovvero fuori da qualsiasi contesto, per
creare risorse lessicali semanticamente orientate.Parola
• si considera la polarità di ciascuna accezione di un termine.Polisemia
26/04/2016 15
16. Feature linguistiche applicate a SA/OM
• IR/TC: frequenza e densità (indice tf-idf) servono a determinare entità e
aspetti.
• La presenza (hapax legomena) identifica le espressioni sentimentoriented.
• La posizione (marcata, a inizio/fine periodo) è indice di soggettività.
Presenza/frequenza
• N-grammi favoriscono il riconoscimento di collocati, ovvero cooccorrenze
di parole con frequenza superiore alla media delle probabilità (freddo
polare, non antartico o siberiano; prezzo equo, non adeguato o
equilibrato).
Sintagmi
• Disambiguare gli omografi (amare v./amare agg.)
• Riconoscere sintagmi maggiormente portatori di soggettività (aggettivi e
avverbi p.es.) e identificare sequenze sintattiche (n-grammi), quali p.es.
A+N, ADV+A, N+A
POS (part-of-speech tagging
= annotazione morfologica)
• Parsing sintattico: utile per riconoscere la funzione dei polarity reverser
ovvero sentiment shifter quali negazioni,intensificatori,modificatori.Sintassi
• Vocabolari del sentimento: aggettivi e avverbi;anche sostantivi (orrore,
spazzatura, strazio) e verbi (amare, odiare); espressioni idiomatiche
(costare un occhio, non valere una cicca)
Lessico
26/04/2016 16
17. Alcuni esempi
POS Tagging
Open Xerox Linguistic Tools
Analisi testuale
Voyant Tools 2.0
NLP APIs and Python NLTK Demos
26/04/2016 17
18. Principali metodi SA/OM
Apprendimento automatico
supervisionato
Sistema di Machine Learning con classificazione
Training set annotato (feature slide 16) e classificato
spesso manualmente (etichette: positivo, negativo,
neutro)
Test set solamente annotato
Classificatore addestrato sul training set/test set viene
applicato a testi nuovi annotati
Naive Bayes Classifier:sistema probabilistico di inferenza
Macchine a vettori di supporto SVM: applica un modello
probabilistico a nuovi input
Apprendimento automatico non
supervisionato
Tecniche di orientamento semantico con clusterizzazione
Vocabolari binari: termini con etichetta positivo/negativo
Vocabolari fuzzy: le etichette hanno anche un indice di
intensità
Vocabolari manuali
Vocabolari automatici a partire da seed words
positivi/negativi e loro cooccorrenze (cong.
coordinanti/avversative, negazioni, polarity reverser)
WordNet / SentiWordNet
26/04/2016 18
19. Riassumendo
26/04/2016
Jesus Serrano-Guerrero et al., «Sentiment
analysis: A review and comparative analysis
of web services», Information Sciences 311
(agosto 1, 2015): 18–38.
Dizionari manuali o automatici
Cooccorrenza con seed words
Training set classificato
20. Sinergia sintattico-semantica
Sistema non supervisionato applicato alle
recensioni sul sito Epinions
• Fase 1: POS-tagging del testo
• Fase 2: estrazione di bigrammi in base a modelli sintattici. Sost. e v. definiscono il contesto
semantico per valutare la polarità in base agli agg. e avv. (freni imprevedibili trama imprevedibile).
• Fase 3: l’orientamento semantico dei bigrammi viene valutato in base alla loro associazione con i
termini di riferimento excellent (= 5 stelle) e poor (= 1 stella), applicando un algoritmo (PMI-IR) che
calcola la dipendenza statistica tra 2 termini. I valori PMI dei singoli bigrammi vengono ottenuti in
base alla frequenza delle loro cooccorrenze coi termini di riferimento ricavata da una ricerca su
Altavista utilizzando l’operatore NEAR.
• Fase 4: la media dei valori di orientamento semantico dei bigrammi presenti nelle singole recensioni
indica la loro polarità anche in termini di gradazione positiva e negativa.
26/04/2016 20
Turney, Peter D. «Thumbs up or thumbs down?: semantic orientation
applied to unsupervised classification of reviews». In Proceedings of the
40th annual meeting on association for computational linguistics, 417–24.
Association for Computational Linguistics, 2002.
21. WordNet
WordNet è consultabile alla pagina
WordNet Search - 3.1
DataBase lessicale realizzato dall’Università di Princeton a partire dagli anni
’80
Comprende sostantivi, verbi, aggettivi e avverbi.
Sono organizzati in 117.000 synsets, ovvero insiemi di sinonimi cognitivi.
Ciascun synset esprime un concetto distinto: ciascuna accezione di un
termine è associato a un synset individuale.
I synset sono collegati da una rete di relazioni semantico-concettuali e
lessicali.
Le principali relazioni sono: iperonimia, iponimia, meronimia.
Gli aggettivi sono organizzati in coppie di antinomi;i termini polari a loro
volta sono legati ai loro sinonimi (antonimi indiretti del termine polare).
Aggettivi relazionali (pertainyms) puntano ai sostantivi da cui derivano
(criminal-crime).
26/04/2016 21
22. SentiWordNet
Spin off di
WordNet,
sviluppato nel
2006 presso l’ISTI-
CNR di Pisa, ormai
alla versione 3.1
Aggiunge ai synset
un indice di
sentimento basato
su una tripla di
valori:
positivo, negativo,
oggettivo, la cui
somma è sempre
pari a 1.
Procedimento
• Set base manuale: 6
termini positivi {1,0,0};
6 termini negativi
{0,1,0}
• Attraverso i link
semantici dei termini
base, altri termini
vengono indicizzati
sulla base delle loro
relazioni semantico-
concettuali.
SentiWordNet
contiene 28.428
synset / 39.066
termini individuali
• 10.263 aggettivi
• 2.455 avverbi
• 13.150 sostantivi
• 2.560 verbi
26/04/2016 22
Esuli, Andrea, e Fabrizio Sebastiani. «SentiWordNet: A high-coverage lexical
resource for opinion mining». Technical Report 2007-TR-02. Pisa: Istituto di
Scienza e Tecnologie dell’Informazione, Consiglio Nazionale delle Ricerche,
2007.
23. Spieghiamo meglio
Termini seminali
Esempio di tripla
posSent = 1 virtuous, upright, decent, fortunate, nice, good
negSent = 1 badness, denigrating, hapless, libellous, pathetic, negative
Synonym list Positive rating Negative rating Objective rating
Casual, everyday posSent = 0.375 negSent = 0.125 obj = 0.5
Heartsick, heartbroken posSent = 0.0 negSent = 0.625 obj = 0.375
26/04/2016 23
26. Un esempio concreto
Considering the sentence The film,however,is all good. that is stemmed,
stop words are removed. The resulting string is ‘film good’. These two
words are searched in SentiWordNet for corresponding synsets.
Input term ‘film’:synsets with positivity = 0, negativity = 0, objectivity = 1.
Input term ‘good’:33 synset entries. After summing up the different scores
and dividing the sum by the number of synsets, the resulting values are:
positivity = 0.57, negativity= 0.03, objectivity = 0.4.
The sentence score triple results from summing up the score triple of each
term and dividing each score by the number of considered terms. The
resulting triple for this sentence is: positivity = 0.285, negativity = 0.015,
objectivity = 0.7.
The mentioned procedure results in a triple of {positivity,negativity,
objectivity}-values for each sentence. To determine a score-triple for a
document,the sentence score triples are added and normalized by the
number of sentences.
26/04/2016 26
Denecke, Kerstin. «Using SentiWordNet for multilingual sentiment
analysis», 507–12. IEEE, 2008.