SlideShare uma empresa Scribd logo
1 de 26
Baixar para ler offline
SENTIMENT ANALYSIS &
OPINION MINING:
UN’INTRODUZIONE
I Social Media incontrano la Linguistica Computazionale
Campi di applicazione
• Brand reputation
• Campagne pubblicitarie ed eventi
• Opinioni sui prodotti
Le aziende possono monitorare (per sé e i concorrenti):
• Opinioni dei votanti e previsioni elettorali
• Opinioni dei politici
• Opinioni dei cittadini
In politica:
• Felicità: cfr. iHappy di Voices from the Blogs, anche su Twitter e sulla pagina Felicità
Metriche sociali:
• Film, libri
• Viaggi, hotel, ristoranti
Analisi di basi dati opinion oriented (recensioni):
26/04/2016 2
Una questione di termini legati dalla soggettività
Sentimento
 Facoltà e capacità di sentire, in quanto
presuppone una valutazione, un
discernimento (nella sfera etica o
estetica)
 Più vicino al sign. di concetto, stima,
opinione
 Ogni forma di affetto, di impulso
dell’animo, di movimento psichico, di
emozione
 La sfera dei sentimenti, l’affettività
(spesso in contrapp. all’attività
intellettuale, alla ragione)
Opinione
 Concetto che una o più persone si
formano riguardo a particolari fatti,
fenomeni, manifestazioni, quando,
mancando un criterio di certezza assoluta
per giudicare della loro natura (o delle loro
cause, delle loro qualità, ecc.), si propone
un’interpretazione personale che si ritiene
esatta e a cui si dà perciò il proprio
assenso
 ≈ avviso, convincimento, convinzione,
giudizio, idea, modo di vedere, parere,
pensiero, posizione, punto di vista, veduta.
↔ (dato di) fatto, realtà
 Confrontiamo il Merriam Webster
26/04/2016 3
Prima di Facebook e Twitter
 1994:
in ambiente linguistico computazionale, nasce l’interesse per il linguaggio della
soggettività nei testi narrativi.
 2001:
per la prima volta, il market sentiment viene analizzato attraverso i messaggi dei bulletin
board finanziari. Esiste una relazione statistica reciproca tra le opinioni dei piccoli
investitori e l’andamento del mercato azionario.
L’attenzione è rivolta a identificare la polarità del sentimento (positivo, negativo, ev.
neutro ovvero assente).
 2003:
nasce il termine opinion mining: «[…] the ideal opinion-mining tool would “process a set
of search results for a given item, generating a list of product attributes (quality, features,
etc.) and aggregating opinions about each of them (poor, mixed, good)”».
Il termine si riferisce quindi in particolare all’individuazione delle opinioni espresse circa
diversi aspetti di un prodotto. I testi analizzati sono recensioni online (film, ristoranti,
destinazioni di viaggio, automobili, banche, Epinions), perché si rendono disponibili vasti
corpora facilmente accessibili.
26/04/2016 4
Soggettività e oggettività
Dati e fatti Opinioni personali
 Forni a microonde su Amazon Forni a microonde su AltroConsumo
26/04/2016 5
Sentiment Analysis e Opinion Mining:
oggetto e sue definizioni
 Sentimento (componente di affettività) /Opinione (componente di razionalità)
L’opinione è rappresentata da una quintupla:
1. L’oggetto di cui si parla
2. La caratteristica (attributo, aspetto, feature) dell’oggetto, cui si riferisce l’opinione
3. La polarità (positiva, negativa, neutra o mista) dell’opinione espressa
4. L’opinion holder che esprime l’opinione
5. La data dell’opinione.
Valutazione personale riguardo a un’entità (oggetto) o un aspetto (feature,
caratteristica) di essa da parte di una fonte (opinion holder).
L’entità può essere un prodotto, una persona, un evento, un’organizzazione
o un argomento (topic).
26/04/2016 6
Liu, Bing. «Sentiment analysis and opinion
mining». Synthesis lectures on human
language technologies 5, n. 1 (2012): 1–
167.
Funzioni SA/OM
• P.es. libro = romanzo = testo = racconto = vicenda
Estrazione degli oggetti, ovvero entità, e
associazione delle espressioni alle categorie (=
named entity recognition (NER) in information
extraction)
• Espressioni esplicite:sintagmi nominali (Il prezzo è ottimo).
• Espressioni implicite:possono essere ricondotte a sintagmi
nominali (La lavatrice è cara = il prezzo è alto).
Estrazione degli aspetti, ovvero feature o
caratteristiche, e associazione delle
espressioni alle categorie
• ONU = Nazioni Unite = UNO
Estrazione degli opinion holder e loro
categorizzazione
• positivo, negativo, neutro o misto; numerico
Classificazione del sentimento
relativamente alle varie caratteristiche
dell’oggetto
• Riconoscimento dei sinonimi; esplicitazione degli aspetti;
problema della coreferenza (anafora, catafora, deissi);
interpretazione delle negazioni e dell’ironia
Operazioni linguistiche
26/04/2016 7
Tipologia delle opinioni
• Dirette: affermazione che si riferisce direttamente all’oggetto o a un suo aspetto
(Moment è rapidamente efficace).
• Indirette:affermazione da cui è possibile ricavare un’opinione sull’oggetto attraverso
la descrizione dei suoi effetti (Dopo aver preso una pastiglia, il mal di testa è
scomparso in 5 minuti = aspetto implicito di rapidità/efficacia).
Opinioni regolari
• esprimono un confronto di valore tra due oggetti o una preferenza dell’opinion holder
in base a una caratteristica comune agli oggetti. Si esprimono utilizzando il
comparativo o superlativo degli aggettivi o avverbi: Nutella è più buona della
cioccolata; Nutella è il massimo; preferisco l’Oransoda alla Fanta.
Opinioni
comparative
• affermazioni soggettive che esprimono un’opinione regolare o comparativa (La
Nutella ha un gusto indimenticabile; meglio mangiare l’insalata piuttosto che le
patate).
Opinioni esplicite
• affermazionioggettive che implicano un’opinione (Ho la Candy da 10 anni e non si è
mai rotta = aspetto implicito di durata; le Candy a freddo lavano meglio delle Indesit
= aspetto implicito di efficacia e risparmio).
Opinioni implicite
26/04/2016 8
Soggettività, opinioni, emozioni…
• La soggettività non implica
sempre l’espressione di un
sentimento (Pensavo che
avrei preso un voto migliore)
• Affermazioni oggettive
possono sottintendere
un’opinione personale
implicita (Gli auricolari non
durano mai più di un mese)
Proposizione oggettiva: dati
o fatti circa un’entità
Proposizione soggettiva:
parere o convinzione
personale
• 6 emozioni primarie:
amore, gioia, sorpresa,
rabbia, tristezza e paura
Emozioni sentimenti e
pensieri soggettivi
• l’intensità delle prime
influisce sulla forza dei
secondi.
Emozioni e
sentimenti sono
correlati
26/04/2016 9
… convergono nei giudizi
SA valuta la soggettività in termini di sentimento positivo o negativo, di cui la componente emotiva
definisce l’intensità.
OM identifica le valutazioni personali circa oggetti e loro aspetti che possono essere tradotte in
sentimento positivo/negativo di intensità variabile.
Le nostre valutazioni sono fondate su principi razionali e/o emozionali
Valutazione razionale: basata su considerazioni
pratiche, utilitarie, fattuali (La risoluzione dello
schermo è ottima; quest’auto sembra fatta per me).
Valutazione emozionale: basata su reazioni provocate
dalla nostra relazione con noi stessi e col mondo
(Questo profumo mi rilassa; adoro il mio iPhone).
Emozioni, sentimenti e opinioni sono interdipendenti. Le opinioni prese in considerazione per SA/OM
sono di tipo valutativo (esplicito o implicito).
26/04/2016 10
Obiettivi SA/OM
Valutare le opinioni su un argomento di interesse utilizzando tecniche automatiche di Machine Learning, in
particolare:
1. determining the SO-polarity of a text, as in deciding whether a given text has a factual nature (i.e. describes a
given situation or event, without expressing a positive or a negative opinion on it) or expresses an opinion on its
subject matter. This amounts to performing binary text categorizationunder categories Subjective and Objective;
2. determining the PN-polarity of a text, as in deciding if a given Subjective text expresses a Positive or a
Negative opinion on its subject matter;
3. determining the strength of the PN-polarity of a text, as in deciding e.g., whether the Positive opinion expressed
by a text on its subject matter is Weakly Positive, Mildly Positive, or Strongly Positive;
4. extracting opinions from a text, as in determining whether a given linguistic expression within a text conveys an
opinion or not, and (if positive) determining who holds this opinion, who or what is the object of this opinion, and
what type of opinion it is.
26/04/2016 11
Esuli, Andrea, e FabrizioSebastiani. «SentiWordNet: A high-coveragelexical
resource for opinion mining». Technical Report 2007-TR-02. Pisa: Istituto di
Scienza e Tecnologie dell’Informazione,Consiglio Nazionale delle Ricerche, 2007.
Riassumendo
26/04/2016 12
TestoOggettività Soggettività
Opinioni implicite Opinioni esplicite
Opinion Mining
Sentiment Analysis
AffettivitàRazionalità
Aspetti
Opinion
Holder
Entità
Polarità
Positiva
Neutra
Negativa
Mista
Sintagma
Periodo
Documento
Discipline coinvolte
• Information Extraction (IE)
• Information Retrieval (IR)
• Text Clustering/Classification (TC)
• Text Summarization (TS)
Text Mining
• Analisi testuale
• Annotazione linguistica
• Lessicografia computazionale
• Statistica linguistica
Linguistica
Computazionale/TAL
26/04/2016 13
Processo di elaborazione
Tokenizzazione
Stemming
POS Tagging
Chunking
Objective
Subjective
Positive
Negative
Neutral
Mixed
26/04/2016 14
Rambocas, Meena, e João Gama. «The Role of Sentiment
Analysis». FEP Working Papers, n. 489 (aprile 2013).
Granularità dell’analisi
• individua se un documento è soggettivo e se l’opinione globale espressa è positiva,
negativa o mista (neutra).Documento
• valuta se ogni singolo periodo di un documento è soggettivo e quale sia la sua
polarità.Periodo
• valuta l’orientamento delle opinioni considerando sintagmi ovvero n-grammi.Sintagma
• in questo caso si considera la singola caratteristica dell’oggetto, indipendentemente
dal livello sintattico. Un sistema per estrarre automaticamente gli aspetti è di
considerare come tali i sintagmi nominali di alta frequenza.
Aspetto
• si considera la polarità delle parole a priori, ovvero fuori da qualsiasi contesto, per
creare risorse lessicali semanticamente orientate.Parola
• si considera la polarità di ciascuna accezione di un termine.Polisemia
26/04/2016 15
Feature linguistiche applicate a SA/OM
• IR/TC: frequenza e densità (indice tf-idf) servono a determinare entità e
aspetti.
• La presenza (hapax legomena) identifica le espressioni sentimentoriented.
• La posizione (marcata, a inizio/fine periodo) è indice di soggettività.
Presenza/frequenza
• N-grammi favoriscono il riconoscimento di collocati, ovvero cooccorrenze
di parole con frequenza superiore alla media delle probabilità (freddo
polare, non antartico o siberiano; prezzo equo, non adeguato o
equilibrato).
Sintagmi
• Disambiguare gli omografi (amare v./amare agg.)
• Riconoscere sintagmi maggiormente portatori di soggettività (aggettivi e
avverbi p.es.) e identificare sequenze sintattiche (n-grammi), quali p.es.
A+N, ADV+A, N+A
POS (part-of-speech tagging
= annotazione morfologica)
• Parsing sintattico: utile per riconoscere la funzione dei polarity reverser
ovvero sentiment shifter quali negazioni,intensificatori,modificatori.Sintassi
• Vocabolari del sentimento: aggettivi e avverbi;anche sostantivi (orrore,
spazzatura, strazio) e verbi (amare, odiare); espressioni idiomatiche
(costare un occhio, non valere una cicca)
Lessico
26/04/2016 16
Alcuni esempi
POS Tagging
Open Xerox Linguistic Tools
Analisi testuale
Voyant Tools 2.0
NLP APIs and Python NLTK Demos
26/04/2016 17
Principali metodi SA/OM
Apprendimento automatico
supervisionato
Sistema di Machine Learning con classificazione
Training set annotato (feature slide 16) e classificato
spesso manualmente (etichette: positivo, negativo,
neutro)
Test set solamente annotato
Classificatore addestrato sul training set/test set viene
applicato a testi nuovi annotati
Naive Bayes Classifier:sistema probabilistico di inferenza
Macchine a vettori di supporto SVM: applica un modello
probabilistico a nuovi input
Apprendimento automatico non
supervisionato
Tecniche di orientamento semantico con clusterizzazione
Vocabolari binari: termini con etichetta positivo/negativo
Vocabolari fuzzy: le etichette hanno anche un indice di
intensità
Vocabolari manuali
Vocabolari automatici a partire da seed words
positivi/negativi e loro cooccorrenze (cong.
coordinanti/avversative, negazioni, polarity reverser)
WordNet / SentiWordNet
26/04/2016 18
Riassumendo
26/04/2016
Jesus Serrano-Guerrero et al., «Sentiment
analysis: A review and comparative analysis
of web services», Information Sciences 311
(agosto 1, 2015): 18–38.
Dizionari manuali o automatici
Cooccorrenza con seed words
Training set classificato
Sinergia sintattico-semantica
Sistema non supervisionato applicato alle
recensioni sul sito Epinions
• Fase 1: POS-tagging del testo
• Fase 2: estrazione di bigrammi in base a modelli sintattici. Sost. e v. definiscono il contesto
semantico per valutare la polarità in base agli agg. e avv. (freni imprevedibili  trama imprevedibile).
• Fase 3: l’orientamento semantico dei bigrammi viene valutato in base alla loro associazione con i
termini di riferimento excellent (= 5 stelle) e poor (= 1 stella), applicando un algoritmo (PMI-IR) che
calcola la dipendenza statistica tra 2 termini. I valori PMI dei singoli bigrammi vengono ottenuti in
base alla frequenza delle loro cooccorrenze coi termini di riferimento ricavata da una ricerca su
Altavista utilizzando l’operatore NEAR.
• Fase 4: la media dei valori di orientamento semantico dei bigrammi presenti nelle singole recensioni
indica la loro polarità anche in termini di gradazione positiva e negativa.
26/04/2016 20
Turney, Peter D. «Thumbs up or thumbs down?: semantic orientation
applied to unsupervised classification of reviews». In Proceedings of the
40th annual meeting on association for computational linguistics, 417–24.
Association for Computational Linguistics, 2002.
WordNet
WordNet è consultabile alla pagina
WordNet Search - 3.1
DataBase lessicale realizzato dall’Università di Princeton a partire dagli anni
’80
Comprende sostantivi, verbi, aggettivi e avverbi.
Sono organizzati in 117.000 synsets, ovvero insiemi di sinonimi cognitivi.
Ciascun synset esprime un concetto distinto: ciascuna accezione di un
termine è associato a un synset individuale.
I synset sono collegati da una rete di relazioni semantico-concettuali e
lessicali.
Le principali relazioni sono: iperonimia, iponimia, meronimia.
Gli aggettivi sono organizzati in coppie di antinomi;i termini polari a loro
volta sono legati ai loro sinonimi (antonimi indiretti del termine polare).
Aggettivi relazionali (pertainyms) puntano ai sostantivi da cui derivano
(criminal-crime).
26/04/2016 21
SentiWordNet
Spin off di
WordNet,
sviluppato nel
2006 presso l’ISTI-
CNR di Pisa, ormai
alla versione 3.1
Aggiunge ai synset
un indice di
sentimento basato
su una tripla di
valori:
positivo, negativo,
oggettivo, la cui
somma è sempre
pari a 1.
Procedimento
• Set base manuale: 6
termini positivi {1,0,0};
6 termini negativi
{0,1,0}
• Attraverso i link
semantici dei termini
base, altri termini
vengono indicizzati
sulla base delle loro
relazioni semantico-
concettuali.
SentiWordNet
contiene 28.428
synset / 39.066
termini individuali
• 10.263 aggettivi
• 2.455 avverbi
• 13.150 sostantivi
• 2.560 verbi
26/04/2016 22
Esuli, Andrea, e Fabrizio Sebastiani. «SentiWordNet: A high-coverage lexical
resource for opinion mining». Technical Report 2007-TR-02. Pisa: Istituto di
Scienza e Tecnologie dell’Informazione, Consiglio Nazionale delle Ricerche,
2007.
Spieghiamo meglio
Termini seminali
Esempio di tripla
posSent = 1 virtuous, upright, decent, fortunate, nice, good
negSent = 1 badness, denigrating, hapless, libellous, pathetic, negative
Synonym list Positive rating Negative rating Objective rating
Casual, everyday posSent = 0.375 negSent = 0.125 obj = 0.5
Heartsick, heartbroken posSent = 0.0 negSent = 0.625 obj = 0.375
26/04/2016 23
Distribuzione delle triple
26/04/2016 24
Un indice per ciascuna accezione
26/04/2016 25
Un esempio concreto
Considering the sentence The film,however,is all good. that is stemmed,
stop words are removed. The resulting string is ‘film good’. These two
words are searched in SentiWordNet for corresponding synsets.
Input term ‘film’:synsets with positivity = 0, negativity = 0, objectivity = 1.
Input term ‘good’:33 synset entries. After summing up the different scores
and dividing the sum by the number of synsets, the resulting values are:
positivity = 0.57, negativity= 0.03, objectivity = 0.4.
The sentence score triple results from summing up the score triple of each
term and dividing each score by the number of considered terms. The
resulting triple for this sentence is: positivity = 0.285, negativity = 0.015,
objectivity = 0.7.
The mentioned procedure results in a triple of {positivity,negativity,
objectivity}-values for each sentence. To determine a score-triple for a
document,the sentence score triples are added and normalized by the
number of sentences.
26/04/2016 26
Denecke, Kerstin. «Using SentiWordNet for multilingual sentiment
analysis», 507–12. IEEE, 2008.

Mais conteúdo relacionado

Mais procurados

DNAマイクロアレイの解析と多重検定補正
DNAマイクロアレイの解析と多重検定補正DNAマイクロアレイの解析と多重検定補正
DNAマイクロアレイの解析と多重検定補正
弘毅 露崎
 

Mais procurados (20)

Superpixel Sampling Networks
Superpixel Sampling NetworksSuperpixel Sampling Networks
Superpixel Sampling Networks
 
論文読み会(DeMoN;CVPR2017)
論文読み会(DeMoN;CVPR2017)論文読み会(DeMoN;CVPR2017)
論文読み会(DeMoN;CVPR2017)
 
CNN-SLAMざっくり
CNN-SLAMざっくりCNN-SLAMざっくり
CNN-SLAMざっくり
 
サポートベクターマシン(SVM)の数学をみんなに説明したいだけの会
サポートベクターマシン(SVM)の数学をみんなに説明したいだけの会サポートベクターマシン(SVM)の数学をみんなに説明したいだけの会
サポートベクターマシン(SVM)の数学をみんなに説明したいだけの会
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
 
配置情報のエネルギー最小化に基づく3次元点群の位置合わせ
配置情報のエネルギー最小化に基づく3次元点群の位置合わせ配置情報のエネルギー最小化に基づく3次元点群の位置合わせ
配置情報のエネルギー最小化に基づく3次元点群の位置合わせ
 
Paper: Objects as Points(CenterNet)
Paper: Objects as Points(CenterNet)Paper: Objects as Points(CenterNet)
Paper: Objects as Points(CenterNet)
 
Recsys 2015: Making Meaningful Restaurant Recommendations at OpenTable
Recsys 2015: Making Meaningful Restaurant Recommendations at OpenTableRecsys 2015: Making Meaningful Restaurant Recommendations at OpenTable
Recsys 2015: Making Meaningful Restaurant Recommendations at OpenTable
 
記号創発ロボティクスの狙い
記号創発ロボティクスの狙い 記号創発ロボティクスの狙い
記号創発ロボティクスの狙い
 
画像キャプションと動作認識の最前線 〜データセットに注目して〜(第17回ステアラボ人工知能セミナー)
画像キャプションと動作認識の最前線 〜データセットに注目して〜(第17回ステアラボ人工知能セミナー)画像キャプションと動作認識の最前線 〜データセットに注目して〜(第17回ステアラボ人工知能セミナー)
画像キャプションと動作認識の最前線 〜データセットに注目して〜(第17回ステアラボ人工知能セミナー)
 
imgproxy is amazing
imgproxy is amazingimgproxy is amazing
imgproxy is amazing
 
実装ディープラーニング
実装ディープラーニング実装ディープラーニング
実装ディープラーニング
 
女の子になれなかった人のために
女の子になれなかった人のために女の子になれなかった人のために
女の子になれなかった人のために
 
[DL輪読会]YOLOv4: Optimal Speed and Accuracy of Object Detection
[DL輪読会]YOLOv4: Optimal Speed and Accuracy of Object Detection[DL輪読会]YOLOv4: Optimal Speed and Accuracy of Object Detection
[DL輪読会]YOLOv4: Optimal Speed and Accuracy of Object Detection
 
トピックモデルの話
トピックモデルの話トピックモデルの話
トピックモデルの話
 
Tag based recommender system
Tag based recommender systemTag based recommender system
Tag based recommender system
 
第7回WBAシンポジウム:基調講演
第7回WBAシンポジウム:基調講演第7回WBAシンポジウム:基調講演
第7回WBAシンポジウム:基調講演
 
DNAマイクロアレイの解析と多重検定補正
DNAマイクロアレイの解析と多重検定補正DNAマイクロアレイの解析と多重検定補正
DNAマイクロアレイの解析と多重検定補正
 
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
 
東京都市大学 データ解析入門 5 スパース性と圧縮センシング 2
東京都市大学 データ解析入門 5 スパース性と圧縮センシング 2東京都市大学 データ解析入門 5 スパース性と圧縮センシング 2
東京都市大学 データ解析入門 5 スパース性と圧縮センシング 2
 

Destaque

Chandler strategy and structure summ1
Chandler   strategy and structure summ1Chandler   strategy and structure summ1
Chandler strategy and structure summ1
KamranAli143
 
SM Exam Revision (Oct 2013)
SM Exam Revision (Oct 2013)SM Exam Revision (Oct 2013)
SM Exam Revision (Oct 2013)
StratMgt Advisor
 
SM Lecture Two : The Environment
SM Lecture Two : The EnvironmentSM Lecture Two : The Environment
SM Lecture Two : The Environment
StratMgt Advisor
 
Sentiment Analysis via R Programming
Sentiment Analysis via R ProgrammingSentiment Analysis via R Programming
Sentiment Analysis via R Programming
Skillspeed
 
SM Lecture Five : Business Strategy
SM Lecture Five : Business StrategySM Lecture Five : Business Strategy
SM Lecture Five : Business Strategy
StratMgt Advisor
 
Michael Porter's Competitive Advantage
Michael Porter's Competitive AdvantageMichael Porter's Competitive Advantage
Michael Porter's Competitive Advantage
Wesley Shu
 

Destaque (18)

Workshop sentiment analysis
Workshop sentiment analysis Workshop sentiment analysis
Workshop sentiment analysis
 
Un modello di Semantic Sentiment Analysis basato su tecniche di NLP e risorse...
Un modello di Semantic Sentiment Analysis basato su tecniche di NLP e risorse...Un modello di Semantic Sentiment Analysis basato su tecniche di NLP e risorse...
Un modello di Semantic Sentiment Analysis basato su tecniche di NLP e risorse...
 
TweetMonitor: approcci Machine Learning e lessicali per la Sentiment Analysis...
TweetMonitor: approcci Machine Learning e lessicali per la Sentiment Analysis...TweetMonitor: approcci Machine Learning e lessicali per la Sentiment Analysis...
TweetMonitor: approcci Machine Learning e lessicali per la Sentiment Analysis...
 
Chandler strategy and structure summ1
Chandler   strategy and structure summ1Chandler   strategy and structure summ1
Chandler strategy and structure summ1
 
A comparison of Lexicon-based approaches for Sentiment Analysis of microblog ...
A comparison of Lexicon-based approaches for Sentiment Analysis of microblog ...A comparison of Lexicon-based approaches for Sentiment Analysis of microblog ...
A comparison of Lexicon-based approaches for Sentiment Analysis of microblog ...
 
Introduction to Sentiment Analysis
Introduction to Sentiment AnalysisIntroduction to Sentiment Analysis
Introduction to Sentiment Analysis
 
SM Exam Revision (Oct 2013)
SM Exam Revision (Oct 2013)SM Exam Revision (Oct 2013)
SM Exam Revision (Oct 2013)
 
Social Media Marketing per il turismo 2.0
Social Media Marketing per il turismo 2.0Social Media Marketing per il turismo 2.0
Social Media Marketing per il turismo 2.0
 
SM Lecture Two : The Environment
SM Lecture Two : The EnvironmentSM Lecture Two : The Environment
SM Lecture Two : The Environment
 
Sentiment Analysis via R Programming
Sentiment Analysis via R ProgrammingSentiment Analysis via R Programming
Sentiment Analysis via R Programming
 
SM Lecture Five : Business Strategy
SM Lecture Five : Business StrategySM Lecture Five : Business Strategy
SM Lecture Five : Business Strategy
 
External Analysis Strategic Management Ljmu
External Analysis   Strategic Management LjmuExternal Analysis   Strategic Management Ljmu
External Analysis Strategic Management Ljmu
 
Analysing the external environment of business (i.e. general, competitive)
Analysing the external environment of business (i.e. general, competitive) Analysing the external environment of business (i.e. general, competitive)
Analysing the external environment of business (i.e. general, competitive)
 
How Sentiment Analysis works
How Sentiment Analysis worksHow Sentiment Analysis works
How Sentiment Analysis works
 
Igor Ansoff
Igor AnsoffIgor Ansoff
Igor Ansoff
 
Michael Porter's Competitive Advantage
Michael Porter's Competitive AdvantageMichael Porter's Competitive Advantage
Michael Porter's Competitive Advantage
 
Business Strategy
Business StrategyBusiness Strategy
Business Strategy
 
Macro factors affecting business environment
Macro factors affecting business environmentMacro factors affecting business environment
Macro factors affecting business environment
 

Semelhante a Sentiment Analysis & Opinion Mining

Atteggiamenti
AtteggiamentiAtteggiamenti
Atteggiamenti
imartini
 
Atteggiamenti
AtteggiamentiAtteggiamenti
Atteggiamenti
imartini
 
Onnis napoli
Onnis napoli Onnis napoli
Onnis napoli
imartini
 
Tecniche di creazione del consenso
Tecniche di creazione del consensoTecniche di creazione del consenso
Tecniche di creazione del consenso
Francesco Errani
 

Semelhante a Sentiment Analysis & Opinion Mining (15)

Testing & Colloquio
Testing & ColloquioTesting & Colloquio
Testing & Colloquio
 
Atteggiamenti
AtteggiamentiAtteggiamenti
Atteggiamenti
 
PNL e tecniche di comunicazione
PNL e tecniche di comunicazionePNL e tecniche di comunicazione
PNL e tecniche di comunicazione
 
Metodologia Ricerca Educativa Appunti
Metodologia Ricerca Educativa AppuntiMetodologia Ricerca Educativa Appunti
Metodologia Ricerca Educativa Appunti
 
Atteggiamenti
AtteggiamentiAtteggiamenti
Atteggiamenti
 
Atteggiamenti
AtteggiamentiAtteggiamenti
Atteggiamenti
 
Sentiment analysis SLA/Ice Bucket Challenge
Sentiment analysis SLA/Ice Bucket ChallengeSentiment analysis SLA/Ice Bucket Challenge
Sentiment analysis SLA/Ice Bucket Challenge
 
Onnis napoli
Onnis napoli Onnis napoli
Onnis napoli
 
Sentiment analysis 12.07.2018
Sentiment analysis 12.07.2018Sentiment analysis 12.07.2018
Sentiment analysis 12.07.2018
 
Tecniche di creazione del consenso
Tecniche di creazione del consensoTecniche di creazione del consenso
Tecniche di creazione del consenso
 
Valutare e-decidere con-sei_cappelli_per_pensare
Valutare e-decidere con-sei_cappelli_per_pensareValutare e-decidere con-sei_cappelli_per_pensare
Valutare e-decidere con-sei_cappelli_per_pensare
 
Cream Bossi vs Maroni 20120504
Cream Bossi vs Maroni 20120504Cream Bossi vs Maroni 20120504
Cream Bossi vs Maroni 20120504
 
SEMrush WebStudy Marathon - Branding per il business - Neuromarketing per Bra...
SEMrush WebStudy Marathon - Branding per il business - Neuromarketing per Bra...SEMrush WebStudy Marathon - Branding per il business - Neuromarketing per Bra...
SEMrush WebStudy Marathon - Branding per il business - Neuromarketing per Bra...
 
Neuro Digital Branding
Neuro Digital BrandingNeuro Digital Branding
Neuro Digital Branding
 
360 26
360 26360 26
360 26
 

Último

Presentazione tre geni della tecnologia informatica
Presentazione tre geni della tecnologia informaticaPresentazione tre geni della tecnologia informatica
Presentazione tre geni della tecnologia informatica
nico07fusco
 
presentazione varietà allotropiche del carbonio.pptx
presentazione varietà allotropiche del carbonio.pptxpresentazione varietà allotropiche del carbonio.pptx
presentazione varietà allotropiche del carbonio.pptx
michelacaporale12345
 
Adducchio.Samuel-Steve_Jobs.ppppppppppptx
Adducchio.Samuel-Steve_Jobs.ppppppppppptxAdducchio.Samuel-Steve_Jobs.ppppppppppptx
Adducchio.Samuel-Steve_Jobs.ppppppppppptx
sasaselvatico
 

Último (20)

Presentazione tre geni della tecnologia informatica
Presentazione tre geni della tecnologia informaticaPresentazione tre geni della tecnologia informatica
Presentazione tre geni della tecnologia informatica
 
TeccarelliLorenzo-Mitodella.cavernaa.pdf
TeccarelliLorenzo-Mitodella.cavernaa.pdfTeccarelliLorenzo-Mitodella.cavernaa.pdf
TeccarelliLorenzo-Mitodella.cavernaa.pdf
 
Le forme allotropiche del C-Palestini e Pancia.docx
Le forme allotropiche del C-Palestini e Pancia.docxLe forme allotropiche del C-Palestini e Pancia.docx
Le forme allotropiche del C-Palestini e Pancia.docx
 
Palestini Aurora-Steve Jobs,Olivetti e Gates.pptx
Palestini Aurora-Steve Jobs,Olivetti e Gates.pptxPalestini Aurora-Steve Jobs,Olivetti e Gates.pptx
Palestini Aurora-Steve Jobs,Olivetti e Gates.pptx
 
magia, stregoneria, inquisizione e medicina.pptx
magia, stregoneria, inquisizione e medicina.pptxmagia, stregoneria, inquisizione e medicina.pptx
magia, stregoneria, inquisizione e medicina.pptx
 
CHIẾN THẮNG KÌ THI TUYỂN SINH VÀO LỚP 10 THPT MÔN NGỮ VĂN - PHAN THẾ HOÀI (36...
CHIẾN THẮNG KÌ THI TUYỂN SINH VÀO LỚP 10 THPT MÔN NGỮ VĂN - PHAN THẾ HOÀI (36...CHIẾN THẮNG KÌ THI TUYỂN SINH VÀO LỚP 10 THPT MÔN NGỮ VĂN - PHAN THẾ HOÀI (36...
CHIẾN THẮNG KÌ THI TUYỂN SINH VÀO LỚP 10 THPT MÔN NGỮ VĂN - PHAN THẾ HOÀI (36...
 
presentazione varietà allotropiche del carbonio.pptx
presentazione varietà allotropiche del carbonio.pptxpresentazione varietà allotropiche del carbonio.pptx
presentazione varietà allotropiche del carbonio.pptx
 
Pancia Asia-Pelusi Sara-La pittura romana - Copia (1).pptx
Pancia Asia-Pelusi Sara-La pittura romana - Copia (1).pptxPancia Asia-Pelusi Sara-La pittura romana - Copia (1).pptx
Pancia Asia-Pelusi Sara-La pittura romana - Copia (1).pptx
 
Una breve introduzione ad Elsa Morante, vita e opere
Una breve introduzione ad Elsa Morante, vita e opereUna breve introduzione ad Elsa Morante, vita e opere
Una breve introduzione ad Elsa Morante, vita e opere
 
Pancia Asia_relazione laboratorio(forza d'attrito).docx
Pancia Asia_relazione laboratorio(forza d'attrito).docxPancia Asia_relazione laboratorio(forza d'attrito).docx
Pancia Asia_relazione laboratorio(forza d'attrito).docx
 
Piccole Personetestoitaliano-AuroraPalestini.docx
Piccole Personetestoitaliano-AuroraPalestini.docxPiccole Personetestoitaliano-AuroraPalestini.docx
Piccole Personetestoitaliano-AuroraPalestini.docx
 
Pancia Asia-La vita di Steve Jobs-Adriano Olivetti-Bill Gates.pptx
Pancia Asia-La vita di Steve Jobs-Adriano Olivetti-Bill Gates.pptxPancia Asia-La vita di Steve Jobs-Adriano Olivetti-Bill Gates.pptx
Pancia Asia-La vita di Steve Jobs-Adriano Olivetti-Bill Gates.pptx
 
TeccarelliLorenzo-PrimadiSteveJobselasuaconcorrenza.pptx
TeccarelliLorenzo-PrimadiSteveJobselasuaconcorrenza.pptxTeccarelliLorenzo-PrimadiSteveJobselasuaconcorrenza.pptx
TeccarelliLorenzo-PrimadiSteveJobselasuaconcorrenza.pptx
 
PalestiniAurora-la conoscenzatestoita.docx
PalestiniAurora-la conoscenzatestoita.docxPalestiniAurora-la conoscenzatestoita.docx
PalestiniAurora-la conoscenzatestoita.docx
 
a scuola di biblioVerifica: come utilizzare il test TRAAP
a scuola di biblioVerifica: come utilizzare il test TRAAPa scuola di biblioVerifica: come utilizzare il test TRAAP
a scuola di biblioVerifica: come utilizzare il test TRAAP
 
Gli isotopi scienze naturale seconda pres
Gli isotopi scienze naturale seconda presGli isotopi scienze naturale seconda pres
Gli isotopi scienze naturale seconda pres
 
magia, stregoneria, inquisizione e medicina.pptx
magia, stregoneria, inquisizione e medicina.pptxmagia, stregoneria, inquisizione e medicina.pptx
magia, stregoneria, inquisizione e medicina.pptx
 
Storia-CarloMagno-TeccarelliLorenzo.pptx
Storia-CarloMagno-TeccarelliLorenzo.pptxStoria-CarloMagno-TeccarelliLorenzo.pptx
Storia-CarloMagno-TeccarelliLorenzo.pptx
 
Educazione civica-Asia Pancia powerpoint
Educazione civica-Asia Pancia powerpointEducazione civica-Asia Pancia powerpoint
Educazione civica-Asia Pancia powerpoint
 
Adducchio.Samuel-Steve_Jobs.ppppppppppptx
Adducchio.Samuel-Steve_Jobs.ppppppppppptxAdducchio.Samuel-Steve_Jobs.ppppppppppptx
Adducchio.Samuel-Steve_Jobs.ppppppppppptx
 

Sentiment Analysis & Opinion Mining

  • 1. SENTIMENT ANALYSIS & OPINION MINING: UN’INTRODUZIONE I Social Media incontrano la Linguistica Computazionale
  • 2. Campi di applicazione • Brand reputation • Campagne pubblicitarie ed eventi • Opinioni sui prodotti Le aziende possono monitorare (per sé e i concorrenti): • Opinioni dei votanti e previsioni elettorali • Opinioni dei politici • Opinioni dei cittadini In politica: • Felicità: cfr. iHappy di Voices from the Blogs, anche su Twitter e sulla pagina Felicità Metriche sociali: • Film, libri • Viaggi, hotel, ristoranti Analisi di basi dati opinion oriented (recensioni): 26/04/2016 2
  • 3. Una questione di termini legati dalla soggettività Sentimento  Facoltà e capacità di sentire, in quanto presuppone una valutazione, un discernimento (nella sfera etica o estetica)  Più vicino al sign. di concetto, stima, opinione  Ogni forma di affetto, di impulso dell’animo, di movimento psichico, di emozione  La sfera dei sentimenti, l’affettività (spesso in contrapp. all’attività intellettuale, alla ragione) Opinione  Concetto che una o più persone si formano riguardo a particolari fatti, fenomeni, manifestazioni, quando, mancando un criterio di certezza assoluta per giudicare della loro natura (o delle loro cause, delle loro qualità, ecc.), si propone un’interpretazione personale che si ritiene esatta e a cui si dà perciò il proprio assenso  ≈ avviso, convincimento, convinzione, giudizio, idea, modo di vedere, parere, pensiero, posizione, punto di vista, veduta. ↔ (dato di) fatto, realtà  Confrontiamo il Merriam Webster 26/04/2016 3
  • 4. Prima di Facebook e Twitter  1994: in ambiente linguistico computazionale, nasce l’interesse per il linguaggio della soggettività nei testi narrativi.  2001: per la prima volta, il market sentiment viene analizzato attraverso i messaggi dei bulletin board finanziari. Esiste una relazione statistica reciproca tra le opinioni dei piccoli investitori e l’andamento del mercato azionario. L’attenzione è rivolta a identificare la polarità del sentimento (positivo, negativo, ev. neutro ovvero assente).  2003: nasce il termine opinion mining: «[…] the ideal opinion-mining tool would “process a set of search results for a given item, generating a list of product attributes (quality, features, etc.) and aggregating opinions about each of them (poor, mixed, good)”». Il termine si riferisce quindi in particolare all’individuazione delle opinioni espresse circa diversi aspetti di un prodotto. I testi analizzati sono recensioni online (film, ristoranti, destinazioni di viaggio, automobili, banche, Epinions), perché si rendono disponibili vasti corpora facilmente accessibili. 26/04/2016 4
  • 5. Soggettività e oggettività Dati e fatti Opinioni personali  Forni a microonde su Amazon Forni a microonde su AltroConsumo 26/04/2016 5
  • 6. Sentiment Analysis e Opinion Mining: oggetto e sue definizioni  Sentimento (componente di affettività) /Opinione (componente di razionalità) L’opinione è rappresentata da una quintupla: 1. L’oggetto di cui si parla 2. La caratteristica (attributo, aspetto, feature) dell’oggetto, cui si riferisce l’opinione 3. La polarità (positiva, negativa, neutra o mista) dell’opinione espressa 4. L’opinion holder che esprime l’opinione 5. La data dell’opinione. Valutazione personale riguardo a un’entità (oggetto) o un aspetto (feature, caratteristica) di essa da parte di una fonte (opinion holder). L’entità può essere un prodotto, una persona, un evento, un’organizzazione o un argomento (topic). 26/04/2016 6 Liu, Bing. «Sentiment analysis and opinion mining». Synthesis lectures on human language technologies 5, n. 1 (2012): 1– 167.
  • 7. Funzioni SA/OM • P.es. libro = romanzo = testo = racconto = vicenda Estrazione degli oggetti, ovvero entità, e associazione delle espressioni alle categorie (= named entity recognition (NER) in information extraction) • Espressioni esplicite:sintagmi nominali (Il prezzo è ottimo). • Espressioni implicite:possono essere ricondotte a sintagmi nominali (La lavatrice è cara = il prezzo è alto). Estrazione degli aspetti, ovvero feature o caratteristiche, e associazione delle espressioni alle categorie • ONU = Nazioni Unite = UNO Estrazione degli opinion holder e loro categorizzazione • positivo, negativo, neutro o misto; numerico Classificazione del sentimento relativamente alle varie caratteristiche dell’oggetto • Riconoscimento dei sinonimi; esplicitazione degli aspetti; problema della coreferenza (anafora, catafora, deissi); interpretazione delle negazioni e dell’ironia Operazioni linguistiche 26/04/2016 7
  • 8. Tipologia delle opinioni • Dirette: affermazione che si riferisce direttamente all’oggetto o a un suo aspetto (Moment è rapidamente efficace). • Indirette:affermazione da cui è possibile ricavare un’opinione sull’oggetto attraverso la descrizione dei suoi effetti (Dopo aver preso una pastiglia, il mal di testa è scomparso in 5 minuti = aspetto implicito di rapidità/efficacia). Opinioni regolari • esprimono un confronto di valore tra due oggetti o una preferenza dell’opinion holder in base a una caratteristica comune agli oggetti. Si esprimono utilizzando il comparativo o superlativo degli aggettivi o avverbi: Nutella è più buona della cioccolata; Nutella è il massimo; preferisco l’Oransoda alla Fanta. Opinioni comparative • affermazioni soggettive che esprimono un’opinione regolare o comparativa (La Nutella ha un gusto indimenticabile; meglio mangiare l’insalata piuttosto che le patate). Opinioni esplicite • affermazionioggettive che implicano un’opinione (Ho la Candy da 10 anni e non si è mai rotta = aspetto implicito di durata; le Candy a freddo lavano meglio delle Indesit = aspetto implicito di efficacia e risparmio). Opinioni implicite 26/04/2016 8
  • 9. Soggettività, opinioni, emozioni… • La soggettività non implica sempre l’espressione di un sentimento (Pensavo che avrei preso un voto migliore) • Affermazioni oggettive possono sottintendere un’opinione personale implicita (Gli auricolari non durano mai più di un mese) Proposizione oggettiva: dati o fatti circa un’entità Proposizione soggettiva: parere o convinzione personale • 6 emozioni primarie: amore, gioia, sorpresa, rabbia, tristezza e paura Emozioni sentimenti e pensieri soggettivi • l’intensità delle prime influisce sulla forza dei secondi. Emozioni e sentimenti sono correlati 26/04/2016 9
  • 10. … convergono nei giudizi SA valuta la soggettività in termini di sentimento positivo o negativo, di cui la componente emotiva definisce l’intensità. OM identifica le valutazioni personali circa oggetti e loro aspetti che possono essere tradotte in sentimento positivo/negativo di intensità variabile. Le nostre valutazioni sono fondate su principi razionali e/o emozionali Valutazione razionale: basata su considerazioni pratiche, utilitarie, fattuali (La risoluzione dello schermo è ottima; quest’auto sembra fatta per me). Valutazione emozionale: basata su reazioni provocate dalla nostra relazione con noi stessi e col mondo (Questo profumo mi rilassa; adoro il mio iPhone). Emozioni, sentimenti e opinioni sono interdipendenti. Le opinioni prese in considerazione per SA/OM sono di tipo valutativo (esplicito o implicito). 26/04/2016 10
  • 11. Obiettivi SA/OM Valutare le opinioni su un argomento di interesse utilizzando tecniche automatiche di Machine Learning, in particolare: 1. determining the SO-polarity of a text, as in deciding whether a given text has a factual nature (i.e. describes a given situation or event, without expressing a positive or a negative opinion on it) or expresses an opinion on its subject matter. This amounts to performing binary text categorizationunder categories Subjective and Objective; 2. determining the PN-polarity of a text, as in deciding if a given Subjective text expresses a Positive or a Negative opinion on its subject matter; 3. determining the strength of the PN-polarity of a text, as in deciding e.g., whether the Positive opinion expressed by a text on its subject matter is Weakly Positive, Mildly Positive, or Strongly Positive; 4. extracting opinions from a text, as in determining whether a given linguistic expression within a text conveys an opinion or not, and (if positive) determining who holds this opinion, who or what is the object of this opinion, and what type of opinion it is. 26/04/2016 11 Esuli, Andrea, e FabrizioSebastiani. «SentiWordNet: A high-coveragelexical resource for opinion mining». Technical Report 2007-TR-02. Pisa: Istituto di Scienza e Tecnologie dell’Informazione,Consiglio Nazionale delle Ricerche, 2007.
  • 12. Riassumendo 26/04/2016 12 TestoOggettività Soggettività Opinioni implicite Opinioni esplicite Opinion Mining Sentiment Analysis AffettivitàRazionalità Aspetti Opinion Holder Entità Polarità Positiva Neutra Negativa Mista Sintagma Periodo Documento
  • 13. Discipline coinvolte • Information Extraction (IE) • Information Retrieval (IR) • Text Clustering/Classification (TC) • Text Summarization (TS) Text Mining • Analisi testuale • Annotazione linguistica • Lessicografia computazionale • Statistica linguistica Linguistica Computazionale/TAL 26/04/2016 13
  • 14. Processo di elaborazione Tokenizzazione Stemming POS Tagging Chunking Objective Subjective Positive Negative Neutral Mixed 26/04/2016 14 Rambocas, Meena, e João Gama. «The Role of Sentiment Analysis». FEP Working Papers, n. 489 (aprile 2013).
  • 15. Granularità dell’analisi • individua se un documento è soggettivo e se l’opinione globale espressa è positiva, negativa o mista (neutra).Documento • valuta se ogni singolo periodo di un documento è soggettivo e quale sia la sua polarità.Periodo • valuta l’orientamento delle opinioni considerando sintagmi ovvero n-grammi.Sintagma • in questo caso si considera la singola caratteristica dell’oggetto, indipendentemente dal livello sintattico. Un sistema per estrarre automaticamente gli aspetti è di considerare come tali i sintagmi nominali di alta frequenza. Aspetto • si considera la polarità delle parole a priori, ovvero fuori da qualsiasi contesto, per creare risorse lessicali semanticamente orientate.Parola • si considera la polarità di ciascuna accezione di un termine.Polisemia 26/04/2016 15
  • 16. Feature linguistiche applicate a SA/OM • IR/TC: frequenza e densità (indice tf-idf) servono a determinare entità e aspetti. • La presenza (hapax legomena) identifica le espressioni sentimentoriented. • La posizione (marcata, a inizio/fine periodo) è indice di soggettività. Presenza/frequenza • N-grammi favoriscono il riconoscimento di collocati, ovvero cooccorrenze di parole con frequenza superiore alla media delle probabilità (freddo polare, non antartico o siberiano; prezzo equo, non adeguato o equilibrato). Sintagmi • Disambiguare gli omografi (amare v./amare agg.) • Riconoscere sintagmi maggiormente portatori di soggettività (aggettivi e avverbi p.es.) e identificare sequenze sintattiche (n-grammi), quali p.es. A+N, ADV+A, N+A POS (part-of-speech tagging = annotazione morfologica) • Parsing sintattico: utile per riconoscere la funzione dei polarity reverser ovvero sentiment shifter quali negazioni,intensificatori,modificatori.Sintassi • Vocabolari del sentimento: aggettivi e avverbi;anche sostantivi (orrore, spazzatura, strazio) e verbi (amare, odiare); espressioni idiomatiche (costare un occhio, non valere una cicca) Lessico 26/04/2016 16
  • 17. Alcuni esempi POS Tagging Open Xerox Linguistic Tools Analisi testuale Voyant Tools 2.0 NLP APIs and Python NLTK Demos 26/04/2016 17
  • 18. Principali metodi SA/OM Apprendimento automatico supervisionato Sistema di Machine Learning con classificazione Training set annotato (feature slide 16) e classificato spesso manualmente (etichette: positivo, negativo, neutro) Test set solamente annotato Classificatore addestrato sul training set/test set viene applicato a testi nuovi annotati Naive Bayes Classifier:sistema probabilistico di inferenza Macchine a vettori di supporto SVM: applica un modello probabilistico a nuovi input Apprendimento automatico non supervisionato Tecniche di orientamento semantico con clusterizzazione Vocabolari binari: termini con etichetta positivo/negativo Vocabolari fuzzy: le etichette hanno anche un indice di intensità Vocabolari manuali Vocabolari automatici a partire da seed words positivi/negativi e loro cooccorrenze (cong. coordinanti/avversative, negazioni, polarity reverser) WordNet / SentiWordNet 26/04/2016 18
  • 19. Riassumendo 26/04/2016 Jesus Serrano-Guerrero et al., «Sentiment analysis: A review and comparative analysis of web services», Information Sciences 311 (agosto 1, 2015): 18–38. Dizionari manuali o automatici Cooccorrenza con seed words Training set classificato
  • 20. Sinergia sintattico-semantica Sistema non supervisionato applicato alle recensioni sul sito Epinions • Fase 1: POS-tagging del testo • Fase 2: estrazione di bigrammi in base a modelli sintattici. Sost. e v. definiscono il contesto semantico per valutare la polarità in base agli agg. e avv. (freni imprevedibili  trama imprevedibile). • Fase 3: l’orientamento semantico dei bigrammi viene valutato in base alla loro associazione con i termini di riferimento excellent (= 5 stelle) e poor (= 1 stella), applicando un algoritmo (PMI-IR) che calcola la dipendenza statistica tra 2 termini. I valori PMI dei singoli bigrammi vengono ottenuti in base alla frequenza delle loro cooccorrenze coi termini di riferimento ricavata da una ricerca su Altavista utilizzando l’operatore NEAR. • Fase 4: la media dei valori di orientamento semantico dei bigrammi presenti nelle singole recensioni indica la loro polarità anche in termini di gradazione positiva e negativa. 26/04/2016 20 Turney, Peter D. «Thumbs up or thumbs down?: semantic orientation applied to unsupervised classification of reviews». In Proceedings of the 40th annual meeting on association for computational linguistics, 417–24. Association for Computational Linguistics, 2002.
  • 21. WordNet WordNet è consultabile alla pagina WordNet Search - 3.1 DataBase lessicale realizzato dall’Università di Princeton a partire dagli anni ’80 Comprende sostantivi, verbi, aggettivi e avverbi. Sono organizzati in 117.000 synsets, ovvero insiemi di sinonimi cognitivi. Ciascun synset esprime un concetto distinto: ciascuna accezione di un termine è associato a un synset individuale. I synset sono collegati da una rete di relazioni semantico-concettuali e lessicali. Le principali relazioni sono: iperonimia, iponimia, meronimia. Gli aggettivi sono organizzati in coppie di antinomi;i termini polari a loro volta sono legati ai loro sinonimi (antonimi indiretti del termine polare). Aggettivi relazionali (pertainyms) puntano ai sostantivi da cui derivano (criminal-crime). 26/04/2016 21
  • 22. SentiWordNet Spin off di WordNet, sviluppato nel 2006 presso l’ISTI- CNR di Pisa, ormai alla versione 3.1 Aggiunge ai synset un indice di sentimento basato su una tripla di valori: positivo, negativo, oggettivo, la cui somma è sempre pari a 1. Procedimento • Set base manuale: 6 termini positivi {1,0,0}; 6 termini negativi {0,1,0} • Attraverso i link semantici dei termini base, altri termini vengono indicizzati sulla base delle loro relazioni semantico- concettuali. SentiWordNet contiene 28.428 synset / 39.066 termini individuali • 10.263 aggettivi • 2.455 avverbi • 13.150 sostantivi • 2.560 verbi 26/04/2016 22 Esuli, Andrea, e Fabrizio Sebastiani. «SentiWordNet: A high-coverage lexical resource for opinion mining». Technical Report 2007-TR-02. Pisa: Istituto di Scienza e Tecnologie dell’Informazione, Consiglio Nazionale delle Ricerche, 2007.
  • 23. Spieghiamo meglio Termini seminali Esempio di tripla posSent = 1 virtuous, upright, decent, fortunate, nice, good negSent = 1 badness, denigrating, hapless, libellous, pathetic, negative Synonym list Positive rating Negative rating Objective rating Casual, everyday posSent = 0.375 negSent = 0.125 obj = 0.5 Heartsick, heartbroken posSent = 0.0 negSent = 0.625 obj = 0.375 26/04/2016 23
  • 25. Un indice per ciascuna accezione 26/04/2016 25
  • 26. Un esempio concreto Considering the sentence The film,however,is all good. that is stemmed, stop words are removed. The resulting string is ‘film good’. These two words are searched in SentiWordNet for corresponding synsets. Input term ‘film’:synsets with positivity = 0, negativity = 0, objectivity = 1. Input term ‘good’:33 synset entries. After summing up the different scores and dividing the sum by the number of synsets, the resulting values are: positivity = 0.57, negativity= 0.03, objectivity = 0.4. The sentence score triple results from summing up the score triple of each term and dividing each score by the number of considered terms. The resulting triple for this sentence is: positivity = 0.285, negativity = 0.015, objectivity = 0.7. The mentioned procedure results in a triple of {positivity,negativity, objectivity}-values for each sentence. To determine a score-triple for a document,the sentence score triples are added and normalized by the number of sentences. 26/04/2016 26 Denecke, Kerstin. «Using SentiWordNet for multilingual sentiment analysis», 507–12. IEEE, 2008.