L'Opinion Mining, o Sentiment Analysis, indica il processo di estrazione di informazioni legate alle opinioni espresse in rete da fruitori di servizi, prodotti ed eventi. Il seminario tratta le tematiche legate all'Opinion Mining secondo un approccio linguistico. Si parla di strutture linguistiche, del loro ruolo nell'interpretazione semantica dei testi e dei diversi campi di applicazione dell'Opinion Mining spaziando dalla "brand reputation" al "voice of consumers", o "opinion monitoring", sino al "real marketing".
2. Opinion
Mining
Opinion
Mining:
Iden$ficazione
e
Analisi
delle
Opinioni
nei
tes$.
Sen$ment
Analysis:
Iden$ficazione
e
deduzione
di
sta$
emo$vi
nel
testo.
Opinion
Mining
is
a
new
discipline
which
has
recently
a4racted
increased
a4en5on
within
fields
such
as
marke5ng,
personal
affec5ve
profiling,
and
financial
market
predic5on.
Although
o?en
associated
with
sen5ment
analysis,
which
consists
in
inferring
emo5onal
states
from
text,
opinion
mining
is
an
independent
area
related
to
natural
language
processing
and
text
mining
that
deals
with
the
iden5fica5on
of
opinions
and
aBtudes
in
natural
language
texts.
Erik
Cambria
et
al.,
2010
Sen$cNet:
A
Publicly
Available
Seman$c
Resource
for
Opinion
Mining
3. Opinioni….
Il
recente
simposio
sulla
Sen$ment
Analysis1,
organizzato
da
Seth
Grimes
in
New
York,
si
è
focalizzato
su:
• Lo
stato
aAuale
delle
ricerca
riguardante
la
Sen$ment
Analysis
e
la
Text
Analy$cs.
• La
fusione
di
tecnologie
e
mercato
nella
analisi
delle
opinioni
e
dei
comportamen$
aAraverso
i
commen$
riporta$
sui
social
media,
news
e
forum
aziendali.
• Diffusione
in
svaria$
e
nuovi
domini
di
interesse:
• military
intelligence
• financial
markets,
• strategie
di
real
marke$ng
basate
sui
contenu$
dei
social
media.
Definizione
di
deep
Marke$ng
Research
(DeepMR),
"enabled
by
an
ensemble
of
text
analy$cs,
sen$ment
analysis,
behavioral
analyses,
and
psychometric
technologies
—
applied
to
social
and
online
sources,
as
well
as
to
tradi$onal
surveys
—
with
the
poten$al
to
revolu$onize
market
research".
1 http://sentimentsymposium.com/
4. Opinioni….
Le
opinioni
degli
altri
possono
condizionare
le
nostre
scelte
Diffusione
Passaparola
su
Web.
• Dal
passaparola
casuale
ai
commen$
degli
uten$
descriven$
esperienze,
percezioni
condivise
su
blog,
forum
e
si$
specializza$
per
la
pubblicazione
di
review.
Opinioni
su
scala
globale.
Non
più
limita$
a:
• Individui
o
circoli
ristre`
di
amici
• Ambi$
di
affari
circoscri`
o
localizza$
5. Tipologie di opinioni
Opinioni dirette: opinioni direttamente riferite all’oggetto.
• “Splendido Hotel modernissimo, vicino al centro storico di Cagliari”
Confronti: relazioni che esprimono similarità o differenze tra
oggetti.
• “Penso che Bush sconfiggerà Kerry alle prossime elezioni
presidenziali”
• “La qualità del display del tablet A è superiore a quella del tablet B”
6. Applicazioni
Rivolte
ad
Aziende
SeAore
Turis$co:
• Migliorare
il
servizio
offerto
ai
clien$,
misurare
l’analisi
dei
flussi
verso
mete
turis$che
e
culturali
Opinion
search/retrieval:
• ricerca
di
opinioni
e
pareri
in
generale
Market
intelligence,
Business
intelligence,
Product/Service
benchmarking:
• Analisi
compara$va
di
prodo`,
servizi,
etc.,
• Analisi
reputazione
aziendale
o
stato
di
salute
di
un
brand
• Supporto
al
lancio
di
nuovi
prodo`
• Iden$ficazione
di
trend
di
mercato
emergen$
• Verifica
efficacia
campagne
di
comunicazione
Voice
of
the
Customer
(VOC):
• Analizzare
le
interazioni
e
le
opinioni
dei
clien$,
via
email,
note,
forum,
blog,
altri
social
media
7. Applicazioni
Rivolte
a
Persone
Personaggi
Pubblici/Poli$ca:
• monitorare
la
propria
immagine
e
reputazione
(trust)
e
il
proprio
gradimento
Consumatori:
sono
interessa$
alle
opinioni
degli
altri
quando:
• devono
acquistare
un
prodoAo
o
un
servizio
• devono
trovare
opinioni
o
pareri
su
argomen$
poli$ci
Profilazione
uten$:
• Studio
delle
dinamiche
di
gruppo
• Individuazione
di
opinion
leader
e
di
gruppi
di
influenza
• Verifica
efficacia
campagne
di
comunicazione
8. Applicazioni
Rivolte
a
Is$tuzioni
Poli$ca:
ascolta
la
voce
dei
ciAadini
• Sondaggi,
Rilevamen$
di
opinioni
Monitoraggio
e
analisi
dei
fenomeni
sociali:
• per
l'individuazione
di
situazioni
potenzialmente
pericolose
• la
determinazione
dello
stato
d'animo
in
generale
o
rela$vamente
ad
un
evento
Televisione
(comunicazione
di
massa):
• valutazione
della
qualità
e
dell’impaAo
sociale
dei
programmi
televisivi
10. Intenzioni
di
voto,
Sondaggi
La
Reuters
si
è
rivolta
alla
Crimson
Hexagon,
per
lo
sviluppo
di
uno
strumento
di
Sen$ment
Analysis
per
l’analisi
delle
intenzioni
di
voto
per
le
elezioni
USA
2010,
basato
su
TwiAer.
Il
Washington
Post
sviluppa
@Men$onMachine,
un’app
che
u$lizza
TwiAer
(e
altri
blog)
come
sistema
di
analisi
real-‐
$me
degli
umori
dell'eleAorato
delle
primarie
repubblicane
del
2012.
11. Monitoraggio
e
analisi
dei
fenomeni
sociali
Nei
giorni
successivi
alla
sentenza
d’appello
per
il
deliAo
di
Perugia,
Expert
System
ha
svolto
un’analisi
per
cogliere
le
reazioni
dei
commen$
in
italiano
e
in
inglese
degli
uten$
di
TwiAer
.
hAp://www.expertsystem.it/
15. ProgeAo
FIRST
Large
scale
inForma$on
extrac$on
and
Integra$on
infRastructure
for
SupporTing
financial
decision
making
• ABI
Lab
Conference
a
Milano:
presentato
il
primo
proto$po
di
modello
di
supporto
alle
decisioni
basato
sugli
sta$
emo$vi
espressi
sul
Web.
• Applicato
al
servizio
di
micro
blogging
TwiAer
o
ai
da$
testuali
estra`
dai
blogs.
• Estrae
e
meAe
in
relazione
gli
sta$
emo$vi
ai
movimen$
dei
prezzi
azionari.
• I
risulta$
indicano
una
forte
relazione
posi$va
tra
stato
emo$vo
e
volume
degli
scambi.
• Fornisce
all’utente
finale
spun$
importan$
sui
movimen$
dei
merca$
finanziari
e
contribuisce
al
miglioramento
del
processo
decisionale
e
all'efficienza
del
mercato.
http://project-first.eu/content/press-release-eu-project-first-uses-twitter-co-financial-decision-making
17. Natural
Language
Processing
I
Linguaggi
Naturali
sono
i
generici
linguaggi
usa$
dagli
essere
umani,
non
ar$ficiali
(es:
Esperanto)
né
formali
come
i
linguaggi
di
programmazione.
Il
Natural
Language
Processing
(NLP)
descrive
i
tenta$vi
di
u$lizzare
i
computer
per
processare
un
linguaggio
naturale.
NLP
è
lo
studio
dei
sistemi
informa$ci
per
la
comprensione
e
generazione
del
linguaggio
naturale
(Grisham,
1986)
L’approccio
linguis$co
alla
NLP
si
basa
su
diversi
livelli
di
analisi:
• Analisi
Morfologica:
analisi
della
struAura
delle
parole
• Analisi
Sinta`ca:
struAure
sinta`che
correAe;
rifiutare
quelle
non
correAe
• Analisi
Seman$ca:
associare
significa$
alle
struAure
(es.
Verdi
idee
incolori
dormono
furiosamente ,
Chomsky,
1957)
• Integrazione
del
discorso:
una
frase
può
dipendere
dalle
preceden$
(es.
Gianni
lo
voleva )
• Analisi
Pragma$ca:
a
volte
la
struAura
va
interpretata
(es.
Sai
che
ora
è? significa
Mi
dici
l’ora? )
17
18. Analisi
Morfologica
La
Morfologia
(*)
è
lo
studio
di
come
le
parole
sono
costruite
a
par$re
da
unità
atomiche
deAe
morfemi.
L’analisi
Morfologica
di
una
parola
comprende:
• il
lemma
da
cui
è
originata
• il
numero,
la
persona,
il
genere
e
gli
altri
parametri
gramma$cali
che
la
individuano.
L’analisi
viene
faAa
per
i
:
• Lemmi
verbali,
aAraverso
le
desinenze
e
regole
di
flessione
• Lemmi
non
verbali,
aAraverso
le
sole
desinenze
E’
la
base
di
partenza
per
la
fase
successiva
di
analisi
sinta`ca.
(*)
Dizionario
di
linguis$ca
–
direAo
da
G.Luigi
Beccaria
ed.
Einaudi
18
19. Analisi
Sinta`ca
Possiamo
definire
la
Sintassi
come
cos$tuita
da:
• una
gramma$ca
del
linguaggio
che
vogliamo
analizzare
• un
lessico,
che
con$ene
le
parole
del
linguaggio
• un
parser,
che
interpreta
le
le
frasi
L'analisi
sinta`ca
tramite
parsing
sinta`co,
è
una
funzione
u$le
a
catalogare
o
iden$ficare
le
relazioni
tra
le
par$
di
una
frase,
ovvero
i
termini
o
gli
insiemi
di
termini.
Se
è
possibile
costruire
due
rappresentazioni
sinta`che,
o
parser-‐tree
o
alberi
sinta`ci
diversi
a
par$re
dalla
stessa
frase
e
dalla
stessa
gramma$ca,
la
frase
è
deAa
sintaBcamente
ambigua
Il
parser
sinta`co,
o
phrase
recogni-on
parser,
esegue
un'analisi
dei
cos$tuen$
della
frase,
ad
esempio
individuando
la
parte
nominale
e/o
la
parte
verbale,
e
analizza
come
le
parole
si
compongono
in
unità
più
grandi,
deAe
sintagmi,
e
verifica
il
rispeAo
delle
regole
gramma$cali.
19
20. Analisi
Sinta`ca:
parsing
Il
parsing
è
il
processo
di
assegnazione
di
una
struAura
ad
una
stringa
in
base
ad
una
gramma$ca.
In
linguis$ca,
si
intende
il
processo
di
analisi
sinta`ca
di
un
testo,
realizzato
come
l’iden$ficazione
di
un
insieme
di
tokens
(es.:
le
parole)
al
fine
di
determinare
la
struAura
gramma$cale
con
riferimento
ad
una
data
gramma$ca
formale.
estraAa
da:
hAp://en.wikipedia.org/wiki/Parsing
20
21. Analisi
Seman$ca
“La
determinazione
del
significato
di
una
frase
avviene
in
diverse
fasi
successive:
nella
prima
ci
si
serve
solo
della
stru%ura
sinta*ca
e
dei
significa0
delle
parole,
mentre
nella
seconda
si
5ene
conto
delle
frasi
preceden5
già
interpretate,
di
conoscenze
sull'argomento
di
cui
il
testo
tra4a
e
di
conoscenze
generiche
sul
mondo.
La
prima
fase
prende
il
nome
di
“analisi
seman5ca”
[Allen
1995]
La
Seman$ca
è
lo
studio
del
significato
delle
parole
e
di
come
esse
si
combinano
per
formare
il
significato
delle
frasi.
In
genere
si
fa
dis$nzione
tra:
• Seman$ca
Lessicale
(Lexical
Seman$cs)
o
studio
delle
relazioni
lessicali
(sinonimia,
iperonimia/iponimia,
meronimia,
..
)
• Seman$ca
delle
frasi
(Sentences
Seman$cs)
o
studio
del
significato
di
intere
frasi.
L'analisi
seman$ca
fornisce
i
corre`
significa$
dei
costru`
sinta`ci
individua$
dall'analizzatore
sinta`co
e
ne
risolve
l'ambiguità.
I
termini
o
le
parole
vengono
sos$tui$
dagli
iden$ficatori
del
significato
in
una
fase
che
prende
il
nome
di
Word
Sense
Disambigua5on
(WSD).
21
22. Analisi
Seman$ca:
tappe
fondamentali
Mol$
dei
metodi
lega$
al
WSD,
Word
Sense
Disambigua$on,
sono
na$
intorno
agli
anni
‘50
per
proseguire
sino
ai
giorni
nostri:
• 1949
Weaver:
finestra
di
testo
avente
N
parole
che
precedono
e
che
seguono
la
parola
da
disambiguare
• 1955
Reifler:
Seman$c
Coincidences ,
relazioni
tra
struAure
sinta`che
e
word
sense
• 1961
Masterman:
Definizione
di
una
Rete
Seman$ca
di
100
conce`
con
nodes
=
concepts,
e
archi
=
relazioni
seman$che.
• 1961-‐1969,
Quillian:
ricerca
dell intersezione
–
due
percorsi
si
intersecano
a
par$re
da
due
nodi
• 1975
Minsky,
definizione
di
frame
collezione
di
aAribu$
e
dei
valori
ad
essi
associa$
che
descrivono
una
qualche
en$tà
del
mondo
• ~1980
Knowledge-‐based
Methods:
si
comincia
a
lavorare
su
Thesaurus,
Dizionari
e
Lexicon
• ~1990
Miller
et
al.:
Si
comincia
a
lavorare
al
lexicon
di
WordNet
• ~1991
Corpus-‐based
Methods:
tagging
di
word
senses.
• Hearst:
Algoritmo
CatchWord .
U$lizza
una
fase
di
training
che
richiede
un
set
di
word
senses
e$cheAato
a
mano
• 1998,
Leacock
–
Chodorow:
U5lizzo
della
rete
seman5ca
di
WordNet
per
la
misurazione
della
distanza
tra
I
significa5
dei
termini
per
la
disambiguazione
del
loro
senso.
22
23. Gli
strumen$
Strumen$
per
l’analisi
del
testo:
• Parser
sinta`ci:
effeAua
l’analisi
morfologica
e
sinta`ca
di
una
frase;
• Esegue
il
POS
(part
of
speech)
Tagging
(unica
interpretazione
morfologica)
• Individua
le
possibili
struAure
sinta`che
della
frase
• Risorse
lessicali:
• WordNet
e
le
sue
principali
estensioni
• Tassonomie:
• Classificazione
dei
tes$
analizza$:
u$le
per
la
disambiguazione
seman$ca
delle
frasi:
es.:
WordNet
Domains
23
26. Opinion
Mining:
Overview
Un
sistema
di
Opinion
Mining
ha
come
principali
obie`vi:
• Analizzare
le
opinioni
riferite
ad
even$
o
a
fa`
anche
in
corso
di
svolgimento,
anche
quando
esse
non
siano
riferite
a
specifici
argomen$.
• Estrarre
feature
e
informazioni
significa$ve
contenute
nelle
opinioni,
rela$ve
a
diversi
contes$
non
sempre
ben
defini$,
a
par$re
da
molteplici
sorgen$
di
review.
• Esplorare
la
ques$one
della
contestualizzazione
delle
feature
aAraverso
l’u$lizzo
di
strumen$
per
la
classificazione
seman$ca,
per
la
ges$one
di
re$
seman$che
e
l’u$lizzo
di
risorse
linguis$che
ad
hoc.
• Aggregare
e
rappresentare
i
risulta$
elabora$
(Opinion
Summariza$on)
27. Opinion
Mining:
Overview
Sviluppo
di
risorse
linguis$che
Opinion
Summariza$on
Feature
Extrac$on
Opinion
Mining
can
be
roughly
divided
into
three
major
tasks
of
development
of
linguis5c
resources,
sen5ment
classifica5on,
and
opinion
summariza5on.
Lee
et
al.,
2008
-‐
Opinion
Mining
of
customer
feedback
data
on
the
web.
28. Definizione
di
Opinione
Un’opinione
è
una
quintupla:
(oj,
fjk,
soijkl,
hi,
tl)
oj
è
l’oggeAo
di
riferimento
fjk
è
una
feature
dell’oggeAo
oj.
soijkl
è
il
valore
dell’opinione
espressa
dalla
persona
hi
sulla
feature
fjk
dell’oggeAo
oj
al
tempo
tl.
soijkl
puo
assumere
valore
pos,
neg,
o
neu,
o
un
ra$ng
più
granulare.
hi
è
la
persona
che
esprime
l’opinione
(opinion
holder).
tl
è
il
tempo
in
cui
l’opinione
viene
espressa.
(Liu,
a
Ch.
in
NLP
handbook)
29. Qualche
definizione…
Un
ogge4o
O
è
definito
come
un’en5tà
che
può
essere
un
prodo4o,
una
persona,
un
evento,
un’organizzazione
o
un
argomento.
Un
ogge4o
è
associato
ad
una
coppia
O:
(T,
A),
dove
T
indica
una
gerarchia
o
una
tassonomia
di
par5,
componen5
e/o
sub-‐componen5,
e
A
un
insieme
di
a4ribu5
di
O.
Ciascuna
componente
può
possedere
un
proprio
insieme
di
sub-‐
componen5
e
a4ribu5.
(Ding
et
al.,
2008)
Una
feature
f
è
definita
come
una
proprietà
rela$va
ad
uno
specifico
oggeAo
O.
Essa
è
rappresentata
dai
termini
o
dalle
espressioni,
rispeAo
alle
quali
le
opinioni
sono
espresse,
e
da
un
set
di
aAribu$.
30. Feature
Extrac$on
• Un
task
rilevante
dell’Opinion
Summariza$on
riguarda
l’estrazione
delle
feature.
• Iden$ficazione
dei
noun
aAraverso
il
pos-‐tagging,
valutazione
della
frequenza
delle
parole
basata
sul
calcolo
della
€-‐idf
(Scaffidi,
2007).
• Metodi
di
apprendimento
constrained
semi-‐supervised
per
risolvere
il
problema
del
raggruppamento
delle
features
(Zhai
et
al.,
2010).
• Estrazione
delle
feature
esplicite
nelle
noun
phrases
(Popescu
and
Etzioni,
2005).
31. Pu`ng
it
all
together:
Finding
sen$ment
for
aspects
S.
Blair-‐Goldensohn,
K.
Hannan,
R.
McDonald,
T.
Neylon,
G.
Reis,
and
J.
Reynar.
2008.
Building
a
Sen$ment
Summarizer
for
Local
Service
Reviews.
WWW
Workshop
Sentences
Sentences
Sentences
&
Phrases
&
Phrases
&
Phrases
Final
Summary
Reviews
Text Sentiment Aspect
Aggregator
Extractor Classifier Extractor
31
33. WordNet
WordNet
è
un
database
lessicale
realizzato
per
la
lingua
Inglese
dall’Università
di
Princeton
ad
opera
di
George
Miller
ed
altri
tra
cui
ricordiamo
Chris$ane
Fellbaun
e
Piek
Vossen.
Il
lavoro
è
portato
avan$
oggi
dalla
Global
WordNet
Associa$on
(GWA).
Raggruppa
nomi,
verbi,
agge`vi
e
avverbi
organizzandoli
in
insiemi
(set)
di
sinonimi,
de`
synset.
Ciascun
synset
esprime
un
diverso
conceAo
iden$ficato
univocamente
da
un
synsetID.
I
synset
sono
collega$
tra
loro
per
mezzo
di
relazioni
lessicali
e
seman$che
come:
• sinonimia
• meronimia
• Iperonimia/iponimia
• Antonimia
33
34. WordNet
Sinonimia:
“rapporto
tra
segni
linguis$ci
che
hanno
lo
stesso
significato”*
es.:
cortese
=
gen$le
Meronimia
“relazione
seman$ca
tra
nome
del
tuAo
e
nome
di
una
sua
parte”
*
es.:
motore
è
meronimo
di
automobile
Iperonimia
/
Iponimia
“relazione
seman$ca
paradigma$ca
tra
termine
generico
Iperonimo
o
sovraordinato
e
uno
o
più
termini
specifici
o
Iponimi
”*
es.:
mobile
(iperonimo)
e
sedia,
tavolo,
armadio
(iponimi)
Antonimia
“relazione
tra
due
segni
di
significato
contrario”
*
es.:
bello/bruAo,
amore/odio
(*)
Dizionario
di
linguis$ca
–
direAo
da
G.Luigi
Beccaria
ed.
Einaudi
34
35. WordNet:
dog
The
noun
dog
has
7
senses
(first
1
from
tagged
texts)
1.
(42)
{02001223}
<noun.animal>
dog#1,
domes$c
dog#1,
Canis
familiaris#1
-‐-‐
(a
member
of
the
genus
Canis
(probably
descended
from
the
common
wolf)
that
has
been
domes$cated
by
man
since
prehistoric
$mes;
occurs
in
many
breeds;
"the
dog
barked
all
night")
2.
{09465341}
<noun.person>
frump#1,
dog1#2
-‐-‐
(a
dull
unaArac$ve
unpleasant
girl
or
woman;
"she
got
a
reputa$on
as
a
frump";
"she's
a
real
dog")
3.
{09382160}
<noun.person>
dog#3
-‐-‐
(informal
term
for
a
man;
"you
lucky
dog")
4.
{09256536}
<noun.person>
cad#1,
bounder#1,
blackguard#1,
dog2#4,
hound#2,
heel#3
-‐-‐
(someone
who
is
morally
reprehensible;
"you
dirty
dog")
5.
{07205647}
<noun.food>
frank#2,
frankfurter#1,
hotdog1#3,
hot
dog1#3,
dog1#5,
wiener#2,
wienerwurst#1,
weenie#1
-‐-‐
(a
smooth-‐textured
sausage
of
minced
beef
or
pork
usually
smoked;
oˆen
served
on
a
bread
roll)
6.
{03754154}
<noun.ar$fact>
pawl#1,
detent#1,
click#4,
dog#6
-‐-‐
(a
hinged
catch
that
fits
into
a
notch
of
a
ratchet
to
move
a
wheel
forward
or
prevent
it
from
moving
backward)
7.
{02617005}
<noun.ar$fact>
andiron#1,
firedog#1,
dog1#7,
dog-‐iron#1
-‐-‐
(metal
supports
for
logs
in
a
fireplace;
"the
andirons
were
too
hot
to
touch")
The
verb
dog
has
1
sense
(first
1
from
tagged
texts)
1.
(2)
{01943890}
<verb.mo$on>
chase#1,
chase
aˆer#2,
trail#2,
tail#1,
tag#4,
give
chase#1,
dog#1,
go
aˆer1#1,
track#3
-‐-‐
(go
aˆer
with
the
intent
to
catch;
"The
policeman
chased
the
mugger
down
the
alley";
"the
dog
chased
the
rabbit")
35
37. WordNet
Domains
WordNet
Domains
è
una
risorsa
che
rappresenta
associazioni
tra
i
synset
di
WordNet
e
un
set
di
categorie
estraAo
dalla
Dewey
Decimal
Classifica$on
(DDC)
Questa
estensione
del
WordNet
originale
risulta
u$le
per
mol$
scopi
ed
in
par$colare
per
la
disambiguazione
automa$ca
di
senso
perché
permeAe
di
collegare,
aAraverso
l'aAribuzione
di
appartenenza
ad
una
o
più
categorie,
synset
che
altrimen$
risulterebbero
completamente
scollega$
tra
loro.
Ad
esempio,
in
WordNet
originale,
synset
come
"doctor",
"emergency
room",
"to
operate"
non
sono
collega$
in
nessun
modo,
mentre
in
WordNet
Domains
sono
tu`
e
tre
e$cheAa$
con
l'e$cheAa
"medicina".
Sviluppato
presso
la
Fondazione
Kessler:
hAp://wndomains.‰k.eu/
37
38. I
Differen$
Sta$
Affe`vi
(secondo
Scherer)
• Sta-
Emo-vi
(Emo-on):
sta$
d’animo
come
reazione
sincronizzata
con
un
evento
rilevante
• rabbia,
tristezza,
gioia,
paura,
vergogna,
orgoglio,
entusiasmo
• Stato
d’Animo
(Mood):
mutazione
frequente
dello
stato
d’animo,
senza
causa
specifica,
di
bassa
intensità,
di
lunga
durata
• allegria,
tristezza,
irritabilità,
apa5a,
depressione,
oBmismo
• A=eggiamen-
Interpersonali
(Interpersonal
stances):
interazione
specifica
con
un’altra
persona
• amichevole,
seduBvo,
distante,
freddo,
caldo,
confortante,
sprezzante
• A=eggiamen-
(A@tudes):
disposizione
duratura,
intensa,
verso
persone
e
cose
• simpa5co,
amorevole,
odioso,
s5mato,
desiderabile
• Personalità
(Personality
traits):
disposizioni
stabili
di
personalità
e
tendenze
comportamentali
$piche
• nervoso,
ansioso,
temerario,
cupo,
os5le,
geloso
40. Nel
contesto
della
Human-‐Computer
Interac$on
(HCI)
il
modello
intende
misurare
quanto:
• l’utente
è
contento
del
servizio
• l’utente
è
interessato
all’informazione
fornita
• l’utente
è
a
proprio
agio
con
l’interfaccia
• l’utente
è
disposto
ad
u$lizzare
l’applicazione
E.
Cambria
et
al.
-‐
2010:
“Sen$cNet:
A
Publicly
Available
Seman$c
Resource
for
Opinion
Mining”
41. Estensioni
di
WordNet
• WordNet
Domains:
• Mapping
dei
synset
di
WordNet
su
un
subset
di
DDC
• Micro-‐WNOp:
• “Gold
Standard”
u$lizzato
per
la
validazione
di
Sen$WordNet
• Sen$WordNet:
• Espande
WordNet
grazie
all’acquisizione
semi-‐automa$ca
di
polarità
dei
termini
di
WordNet
• WordNet
Affect:
• affec$ve-‐labels
o
a-‐labels
associate
ai
synset
di
WordNet
• Q-‐WordNet
• risorsa
lessicale
di
significa$
di
WordNet
annota$
automa$camente
con
valori
di
polarità
• FreeWordNet
• Database
lessicale
di
synset
arricchi$
con
un
insieme
di
proprietà
rela$ve
ad
agge`vi
ed
avverbi
42. Micro-‐WNOp
MicroWnOp
è
composta
da
un
set
bilanciato
di
1,105
WordNet
synsets
annota$
manualmente
da
un
gruppo
di
5
valutatori.
Assegna
un
valore
di
score
Posi$vo,
Nega$vo
e
Ogge`vo
la
cui
somma
deve
essere
uno.
Sono
sta$
adoAa$
due
criteri:
•
Opinion
relevance:
il
numero
di
synset
deve
essere
rappresenta$vo
per
ciascun
opinion
topic.
•
WordNet
representa5veness,
rispeAare
la
distribuzione
dei
synset
di
WordNet
sulle
diverse
part
of
speech.
43. Sen$WordNet
Sen$WordNet
(Esuli
and
Sebas$ani,
2006)
è
una
risorsa
lessicale
che
associa
a
ciascun
synset
di
WordNet
tre
score
di
polarità
Posi$vo,
Nega$vo
e
Ogge`vo.
I
tre
score
derivano
dai
risulta$
prodo`
da
un
gruppo
di
oAo
classificatori
che
classificano
sui
tre
valori
di
polarità.
hAp://sen$wordnet.is$.cnr.it/
44. WordNet
Affect
Arricchisce
WordNet
con
una
gerarchia
di
e$cheAe
emo$ve
(affec$ve-‐labels
o
a-‐labels):
• I
synset
che
indicano
emozioni
sono
sta$
segna$
con
l’a-‐label
emo$on
• I
synset
che
indicano
umori,
situazioni
emo$ve,
reazioni
emo$ve
(behavior,
a`tude,
mood,
ecc...).
• Ulteriori
a-‐label
specializzano
la
generica
e$cheAa
emo$on
dis$nguendo
la
valenza
in
posi$ve,
nega$ve,
neutral
o
ambigous.
• Si
dis$nguono
ulteriormente
gli
agge`vi
(ma
anche
verbi
e
avverbi)
in
causa$vo
(“La
stanza
paurosa”)
e
dichiara$vo
(“il
bambino
impaurito”)
hAp://wndomains.‰k.eu/wnaffect.html
45. Q-‐WordNet
• Risorsa
lessicale
in
cui
i
synset
di
WordNet
sono
automa$camente
annota$
con
valori
di
polarità
posi$va
o
nega$va.
• Parte
da
6
synset
aven$
polarità
nota:
• Posi$ve,
nega$ve,
bad,
good,
superior,
inferior
• Propaga
la
polarità
usando
le
relazioni
seman$che:
• Antonimia,
sinonimia,
iperonimia,
etc.
Rodrigo
Agerri,
Ana
Garcıa-‐Serrano,
2010:
“Q-‐WordNet:
Extrac$ng
Polarity
from
WordNet
Senses“
46. FreeWordNet
Database
lessicale
di
synset
arricchi$
con
un
insieme
di
proprietà
rela$ve
ad
agge`vi
ed
avverbi.
In
deAaglio:
• circa
800
synset
di
agge`vi
(2300
coppie
synset/termine)
• 425
synset
di
avverbi
(490
coppie
synset/termine)
Ciascun
synset
possiede
associato
il
valore
di
polarità
e
delle
proprietà
associate.
Le
proprietà
contengono
intrinsecamente
opinioni
riguardan$
il
termine
o
l’espressione
a
cui
i
termini
sono
riferi$.
47. FreeWordNet
Proprietà
Agge`vi
secondo
15
differen$
$pologie,
sono:
• emo$on
• touch
• moral
• taste
• weather
• size
(or
dimension)
• color
• $me
• quan$ty
• geography
• appearance
• other
(nc)
• material
• shape
48. FreeWordNet
Proprietà
Avverbi
secondo
7
differen$
$pologie,
sono:
• Modali
(Posi$vi,
Nega$vi,
Neutri):
• Persone
• Cose
• Cronologia
• Località
• Intensificatori
ed
Enfa$zzatori
• Quan$tà
o
grado
(intensità)
• AND
–
Affermazione,
Negazione,
Dubbio
51. Opinion
Retrieval
Creazione
di
un
Corpus
di
Opinioni:
• dalle
opinioni
di
uno
specifico
Data
Corpus
Provider
(es:
TripAdvisor,
Booking.com,
etc)
• dalle
opinioni
rilevan$
per
un
argomento
estraAe
da
diverse
fon$
(blog,
forum,
si$
di
recensioni,
giornali
e
news
online,
etc)
Analisi
Linguis$ca
52. Approccio
Linguis$co
• L’approccio
alla
Opinion
Mining
da
noi
seguito
è
basato
sulla
combinazione
di
avverbi
ed
agge`vi
e
sull’uso
dei
synset
di
WordNet
rela$vi
a
ciascun
termine.
• Si
focalizza
sull’analisi
delle
opinioni
aAraverso
le
fasi
di:
analisi
sinta`ca
e
seman$ca
delle
risorse,
di
informa$on
extrac$on
e
di
valutazione
dell’orientamento
seman$co.
• Si
sviluppa
aAraverso
le
fasi
di
disambiguazione
seman$ca
e
di
classificazione
dei
tes$
considerando
i
diversi
significa$
espressi
nelle
frasi
che
compongono
il
testo.
• L’u$lizzo
di
specifiche
risorse
linguis$che
sviluppate
ad
hoc,
che
associano
significa$
di
agge`vi
ed
avverbi
a
specifiche
proprietà
rende
possibile
l’iden$ficazione
del
contesto
di
u$lizzo
dei
termini
e
il
loro
raggruppamento
in
specifiche
categorie
tema$che.
55. Il
Corpus
Rappresenta
il
dominio
Analisi
del
Corpus:
• Iden$ficazione
delle
review
e
delle
singole
frasi
che
le
compongono
• Categorizzazione
del
corpus,
delle
review
e
delle
frasi
• Analisi
Sinta`ca
del
testo
• Iden$ficazione
di
agge`vi,
avverbi,
nomi
e
verbi
• Iden$ficazione
delle
parole
composte
• Correlazione
tra
agge`vi
e
avverbi
e
nomi
• Analisi
seman$ca
del
testo
• Disambiguazione
del
senso
più
probabile
con
cui
un
termine
è
usato
• Estrazione
delle
feature
dal
corpus
con
iden$ficazione
della
review
e
della
frase
di
appartenenza
• Valutazione
dell’orientamento
seman$co
rela$vamente
al
corpus,
alle
review
e
alle
frasi
56. Estrazione
di
informazione
dal
Corpus
Iden$ficazione
di
categorie
di
dominio
e
Tourism,
Building,
Town
Planning
calcolo
dei
pesi
associa$.
Great
modern
hotel
in
central
Cagliari.
Our
room
was
modern
and
spacious
with
Iden$ficazione
delle
review
e
frasi
the
only
thing
out
of
place
was
the
big
old
fashioned
tv.
We
had
breakfast
included
in
the
rate
and
it
was
great
with
loads
of
choices.
Hotel,
Room,
Balcony,
Bathroom,
Resort,
Estrazione
delle
feature.
Shower,
Restaurant,
Breakfast,
Buffet
Great
modern
hotel
in
central
Cagliari.
Our
room
was
modern
and
spacious
with
the
only
thing
out
of
place
was
the
Analisi
Sinta`ca:
big
tv.
We
had
breakfast
ADJS,
NOUNS included
in
the
rate
and
it
was
great
with
loads
of
choices.
57. Estrazione
di
informazione
dal
Corpus
Chunking
Sinta`co:
<N> <V> <ADJ>
ADJS,
NOUNS,
VERBS
Our
room
was
modern
breakfast:
sid=7107012
Disambiguazione
Seman$ca gloss:
the
first
meal
of
the
day
(usually
in
the
morning)
Es:
the
room
had
the
classic
moldy
smell
frase
faAuale
con
polarità
nega$va
Iden$ficazione
di
frasi
sogge`ve
e
frasi
I
went
with
my
older
sister
faAuali
con
polarità.
frase
faAuale
senza
polarità
59. Analisi
del
testo
Il
Classificatore
da
noi
definito,
lavora
in
una
certa
fase
del
processo
di
analisi
del
testo.
In
par$colare
viene
u$lizzato
nella
classificazione
dei
documen$
e
in
una
fase
di
disambiguazione
seman$ca.
Per
quanto
riguarda
la
Disambiguazione
dis$nguiamo
in:
Disambiguazione
Sinta`ca:
operata
per
mezzo
del
parser
sinta`co
tramite:
• POS
(part
of
speech)
tagging
• Iden$ficazione
di
relazioni
tra
i
termini
Disambiguazione
Seman$ca:
• Iden$ficazione
termini
compos$
• Iden$ficazione
dei
possibili
sensi
dei
termini
(WSD,
Word
Sense
Disambigua5on)
Classificazione
del
testo
Tassonomia
di
riferimento
derivante
da
WordNet
Domains
(subset
di
160
ca.
categorie
del
DDC)
59
60. Un
esempio
di
classificazione
seman$ca:
Classificatore
seman$co
60
62. Opinion
Summariza$on
Feature-‐based
o
Aspect-‐based
Opinion
Summariza5on
Indica
la
generazione
di
sommari
di
opinioni
rela$vamente
a
set
of
aspe`
o
features.
La
Feature
Iden$fica$on
è
usata
per
iden$ficare
gli
aspe`
su
cui
si
focalizzano
le
opinioni
La
Sen$ment
Classifica$on
o
Sen$ment
Predic$on
determina
la
polarità
delle
opinioni
espresse
riguardan$
le
feature
individuate
La
Summary
Presenta$on
mostra
i
risulta$
oAenu$
nei
passi
preceden$.
Kim
et
al.,
2011:
Comprehensive
Review
of
Opinion
Summariza$on
63. Features
Iden$fica$on
• €/idf
applicata
alla
collezione
di
reviews
• Iden$ficazione
delle
feature
candidate
nelle
frasi
• Classificazione
delle
collezione
di
reviews
(categorie
di
dominio)
• Riduzione
del
numero
delle
feature
candidate
in
base
alle
categorie
di
dominio
• Analisi
e
validazione
delle
feature
candidate
tramite
algoritmi
di
distanza
seman$ca
e
di
classificazione
• Contestualizzazione
delle
feature
• Mapping
termine-‐synset
calcolato
con
l’algoritmo
di
WSD,
di
distanza
seman$ca,
basato
sui
pesi
dei
synset
e
sulle
categorie
per
definire
relazioni
e
pesi
di
ciascuna
relazione.
• Definizione
di
una
matrice
delle
feature
i
cui
valori
indicano
il
peso
delle
relazioni
tra
tuAe
le
feature
individuate.
64. Sen$ment
Classifica$on
Predice
l’orientamento
posi$vo
o
nega$vo
rela$vamente
ad
una
feature
o
ad
una
funzionalità.
Lo
scopo
della
Sen$ment
Classifica$on
o
Sen$ment
Predic$on,
in
un
dato
contesto,
è
permeAere
la
scoperta
di
un
orientamento
degli
sta$
emo$vi
espressi
nelle
opinioni
riferite
alle
feature.
La
Sen$ment
Predic$on
basata
sull’u$lizzo
di
risorse
lessicali
è
stata
per
la
prima
volta
proposta
da
Hu
and
Liu
nel
2004
e
in
seguito
da
altri
ricercatori
(*).
Il
lessico
con$ene
un
dizionario
di
termini
posi$vi
e
nega$vi
u$lizza$
per
il
matching
di
termini
u$lizza$
nei
tes$
analizza$.
*
M.
Hu
and
B.
Liu.
2004,
Mining
and
summarizing
customer
reviews
Zhuang
et
al.
2006,
Movie
Review
Mining
and
Summariza$on
65. Summary
Presenta$on
U$lizzando
i
da$
della
feature
iden$fica$on
e
della
sen$ment
predic$on
si
possono
generare
e
rappresentare
i
sommari
finali
delle
opinioni
in
un
formato
efficace
e
facile
da
capire.
• Sta$s$cal
Summary:
usa
i
da$
processa$
negli
step
di
feature
iden$fica$on
e
sen$ment
predic$on
• Filtering: filtri applicati ai dati processati per la selezione delle informazioni
• Text
Selec$on:
iden$fica
i
periodi
rappresenta$vi
per
ciascuna
feature
• Aggregated
Ra$ngs:
combina
la
sta$s$cal
summary
e
la
text
selec$on
• Summary
with
a
Timeline:
mostra
le
tendenze
delle
opinioni
legandole
ad
una
$meline
66.
67. Features
I
da$
sono
organizza$
come
uno
sta$c
JSON
tree
e
carica$
in
uno
Squarified
Treemap.
La
figura
mostra
la
visualizzazione
dei
risulta$
riferi$
a
un
corpus
di
reviews
riguardan$
un
noto
hotel
di
Cagliari.
Le
feature
sono
raggruppate
secondo
dei
valori
che
indicano
la
loro
correlazione.
La
rappresentazione
fornisce
all’utente
un’idea
generale
e
completa
del
dominio.
E’
un
aiuto
per
la
navigazione
sulle
features.
JavaScript
InfoVis
Toolkit:
hAp://thejit.org/
68. Filtering
L’interfaccia
di
ricerca
permeAe
di
filtrare
le
review
per
data,
per
feature,
incrociando
la
ricerca
con
la
selezione
della
polarità
o
del
profilo
di
interesse.
69. Aggregated
Ra$ngs
with
Timeline
Le
review
possono
essere
filtrate
in
base
al
periodo
di
tempo
che
si
desidera
osservare
indicando
la
data
iniziale
e
finale,
e/o
in
base
alle
feature,
alla
polarità
e
al
profilo
degli
autori
delle
opinioni.
La
$meline
in
questo
caso
mostra
le
review
ancorate
alle
date
della
permanenza
degli
uten$
70. Aggregated
Ra$ngs
with
Timeline
La
Timeline
incrocia
il
dato
temporale
delle
review
alla
polarità
delle
opinioni
espresse
per
la
feature
selezionata.
Il
diagramma
mostra
in
rosso
i
valori
di
polarità
nega$vi
e
in
verde
i
valori
posi$vi.
Le
aree
in
blue
indicano
gli
even$
lega$
alla
data.
Anche
in
questo
caso
è
possibile
filtrare
l’informazione
secondo
i
parametri
indica$
nella
form
di
ricerca.
74. Grazie
NIT – Natural Interaction Technologies:
http://www.crs4.it/natural-interaction-technologies
75. Bibliografia
• Tuveri,
F.,
Angioni,
M.
A
Linguis$c
Approach
to
Feature
Extrac$on
Based
on
a
Lexical
Database
of
the
Proper$es
of
Adjec$ves
and
Adverbs.
Global
WordNet
Conference
GWN2012,
Matsue,
Japan.
• Bing
Liu,,
B.
NLP
Handbook
Chapter:
Sen$ment
Analysis
and
Subjec$vity,
2nd
Edi$on,
(Editors)
N.
Indurkhya
and
F.
J.
Damerau),
2010.
• Xiaowen
Ding,
Bing
Liu
and
Philip
S.
Yu.
2008
A
Holis$c
Lexicon-‐Based
Approach
to
Opinion
Mining.
Proceedings
of
WSDM
2008.
• Scaffidi,
C.,
Bierhoff,
K.,
Chang,
E.,
Felker,
M.,
Ng,
H.,
Jin,
C.:
Red
Opal:
product-‐feature
scoring
from
reviews.
ACM
Conference
on
Electronic
Commerce
2007:
182-‐191
(2007)
• Zhai,
Z.,
Liu,
B.,
Xu,
H.,
Jia,
P.:
Grouping
Product
Features
Using
Semi-‐Supervised
Learning
with
Soˆ-‐Constraints.
In
Proceedings
of
the
23rd
Interna$onal
Conference
on
Computa$onal
Linguis$cs
(COLING-‐2010),
Beijing,
China
(2010)
• Popescu,
A.,
M.,
and
Etzioni,
O.:
Extrac$ng
Product
Features
and
Opinions
from
Reviews.
Proceedings
of
the
2005
Conference
on
Empirical
Methods
in
Natural
Language
Processing
(
2005)
• Andrea
Esuli
and
Fabrizio
Sebas$ani.
Sen$WordNet:
A
Publicly
Available
Lexical
Resource
for
Opinion
Mining.
In
Proceedings
of
the
5th
Conference
on
Language
Resources
and
Evalua$on
(LREC
2006),
Genova,
IT,
2006,
pp.
417-‐422.
• Benamara,
F.,
Cesarano,
C.,
Picariello,
A.,
Reforgiato,
D.,
Subrahmanian,
V.,S.
2007.
Sen$ment
Analysis:
Adjec$ves
and
Adverbs
are
beAer
than
Adjec$ves
Alone.
In
Proceedings
of
ICWSM
07
Interna$onal
Conference
on
Weblogs
and
Social
Media,
pp.
203-‐206.
• Rentoumi,
V.,
Giannakopoulos,
G.,
2009.
Sen$ment
analysis
of
figura$ve
language
using
a
word
sense
disambigua$on
approach.
In
Interna$onal
Conference
on
Recent
Advances
in
Natural
Language
Processing
(RANLP
2009),
Borovets,
Bulgaria,
The
Associa$on
for
Computa$onal
Linguis$cs.
76. Bibliografia
• Miller,
G.,
A.,
1995.
WordNet:
A
Lexical
Database
for
English.
Communica$ons
of
the
ACM
Vol.
38,
No.
11
• Leacock,
C.
and
Chodorow,
M.:
Combining
local
context
and
WordNet
similarity
for
word
sense
iden$fica$on.
In
Fellbaum
1998,
pp.
265-‐283
• Lee,
D.,
Jeong,
O.,
Lee,
S.,
2008.
Opinion
Mining
of
customer
feedback
data
on
the
web.
In
ICUIMC
'08
Proceedings
of
the
2nd
Interna$onal
Conference
on
Ubiquitous
Informa$on
Management
and
Communica$on.
• Wiebe,
J.,
Mihalcea,
R.,
2006.
Word
Sense
and
Subjec$vity.
In
Proceedings
of
the
Annual
Mee$ng
of
the
Associa$on
for
Computa$onal
Linguis$cs,
Sydney,
Australia.
• Baccianella,
S.,
Esuli,
A.,
Sebas$ani,
F.,
2010.
Sen$WordNet
3.0:
An
Enhanced
Lexical
Re-‐source
for
Sen$ment
Analysis
and
Opinion
Mining.
In
Proceedings
of
LREC-‐10,
7th
Conference
on
Language
Resources
and
Evalua$on,
ValleAa,
MT,
pages
2200-‐2204.
• Agerri,
R.,
García-‐Serrano,
A.,
2010.
Q-‐WordNet:
Extrac$ng
polarity
from
WordNet
senses.
Seventh
Conference
on
Interna$onal
Language
Resources
and
Evalua$on.
• Valitu`,
A.,
Strapparava,
C.,
Stock,
O.,
2004.
Developing
affec$ve
lexical
resources.
In
Psychnology
Journal
Vol.
2.
• Magnini,
B.,
Strapparava,
C.,
Pezzulo,
G.,
Gliozzo,
A.,
2002.
The
Role
of
Domain
Informa$on
in
Word
Sense
Disambigua$on.
Natural
Language
Engineering,
special
issue
on
Word
Sense
Disambigua$on,
8(4),
pp.
359-‐373,
Cambridge
University
Press.
• Cerini,
S.,
Compagnoni,
V.,
Demon$s,
A.,
Formentelli,
M.,
Gandini,
C.,
2007.
Micro-‐WNOp:
A
gold
standard
for
the
evalua$on
of
automa$cally
compiled
lexical
resources
for
opinion
mining.
In
Andrea
Sanso`,
editor,
Language
resources
and
linguis$c
theory:
Typology,
second
language
acquisi$on,
English
linguis$cs,
pages
200–210.
Franco
Angeli
Editore,
Milano,
Italy.
• Angioni,
M.,
Demon$s,
R.,
Tuveri,
F.,
2008.
A
Seman$c
Approach
for
Resource
Cataloguing
and
Query
Resolu$on.
Communica$ons
of
SIWN.
Special
Issue
on
Distributed
Agent-‐based
Retrieval
Tools.
• Akkaya,
C.,
Mihalcea,
R.,
Wiebe,
J.,
2009.
Subjec$vity
Word
Sense
Disambigua$on.
Proceedings
of
the
2009
Conference
on
Empirical
Methods
in
Natural
Language
Processing,
pages
190–199,
Singapore,
ACL
and
AFNLP.