Seminario Franco Tuveri e Manuela Angioni, 06-09-2012

Sen$ment
Analysis
and
Opinion
Mining

Franco
Tuveri
–
tuveri@crs4.it

Manuela
Angioni
–
angioni@crs4.it

NIT – Natural Interaction Technologies:
http://www.crs4.it/natural-interaction-technologies

Cagliari,
6
SeAembre
2012

Opinion
Mining

Opinion
Mining:

Iden$ficazione
e
Analisi
delle
Opinioni
nei
tes$.

Sen$ment
Analysis:
Iden$ficazione
e
deduzione
di
sta$
emo$vi
nel
testo.

Opinion
Mining
is
a
new
discipline
which
has
recently
a4racted
increased

a4en5on
within
fields
such
as
marke5ng,
personal
affec5ve
profiling,
and

financial
market
predic5on.
Although
o?en
associated
with
sen5ment
analysis,

which
consists
in
inferring
emo5onal
states
from
text,
opinion
mining
is
an

independent
area
related
to
natural
language
processing
and
text
mining
that

deals
with
the
iden5fica5on
of
opinions
and
aBtudes
in
natural
language
texts.

Erik
Cambria
et
al.,
2010

Sen$cNet:
A
Publicly
Available
Seman$c
Resource
for
Opinion
Mining

Opinioni….

Il
recente
simposio
sulla
Sen$ment
Analysis1,
organizzato
da
Seth
Grimes
in

New
York,
si
è
focalizzato
su:

•  Lo
stato
aAuale
delle
ricerca
riguardante
la
Sen$ment
Analysis
e
la
Text

Analy$cs.

•  La
fusione
di
tecnologie
e
mercato
nella
analisi
delle
opinioni
e
dei

comportamen$
aAraverso
i
commen$
riporta$
sui
social
media,
news
e

forum
aziendali.

•  Diffusione
in
svaria$
e
nuovi
domini
di
interesse:

•  military
intelligence

•  financial
markets,

•  strategie
di
real
marke$ng
basate
sui
contenu$
dei
social
media.

Definizione
di
deep
Marke$ng
Research
(DeepMR),
"enabled
by
an
ensemble

of
text
analy$cs,
sen$ment
analysis,
behavioral
analyses,
and
psychometric

technologies
—
applied
to
social
and
online
sources,
as
well
as
to
tradi$onal

surveys
—
with
the
poten$al
to
revolu$onize
market
research".

1 http://sentimentsymposium.com/

Opinioni….

Le
opinioni
degli
altri
possono
condizionare
le
nostre
scelte

Diﬀusione

Passaparola
su
Web.

•  Dal
passaparola
casuale
ai
commen$
degli
uten$
descriven$
esperienze,

percezioni
condivise
su
blog,
forum
e
si$
specializza$
per
la
pubblicazione
di

review.

Opinioni
su
scala
globale.
Non
più
limita$
a:

•  Individui
o
circoli
ristre`
di
amici

•  Ambi$
di
aﬀari
circoscri`
o
localizza$

Tipologie di opinioni

Opinioni dirette: opinioni direttamente riferite all’oggetto.
•  “Splendido Hotel modernissimo, vicino al centro storico di Cagliari”

Confronti: relazioni che esprimono similarità o differenze tra
oggetti.
•  “Penso che Bush sconfiggerà Kerry alle prossime elezioni
presidenziali”
•  “La qualità del display del tablet A è superiore a quella del tablet B”

Applicazioni

Rivolte
ad
Aziende

SeAore
Turis$co:

•  Migliorare
il
servizio
offerto
ai
clien$,
misurare
l’analisi
dei
flussi

verso
mete
turis$che
e
culturali

Opinion
search/retrieval:

•  ricerca
di
opinioni
e
pareri
in
generale

Market
intelligence,
Business
intelligence,
Product/Service

benchmarking:

•  Analisi
compara$va
di
prodo`,
servizi,
etc.,

•  Analisi
reputazione
aziendale
o
stato
di
salute
di
un
brand

•  Supporto
al
lancio
di
nuovi
prodo`

•  Iden$ficazione
di
trend
di
mercato
emergen$

•  Verifica
efficacia
campagne
di
comunicazione

Voice
of
the
Customer
(VOC):

•  Analizzare
le
interazioni
e
le
opinioni
dei
clien$,
via
email,
note,

forum,
blog,
altri
social
media

Applicazioni

Rivolte
a
Persone

Personaggi
Pubblici/Poli$ca:

•  monitorare
la
propria
immagine
e
reputazione
(trust)
e
il
proprio

gradimento

Consumatori:

sono
interessa$
alle
opinioni
degli
altri
quando:

•  devono
acquistare
un
prodoAo
o
un
servizio

•  devono
trovare
opinioni
o
pareri
su
argomen$
poli$ci

Profilazione
uten$:

•  Studio
delle
dinamiche
di
gruppo

•  Individuazione
di
opinion
leader
e
di
gruppi
di
influenza

•  Verifica
efficacia
campagne
di
comunicazione

Applicazioni

Rivolte
a
Is$tuzioni

Poli$ca:

ascolta
la
voce
dei
ciAadini

•  Sondaggi,
Rilevamen$
di
opinioni

Monitoraggio
e
analisi
dei
fenomeni
sociali:

•  per
l'individuazione
di
situazioni
potenzialmente
pericolose

•  la
determinazione
dello
stato
d'animo
in
generale
o
rela$vamente
ad

un
evento

Televisione
(comunicazione
di
massa):

•  valutazione
della
qualità
e
dell’impaAo
sociale
dei
programmi

televisivi

Intenzioni
di
voto,
Sondaggi

La
Reuters
si
è
rivolta
alla
Crimson

Hexagon,
per
lo
sviluppo
di
uno

strumento
di
Sen$ment
Analysis

per
l’analisi
delle
intenzioni
di
voto

per
le
elezioni
USA
2010,
basato

su
TwiAer.

Il
Washington
Post
sviluppa

@Men$onMachine,

un’app
che
u$lizza
TwiAer
(e
altri

blog)
come
sistema
di
analisi
real-‐
$me
degli
umori
dell'eleAorato
delle

primarie
repubblicane
del
2012.

Monitoraggio
e
analisi

dei
fenomeni
sociali

Nei
giorni
successivi
alla
sentenza
d’appello
per
il
deliAo
di
Perugia,
Expert
System
ha
svolto

un’analisi
per
cogliere
le
reazioni
dei
commen$
in
italiano
e
in
inglese
degli
uten$
di
TwiAer
.

hAp://www.expertsystem.it/

hAp://wefeelﬁne.org/

hAp://wefeelﬁne.org/

Search
for
Opinions…

SWOTTI.

Search,
Rate
and

Compare.

Most
relevant

opinions
in
Internet

with
seman$c
ra$ng.

hAp://www.swo`.com/

hAp://www.regula$ons.gov/#!home;tab=search

ProgeAo
FIRST

Large
scale
inForma$on
extrac$on
and
Integra$on
infRastructure
for
SupporTing
financial
decision
making

•  ABI
Lab
Conference
a
Milano:
presentato
il

primo
proto$po
di
modello
di
supporto
alle

decisioni
basato
sugli
sta$
emo$vi
espressi
sul

Web.

•  Applicato
al
servizio
di
micro
blogging
TwiAer
o

ai
da$
testuali
estra`
dai
blogs.

•  Estrae
e
meAe
in
relazione
gli
sta$
emo$vi
ai

movimen$
dei
prezzi
azionari.

•  I
risulta$
indicano
una
forte
relazione
posi$va

tra
stato
emo$vo
e
volume
degli
scambi.

•  Fornisce
all’utente
finale
spun$
importan$
sui

movimen$
dei
merca$
finanziari
e
contribuisce

al
miglioramento
del
processo
decisionale
e

all'efficienza
del
mercato.

http://project-first.eu/content/press-release-eu-project-first-uses-twitter-co-financial-decision-making

Introduzione
alla
NLP

con
approccio
linguis$co

Natural
Language
Processing

I
Linguaggi
Naturali
sono
i
generici
linguaggi
usa$
dagli
essere
umani,
non
ar$ficiali

(es:
Esperanto)
né
formali
come
i
linguaggi
di
programmazione.

Il
Natural
Language
Processing
(NLP)
descrive
i
tenta$vi
di
u$lizzare
i
computer
per

processare
un
linguaggio
naturale.

NLP
è
lo
studio
dei
sistemi
informa$ci
per
la
comprensione
e
generazione
del
linguaggio

naturale
(Grisham,
1986)

L’approccio
linguis$co
alla
NLP
si
basa
su
diversi
livelli
di
analisi:

•  Analisi
Morfologica:
analisi
della
struAura
delle
parole

•  Analisi
Sinta`ca:
struAure
sinta`che
correAe;
rifiutare
quelle
non
correAe

•  Analisi
Seman$ca:
associare
significa$
alle
struAure
(es.
Verdi
idee
incolori
dormono

furiosamente ,
Chomsky,
1957)

•  Integrazione
del
discorso:
una
frase
può
dipendere
dalle
preceden$
(es.
Gianni
lo
voleva )

•  Analisi
Pragma$ca:
a
volte
la
struAura
va
interpretata
(es.
Sai
che
ora
è? significa
Mi

dici
l’ora? )

17

Analisi
Morfologica

La
Morfologia
(*)
è
lo
studio
di
come
le
parole
sono
costruite
a
par$re
da
unità

atomiche
deAe
morfemi.

L’analisi
Morfologica
di
una
parola
comprende:

•  il
lemma
da
cui
è
originata

•  il
numero,
la
persona,
il
genere
e
gli
altri
parametri
gramma$cali
che
la

individuano.

L’analisi
viene
faAa
per
i
:

•  Lemmi
verbali,
aAraverso
le
desinenze
e
regole
di
ﬂessione

•  Lemmi
non
verbali,
aAraverso
le
sole
desinenze

E’
la
base
di
partenza
per
la
fase
successiva
di
analisi
sinta`ca.

(*)
Dizionario
di
linguis$ca
–
direAo
da
G.Luigi
Beccaria
ed.
Einaudi

18

Analisi
Sinta`ca

Possiamo
definire
la
Sintassi
come
cos$tuita
da:

•  una
gramma$ca
del
linguaggio
che
vogliamo
analizzare

•  un
lessico,
che
con$ene
le
parole
del
linguaggio

•  un
parser,
che
interpreta
le
le
frasi

L'analisi
sinta`ca
tramite
parsing
sinta`co,
è
una
funzione
u$le
a
catalogare
o

iden$ficare
le
relazioni
tra
le
par$
di
una
frase,
ovvero
i
termini
o
gli
insiemi
di

termini.

Se
è
possibile
costruire
due
rappresentazioni
sinta`che,
o
parser-‐tree
o
alberi

sinta`ci
diversi
a
par$re
dalla
stessa
frase
e
dalla
stessa
gramma$ca,
la
frase
è

deAa
sintaBcamente
ambigua

Il
parser
sinta`co,
o
phrase
recogni-on
parser,
esegue
un'analisi
dei
cos$tuen$

della
frase,
ad
esempio
individuando
la
parte
nominale
e/o
la
parte
verbale,
e

analizza
come
le
parole
si
compongono
in
unità
più
grandi,
deAe
sintagmi,
e

verifica
il
rispeAo
delle
regole
gramma$cali.

19

Analisi
Sinta`ca:
parsing

Il
parsing
è
il
processo
di
assegnazione
di
una

struAura
ad
una
stringa
in
base
ad
una

gramma$ca.

In
linguis$ca,
si
intende
il
processo
di
analisi

sinta`ca
di
un
testo,
realizzato
come

l’iden$ﬁcazione
di
un
insieme
di
tokens
(es.:
le

parole)
al
ﬁne
di
determinare
la
struAura

gramma$cale
con
riferimento
ad
una
data

gramma$ca
formale.

estraAa
da:
hAp://en.wikipedia.org/wiki/Parsing

20

Analisi
Seman$ca

“La
determinazione
del
significato
di
una
frase
avviene
in
diverse
fasi
successive:
nella
prima
ci
si

serve
solo
della
stru%ura
sinta*ca
e
dei
significa0
delle
parole,
mentre
nella
seconda
si
5ene

conto
delle
frasi
preceden5
già
interpretate,
di
conoscenze
sull'argomento
di
cui
il
testo
tra4a
e
di

conoscenze
generiche
sul
mondo.
La
prima
fase
prende
il
nome
di
“analisi
seman5ca”
[Allen
1995]

La
Seman$ca
è
lo
studio
del
significato
delle
parole
e
di
come
esse
si
combinano
per
formare
il

significato
delle
frasi.
In
genere
si
fa
dis$nzione
tra:

•  Seman$ca
Lessicale
(Lexical
Seman$cs)
o
studio
delle
relazioni
lessicali
(sinonimia,

iperonimia/iponimia,
meronimia,
..
)

•  Seman$ca
delle
frasi
(Sentences
Seman$cs)
o
studio
del
significato
di
intere
frasi.

L'analisi
seman$ca
fornisce
i
corre`
significa$
dei
costru`
sinta`ci
individua$
dall'analizzatore

sinta`co
e
ne
risolve
l'ambiguità.

I
termini
o
le
parole
vengono
sos$tui$
dagli
iden$ficatori
del
significato
in
una
fase
che
prende
il

nome
di
Word
Sense
Disambigua5on
(WSD).

21

Analisi
Seman$ca:

tappe
fondamentali

Mol$
dei
metodi
lega$
al
WSD,
Word
Sense
Disambigua$on,
sono
na$
intorno
agli
anni
‘50
per

proseguire
sino
ai
giorni
nostri:

•  1949
Weaver:
finestra
di
testo
avente
N
parole
che
precedono
e
che
seguono
la
parola
da

disambiguare

•  1955
Reifler:
Seman$c
Coincidences ,
relazioni
tra
struAure
sinta`che
e
word
sense

•  1961
Masterman:
Definizione
di
una
Rete
Seman$ca
di
100
conce`

con

nodes
=
concepts,
e
archi
=
relazioni
seman$che.

•  1961-‐1969,
Quillian:
ricerca
dell intersezione
–
due
percorsi
si
intersecano
a
par$re
da
due
nodi

•  1975
Minsky,
definizione
di
frame
collezione
di
aAribu$
e
dei
valori
ad
essi
associa$
che

descrivono
una
qualche
en$tà
del
mondo

•  ~1980
Knowledge-‐based
Methods:
si
comincia
a
lavorare
su
Thesaurus,
Dizionari
e
Lexicon

•  ~1990
Miller
et
al.:
Si
comincia
a
lavorare
al
lexicon
di
WordNet

•  ~1991
Corpus-‐based
Methods:
tagging
di
word
senses.

•  Hearst:
Algoritmo
CatchWord .
U$lizza
una
fase
di
training
che
richiede
un
set
di
word

senses
e$cheAato
a
mano

•  1998,
Leacock
–
Chodorow:
U5lizzo
della
rete
seman5ca
di
WordNet
per
la
misurazione
della

distanza
tra
I
significa5
dei
termini
per
la
disambiguazione
del
loro
senso.

22

Gli
strumen$

Strumen$
per
l’analisi
del
testo:

•  Parser
sinta`ci:
eﬀeAua
l’analisi
morfologica
e
sinta`ca
di
una
frase;

•  Esegue
il
POS
(part
of
speech)
Tagging
(unica
interpretazione
morfologica)

•  Individua
le
possibili
struAure
sinta`che
della
frase

•  Risorse
lessicali:

•  WordNet
e
le
sue
principali
estensioni

•  Tassonomie:

•  Classiﬁcazione
dei
tes$
analizza$:
u$le
per
la
disambiguazione
seman$ca
delle

frasi:
es.:
WordNet
Domains

23

Qualche
esempio
di

Parser
Sinta`co

Montylingua

LinkGrammar

TreeTagger

Opinion
Mining:
Overview

Un
sistema
di
Opinion
Mining
ha
come
principali
obie`vi:

•  Analizzare
le
opinioni
riferite
ad
even$
o
a
fa`
anche
in
corso
di

svolgimento,
anche
quando
esse
non
siano
riferite
a
specifici

argomen$.

•  Estrarre
feature
e
informazioni
significa$ve
contenute
nelle

opinioni,
rela$ve
a
diversi
contes$
non
sempre
ben
defini$,
a

par$re
da
molteplici
sorgen$
di
review.

•  Esplorare
la
ques$one
della
contestualizzazione
delle
feature

aAraverso
l’u$lizzo
di
strumen$
per
la
classificazione
seman$ca,

per
la
ges$one
di
re$
seman$che
e
l’u$lizzo
di
risorse

linguis$che
ad
hoc.

•  Aggregare
e
rappresentare
i
risulta$
elabora$
(Opinion

Summariza$on)

Opinion
Mining:
Overview

Sviluppo
di
risorse

linguis$che

Opinion

Summariza$on

Feature
Extrac$on

Opinion
Mining
can
be
roughly
divided
into
three
major
tasks
of
development
of

linguis5c
resources,
sen5ment
classiﬁca5on,
and
opinion
summariza5on.

Lee
et
al.,
2008
-‐
Opinion
Mining

of
customer
feedback
data
on
the
web.

Deﬁnizione
di
Opinione

Un’opinione
è
una
quintupla:

(oj,
fjk,
soijkl,
hi,
tl)

oj

è
l’oggeAo
di
riferimento

fjk
è
una
feature
dell’oggeAo
oj.

soijkl
è
il
valore
dell’opinione
espressa
dalla
persona
hi
sulla

feature
fjk
dell’oggeAo
oj
al
tempo
tl.
soijkl
puo
assumere

valore
pos,
neg,
o
neu,
o
un
ra$ng
più
granulare.

hi
è
la
persona
che
esprime
l’opinione
(opinion
holder).

tl
è
il
tempo
in
cui
l’opinione
viene
espressa.

(Liu,
a
Ch.
in
NLP
handbook)

Qualche
definizione…

Un
ogge4o
O
è
definito
come
un’en5tà
che
può
essere
un

prodo4o,
una
persona,
un
evento,
un’organizzazione
o
un

argomento.
Un
ogge4o
è
associato
ad
una
coppia
O:
(T,
A),
dove

T
indica
una
gerarchia
o
una
tassonomia
di
par5,
componen5

e/o
sub-‐componen5,
e
A
un
insieme
di
a4ribu5
di
O.

Ciascuna
componente
può
possedere
un
proprio
insieme
di
sub-‐
componen5
e
a4ribu5.

(Ding
et
al.,
2008)

Una
feature
f
è
definita
come
una
proprietà
rela$va
ad
uno

specifico
oggeAo
O.
Essa
è
rappresentata
dai
termini
o
dalle

espressioni,
rispeAo
alle
quali
le
opinioni
sono
espresse,
e
da
un

set
di
aAribu$.

Feature
Extrac$on

•  Un
task
rilevante
dell’Opinion
Summariza$on
riguarda
l’estrazione

delle
feature.

dei
noun
aAraverso
il
pos-‐tagging,
valutazione
della

frequenza
delle
parole
basata
sul
calcolo
della
€-‐idf
(Scaﬃdi,
2007).

•  Metodi
di
apprendimento
constrained
semi-‐supervised
per
risolvere
il

problema
del
raggruppamento
delle
features
(Zhai
et
al.,
2010).

•  Estrazione
delle
feature
esplicite
nelle
noun
phrases
(Popescu
and

Etzioni,
2005).

Pu`ng
it
all
together:

Finding
sen$ment
for
aspects

S.
Blair-‐Goldensohn,
K.
Hannan,
R.
McDonald,
T.
Neylon,
G.
Reis,
and
J.
Reynar.
2008.

Building
a

Sen$ment
Summarizer
for
Local
Service
Reviews.

WWW
Workshop

Sentences
Sentences
Sentences

&
Phrases
&
Phrases
&
Phrases

Final

Summary

Reviews

Text Sentiment Aspect
Aggregator
Extractor Classifier Extractor

31

WordNet

WordNet
è
un
database
lessicale
realizzato
per
la
lingua
Inglese
dall’Università
di

Princeton
ad
opera
di
George
Miller
ed
altri
tra
cui
ricordiamo
Chris$ane
Fellbaun
e

Piek
Vossen.
Il
lavoro
è
portato
avan$
oggi
dalla
Global
WordNet
Associa$on
(GWA).

Raggruppa

nomi,
verbi,
agge`vi
e
avverbi
organizzandoli
in
insiemi
(set)
di
sinonimi,

de`
synset.
Ciascun
synset
esprime
un
diverso
conceAo
iden$ﬁcato
univocamente

da
un
synsetID.

I
synset
sono
collega$
tra
loro
per
mezzo
di
relazioni
lessicali
e
seman$che
come:

•  sinonimia

•  meronimia

•  Iperonimia/iponimia

•  Antonimia

33

WordNet

Sinonimia:

“rapporto
tra
segni
linguis$ci
che
hanno
lo
stesso
significato”*

es.:
cortese
=
gen$le

Meronimia

“relazione
seman$ca
tra
nome
del
tuAo
e
nome
di
una
sua
parte”
*

es.:

motore
è
meronimo
di
automobile

Iperonimia
/
Iponimia

“relazione
seman$ca
paradigma$ca
tra
termine
generico
Iperonimo
o

sovraordinato
e
uno
o
più
termini
specifici
o
Iponimi
”*

es.:

mobile
(iperonimo)
e
sedia,
tavolo,
armadio
(iponimi)

Antonimia

“relazione
tra
due
segni
di
significato
contrario”
*

es.:
bello/bruAo,
amore/odio

(*)
Dizionario
di
linguis$ca
–
direAo
da
G.Luigi
Beccaria
ed.
Einaudi

34

WordNet:
dog

The
noun
dog
has
7
senses
(first
1
from
tagged
texts)

1.
(42)
{02001223}
<noun.animal>
dog#1,
domes$c
dog#1,
Canis
familiaris#1
-‐-‐
(a
member
of
the
genus
Canis

(probably
descended
from
the
common
wolf)
that
has
been
domes$cated
by
man
since
prehistoric
$mes;

occurs
in
many
breeds;
"the
dog
barked
all
night")

2.
{09465341}
<noun.person>
frump#1,
dog1#2
-‐-‐
(a
dull
unaArac$ve
unpleasant
girl
or
woman;
"she
got
a

reputa$on
as
a
frump";
"she's
a
real
dog")

3.
{09382160}
<noun.person>
dog#3
-‐-‐
(informal
term
for
a
man;
"you
lucky
dog")

4.
{09256536}
<noun.person>
cad#1,
bounder#1,
blackguard#1,
dog2#4,
hound#2,
heel#3
-‐-‐
(someone
who
is

morally
reprehensible;
"you
dirty
dog")

5.
{07205647}
<noun.food>
frank#2,
frankfurter#1,
hotdog1#3,
hot
dog1#3,
dog1#5,
wiener#2,
wienerwurst#1,

weenie#1
-‐-‐
(a
smooth-‐textured
sausage
of
minced
beef
or
pork
usually
smoked;
oên
served
on
a
bread

roll)

6.
{03754154}
<noun.ar$fact>
pawl#1,
detent#1,
click#4,
dog#6
-‐-‐
(a
hinged
catch
that
fits
into
a
notch
of
a

ratchet
to
move
a
wheel
forward
or
prevent
it
from
moving
backward)

7.
{02617005}
<noun.ar$fact>
andiron#1,
firedog#1,
dog1#7,
dog-‐iron#1
-‐-‐
(metal
supports
for
logs
in
a
fireplace;

"the
andirons
were
too
hot
to
touch")

The
verb
dog
has
1
sense
(first
1
from
tagged
texts)

1.
(2)
{01943890}
<verb.mo$on>
chase#1,
chase
aêr#2,
trail#2,
tail#1,
tag#4,
give
chase#1,
dog#1,
go
aêr1#1,

track#3
-‐-‐
(go
aêr
with
the
intent
to
catch;
"The
policeman
chased
the
mugger
down
the
alley";
"the
dog

chased
the
rabbit")
35

WordNet

Demo
di
WordNet

WordNet
Domains

WordNet
Domains
è
una
risorsa
che
rappresenta
associazioni
tra
i
synset
di

WordNet
e
un
set
di
categorie
estraAo
dalla
Dewey
Decimal
Classiﬁca$on
(DDC)

Questa
estensione
del
WordNet
originale
risulta
u$le
per
mol$
scopi
ed
in

par$colare
per
la
disambiguazione
automa$ca
di
senso
perché
permeAe
di

collegare,
aAraverso
l'aAribuzione
di
appartenenza
ad
una
o
più
categorie,
synset

che
altrimen$
risulterebbero
completamente
scollega$
tra
loro.

Ad
esempio,
in
WordNet
originale,
synset
come
"doctor",
"emergency
room",
"to

operate"
non
sono
collega$
in
nessun
modo,
mentre
in
WordNet
Domains
sono

tu`
e
tre
e$cheAa$
con
l'e$cheAa
"medicina".

Sviluppato
presso
la
Fondazione
Kessler:
hAp://wndomains.‰k.eu/

37

I
Differen$
Sta$
Affe`vi

(secondo
Scherer)

•  Sta-
Emo-vi
(Emo-on):
sta$
d’animo
come
reazione
sincronizzata
con
un
evento

rilevante

•  rabbia,
tristezza,
gioia,
paura,
vergogna,
orgoglio,
entusiasmo

•  Stato
d’Animo
(Mood):
mutazione
frequente
dello
stato
d’animo,
senza
causa
specifica,

di
bassa
intensità,
di
lunga
durata

•  allegria,
tristezza,
irritabilità,
apa5a,
depressione,
oBmismo

•  A=eggiamen-
Interpersonali
(Interpersonal
stances):
interazione
specifica
con
un’altra

persona

•  amichevole,
seduBvo,
distante,
freddo,
caldo,
confortante,
sprezzante

•  A=eggiamen-
(A@tudes):
disposizione
duratura,
intensa,
verso
persone
e
cose

•  simpa5co,
amorevole,
odioso,
s5mato,
desiderabile

•  Personalità
(Personality
traits):
disposizioni
stabili
di
personalità
e
tendenze

comportamentali
$piche

•  nervoso,
ansioso,
temerario,
cupo,
os5le,
geloso

Nel
contesto
della
Human-‐Computer
Interac$on

(HCI)
il
modello
intende
misurare
quanto:

•  l’utente
è
contento
del
servizio

•  l’utente
è
interessato
all’informazione
fornita

•  l’utente
è
a
proprio
agio
con
l’interfaccia

•  l’utente
è
disposto
ad
u$lizzare
l’applicazione

E.
Cambria
et
al.
-‐
2010:
“Sen$cNet:
A
Publicly
Available
Seman$c
Resource
for
Opinion
Mining”

Estensioni
di
WordNet

•  WordNet
Domains:

•  Mapping
dei
synset
di
WordNet
su
un
subset
di
DDC

•  Micro-‐WNOp:

•  “Gold
Standard”
u$lizzato
per
la
validazione
di
Sen$WordNet

•  Sen$WordNet:

•  Espande
WordNet
grazie
all’acquisizione
semi-‐automa$ca
di
polarità
dei
termini
di
WordNet

•  WordNet
Affect:

•  affec$ve-‐labels
o
a-‐labels
associate
ai
synset
di
WordNet

•  Q-‐WordNet

•  risorsa
lessicale
di
significa$
di
WordNet
annota$
automa$camente
con
valori
di
polarità

•  FreeWordNet

•  Database
lessicale
di
synset
arricchi$
con
un
insieme
di
proprietà
rela$ve
ad
agge`vi
ed

avverbi

Micro-‐WNOp

MicroWnOp
è
composta
da
un
set
bilanciato
di
1,105
WordNet

synsets
annota$
manualmente
da
un
gruppo
di
5
valutatori.

Assegna
un
valore
di
score
Posi$vo,
Nega$vo
e
Ogge`vo
la
cui

somma
deve
essere
uno.

Sono
sta$
adoAa$
due
criteri:

•
Opinion
relevance:
il
numero
di
synset
deve
essere

rappresenta$vo
per
ciascun
opinion
topic.

•
WordNet
representa5veness,
rispeAare
la
distribuzione
dei

synset
di
WordNet
sulle
diverse
part
of
speech.

Sen$WordNet

Sen$WordNet
(Esuli
and

Sebas$ani,
2006)
è
una
risorsa

lessicale
che
associa
a
ciascun

synset
di

WordNet

tre
score

di
polarità
Posi$vo,
Nega$vo
e

Ogge`vo.

I
tre
score
derivano
dai
risulta$
prodo`
da
un
gruppo
di
oAo
classiﬁcatori

che
classiﬁcano
sui
tre
valori
di
polarità.

hAp://sen$wordnet.is$.cnr.it/

WordNet
Affect

Arricchisce
WordNet

con
una
gerarchia
di
e$cheAe
emo$ve
(affec$ve-‐labels
o
a-‐labels):

•  I
synset
che
indicano
emozioni

sono
sta$
segna$
con
l’a-‐label

emo$on

•  I
synset
che
indicano
umori,

situazioni
emo$ve,
reazioni

emo$ve
(behavior,
a`tude,

mood,
ecc...).

•  Ulteriori
a-‐label
specializzano
la

generica
e$cheAa
emo$on

dis$nguendo
la
valenza
in

posi$ve,
nega$ve,
neutral
o

ambigous.

•  Si
dis$nguono
ulteriormente
gli

agge`vi
(ma
anche
verbi
e

avverbi)
in
causa$vo
(“La
stanza

paurosa”)
e
dichiara$vo
(“il

bambino
impaurito”)
hAp://wndomains.‰k.eu/wnaffect.html

Q-‐WordNet

•  Risorsa
lessicale
in
cui
i
synset
di
WordNet
sono

automa$camente
annota$
con
valori
di
polarità
posi$va
o

nega$va.

•  Parte
da
6
synset
aven$
polarità
nota:

•  Posi$ve,
nega$ve,
bad,
good,
superior,
inferior

•  Propaga
la
polarità
usando
le
relazioni
seman$che:

•  Antonimia,
sinonimia,
iperonimia,
etc.

Rodrigo
Agerri,
Ana
Garcıa-‐Serrano,
2010:
“Q-‐WordNet:
Extrac$ng
Polarity
from
WordNet
Senses“

FreeWordNet

Database
lessicale
di
synset
arricchi$
con
un
insieme
di
proprietà

rela$ve
ad
agge`vi
ed
avverbi.

In
deAaglio:

•  circa
800
synset

di
agge`vi
(2300
coppie
synset/termine)

•  425
synset
di
avverbi
(490
coppie
synset/termine)

Ciascun
synset
possiede
associato
il
valore
di
polarità
e
delle

proprietà
associate.

Le
proprietà
contengono
intrinsecamente
opinioni
riguardan$
il

termine
o
l’espressione
a
cui
i
termini
sono
riferi$.

FreeWordNet

Proprietà
Agge`vi

secondo
15
diﬀeren$
$pologie,
sono:

•  emo$on
•  touch

•  moral
•  taste

•  weather
•  size
(or
dimension)

•  color
•  $me

•  quan$ty

•  geography

•  appearance

•  other
(nc)

•  material

•  shape

FreeWordNet

Proprietà
Avverbi

secondo
7
differen$
$pologie,
sono:

•  Modali
(Posi$vi,
Nega$vi,
Neutri):

•  Persone

•  Cose

•  Cronologia

•  Località

•  Intensificatori
ed
Enfa$zzatori

•  Quan$tà
o
grado
(intensità)

•  AND
–
Affermazione,
Negazione,
Dubbio

FreeWordNet

Adjectives Examples
Properties Pos. Neg. Obj.
Emotion alive depressed labial
Moral/Ethic respectable caddish -
Character audacious caitiff vacant
Weather beautiful arid climatic
Color - washy colored
Quantity broad - latter
Appearance beautiful grisly tentacular
Material waterproof erose tabular
Shape - - jagged
Touch setose spiny calorific
Taste sweet disgustful caffeinic
Dimension stately wide graduated
Chronologic new - immutable
Geographic - homeless eastern

Opinion
Retrieval

Creazione
di
un
Corpus
di
Opinioni:

•  dalle
opinioni
di
uno
speciﬁco
Data

Corpus

Provider
(es:
TripAdvisor,

Booking.com,
etc)

•  dalle
opinioni
rilevan$
per
un

argomento
estraAe
da
diverse
fon$

(blog,
forum,
si$
di
recensioni,

giornali
e
news
online,
etc)
Analisi
Linguis$ca

Approccio
Linguis$co

•  L’approccio
alla
Opinion
Mining
da
noi
seguito
è
basato
sulla

combinazione
di
avverbi
ed
agge`vi
e
sull’uso
dei
synset
di

WordNet
rela$vi
a
ciascun
termine.

•  Si
focalizza
sull’analisi
delle
opinioni
aAraverso
le
fasi
di:
analisi

sinta`ca
e
seman$ca
delle
risorse,

di
informa$on
extrac$on
e
di

valutazione
dell’orientamento
seman$co.

•  Si
sviluppa
aAraverso
le
fasi
di
disambiguazione
seman$ca
e
di

classificazione
dei
tes$
considerando
i
diversi
significa$
espressi

nelle
frasi
che
compongono
il
testo.

•  L’u$lizzo
di
specifiche
risorse
linguis$che
sviluppate
ad
hoc,
che

associano
significa$
di
agge`vi
ed
avverbi
a
specifiche
proprietà

rende
possibile
l’iden$ficazione
del
contesto
di
u$lizzo
dei
termini
e

il
loro
raggruppamento
in
specifiche
categorie
tema$che.

Sentence
Analysis:
deAaglio

21/03/12

Il
Corpus

Rappresenta
il
dominio

Analisi
del
Corpus:

delle
review
e
delle
singole
frasi
che
le
compongono

•  Categorizzazione
del
corpus,
delle
review
e
delle
frasi

•  Analisi
Sinta`ca
del
testo

di
agge`vi,
avverbi,
nomi
e
verbi

delle
parole
composte

•  Correlazione
tra
agge`vi
e
avverbi
e
nomi

•  Analisi
seman$ca
del
testo

•  Disambiguazione
del
senso
più
probabile
con
cui
un
termine
è
usato

•  Estrazione
delle
feature
dal
corpus
con
iden$ﬁcazione
della
review
e
della
frase
di

appartenenza

•  Valutazione
dell’orientamento
seman$co
rela$vamente
al

corpus,
alle
review
e

alle
frasi

Estrazione
di
informazione
dal
Corpus

Iden$ficazione
di
categorie
di
dominio
e

Tourism,
Building,
Town
Planning
calcolo
dei
pesi
associa$.

Great
modern
hotel
in
central
Cagliari.

Our
room
was
modern
and
spacious
with

Iden$ficazione
delle
review
e
frasi
the
only
thing
out
of
place
was
the
big

old
fashioned
tv.
We
had
breakfast

included
in
the
rate
and
it
was
great
with

loads
of
choices.

Hotel,
Room,
Balcony,
Bathroom,
Resort,

Estrazione
delle
feature.

Shower,
Restaurant,
Breakfast,
Buffet

Great
modern
hotel
in
central
Cagliari.

Our
room
was
modern
and
spacious

with
the
only
thing
out
of
place
was
the

Analisi
Sinta`ca:
big
tv.
We
had
breakfast

ADJS,
NOUNS included
in
the
rate
and
it
was
great
with

loads
of
choices.

Estrazione
di
informazione
dal
Corpus

Chunking
Sinta`co:
<N> <V> <ADJ>
ADJS,
NOUNS,
VERBS
Our
room
was
modern

breakfast:
sid=7107012

Disambiguazione
Seman$ca gloss:
the
ﬁrst
meal
of
the
day

(usually
in
the
morning)

Es:
the
room
had
the
classic
moldy
smell

frase
faAuale
con
polarità
nega$va

Iden$ﬁcazione
di
frasi
sogge`ve
e
frasi

I
went
with
my
older
sister

faAuali
con
polarità.

frase
faAuale
senza
polarità

Analisi
del
testo

Il
Classificatore
da
noi
definito,
lavora
in
una
certa
fase
del
processo
di
analisi
del
testo.

In
par$colare
viene
u$lizzato
nella
classificazione
dei
documen$
e
in
una
fase
di

disambiguazione
seman$ca.

Per
quanto
riguarda
la
Disambiguazione
dis$nguiamo
in:

Disambiguazione
Sinta`ca:

operata
per
mezzo
del
parser
sinta`co
tramite:

•  POS
(part
of
speech)
tagging

di
relazioni
tra
i
termini

Disambiguazione
Seman$ca:

termini
compos$

dei
possibili
sensi
dei
termini
(WSD,
Word
Sense
Disambigua5on)

Classificazione
del
testo

Tassonomia
di
riferimento
derivante
da
WordNet
Domains
(subset
di
160
ca.

categorie
del
DDC)

59

Un
esempio
di

classiﬁcazione
seman$ca:

Classiﬁcatore
seman$co

60

Opinion
Summariza$on

Feature-‐based
o
Aspect-‐based
Opinion
Summariza5on

Indica
la
generazione
di
sommari
di
opinioni
rela$vamente
a
set
of
aspe`
o
features.

La
Feature
Iden$fica$on
è
usata
per

iden$ficare
gli
aspe`
su
cui
si

focalizzano
le
opinioni

La
Sen$ment
Classifica$on
o

Sen$ment
Predic$on
determina
la

polarità
delle
opinioni
espresse

riguardan$
le
feature
individuate

La
Summary
Presenta$on
mostra
i

risulta$
oAenu$
nei
passi
preceden$.

Kim
et
al.,
2011:
Comprehensive
Review
of
Opinion
Summariza$on

Features
Iden$fica$on

•  €/idf
applicata
alla
collezione
di
reviews

delle
feature
candidate
nelle
frasi

•  Classificazione
delle
collezione
di
reviews
(categorie
di
dominio)

•  Riduzione
del
numero
delle
feature
candidate
in
base
alle
categorie
di
dominio

•  Analisi
e
validazione
delle
feature
candidate
tramite
algoritmi
di
distanza
seman$ca
e

di
classificazione

•  Contestualizzazione
delle
feature

•  Mapping
termine-‐synset
calcolato
con
l’algoritmo
di
WSD,
di
distanza
seman$ca,

basato
sui
pesi
dei
synset
e
sulle
categorie
per
definire
relazioni
e
pesi
di
ciascuna

relazione.

•  Definizione
di
una
matrice
delle
feature
i
cui
valori
indicano
il
peso
delle
relazioni

tra
tuAe
le
feature
individuate.

Sen$ment
Classiﬁca$on

Predice
l’orientamento
posi$vo
o
nega$vo
rela$vamente
ad
una
feature

o
ad
una
funzionalità.

Lo
scopo
della
Sen$ment
Classiﬁca$on
o
Sen$ment
Predic$on,
in
un

dato
contesto,
è
permeAere
la
scoperta
di
un
orientamento
degli
sta$

emo$vi
espressi
nelle
opinioni
riferite
alle
feature.

La
Sen$ment
Predic$on
basata
sull’u$lizzo
di
risorse
lessicali
è
stata
per

la
prima
volta
proposta
da
Hu
and
Liu
nel
2004
e
in
seguito
da
altri

ricercatori
(*).

Il
lessico
con$ene
un
dizionario
di
termini
posi$vi
e
nega$vi
u$lizza$
per

il
matching
di
termini
u$lizza$
nei
tes$
analizza$.

*
M.
Hu
and
B.
Liu.
2004,
Mining
and
summarizing
customer
reviews

Zhuang
et
al.
2006,
Movie
Review
Mining
and
Summariza$on

Summary
Presenta$on

U$lizzando
i
da$
della
feature
iden$fica$on
e
della
sen$ment
predic$on
si

possono

generare
e
rappresentare
i
sommari
finali
delle
opinioni
in
un

formato
efficace
e
facile
da
capire.

•  Sta$s$cal
Summary:
usa
i
da$
processa$
negli
step
di
feature
iden$fica$on
e

sen$ment
predic$on

•  Filtering: filtri applicati ai dati processati per la selezione delle informazioni

•  Text
Selec$on:
iden$fica
i
periodi
rappresenta$vi
per
ciascuna
feature

•  Aggregated
Ra$ngs:
combina
la
sta$s$cal
summary
e
la
text
selec$on

•  Summary
with
a
Timeline:
mostra
le
tendenze
delle
opinioni
legandole
ad
una

$meline

Features

I
da$
sono
organizza$
come
uno
sta$c
JSON
tree
e
carica$
in
uno
Squariﬁed
Treemap.

La
ﬁgura
mostra
la
visualizzazione
dei
risulta$
riferi$
a
un
corpus
di
reviews
riguardan$
un

noto
hotel
di
Cagliari.
Le
feature
sono
raggruppate
secondo
dei
valori
che
indicano
la
loro

correlazione.

La
rappresentazione

fornisce
all’utente
un’idea

generale
e
completa
del

dominio.

E’
un
aiuto
per
la

navigazione
sulle
features.

JavaScript
InfoVis
Toolkit:
hAp://thejit.org/

Filtering

L’interfaccia
di
ricerca
permeAe
di
ﬁltrare

le
review
per
data,
per
feature,

incrociando
la
ricerca
con
la
selezione

della
polarità
o
del
proﬁlo
di
interesse.

Aggregated
Ra$ngs
with
Timeline

Le
review
possono
essere
filtrate
in
base
al

periodo
di
tempo
che
si
desidera
osservare

indicando
la
data
iniziale
e
finale,
e/o
in
base

alle
feature,
alla
polarità
e
al
profilo
degli

autori
delle
opinioni.

La
$meline
in
questo
caso
mostra
le
review

ancorate
alle
date
della
permanenza
degli
uten$

Aggregated
Ra$ngs
with
Timeline

La
Timeline
incrocia
il
dato
temporale
delle
review

alla
polarità
delle
opinioni
espresse
per
la
feature

selezionata.

Il
diagramma
mostra
in
rosso
i
valori
di
polarità

nega$vi
e
in
verde
i
valori
posi$vi.

Le
aree
in
blue
indicano
gli
even$
lega$
alla
data.

Anche
in
questo
caso
è
possibile
ﬁltrare

l’informazione
secondo
i
parametri
indica$
nella

form
di
ricerca.

Demo:
Opinion
Summariza$on

Feature
Net

Summary
Presenta$on

Grazie

NIT – Natural Interaction Technologies:
http://www.crs4.it/natural-interaction-technologies

Bibliografia

•  Tuveri,
F.,
Angioni,
M.
A
Linguis$c
Approach
to
Feature
Extrac$on
Based
on
a
Lexical
Database
of
the
Proper$es
of

Adjec$ves
and
Adverbs.
Global
WordNet
Conference
GWN2012,
Matsue,
Japan.

•  Bing
Liu,,
B.

NLP
Handbook
Chapter:
Sen$ment
Analysis
and
Subjec$vity,
2nd
Edi$on,
(Editors)
N.
Indurkhya
and
F.

J.
Damerau),
2010.

•  Xiaowen
Ding,
Bing
Liu
and
Philip
S.
Yu.
2008
A
Holis$c
Lexicon-‐Based
Approach
to
Opinion
Mining.
Proceedings
of

WSDM
2008.

•  Scaffidi,
C.,
Bierhoff,
K.,
Chang,
E.,
Felker,
M.,
Ng,
H.,
Jin,
C.:
Red
Opal:
product-‐feature
scoring
from
reviews.
ACM

Conference
on
Electronic
Commerce
2007:
182-‐191
(2007)

•  Zhai,
Z.,
Liu,
B.,
Xu,
H.,
Jia,
P.:
Grouping
Product
Features
Using
Semi-‐Supervised
Learning
with
Soˆ-‐Constraints.
In

Proceedings
of
the
23rd
Interna$onal
Conference
on
Computa$onal
Linguis$cs
(COLING-‐2010),
Beijing,
China

(2010)

•  Popescu,
A.,
M.,
and
Etzioni,
O.:
Extrac$ng
Product
Features
and
Opinions
from
Reviews.
Proceedings
of
the
2005

Conference
on
Empirical
Methods
in
Natural
Language
Processing
(
2005)

•  Andrea
Esuli
and
Fabrizio
Sebas$ani.
Sen$WordNet:
A
Publicly
Available
Lexical
Resource
for
Opinion
Mining.
In

Proceedings
of
the
5th
Conference
on
Language
Resources
and
Evalua$on
(LREC
2006),
Genova,
IT,
2006,
pp.

417-‐422.

•  Benamara,
F.,
Cesarano,
C.,
Picariello,
A.,
Reforgiato,
D.,
Subrahmanian,
V.,S.
2007.
Sen$ment
Analysis:
Adjec$ves

and
Adverbs
are
beAer
than
Adjec$ves
Alone.
In
Proceedings
of
ICWSM
07
Interna$onal
Conference
on
Weblogs

and
Social
Media,
pp.
203-‐206.

•  Rentoumi,
V.,
Giannakopoulos,
G.,
2009.
Sen$ment
analysis
of
figura$ve
language
using
a
word
sense

disambigua$on
approach.
In
Interna$onal
Conference
on
Recent
Advances
in
Natural
Language
Processing
(RANLP

2009),
Borovets,
Bulgaria,
The
Associa$on
for
Computa$onal
Linguis$cs.

Bibliografia

•  Miller,
G.,
A.,
1995.
WordNet:
A
Lexical
Database
for
English.
Communica$ons
of
the
ACM
Vol.
38,
No.
11

•  Leacock,
C.
and
Chodorow,
M.:
Combining
local
context
and
WordNet
similarity
for
word
sense
iden$fica$on.
In

Fellbaum
1998,
pp.
265-‐283

•  Lee,
D.,
Jeong,
O.,
Lee,
S.,
2008.
Opinion
Mining
of
customer
feedback
data
on
the
web.
In
ICUIMC
'08
Proceedings

of
the
2nd
Interna$onal
Conference
on
Ubiquitous
Informa$on
Management
and
Communica$on.

•  Wiebe,
J.,
Mihalcea,
R.,
2006.
Word
Sense
and
Subjec$vity.
In
Proceedings
of
the
Annual
Mee$ng
of
the

Associa$on
for
Computa$onal
Linguis$cs,
Sydney,
Australia.

•  Baccianella,
S.,
Esuli,
A.,
Sebas$ani,
F.,
2010.
Sen$WordNet
3.0:
An
Enhanced
Lexical
Re-‐source
for
Sen$ment

Analysis
and
Opinion
Mining.
In
Proceedings
of
LREC-‐10,
7th
Conference
on
Language
Resources
and
Evalua$on,

ValleAa,
MT,
pages
2200-‐2204.

•  Agerri,
R.,
García-‐Serrano,
A.,
2010.
Q-‐WordNet:
Extrac$ng
polarity
from
WordNet
senses.
Seventh
Conference
on

Interna$onal
Language
Resources
and
Evalua$on.

•  Valitu`,
A.,
Strapparava,
C.,
Stock,
O.,
2004.
Developing
affec$ve
lexical
resources.
In
Psychnology
Journal
Vol.
2.

•  Magnini,
B.,
Strapparava,
C.,
Pezzulo,
G.,
Gliozzo,
A.,
2002.
The
Role
of
Domain
Informa$on
in
Word
Sense

Disambigua$on.
Natural
Language
Engineering,
special
issue
on
Word
Sense
Disambigua$on,
8(4),
pp.
359-‐373,

Cambridge
University
Press.

•  Cerini,
S.,
Compagnoni,
V.,
Demon$s,
A.,
Formentelli,
M.,
Gandini,
C.,
2007.
Micro-‐WNOp:
A
gold
standard
for
the

evalua$on
of
automa$cally
compiled
lexical
resources
for
opinion
mining.
In
Andrea
Sanso`,
editor,
Language

resources
and
linguis$c
theory:
Typology,
second
language
acquisi$on,
English
linguis$cs,
pages
200–210.
Franco

Angeli
Editore,
Milano,
Italy.

•  Angioni,
M.,
Demon$s,
R.,
Tuveri,
F.,
2008.
A
Seman$c
Approach
for
Resource
Cataloguing
and
Query
Resolu$on.

Communica$ons
of
SIWN.
Special
Issue
on
Distributed
Agent-‐based
Retrieval
Tools.

•  Akkaya,
C.,
Mihalcea,
R.,
Wiebe,
J.,
2009.
Subjec$vity
Word
Sense
Disambigua$on.
Proceedings
of
the
2009

Conference
on
Empirical
Methods
in
Natural
Language
Processing,
pages
190–199,
Singapore,
ACL
and
AFNLP.

Seminario Franco Tuveri e Manuela Angioni, 06-09-2012

Recomendados

Recomendados

Mais conteúdo relacionado

Destaque

Destaque (18)

Semelhante a Seminario Franco Tuveri e Manuela Angioni, 06-09-2012

Semelhante a Seminario Franco Tuveri e Manuela Angioni, 06-09-2012 (20)

Mais de CRS4 Research Center in Sardinia

Mais de CRS4 Research Center in Sardinia (20)

Seminario Franco Tuveri e Manuela Angioni, 06-09-2012