Presentation Master Degree

Tesi di Laurea Magistrale
in
Accesso all’Informazione ed Elaborazione del Linguaggio Naturale
Selezione automatica di attributi estratti
dalla Linked Open Data cloud in
un recommender system basato su graﬁ
Simone Rutigliano
Corso di Laurea Magistrale in Informatica
29 Aprile 2015
Relatore:
Chiar.mo Prof. Giovanni Semeraro
Correlatore:
Dr. Cataldo Musto

Recommender System
Simone Rutigliano 29 Aprile 2015 1

Recommender System - graph-based representation
Nodi
Utenti
Item
Archi
Preferenza dell’utente
verso quell’item

Come raccomandare gli item?
Algoritmo utilizzato per determinare l’importanza di un nodo in un
grafo è PageRank
Sviluppato da Larry Page e Sergey Brin nel 1998 presso la
Stanford University
Algoritmo di ricerca di Google
“The heart of our software is PageRank TM. . . it provides the
basis for all of our web search tools.”
Lo score restituito dal PageRank per ogni item può essere
utilizzato per ordinare gli item dal più rilevante al meno
rilevante

PageRank
Valuta l’importanza di un documento sulla base del numero e
della qualit`a di connessioni che quel documento avr`a all’interno del
grafo di appartenza

PageRank con Priorità
Il pageRank classico assegna una equa probabilità ad ogni
arco del grafo
Variante con Priorità definita in [Hav03] introduce un bias a
favore di alcuni nodi
enfatizza maggiormente le preferenze dell’utente

Applicazione del PageRank in un RS
`E possibile utilizzare il PageRank come algoritmo di
raccomandazione in un Recommender System graph-based

Estensione del RS
`E possibile arricchire il grafo aggiungendo nuove informazioni
relative agli item?

Linked Open Data cloud
Metodologia per pubblicare, condividere e collegare
dati strutturati sul web

Linked Open Data cloud
Collezione (Cloud) di dataset:
Interconnessi fra loro (Linked)
Fruibili liberamente e gratuitamente (Open)
Descritti attraverso RDF

DBpedia
Centro della Linked
Open Data cloud
Conversione di
Wikipedia in RDF

Partendo da Wikipedia. . .

. . . otteniamo DBpedia

Integrare LOD nel Recommender System. . .
Partendo dal grafo User-Item

. . . Integrare LOD nel Recommender System. . .
Espandendo il ﬁlm Inglorious Basterds attraverso la Linked Open
Data

Espandendo il ﬁlm Django attraverso la Linked Open Data

Espandendo anche gli altri ﬁlm presenti nel grafo avremo

. . . PageRank nel nuovo grafo
Riapplicando il PageRank si potrebbe avere un nuovo ranking

PageRank + LOD: pro e contro
PRO
nuove connessioni nel grafo
CONTRO
maggiore costo computazionale
per l’esecuzione del PageRank
alcune propriet`a non sono
rilevanti

Tecniche di feature selection
SOLUZIONE: Applicare tecniche di feature selection!

Research question
1 L’uso delle propriet`a della LOD
migliorano le performance del
recommender?
2 Si possono trarre vantaggi
dall’utilizzo di tecniche di FS sulla
LOD?
3 Esiste una connessione tra la scelta
della tecnica di FS e il
comportamento dell’algoritmo?
4 Come si comporta la nostra
metodologia rispetto allo stato
dell’arte?

Protocollo Sperimentale - Datasets
Movielens dataset
Rating di ﬁlm estratto dal sito di MovieLens dal GroupLens
Research (http://movielens.org)
Users: 943
Films: 1.682
Binary ratings: 100.000
Sparsity: 93,69%
Positive Rating: 55,17%
Avg. Rating per user: 84,83
Avg. Rating per item: 48,48

Protocollo Sperimentale - Datasets
Books dataset
Rating di libri usato per la Challenge di ESWC 2014
Users: 6.181
Books: 6.733
Binary ratings: 72.372
Sparsity: 99,83%
Positive Rating: 45,85%
Avg. Rating per user: 11,70
Avg. Rating per item: 10,74
Molto sparso
Sbilanciato verso rating negativi

Protocollo Sperimentale - Setup
Ogni esperimento sarà dato dalla combinazione dei seguenti fattori
Tecnica
PageRank con
priorità
Split
Movielens: 5 fold
Books: training e
test fisso
Rappresentazioni
Graph
Graph + LOD
Graph + LOD + FS
Proprietà totali
60 per Movielens
70 per Books
Tecniche di FS
PageRank
χ2
Info Gain
Gain Ratio
mRMR
PCA
SVM
Features
selezionate
10
30
50
Metriche
F1
Diversity (ILD)

Experiment 1
L’uso delle proprietà della LOD migliorano le performance del
recommender?
Movielens Books
Graph Graph + LOD Graph Graph + LOD
F1@5 0,5389 0,5424 0,5502 0,5504
F1@10 0,6023 0,6083 0,6431 0,6421
F1@15 0,5941 0,5963
F1@20 0,5662 0,5686
Time(min) 72 880 +1122% 104 2.433 +2239%
Nodes 2.466 53.734 +2078% 12.649 211.661 +1573%
Edges 44.300 178.646 +303% 33.189 534.841 +1511%
Tutte differenze statisticamente significative
(Wilcoxon p-value < 0.01)

Experiment 2 - Movielens
Si possono trarre vantaggi dall’utilizzo di tecniche di FS sulla LOD?
N Feature PageRank mRMR χ2 SVM GainRatio InfoGain PCA
F1@5
10 0,5418 0,5397 0,5414 0,5382 0,5372 0,5397 0,5406
30 0,5429 0,5429 0,5419 0,5413 0,5398 0,5396 0,5413
50 0,5412 0,5421 0,5420 0,5421 0,5406 0,5412 0,5431
F1@10
10 0,6069 0,6039 0,6056 0,6043 0,6033 0,6039 0,6045
30 0,6084 0,6072 0,6070 0,6074 0,6059 0,6055 0,6081
50 0,6070 0,6077 0,6079 0,6081 0,6078 0,6072 0,6088
F1@15
10 0,5964 0,5950 0,5955 0,5943 0,5938 0,5950 0,5948
30 0,5967 0,5962 0,5967 0,5964 0,5960 0,5955 0,5967
50 0,5955 0,5962 0,5972 0,5966 0,5968 0,5962 0,5970
F1@20
10 0,5684 0,5668 0,5672 0,5669 0,5666 0,5668 0,5667
30 0,5684 0,5679 0,5679 0,5679 0,5675 0,5675 0,5689
50 0,5682 0,5685 0,5686 0,5683 0,5687 0,5685 0,5689
Ad esclusione del PageRank, tutte le altre tecniche hanno il
loro picco su 50 features
(Friedman p-value < 0.01)

Experiment 2 - Movielens Riepilogo
Paragonando i risultati migliori con le baseline
Graph Graph + LOD Graph + LOD + PCA
F1@5 0,5389 0,5424 0,5431
F1@10 0,6023 0,6083 0,6088
F1@15 0,5941 0,5963 0,5970
F1@20 0,5662 0,5686 0,5689
Time(min) 72 880 585 -33%
Nodes 2.466 53.734 48.327 -10%
Edges 44.300 178.646 167.319 -6%

Experiment 2 - Books
N Feature PageRank mRMR χ2 SVM GainRatio InfoGain PCA
F1@5
10 0,5515 0,5493 0,5512 0,5507 0,5524 0,5540 0,5513
30 0,5518 0,5519 0,5517 0,5519 0,5524 0,5519 0,5510
50 0,5517 0,5511 0,5505 0,5512 0,5503 0,5511 0,5513
F1@10
10 0,6431 0,6435 0,6423 0,6434 0,6435 0,6445 0,6433
30 0,6422 0,6427 0,6420 0,6430 0,6431 0,6427 0,6432
50 0,6418 0,6419 0,6419 0,6426 0,6425 0,6419 0,6428
I risultati migliori con 10 e 30 feature
(Friedman p-value < 0.01)

InfoGain risulta essere la tecnica pi`u performante

Experiment 2 - Books Riepilogo
Paragonando i risultati migliori con le baseline
Graph Graph + LOD Graph + LOD + InfoGain
F1@5 0,5502 0,5504 0,5540
F1@10 0,6431 0,6421 0,6445
Time(min) 104 2.433 1.341 -45%
Nodes 12.649 211.661 88.669 -58%
Edges 33.189 534.841 142.334 -73%

Esiste una connessione tra la scelta della tecnica di FS e il

Come si comporta la nostra metodologia rispetto allo stato
dell’arte?

Conclusioni
L’uso delle propriet`a della LOD migliora le
performance del recommender
Si possono trarre vantaggi dall’utilizzo di
tecniche di FS sulla LOD sia in termini di F1 che
in tempo di esecuzione
Alcune tecniche di FS sono in grado di migliorare
un particolare aspetto anzich´e altri
Rispetto allo stato dell’arte il sistema realizzato
riesce a produrre risultati migliori

Sviluppi futuri
Testare altre tecniche di Feature Selection
Combinare le tecniche di FS in base ai risultati ottenuti
Unire o intersecare le tecniche migliori
Trovare il numero esatto di feature da utilizzare in ogni
tecnica di FS

References I
Taher H. Haveliwala.
Topic-sensitive pagerank: A context-sensitive ranking algorithm for web
search.
IEEE Trans. on Knowl. and Data Eng., 15(4):784–796, July 2003.

Funzionamento del PageRank
Consideriamo un grafo composto da sei documenti cosi connessi
1 2
3
56
4

Creazione della matrice di Google per righe P del grafo
1 2
3
56
4
P =











0 1
2
1
2 0 0 0
0 0 0 0 0 0
1
3
1
3 0 0 1
3 0
0 0 0 0 1
2
1
2
0 0 0 1
2 0 1
2
0 0 0 1 0 0












1 2
3
56
4
P =











0 1
2
1
2 0 0 0
0 0 0 0 0 0
1
3
1
3 0 0 1
3 0
0 0 0 0 1
2
1
2
0 0 0 1
2 0 1
2
0 0 0 1 0 0












. . . Funzionamento PageRank - Stocasticità . . .
Considerato che il nodo 2 è un nodo dangling1 sarà necessario
trasformare il grafo e rendere stocastica la matrice corrispondente
1 2
3
56
4
¯P =











0 1
2
1
2 0 0 0
1
6
1
6
1
6
1
6
1
6
1
6
1
3
1
3 0 0 1
3 0
0 0 0 0 1
2
1
2
0 0 0 1
2 0 1
2
0 0 0 1 0 0











s 1
Privo di link uscenti

. . . Funzionamento PageRank - irriducibilit`a. . .
Il grafo dovr`a subire un’ulteriore trasformazione rendendo la
matrice di Google per righe irriducibile
1 2
3
56
4
¯P =











0 1
2
1
2 0 0 0
1
6
1
6
1
6
1
6
1
6
1
6
1
3
1
3 0 0 1
3 0
0 0 0 0 1
2
1
2
0 0 0 1
2 0 1
2
0 0 0 1 0 0











s

. . . Funzionamento PageRank - irriducibilit`a. . .
Per rendere irriducibile la matrice i valori verranno ricalcolati
secondo la formula:
¯¯P = 0.85 ∗ ¯P +
0.15 ∗ 11
6
1 2
3
56
4
¯¯P =











0.025 0.45 0.45 0.03 0.03 0.03
0.17 0.17 0.17 0.17 0.17 0.17
0.31 0.31 0.03 0.03 0.31 0.03
0.03 0.03 0.03 0.03 0.45 0.45
0.03 0.03 0.03 0.45 0.03 0.45
0 0.03 0.03 1 0.03 0.03











s

. . . Funzionamento PageRank
Attraverso il metodo delle potenze si andranno a calcolare gli
autovalori della matrice ottenendo i valori del PageRank
1 2
3
56
4
π =











0.372
0.054
0.042
0.375
0.206
0.286











s
Il ranking dei documenti sar`a quindi: 4 - 1 - 6 - 5 - 2 - 1

PageRank
Utilizza la stessa tecnica utilizzata nella raccomandazione per
eﬀettuare anche la feature selection
Cerca le feature pi`u importanti in base a quante volte sono
presenti nella Linked Open Data

Chi Squared
Verifica se esiste una correlazione tra le feature e l’attributo di
classe usando la statistica χ2
Il test statistico sarà:
χ2
=
C
i=1
(Oi − Ei )2
Ei
con gradi di libertà pari a C − 1
dove
C = numero di categorie
Oi = frequenze osservate per la categoria i
Ei = frequenze attese per la categoria i

Information Gain
Valuta gli attributi sulla base del guadagno di informazione che
apporta al dataset
Guadagno ottenuto riducendo l’incertezza iniziale
IG(S, Attr) = Entropy(S) −
v∈Values(Attr)
|Sv |
|S|
· Entropy(Sv )
dove:
S : dataset di training
Attr : rappresenta l’attributo da analizzare
v : valori degli attributi Attr
Sv : subset di istanze con attributo Attr valorizzato con v

Gain Ratio
Estensione dell’information gain classico
Mira a penalizzare gli attributi con un numero elevato di valori
Normalizza l’InfoGain usando l’entropia di S in relazione
all’attributo Attr (Split information)
SplitInformation(S, Attr) = −
v∈Values(Attr)
|Sv |
|S|
log
|Sv |
|S|
Deﬁnizione di GainRatio:
GainRatio(S, Attr) =
IG(S, Attr)
SplitInformation(S, Attr)

mRMR
Consiste nel trovare il subset di feature che riescono
contemporaneamente a garantire:
minima ridondanza tra le features
features tra loro pi`u dissimilari possibili
massima rilevanza delle features con la classe target
features pi`u discriminanti per la classe target

Principal Component Analysis (PCA)
Riduce la dimensionalit`a del dataset combinando le variabili in
gioco
Mantiene lo stesso apporto informativo del dataset originale
Le nuove variabili, chiamate Principal Components (PC), sono
non correlate, e sono ordinate in base all’informazione che
essa contiene

Principal Component Analysis (PCA)
Trova l’asse che meglio rappresenta la più grande variazione
(First principal component) e proietta tutti i punti su
quest’asse
Definisce la nuova dimensionalità sulla base degli autovettori
della matrice di covarianza associata

Support Vector Machine (SVM)
SVM massimizza il margine di separazione tra gli iperpiani
La funzione di decisione viene creata sulla base del subset di
esempi (support vectors)

Presentation Master Degree

Recomendados

Recomendados

Mais conteúdo relacionado

Semelhante a Presentation Master Degree

Semelhante a Presentation Master Degree (20)

Último

Último (9)

Presentation Master Degree