Focus Group Open Source 11.02.2011 Andrea Pescetti
Adversarial Information Retrieval
1. Adversarial IR
e Social Spam
`
UNIVERSITA DEGLI STUDI DI PADOVA
Nesello
Lorenzo Facolt` di Scienze MM.FF.NN
a
Corso di laurea in informatica
Adversarial
Information
Retrieval
Social Spam
Social Spam -
Casi di studio Adversarial IR e Social Spam
Facebook
Attack
Riferimenti
Nesello Lorenzo
Universit` di Padova
a
02-12-2009
Nesello Lorenzo (Universit` di Padova)
a Adversarial IR e Social Spam 02-12-2009 1 / 32
2. Indice della presentazione
Adversarial IR
e Social Spam
Nesello
Lorenzo
1 Adversarial Information Retrieval
Adversarial
Information
Retrieval
2 Social Spam
Social Spam
Social Spam -
Casi di studio 3 Social Spam - Casi di studio
Facebook
Attack
Riferimenti 4 Facebook Attack
5 Riferimenti
Nesello Lorenzo (Universit` di Padova)
a Adversarial IR e Social Spam 02-12-2009 2 / 32
3. Adversarial Information Retrieval - Introduzione
Adversarial IR
e Social Spam
Nesello
Lorenzo
Adversarial
Information
L’Adversarial Information Retrieval ` un ambito di studio
e
Retrieval nell’Information Retrieval.
Social Spam
Tale disciplina opera nell’ambito della raccolta, indicizzazione,
Social Spam -
Casi di studio filtraggio e ranking di informazioni da collezioni che possono
Facebook essere state maliziosamente manipolate.
Attack
L’Adversarial IR include lo studio di metodi per scovare, isolare
Riferimenti
e sconfiggere queste manipolazioni.
Nesello Lorenzo (Universit` di Padova)
a Adversarial IR e Social Spam 02-12-2009 3 / 32
4. Adversarial Information Retrieval - Topics I
Adversarial IR
e Social Spam
Nesello
Lorenzo
Topics relativi al Web spam (spamdexing):
Adversarial
Information
Retrieval Link spam
Social Spam Keyword spamming
Social Spam -
Casi di studio Cloaking
Facebook
Attack
Malicious tagging
Riferimenti Spam relativo ai blogs, includendo comment spam, splogs
e ping spam
Nesello Lorenzo (Universit` di Padova)
a Adversarial IR e Social Spam 02-12-2009 4 / 32
5. Adversarial Information Retrieval - Topics II
Adversarial IR
e Social Spam
Nesello
Lorenzo
Altri topics:
Adversarial
Information Click fraud detection
Retrieval
Social Spam
Reverse engineering di un search engine’s ranking
Social Spam -
algorithm
Casi di studio
Web content filtering
Facebook
Attack
Advertisement blocking
Riferimenti
Stealth crawling
Malicious tagging o voting in social networks
Nesello Lorenzo (Universit` di Padova)
a Adversarial IR e Social Spam 02-12-2009 5 / 32
6. Adversarial Information Retrieval - AIRWeb
Adversarial IR
e Social Spam
AIRWeb ` un workshop internazionale che si occupa di
e
Nesello
Lorenzo discutere l’avanzamento dello stato dell’arte nell’ambito
dell’Adversarial Information Retrieval nel Web. Alcuni
Adversarial
Information argomenti di interesse sono:
Retrieval
Social Spam search engine spam e ottimizzazioni
Social Spam -
Casi di studio
link-bombing (a.k.a. Google-bombing)
Facebook comment spam, referrer spam
Attack
Riferimenti
blog spam (splogs)
malicious tagging
reverse engineering degli algoritmi di ranking
Questa presentazione tratter` principalmente l’ambito
a
trasversale del Social Spam.
Nesello Lorenzo (Universit` di Padova)
a Adversarial IR e Social Spam 02-12-2009 6 / 32
7. Social Spam - Introduzione
Adversarial IR
e Social Spam
Nesello
Lorenzo
Adversarial
Information Con il termine Social Spam si identificano alcune problematiche
Retrieval
Social Spam
presenti nel web attualmente, come ad esempio lo spam via
Social Spam -
email (che opprime la maggior parte degli utenti di internet), lo
Casi di studio spam fatto con i video di risposta, lo spam attraverso i Social
Facebook
Attack
Network (Facebook, MySpace ad esempio) e lo spam nei Blog
Riferimenti (detto Splog).
Nesello Lorenzo (Universit` di Padova)
a Adversarial IR e Social Spam 02-12-2009 7 / 32
8. Social Spam - Definizione di Spam
Adversarial IR
e Social Spam
Nesello
Definizione I : “Internet spam is one or more unsolicited
Lorenzo messages, sent or posted as part of a larger collection of
Adversarial messages, all having substantially identical content.”
Information
Retrieval [monkeys.com]
Social Spam Definizione II : “The term spam refers broadly to unsolicited
Social Spam - bulk e-mail (or junk’ e-mail), which can be either commercial
Casi di studio
(such as an advertisement) or noncommercial (such as a joke
Facebook
Attack or chain letter).” [Supreme Court of the State of Washington]
Riferimenti Curiosit` : “Spam ` il titolo di un popolare sketch del gruppo
a e
comico inglese dei Monty Python, che prende il nome da una
marca di carne in scatola chiamata Spam. Lo sketch dar` a sua
a
volta il nome al fenomeno della pubblicit` indesiderata ricevuta
a
tramite e-mail.”
Nesello Lorenzo (Universit` di Padova)
a Adversarial IR e Social Spam 02-12-2009 8 / 32
9. Social Spam - Email Spam
Adversarial IR
e Social Spam
Nesello
Lorenzo
Adversarial
Information
Retrieval Lo spam via email ` uno degli argomenti trattati da questa
e
Social Spam presentazione. L’utilizzo che ne viene attualmente fatto quello
Social Spam -
Casi di studio
di attirare gli utenti verso siti poco affidabili per poterli
Facebook
attaccare oppure per semplice guadagno tramite le inserzioni
Attack pubblicitarie presenti nella pagina.
Riferimenti
Nesello Lorenzo (Universit` di Padova)
a Adversarial IR e Social Spam 02-12-2009 9 / 32
10. Social Spam - Percentuale di Email Spam
Adversarial IR
e Social Spam
Nesello
1. Stati Uniti 15,6%
Lorenzo 2. Brasile 11,1%
Adversarial 3. Turchia 5,2%
Information
Retrieval 4. India 5,0%
Social Spam 5. Corea del Sud 4,7%
Social Spam - 6. Polonia 4,2%
Casi di studio
7. Cina (inclusa Hong Kong) 4,1%
Facebook
Attack 8. Spagna 3,4%
Riferimenti 9. Russia 3,2%
10.Italia 2,8%
11.Argentina 2,5%
12.Vietnam 2,3%
Altri 35,9%
Nesello Lorenzo (Universit` di Padova)
a Adversarial IR e Social Spam 02-12-2009 10 / 32
11. Social Spam - Definizioni e Motivazioni
Adversarial IR
e Social Spam
Nesello
Lorenzo Quali sono le motivazioni del Social Spam?
Adversarial Motivi finanziari
Information
Retrieval Siti di phising
Social Spam
Installazione di malware
Social Spam -
Casi di studio
Per quanto riguarda i motivi finanziari (principali motivi di
Facebook
Attack spam) uno spammer probabilmente ricava soldi quando un
Riferimenti utente visita un sito X; il social spam ` una semplice via per
e
attirare utenti.
Alcuni metodi di guadagno nella rete sono i famosi Google
AdSense e Yahoo APT.
Nesello Lorenzo (Universit` di Padova)
a Adversarial IR e Social Spam 02-12-2009 11 / 32
12. Social Spam - Definizioni e Motivazioni
Adversarial IR
e Social Spam
Nesello
Lorenzo
Adversarial
Information
Retrieval
Uno dei principali metodi per attirare utenti verso un sito `
e
Social Spam
quello del contenuto originale. Esistono vari metodi per creare
Social Spam - contenuto originale
Casi di studio
Facebook
Generazione automatica di testo
Attack
Copia di contenuti di altre pagine autorevoli
Riferimenti
Nesello Lorenzo (Universit` di Padova)
a Adversarial IR e Social Spam 02-12-2009 12 / 32
13. Social Spam - Definizioni e Motivazioni
Adversarial IR
e Social Spam
Nesello
Lorenzo
Adversarial
Information
Retrieval
Social Spam
Social Spam -
Casi di studio
Facebook
Attack
Riferimenti
Generazione dinamica di un sito di un fake Gossip Search
Engine
Nesello Lorenzo (Universit` di Padova)
a Adversarial IR e Social Spam 02-12-2009 13 / 32
14. Social Spam - Features
Adversarial IR
e Social Spam
Nesello
Lorenzo TagSpam: rilevazione della presenza di falsi tag nei post
Adversarial TagBlur: misura della similarit` fra tag
a
Information
Retrieval DomFp: probabilit` che una risorsa r sia spam basandosi
a
Social Spam sulla struttura del documento
Social Spam -
Casi di studio NumAds: numero di volte in cui compare un ad server
Facebook all’interno di una pagina
Attack
Riferimenti
Plagiarism: ricerca di contenuto di una pagina autorevole
con un motore di ricerca al fine di trovare plagi
ValidLinks: ricerca di quanti link validi sono riferibili a un
profilo
Nesello Lorenzo (Universit` di Padova)
a Adversarial IR e Social Spam 02-12-2009 14 / 32
15. Social Spam - Spam detection on Social Networks
Adversarial IR
e Social Spam
Nesello
Lorenzo Lo spam via posta elettronica ` sicuramente, come gi` indicato
e a
Adversarial
nelle slide precedenti, un problema aperto nella navigazione
Information quotidiana ed ` anche un ambito di ricerca da parte
e
Retrieval
Social Spam
dell’Adversarial Information Retrieval.
Social Spam -
La formalizzazione del problema ` la seguente:
e
Casi di studio A = {a1 , ..., an } insieme di n email account
Facebook
Attack
S ⊂ A insieme dei mittenti
Riferimenti R ⊂ A insieme dei destinatari
yi = 1 se ai ` un mittente legittimo, −1 altrimenti
e
I classificatori cercano di assegnare i valori di yi nella maniera
pi` corretta possibile.
u
Nesello Lorenzo (Universit` di Padova)
a Adversarial IR e Social Spam 02-12-2009 15 / 32
16. Social Spam - Spam detection on Social Networks
Adversarial IR
e Social Spam
Nesello
Lorenzo
Adversarial
Information
Retrieval
Social Spam
Social Spam -
Casi di studio
Facebook
Attack
Riferimenti
Nesello Lorenzo (Universit` di Padova)
a Adversarial IR e Social Spam 02-12-2009 16 / 32
17. Social Spam - Spam detection on Social Networks
Adversarial IR
e Social Spam
Nesello
Lorenzo
Uno dei metodi per riconoscere le email di spam ` certamente
e
quello di controllare mail in entrata e mail in uscita per ogni
Adversarial
Information account ai . Per fare questo basta tenere in considerazione
Retrieval
alcune caratteristiche:
Social Spam
Social Spam - uno spammer invia tante email e ne riceve poche
Casi di studio
Facebook
le mail di risposta sono meno frequenti verso uno spammer
Attack
uno spammer avr` un vicinato molto ampio gi` al primo
a a
Riferimenti
livello
gli spammer nel vicinato di un account ai non sono in
grado di esibire una relazione di amicizia
Nesello Lorenzo (Universit` di Padova)
a Adversarial IR e Social Spam 02-12-2009 17 / 32
18. Social Spam - Spam detection on Social Networks
Adversarial IR
e Social Spam
Nesello
Lorenzo
Per risolvere il problema di classificazione di un mittente
Adversarial
Information sconosciuto si pu` utilizzare l’algoritmo di machine learning
o
Retrieval
k-NN. Questo algoritmo assume che mittenti che condividono
Social Spam
features simili appartengano alla stessa classe. In questo modo
Social Spam -
Casi di studio il punteggio ` assegnato come la media delle label (classi)
e
Facebook assegnate ai k vicini. Il segno del punteggio pu` essere usato
o
Attack
Riferimenti
per classificare un mittente e la magnitudine riflette la
confidenza. Alternativamente un punteggio alto pu` classificare
o
un mittente come legittimo.
Nesello Lorenzo (Universit` di Padova)
a Adversarial IR e Social Spam 02-12-2009 18 / 32
19. Social Spam - Spam detection on Social Networks
Adversarial IR
e Social Spam
Nesello
Lorenzo
Adversarial
Information
Retrieval
Social Spam
Social Spam -
Casi di studio
Facebook
Attack
Riferimenti
Nesello Lorenzo (Universit` di Padova)
a Adversarial IR e Social Spam 02-12-2009 19 / 32
20. Social Spam - Facebook attack
Adversarial IR
e Social Spam
Nesello
Lorenzo
Un esempio di attacco via email pu` essere attraverso i Social
o
Adversarial Network. Le prossime slide parleranno delle vulnerabilit` verso
a
Information
Retrieval gli attacchi email partendo dalla informazioni presenti negli
Social Spam account di Facebook. Lo studio che verr` proposto fa
a
Social Spam -
Casi di studio
riferimento al network “University of Michigan” dove gli utenti
Facebook
per poter essere accettati devono avere un indirizzo email con
Attack dominio umich.edu. La scelta di Facebook rispetto ad altri
Riferimenti
Social Network (MySpace e Linkedln ad esempio) deriva dal
fatto che uno studio ha dimostrato che in Facebook sono
presenti pi` dati personali rispetto agli altri siti.
u
Nesello Lorenzo (Universit` di Padova)
a Adversarial IR e Social Spam 02-12-2009 20 / 32
21. Social Spam - Facebook attack
Adversarial IR
e Social Spam
Nesello
Lorenzo Prima di analizzare tre diversi attacchi realizzabili partendo da
dati presenti in Facebook bisogna fissare alcuni concetti come :
Adversarial
Information
Retrieval Open Profile: profilo le cui informazioni possono essere
Social Spam accedute da chiunque nella rete
Social Spam -
Casi di studio Closed Profile: profilo le cui informazioni possono essere
Facebook accedute solo da alcune persone (amici)
Attack
Riferimenti Le informazioni su cui si baseranno gli attacchi sono quelle
condivise su Facebook come informazioni di contatto,
residenza, istruzione, sesso, interesse, nome degli amici,
compleanno, wall post e news feeds.
Nesello Lorenzo (Universit` di Padova)
a Adversarial IR e Social Spam 02-12-2009 21 / 32
22. Social Spam - Facebook attack
Adversarial IR
e Social Spam
Nesello Verranno analizzati tre tipi di attacco:
Lorenzo
Relationship-based attacks: questo attacco utilizza
Adversarial
Information solamente le informazioni relative al rapporto di amicizia
Retrieval
(friend-to-friend relationship information)
Social Spam
Social Spam - Unshared-attribute attacks: questo attacco utilizza le
Casi di studio
informazioni relative al rapporto di amicizia insieme a un
Facebook
Attack attributo di una delle due parti, come ad esempio la data
Riferimenti di compleanno di un utente
Shared-attribute attacks: questo attacco utilizza le
informazioni relative al rapporto di amicizia insieme a un
attributo visibile da entrambe le parti
Nesello Lorenzo (Universit` di Padova)
a Adversarial IR e Social Spam 02-12-2009 22 / 32
23. Social Spam - Relationship-based attacks
Adversarial IR
e Social Spam
Nesello
Lorenzo
Adversarial
Information
Retrieval
Social Spam
Social Spam -
Casi di studio
Facebook
Attack
Riferimenti
Nesello Lorenzo (Universit` di Padova)
a Adversarial IR e Social Spam 02-12-2009 23 / 32
24. Social Spam - Relationship-based attacks
Adversarial IR
e Social Spam
Nesello
Lorenzo
Adversarial
Information
Retrieval Per questo tipo di attacco basta conoscere il nome utente di un
Social Spam amico della vittima e ovviamente la mail della vittima. Infine
Social Spam -
Casi di studio
basta costruire una email sullo stile delle email di notifica di
Facebook
Facebook invitando cos` l’utente attaccato a cliccare su un link
ı
Attack
che rimander` a un sito controllato dall’attaccante.
a
Riferimenti
Nesello Lorenzo (Universit` di Padova)
a Adversarial IR e Social Spam 02-12-2009 24 / 32
25. Social Spam - Unshared-attribute attacks
Adversarial IR
e Social Spam
Nesello
Lorenzo
Adversarial
Information
Retrieval
Social Spam
Social Spam -
Casi di studio
Facebook
Attack
Riferimenti
Nesello Lorenzo (Universit` di Padova)
a Adversarial IR e Social Spam 02-12-2009 25 / 32
26. Social Spam - Unshared-attribute attacks
Adversarial IR
e Social Spam
Nesello
Lorenzo
Per effettuare questo tipo di attacco bisogna conoscere la data
Adversarial di compleanno dell’utente che si vuole attaccare. In caso di
Information
Retrieval profilo aperto questa solitamente ` facilmente reperibile. Esiste
e
Social Spam una funzionalit` in Facebook che permette di visualizzare le
a
Social Spam -
Casi di studio
date di compleanno all’interno di una rete. L’attacco consiste
Facebook
nell’inviare una e-card falsa da parte di un amico convincedo
Attack cos` l’attaccato a cliccare sui link presenti nella email. Un’altro
ı
Riferimenti
tipo di attacco detto birthday invitation attack che consiste
nell’inviare una email agli amici con un finto invito a una festa
di compleanno con il risultato di farli cliccare su link malevoli.
Nesello Lorenzo (Universit` di Padova)
a Adversarial IR e Social Spam 02-12-2009 26 / 32
27. Social Spam - Shared-attribute attacks
Adversarial IR
e Social Spam
Nesello
Lorenzo
Adversarial
Information
Retrieval
Social Spam
Social Spam -
Casi di studio
Facebook
Attack
Riferimenti
Nesello Lorenzo (Universit` di Padova)
a Adversarial IR e Social Spam 02-12-2009 27 / 32
28. Social Spam - Shared-attribute attacks
Adversarial IR
e Social Spam
Nesello
Lorenzo
Adversarial
Information
Questo tipo di attacco si basa su di un falso sito di fotogallery.
Retrieval Si finge che un amico abbia condiviso online un album di foto e
Social Spam
si invia una email alla vittima. L’argomento dell’album pu` o
Social Spam -
Casi di studio essere la partecipazione a un evento, facilmente reperibile dai
Facebook post nel wall. La falsa veridicit` viene data dal fatto che
a
Attack
Facebook permette di pubblicare album di foto linkandoli a
Riferimenti
degli eventi.
Nesello Lorenzo (Universit` di Padova)
a Adversarial IR e Social Spam 02-12-2009 28 / 32
29. Social Spam - Facebook attack
Adversarial IR
e Social Spam
Nesello
Lorenzo
Adversarial
Information
Retrieval
Social Spam
Social Spam -
Casi di studio
Facebook
Attack
Riferimenti
Nesello Lorenzo (Universit` di Padova)
a Adversarial IR e Social Spam 02-12-2009 29 / 32
30. Social Spam - Facebook attack
Adversarial IR
e Social Spam
Nesello
Lorenzo
Adversarial
Information
Retrieval
Un risultato interessante ` dato dal fatto che una parte
e
Social Spam
significante degli utenti con il profilo chiuso vulnerabile agli
Social Spam -
Casi di studio attacchi. Questo ` dovuto dal fatto che almeno un amico ha il
e
Facebook profilo aperto.
Attack
Riferimenti
Nesello Lorenzo (Universit` di Padova)
a Adversarial IR e Social Spam 02-12-2009 30 / 32
31. Social Spam - Defense options
Adversarial IR
e Social Spam
Nesello
Esistono alcuni metodi che possono far diminuire la probabilit`
a
Lorenzo di un attacco:
Adversarial profilo accessibile solamente dagli amici (attaccabile
Information
Retrieval tramite birthday-invitation)
Social Spam
rimuovere il cognome (decade l’usabilit`)
a
Social Spam -
Casi di studio rendere immagine le informazioni personali (da realizzare
Facebook
Attack
da parte del creatore del social network e attaccabile
Riferimenti
tramite un software OCR)
rendere difficile la creazione di fake account (soluzione
molto difficile da applicare)
Tutte queste idee servono solamente per ridurre la probabilit`
a
di attacchi ma non li evitano totalmente.
Nesello Lorenzo (Universit` di Padova)
a Adversarial IR e Social Spam 02-12-2009 31 / 32
32. Riferimenti
Adversarial IR
e Social Spam
Nesello
Lorenzo
Adversarial http://en.wikipedia.org/wiki/Adversarial_
Information
Retrieval
information_retrieval
Social Spam http://airweb.cse.lehigh.edu/
Social Spam - Social Spam Detection [Markines, Cattuto, Menczer 2009]
Casi di studio
A Learning Approach to Spam Detection based on Social
Facebook
Attack Networks [Lam, Yeung 2007]
Riferimenti Social Networks and Context-Aware Spam [Brown, Ihbe,
Prakash, Borders 2008]
Nesello Lorenzo (Universit` di Padova)
a Adversarial IR e Social Spam 02-12-2009 32 / 32