Adversarial Information Retrieval

Adversarial IR
e Social Spam
`
UNIVERSITA DEGLI STUDI DI PADOVA
Nesello
Lorenzo Facolt` di Scienze MM.FF.NN
a
Corso di laurea in informatica
Adversarial
Information
Retrieval

Social Spam

Social Spam -
Casi di studio Adversarial IR e Social Spam
Facebook
Attack

Riferimenti
Nesello Lorenzo

Universit` di Padova
a

02-12-2009

Nesello Lorenzo (Universit` di Padova)
a Adversarial IR e Social Spam 02-12-2009 1 / 32

Indice della presentazione

Adversarial IR
e Social Spam

Nesello
Lorenzo
1 Adversarial Information Retrieval
Adversarial
Information
Retrieval
2 Social Spam
Social Spam

Social Spam -
Casi di studio 3 Social Spam - Casi di studio
Facebook
Attack

Riferimenti 4 Facebook Attack

5 Riferimenti


Adversarial Information Retrieval - Introduzione

Adversarial IR
e Social Spam

Nesello
Lorenzo

Adversarial
Information
L’Adversarial Information Retrieval ` un ambito di studio
e
Retrieval nell’Information Retrieval.
Social Spam
Tale disciplina opera nell’ambito della raccolta, indicizzazione,
Social Spam -
Casi di studio ﬁltraggio e ranking di informazioni da collezioni che possono
Facebook essere state maliziosamente manipolate.
Attack
L’Adversarial IR include lo studio di metodi per scovare, isolare
Riferimenti
e sconﬁggere queste manipolazioni.


Adversarial Information Retrieval - Topics I

Adversarial IR
e Social Spam

Nesello
Lorenzo
Topics relativi al Web spam (spamdexing):
Adversarial
Information
Retrieval Link spam
Social Spam Keyword spamming
Social Spam -
Casi di studio Cloaking
Facebook
Attack
Malicious tagging
Riferimenti Spam relativo ai blogs, includendo comment spam, splogs
e ping spam


Adversarial Information Retrieval - Topics II

Adversarial IR
e Social Spam

Nesello
Lorenzo
Altri topics:
Adversarial
Information Click fraud detection
Retrieval

Social Spam
Reverse engineering di un search engine’s ranking
Social Spam -
algorithm
Casi di studio
Web content ﬁltering
Facebook
Attack
Advertisement blocking
Riferimenti
Stealth crawling
Malicious tagging o voting in social networks


Adversarial Information Retrieval - AIRWeb

Adversarial IR
e Social Spam
AIRWeb ` un workshop internazionale che si occupa di
e
Nesello
Lorenzo discutere l’avanzamento dello stato dell’arte nell’ambito
dell’Adversarial Information Retrieval nel Web. Alcuni
Adversarial
Information argomenti di interesse sono:
Retrieval

Social Spam search engine spam e ottimizzazioni
Social Spam -
Casi di studio
link-bombing (a.k.a. Google-bombing)
Facebook comment spam, referrer spam
Attack

Riferimenti
blog spam (splogs)
malicious tagging
reverse engineering degli algoritmi di ranking
Questa presentazione tratter` principalmente l’ambito
a
trasversale del Social Spam.


Social Spam - Introduzione

Adversarial IR
e Social Spam

Nesello
Lorenzo

Adversarial
Information Con il termine Social Spam si identiﬁcano alcune problematiche
Retrieval

Social Spam
presenti nel web attualmente, come ad esempio lo spam via
Social Spam -
email (che opprime la maggior parte degli utenti di internet), lo
Casi di studio spam fatto con i video di risposta, lo spam attraverso i Social
Facebook
Attack
Network (Facebook, MySpace ad esempio) e lo spam nei Blog
Riferimenti (detto Splog).


Social Spam - Definizione di Spam

Adversarial IR
e Social Spam

Nesello
Definizione I : “Internet spam is one or more unsolicited
Lorenzo messages, sent or posted as part of a larger collection of
Adversarial messages, all having substantially identical content.”
Information
Retrieval [monkeys.com]
Social Spam Definizione II : “The term spam refers broadly to unsolicited
Social Spam - bulk e-mail (or junk’ e-mail), which can be either commercial
Casi di studio
(such as an advertisement) or noncommercial (such as a joke
Facebook
Attack or chain letter).” [Supreme Court of the State of Washington]
Riferimenti Curiosit` : “Spam ` il titolo di un popolare sketch del gruppo
a e
comico inglese dei Monty Python, che prende il nome da una
marca di carne in scatola chiamata Spam. Lo sketch dar` a sua
a
volta il nome al fenomeno della pubblicit` indesiderata ricevuta
a
tramite e-mail.”


Social Spam - Email Spam

Adversarial IR
e Social Spam

Nesello
Lorenzo

Adversarial
Information
Retrieval Lo spam via email ` uno degli argomenti trattati da questa
e
Social Spam presentazione. L’utilizzo che ne viene attualmente fatto quello
Social Spam -
Casi di studio
di attirare gli utenti verso siti poco aﬃdabili per poterli
Facebook
attaccare oppure per semplice guadagno tramite le inserzioni
Attack pubblicitarie presenti nella pagina.
Riferimenti


Social Spam - Percentuale di Email Spam

Adversarial IR
e Social Spam

Nesello
1. Stati Uniti 15,6%
Lorenzo 2. Brasile 11,1%
Adversarial 3. Turchia 5,2%
Information
Retrieval 4. India 5,0%
Social Spam 5. Corea del Sud 4,7%
Social Spam - 6. Polonia 4,2%
Casi di studio
7. Cina (inclusa Hong Kong) 4,1%
Facebook
Attack 8. Spagna 3,4%
Riferimenti 9. Russia 3,2%
10.Italia 2,8%
11.Argentina 2,5%
12.Vietnam 2,3%
Altri 35,9%


Social Spam - Definizioni e Motivazioni

Adversarial IR
e Social Spam

Nesello
Lorenzo Quali sono le motivazioni del Social Spam?
Adversarial Motivi finanziari
Information
Retrieval Siti di phising
Social Spam
Installazione di malware
Social Spam -
Casi di studio
Per quanto riguarda i motivi finanziari (principali motivi di
Facebook
Attack spam) uno spammer probabilmente ricava soldi quando un
Riferimenti utente visita un sito X; il social spam ` una semplice via per
e
attirare utenti.
Alcuni metodi di guadagno nella rete sono i famosi Google
AdSense e Yahoo APT.



Adversarial IR
e Social Spam

Nesello
Lorenzo

Adversarial
Information
Retrieval
Uno dei principali metodi per attirare utenti verso un sito `
e
Social Spam
quello del contenuto originale. Esistono vari metodi per creare
Social Spam - contenuto originale
Casi di studio

Facebook
Generazione automatica di testo
Attack
Copia di contenuti di altre pagine autorevoli
Riferimenti



Adversarial IR
e Social Spam

Nesello
Lorenzo

Adversarial
Information
Retrieval

Social Spam

Social Spam -
Casi di studio

Facebook
Attack

Riferimenti

Generazione dinamica di un sito di un fake Gossip Search
Engine

Social Spam - Features

Adversarial IR
e Social Spam

Nesello
Lorenzo TagSpam: rilevazione della presenza di falsi tag nei post
Adversarial TagBlur: misura della similarit` fra tag
a
Information
Retrieval DomFp: probabilit` che una risorsa r sia spam basandosi
a
Social Spam sulla struttura del documento
Social Spam -
Casi di studio NumAds: numero di volte in cui compare un ad server
Facebook all’interno di una pagina
Attack

Riferimenti
Plagiarism: ricerca di contenuto di una pagina autorevole
con un motore di ricerca al ﬁne di trovare plagi
ValidLinks: ricerca di quanti link validi sono riferibili a un
proﬁlo


Social Spam - Spam detection on Social Networks

Adversarial IR
e Social Spam

Nesello
Lorenzo Lo spam via posta elettronica ` sicuramente, come gi` indicato
e a
Adversarial
nelle slide precedenti, un problema aperto nella navigazione
Information quotidiana ed ` anche un ambito di ricerca da parte
e
Retrieval

Social Spam
dell’Adversarial Information Retrieval.
Social Spam -
La formalizzazione del problema ` la seguente:
e
Casi di studio A = {a1 , ..., an } insieme di n email account
Facebook
Attack
S ⊂ A insieme dei mittenti
Riferimenti R ⊂ A insieme dei destinatari
yi = 1 se ai ` un mittente legittimo, −1 altrimenti
e
I classiﬁcatori cercano di assegnare i valori di yi nella maniera
pi` corretta possibile.
u



Adversarial IR
e Social Spam

Nesello
Lorenzo

Adversarial
Information
Retrieval

Social Spam

Social Spam -
Casi di studio

Facebook
Attack

Riferimenti



Adversarial IR
e Social Spam

Nesello
Lorenzo
Uno dei metodi per riconoscere le email di spam ` certamente
e
quello di controllare mail in entrata e mail in uscita per ogni
Adversarial
Information account ai . Per fare questo basta tenere in considerazione
Retrieval
alcune caratteristiche:
Social Spam

Social Spam - uno spammer invia tante email e ne riceve poche
Casi di studio

Facebook
le mail di risposta sono meno frequenti verso uno spammer
Attack
uno spammer avr` un vicinato molto ampio gi` al primo
a a
Riferimenti
livello
gli spammer nel vicinato di un account ai non sono in
grado di esibire una relazione di amicizia



Adversarial IR
e Social Spam

Nesello
Lorenzo
Per risolvere il problema di classificazione di un mittente
Adversarial
Information sconosciuto si pu` utilizzare l’algoritmo di machine learning
o
Retrieval
k-NN. Questo algoritmo assume che mittenti che condividono
Social Spam
features simili appartengano alla stessa classe. In questo modo
Social Spam -
Casi di studio il punteggio ` assegnato come la media delle label (classi)
e
Facebook assegnate ai k vicini. Il segno del punteggio pu` essere usato
o
Attack

Riferimenti
per classificare un mittente e la magnitudine riflette la
confidenza. Alternativamente un punteggio alto pu` classificare
o
un mittente come legittimo.



Adversarial IR
e Social Spam

Nesello
Lorenzo

Adversarial
Information
Retrieval

Social Spam

Social Spam -
Casi di studio

Facebook
Attack

Riferimenti


Social Spam - Facebook attack

Adversarial IR
e Social Spam

Nesello
Lorenzo
Un esempio di attacco via email pu` essere attraverso i Social
o
Adversarial Network. Le prossime slide parleranno delle vulnerabilit` verso
a
Information
Retrieval gli attacchi email partendo dalla informazioni presenti negli
Social Spam account di Facebook. Lo studio che verr` proposto fa
a
Social Spam -
Casi di studio
riferimento al network “University of Michigan” dove gli utenti
Facebook
per poter essere accettati devono avere un indirizzo email con
Attack dominio umich.edu. La scelta di Facebook rispetto ad altri
Riferimenti
Social Network (MySpace e Linkedln ad esempio) deriva dal
fatto che uno studio ha dimostrato che in Facebook sono
presenti pi` dati personali rispetto agli altri siti.
u



Adversarial IR
e Social Spam

Nesello
Lorenzo Prima di analizzare tre diversi attacchi realizzabili partendo da
dati presenti in Facebook bisogna fissare alcuni concetti come :
Adversarial
Information
Retrieval Open Profile: profilo le cui informazioni possono essere
Social Spam accedute da chiunque nella rete
Social Spam -
Casi di studio Closed Profile: profilo le cui informazioni possono essere
Facebook accedute solo da alcune persone (amici)
Attack

Riferimenti Le informazioni su cui si baseranno gli attacchi sono quelle
condivise su Facebook come informazioni di contatto,
residenza, istruzione, sesso, interesse, nome degli amici,
compleanno, wall post e news feeds.



Adversarial IR
e Social Spam

Nesello Verranno analizzati tre tipi di attacco:
Lorenzo
Relationship-based attacks: questo attacco utilizza
Adversarial
Information solamente le informazioni relative al rapporto di amicizia
Retrieval
(friend-to-friend relationship information)
Social Spam

Social Spam - Unshared-attribute attacks: questo attacco utilizza le
Casi di studio
informazioni relative al rapporto di amicizia insieme a un
Facebook
Attack attributo di una delle due parti, come ad esempio la data
Riferimenti di compleanno di un utente
Shared-attribute attacks: questo attacco utilizza le
informazioni relative al rapporto di amicizia insieme a un
attributo visibile da entrambe le parti


Social Spam - Relationship-based attacks

Adversarial IR
e Social Spam

Nesello
Lorenzo

Adversarial
Information
Retrieval

Social Spam

Social Spam -
Casi di studio

Facebook
Attack

Riferimenti


Social Spam - Relationship-based attacks

Adversarial IR
e Social Spam

Nesello
Lorenzo

Adversarial
Information
Retrieval Per questo tipo di attacco basta conoscere il nome utente di un
Social Spam amico della vittima e ovviamente la mail della vittima. Inﬁne
Social Spam -
Casi di studio
basta costruire una email sullo stile delle email di notiﬁca di
Facebook
Facebook invitando cos` l’utente attaccato a cliccare su un link
ı
Attack
che rimander` a un sito controllato dall’attaccante.
a
Riferimenti


Social Spam - Unshared-attribute attacks

Adversarial IR
e Social Spam

Nesello
Lorenzo

Adversarial
Information
Retrieval

Social Spam

Social Spam -
Casi di studio

Facebook
Attack

Riferimenti


Social Spam - Unshared-attribute attacks

Adversarial IR
e Social Spam

Nesello
Lorenzo
Per effettuare questo tipo di attacco bisogna conoscere la data
Adversarial di compleanno dell’utente che si vuole attaccare. In caso di
Information
Retrieval profilo aperto questa solitamente ` facilmente reperibile. Esiste
e
Social Spam una funzionalit` in Facebook che permette di visualizzare le
a
Social Spam -
Casi di studio
date di compleanno all’interno di una rete. L’attacco consiste
Facebook
nell’inviare una e-card falsa da parte di un amico convincedo
Attack cos` l’attaccato a cliccare sui link presenti nella email. Un’altro
ı
Riferimenti
tipo di attacco detto birthday invitation attack che consiste
nell’inviare una email agli amici con un finto invito a una festa
di compleanno con il risultato di farli cliccare su link malevoli.


Social Spam - Shared-attribute attacks

Adversarial IR
e Social Spam

Nesello
Lorenzo

Adversarial
Information
Retrieval

Social Spam

Social Spam -
Casi di studio

Facebook
Attack

Riferimenti


Social Spam - Shared-attribute attacks

Adversarial IR
e Social Spam

Nesello
Lorenzo

Adversarial
Information
Questo tipo di attacco si basa su di un falso sito di fotogallery.
Retrieval Si ﬁnge che un amico abbia condiviso online un album di foto e
Social Spam
si invia una email alla vittima. L’argomento dell’album pu` o
Social Spam -
Casi di studio essere la partecipazione a un evento, facilmente reperibile dai
Facebook post nel wall. La falsa veridicit` viene data dal fatto che
a
Attack
Facebook permette di pubblicare album di foto linkandoli a
Riferimenti
degli eventi.



Adversarial IR
e Social Spam

Nesello
Lorenzo

Adversarial
Information
Retrieval

Social Spam

Social Spam -
Casi di studio

Facebook
Attack

Riferimenti



Adversarial IR
e Social Spam

Nesello
Lorenzo

Adversarial
Information
Retrieval
Un risultato interessante ` dato dal fatto che una parte
e
Social Spam
significante degli utenti con il profilo chiuso vulnerabile agli
Social Spam -
Casi di studio attacchi. Questo ` dovuto dal fatto che almeno un amico ha il
e
Facebook profilo aperto.
Attack

Riferimenti


Social Spam - Defense options

Adversarial IR
e Social Spam

Nesello
Esistono alcuni metodi che possono far diminuire la probabilit`
a
Lorenzo di un attacco:
Adversarial profilo accessibile solamente dagli amici (attaccabile
Information
Retrieval tramite birthday-invitation)
Social Spam
rimuovere il cognome (decade l’usabilit`)
a
Social Spam -
Casi di studio rendere immagine le informazioni personali (da realizzare
Facebook
Attack
da parte del creatore del social network e attaccabile
Riferimenti
tramite un software OCR)
rendere difficile la creazione di fake account (soluzione
molto difficile da applicare)
Tutte queste idee servono solamente per ridurre la probabilit`
a
di attacchi ma non li evitano totalmente.


Riferimenti

Adversarial IR
e Social Spam

Nesello
Lorenzo

Adversarial http://en.wikipedia.org/wiki/Adversarial_
Information
Retrieval
information_retrieval
Social Spam http://airweb.cse.lehigh.edu/
Social Spam - Social Spam Detection [Markines, Cattuto, Menczer 2009]
Casi di studio
A Learning Approach to Spam Detection based on Social
Facebook
Attack Networks [Lam, Yeung 2007]
Riferimenti Social Networks and Context-Aware Spam [Brown, Ihbe,
Prakash, Borders 2008]


Adversarial Information Retrieval

Recomendados

Recomendados

Mais conteúdo relacionado

Destaque

Destaque (17)

Adversarial Information Retrieval