Diffusion de l'information dans les médias sociaux : modélisation et analyse
1. Laboratoire ERIC
Université Lumière Lyon 2
Diffusion de l’information
dans les médias sociaux
Modélisation et analyse
Thèse de doctorat présentée et soutenue publiquement
par Adrien Guille
le 25 novembre 2014
Discipline : Informatique
Université : Université Lumière Lyon 2
École doctorale : Informatique et Mathématiques (InfoMaths, ED 512)
Laboratoire : Entrepôts, Représentation & Ingénierie des Connaissances (ERIC, EA 3083)
Directeur : Djamel Zighed
Co-directrice : Cécile Favre
2. Laboratoire ERIC
Université Lumière Lyon 2
Introduction
Pourquoi étudier les médias sociaux ?
• Manière nouvelle de produire, diffuser et consommer l’information
• Utilisateurs producteurs et consommateurs d’information
• Vecteurs d’information efficaces
• e.g. élection de Barack Obama [Hughes09]
• e.g. Printemps arabe [Howard11]
• Apparition d’un phénomène de surcharge informationnelle
• Cette thèse s’intéresse au phénomène de diffusion de l’information dans
les médias sociaux
• Objectif : fournir des moyens de modélisation et d’analyse
Page
Diffusion de l’information dans les médias sociaux
Modélisation et analyse
/ 33 Soutenance de thèse - 25 novembre 2014 Adrien Guille
2
3. Laboratoire ERIC
Université Lumière Lyon 2
Introduction
Médias sociaux et diffusion de l’information
• Deux fonctionnalités essentielles
• Publication de messages sur une page de profil
• Connexion à d’autres utilisateurs afin de suivre leurs publications
• Influence sociale
• Diffusion de l’information
• Le média social type : Twitter
• Propositions génériques
• Expérimentations sur Twitter
Page
Diffusion de l’information dans les médias sociaux
Modélisation et analyse
• Accès aux données
• 500·106 utilisateurs
• 20·109 abonnements
3
/ 33 Soutenance de thèse - 25 novembre 2014 Adrien Guille
4. Laboratoire ERIC
Université Lumière Lyon 2
jŸj kÂ
jŸj kÃ
Introduction
Travaux de recherche menés dans cette thèse
• Problématiques et contributions
• Quels éléments d’information retiennent l’attention des utilisateurs ?
• Algorithme pour détecter automatiquement les évènements significatifs
• Comment et pourquoi un élément d’information donné se diffuse-t-il ?
• Modèle pour prévoir la diffusion de l’information
• Quels utilisateurs peuvent influencer la diffusion d’un élément d’information ?
• Logiciel pour l’analyse de l’influence par rapport aux évènements
• Approche
• Fouille des données issues des médias sociaux
Page
ÁÁÊ
Diffusion de l’information dans les médias sociaux
Modélisation et analyse
/ 33 Soutenance de thèse - 25 novembre 2014 Adrien Guille
4
Y’Q[NYkI[EI
G’KpJ[IZI[jh
/j]EX<OI
GIh
G][[KIh
+gKdgjQ][IjZ[QdkYjQ][GIhG][[KIh
IrjI[hQ][h
Zd]gjGIG][[KIh¥ZIhhOIhIjgKhIk¦
/$9
kÂ
kÃ
kÄ
™
jŸj kÄ
KjdIÂ
KjdIÃ
KjdIÄ
KjdIÅ
ÁÂÉ
ÁÁÆ
ÁÃ
ÁÅ
ÁÁÅ
ÁÂÃ
ÁÃÃ ÁÂÂ
7. Laboratoire ERIC
Université Lumière Lyon 2
Diffusion de l’information dans les médias sociaux
Modélisation et analyse
Première contribution
Détecter les évènements
significatifs dans les
médias sociaux
Soutenance de thèse - 25 novembre 2014 Adrien Guille
8. Laboratoire ERIC
Université Lumière Lyon 2
Détecter les évènements
Introduction
• Comment détecter automatiquement les évènements significatifs à partir
des médias sociaux ?
• Évènements significatifs : potentiellement traités par les médias traditionnels
[McMinn13]
• Messages liés noyés par des messages sans rapport, i.e. bruit
• Analyse de l’évolution temporelle des thématiques [Leskovec09]
• On suppose que les thématiques «saillantes» signalent les évènements
Page
Diffusion de l’information dans les médias sociaux
Modélisation et analyse
[Kleinberg02]
/ 33 Soutenance de thèse - 25 novembre 2014 Adrien Guille
6
9. Laboratoire ERIC
Université Lumière Lyon 2
Détecter les évènements
État de l’art et proposition
• Approches existantes
• Pondération statistique des termes [Shamma11, Benhardus13]
• Modélisation probabiliste des thématiques latentes [Lau12, Yuheng12]
• Classification non supervisée des termes [Weng11, Li12, Parikh13]
• Limitations des approches existantes
• Durée des évènements fixée à l’avance [Romero11]
• Prise en compte du contenu textuel uniquement
• Proposition
• Estimer dynamiquement la durée de chaque évènement
• Exploiter l’aspect social du flux de messages via les mentions
Page
Diffusion de l’information dans les médias sociaux
Modélisation et analyse
• Mention : lien dynamique inséré dans un message
7
/ 33 Soutenance de thèse - 25 novembre 2014 Adrien Guille
10. Laboratoire ERIC
Université Lumière Lyon 2
Détecter les évènements
Méthode proposée
• MABED : Mention-Anomaly-Based Event Detection
Page
Diffusion de l’information dans les médias sociaux
Modélisation et analyse
/ 33 Soutenance de thèse - 25 novembre 2014 Adrien Guille
8
• Entrée
• Un corpus de messages partitionné
en n tranches temporelles
• Sortie
• Les k évènements aux k plus fortes
magnitudes d’impact
• Définitions
• Évènement : une thématique
saillante et une valeur Mag traduisant
sa magnitude d’impact
• Thématique saillante : un intervalle
temporel I, un terme principal t, un
ensemble pondéré S de mots liés
11. Laboratoire ERIC
Université Lumière Lyon 2
Détecter les évènements
Méthode proposée
• MABED : Mention-Anomaly-Based Event Detection
Page
Diffusion de l’information dans les médias sociaux
Modélisation et analyse
/ 33 Soutenance de thèse - 25 novembre 2014 Adrien Guille
8
• Entrée
• Un corpus de messages partitionné
en n tranches temporelles
• Sortie
• Les k évènements aux k plus fortes
magnitudes d’impact
• Définitions
• Évènement : une thématique
saillante et une valeur Mag traduisant
sa magnitude d’impact
• Thématique saillante : un intervalle
temporel I, un terme principal t, un
ensemble pondéré S de mots liés
12. 2005). Par conséquent nous pouvons écrire :
l’échelle et s’adapte donc facilement à la taille du vocabulaire.
peut être approximée par une loi normale, c’est-à-dire :
est la probabilité Laboratoire ERIC
qu’un message contienne le mot t et au moins une men-tion,
Université Lumière Lyon 2
que soit la tranche temporelle. Comme le nombre de messages Ni est
le contexte des médias sociaux, nous pouvons raisonnablement supposer
peut être approximée par une loi normale, c’est-à-dire :
Calcul de la magnitude d’impact. La magnitude d’impact, associé à l’intervalle I = [a; b] et au mot principal t est Elle correspond à l’aire algébrique sous la fonction [liés à des évènements et spécifiques à une période temporelle particulière auront
tendance à avoir des valeurs d’anomalie positives élevées durant cette période. Au
contraire, les mots récurrents (i.e. triviaux) qui ne sont pas liés à un évènement auront
des valeurs d’anomalie qui divergeront peu par rapport à l’espérance. Par ailleurs,
contrairement à des approches plus sophistiquées comme par exemple la modélisation
des fréquences à l’aide de mixtures gaussiennes, cette formulation passe facilement à
l’échelle et s’adapte donc facilement à la taille du vocabulaire.
Détecter les évènements
Méthode proposée : phase I
• Mesurer l’anomalie
P(Ni
@t)⇠N (Nip@t,Nip@t(1− p@t)).
• Par rapport à la fréquence de création de mention à la tranche temporelle i
• Pour chaque mot t
découle que la quantité espérée de messages contenant le mot t et au moins
mention à la ième tranche temporelle est :
!O¥¦
Calcul de la magnitude d’impact. La magnitude d’impact, Mag, d’un évènement
Q
associé à l’intervalle I = [a; b] et au mot principal t est donnée par la formule ci-dessous.
Or, nous avons montré précédemment que la magnitude décrit par le mot principal t et l’intervalle I = [a; b] correspond ³XGPNQ
E[t|i] = Nip@t, où p@t = N@t/N.
Elle correspond à l’aire algébrique sous la fonction d’anomalie sur l’intervalle
nous définissons l’anomalie dans la fréquence de création de mentions liée
la ième tranche temporelle comme suit :
• Détecter les évènement à partir de l’anomalie
• Trouver l’intervalle qui maximise l’anomalie
• Pour tous les mots
D
cette formulation, l’anomalie est positive uniquement lorsque la fréquence
création de mentions est strictement supérieure à l’espérance. Les mots
Page
Diffusion de l’information dans les médias sociaux
Modélisation et analyse
anomalie(t, i) = Ni
@t − E[t|i].
D
/ 33 Soutenance de thèse - 25 novembre 2014 Adrien Guille
9
P(Ni
@t) =
✓
Ni
Ni
@t
◆
pNi
@t
@t (1− p@t)Ni−Ni
@t ,
p@t est la probabilité qu’un message contienne le mot t et au moins une men-tion,
quelle que soit la tranche temporelle. Comme le nombre de messages Ni est
dans le contexte des médias sociaux, nous pouvons raisonnablement supposer
@t) peut être approximée par une loi normale, c’est-à-dire :
P(Ni
@t)⇠N (Nip@t,Nip@t(1− p@t)).
découle que la quantité espérée de messages contenant le mot t et au moins
mention à la ième tranche temporelle est :
E[t|i] = Nip@t, où p@t = N@t/N.
Enfin, nous définissons l’anomalie dans la fréquence de création de mentions liée
à la ième tranche temporelle comme suit :
anomalie(t, i) = Ni
@t − E[t|i].
cette formulation, l’anomalie est positive uniquement lorsque la fréquence
de création de mentions est strictement supérieure à l’espérance. Les mots
59
P(Ni
@t)⇠N (Nip@t,Nip@t(1− p@t)).
découle que la quantité espérée de messages contenant le mot t et au moins
à la ième tranche temporelle est :
E[t|i] = Nip@t, où p@t = N@t/N.
nous définissons l’anomalie dans la fréquence de création de mentions liée
ième tranche temporelle comme suit :
anomalie(t, i) = Ni
@t − E[t|i].
cette formulation, l’anomalie est positive uniquement lorsque la fréquence
création de mentions est strictement supérieure à l’espérance. Les mots
59
3.3. Méthode proposée
évènements et spécifiques à une période temporelle particulière auront
avoir des valeurs d’anomalie positives élevées durant cette période. Au
mots récurrents (i.e. triviaux) qui ne sont pas liés à un évènement auront
d’anomalie qui divergeront peu par rapport à l’espérance. Par ailleurs,
contrairement à des approches plus sophistiquées comme par exemple la modélisation
fréquences à l’aide de mixtures gaussiennes, cette formulation passe facilement à
s’adapte donc facilement à la taille du vocabulaire.
de la magnitude d’impact. La magnitude d’impact, Mag, d’un évènement
l’intervalle I = [a; b] et au mot principal t est donnée par la formule ci-dessous.
correspond à l’aire algébrique sous la fonction d’anomalie sur l’intervalle
Mag(t, I) =
Zb
a
anomalie(t, i)di
=
Xb
i=a
anomalie(t, i)
[a; b].
Mag(t, I) =
Zb
a
anomalie(t, i)di
=
Xb
i=a
anomalie(t, i)
L’aire algébrique est obtenue en intégrant la fonction discrète d’anomalie, ce qui
revient dans ce cas à une somme.
a; b].
Mag(t, I) =
Zb
a
anomalie(t, i)di
=
Xb
i=a
anomalie(t, i)
L’aire algébrique est obtenue en intégrant la fonction discrète revient dans ce cas à une somme.
Identification des évènements. Pour chaque mot t 2 V@, l’intervalle qui maximise la magnitude d’impact, c’est-I = argmax
I
Mag(t, I).
¥XGPNQ¦
Þ§ŽD¨
NQ[[EK XGPNQ
D
XGPNQ
ZjgQEIGIh
E]]EEkgI[EIh
XGPNQ
NQ[[EK
q
!O
NQ[[EK
hgX]vs
Q
Q
hgX]vs
q
+ - +
13. Laboratoire ERIC
Université Lumière Lyon 2
Détecter les évènements
Méthode proposée : phase II
• Identifier les mots décrivant au mieux les évènements
Q
³XGPNQ
D
XGPNQ
ZjgQEIGIh
E]]EEkgI[EIh
!O¥¦
NQ[[EK
Q
• Identification des mots candidats selon la cooccurrence
• Sélection selon l’intensité de la corrélation entre leur fréquence
• Mesurée selon le coefficient de Erdem [Erdem12]
• Comparée à un seuil θ
• Générer la liste des k évènements ayant eu le plus grand impact
• Construction de la liste à l’aide du graphe des évènements
¥XGPNQ¦
D
NQ[[EK !O¥¦
XGPNQ
ZjgQEIGIh
E]]EEkgI[EIh
EZdO[I
D
Q
• Détection des évènements redondants selon
• La connectivité des mots principaux
• Le recouvrement des intervalles temporels, seuil σ
• Modélisation des redondances avec un second graphe
• Fusion des évènements dupliqués via l’analyse des composantes connexes
10
Page
Diffusion de l’information dans les médias sociaux
Modélisation et analyse
!O
XGPNQ
ÃÁÁÈ
/ 33 Soutenance de thèse - 25 novembre 2014 Adrien Guille
!Ç
q
³XGPNQ
D
¥XGPNQ¦
Þ§ŽD¨
NQ[[EK XGPNQ
ÃÁÁÈ
D
XGPNQ
ZjgQEIGIh
E]]EEkgI[EIh
XGPNQ
NQ[[EK
q
!O
EZdO[I
NQ[[EK
Q
Q
hgX]vs
EdQjY
!Ç
Q[pQjK
q
³XGPNQ
D
¥XGPNQ¦
Þ§ŽD¨
NQ[[EK XGPNQ
ÃÁÁÈ
XGPNQ
NQ[[EK
!O
EZdO[I
NQ[[EK
Q
Q
hgX]vs
EdQjY
!Ç
Q[pQjK
q
14. Laboratoire ERIC
Université Lumière Lyon 2
Détecter les évènements
Expérimentations
• Protocole
• Deux corpus : Cen (1,5·106 tweets [Yang11]) et Cfr (2·106 tweets [ANR ImagiWeb])
• Méthodes comparées : TS [Benhardus13] ET [Parikh13] et α-MABED
• Juges humains : 2 juges humains évaluent les top 40 évènements (κ = 0.72)
• Métriques d’évaluation : Précision, rappel, F-mesure, DERate [Li12], temps de calcul
• Évaluation quantitative
• MABED est la méthode la plus performante en terme de précision et de F-mesure
• Gain moyen concernant la F-mesure de 17,2% par rapport à α-MABED
• Gain plus important pour le corpus le plus bruité, Cen
Page
Diffusion de l’information dans les médias sociaux
Modélisation et analyse
/ 33 Soutenance de thèse - 25 novembre 2014 Adrien Guille
11
3.4. Expérimentations
Corpus : Cen
Méthode Précision F-mesure DERate Temps de calcul
MABED 0,775 0,682 0,193 96s
↵-MABED 0,625 0,571 0,160 126s
ET 0,575 0,575 0 3480s
TS2 0,600 0,514 0,250 80s
TS3 0,375 0,281 0,4 82s
Corpus : Cf r
Méthode Précision F-mesure DERate Temps de calcul
MABED 0,825 0,825 0 88s
↵-MABED 0,725 0,712 0,025 113s
ET 0,700 0.674 0,071 4620s
TS2 0,725 0,671 0,138 69s
TS3 0,700 0,616 0,214 74s
TABLE 3.4 – Performances des cinq méthodes sur les deux corpus.
3.4. Expérimentations
Corpus : Cen
Méthode Précision F-mesure DERate Temps de calcul
MABED 0,775 0,682 0,193 96s
↵-MABED 0,625 0,571 0,160 126s
ET 0,575 0,575 0 3480s
TS2 0,600 0,514 0,250 80s
TS3 0,375 0,281 0,4 82s
Corpus : Cf r
Méthode Précision F-mesure DERate Temps de calcul
MABED 0,825 0,825 0 88s
↵-MABED 0,725 0,712 0,025 113s
ET 0,700 0.674 0,071 4620s
TS2 0,725 0,671 0,138 69s
TS3 0,700 0,616 0,214 74s
TABLE 3.4 – Performances des cinq méthodes sur les deux corpus.
compte le comportement des utilisateurs des médias sociaux en matière de création
de mentions permet une détection plus robuste des évènements à partir d’un flux tweets bruité. Le DERate révèle que MABED n’a dédoublé aucun évènement signifi-catif
parmi ceux détectés dans Cf r, mais que – en dépit de la gestion explicite de redondance par le troisième composant – 6 (DERate = 0, 193) des 31 (P = 0, 775)
évènements significatifs détectés dans Cen sont redondants. Ce DERate reste toutefois
15. Laboratoire ERIC
Université Lumière Lyon 2
Détecter les évènements
Expérimentations
D
D
• Évaluation qualitative
• Extrait de la liste d’évènements détectés par MABED dans Cen
Page
Diffusion de l’information dans les médias sociaux
Modélisation et analyse
NQ[[EK • Graphe des redondances Graphe des évènements
Évènement #8
/ 33 Soutenance de thèse - 25 novembre 2014 Adrien Guille
12
# Intervalle Thématique
1 du 25 09h30 thanksgiving, turkey : hope (0.72), happy (0.71)
au 28 06h30 Les twittos célèbrent Thanksgiving
2 du 25 09h30 thankful : happy (0.77), thanksgiving (0.71)
au 27 09h00 Lié à l’évènement # 1
3 du 10 16h00 veterans : served (0.80), country (0.78), military (0.73), happy (0.72)
au 12 08h00 Commémoration du 11 novembre, « Veterans Day »
4 du 26 13h00 black : friday (0.95), amazon (0.75)
au 28 10h30 Les twittos discutent des offres proposées par Amazon la veille du « Black Friday »
5 du 07 13h30 hcr, bill, health, house, vote : reform (0.92), passed (0.91), passes (0.88)
au 09 04h30 La Chambre des représentants des États-Unis adopte la réforme de santé
6 du 05 19h30 hood, fort : ft (0.92), shooting (0.83), news (0.78), army (0.75), forthood (0.73)
au 08 09h00 Une fusillade a lieu dans l’enceinte de la base militaire américaine de Fort Hood
7 du 19 04h30 chrome : os (0.95), google (0.87), desktop (0.71)
au 21 02h30 Google rend public le code source de Chrome OS pour PC
8 du 27 18h00 tiger, woods : accident (0.91), car (0.88), crash (0.88), injured (0.80)
au 29 05h00 Tiger Woods est victime d’un accident de la route
9 du 28 22h30 tweetie, 2.1, app : retweets (0.93), store (0.90), native (0.89), geotagging (0.88)
au 30 23h30 L’application Tweetie sort sur l’apple store et inclut de nouvelles fonctions, e.g. retweets
10 du 29 17h00 monday, cyber : deals (0.84), pro (0.75)
au 30 23h30 Les twittos partagent les offres commerciales high-tech du « Cyber Monday »
11 du 10 01h00 linkedin : synced (0.86), updates (0.84), status (0.83), twitter (0.71)
au 12 03h00 Linkedin permet à ses utilisateurs de synchroniser leurs statuts avec Twitter
12 du 04 17h00 yankees, series : win (0.84), won (0.84), fans (0.78), phillies (0.73), york (0.72)
au 06 05h30 Les Yankees, l’équipe de baseball de New York remporte laWorld Series face aux Philies
13 du 15 09h00 obama : chinese (0.75), barack (0.72), twitter (0.72), china (0.70)
au 17 23h30 Lors d’une visite en Chine, Barack Obama admet n’avoir jamais utilisé Twitter
14 du 25 10h00 holiday : shopping (0.72)
au 26 10h00 Les twittos réagissent par rapport au « Black Friday », un jour férié dédié au shopping
15 du 19 21h30 oprah, end : talk (0.81), show (0.79), 2011 (0.73), winfrey (0.71)
au 21 16h00 Oprah Winfrey annonce la fin de son talk-show en septembre 2011
16 du 07 11h30 healthcare, reform : house (0.91), bill (0.88), passes (0.83), vote (0.83)
au 09 05h00 Lié à l’évènement #5
17 du 11 03h30 facebook : app (0.74), twitter (0.73)
au 13 08h30 Pas d’évènement correspondant
XGPNQ
ÃÁÁÈ
XGPNQ
ZjgQEIGIh
E]]EEkgI[EIh
XGPNQ
NQ[[EK
q
!O
EZdO[I
NQ[[EK
Q
Q
hgX]vs
EdQjY
!Ç
Q[pQjK
q
dd jqIIjQI
ÃÂ
P]]G N]gj
Z][Gs EsDIg jQOIg q]]Gh
EEQGI[j jQOIg
q]]Gh
EghP
Eg
gdPIGIhgIG][G[EIh gdPIGIhKpJ[IZI[jh
p[jNkhQ][
EEQGI[j jQOIg
q]]Gh
EghP
Q[WkgIG
NQ[[EK XGPNQ
ÃÁÁÈ
XGPNQ
ZjgQEIGIh
E]]EEkgI[EIh
XGPNQ
NQ[[EK
q
!O
EZdO[I
NQ[[EK
Q
Q
hgX]vs
EdQjY
!Ç
Q[pQjK
q
dd jqIIjQI
ÃÂ
P]]G N]gj
Z][Gs EsDIg jQOIg q]]Gh
EEQGI[j jQOIg
q]]Gh
EghP
Eg
gdPIGIhgIG][G[EIh gdPIGIhKpJ[IZI[jh
p[jNkhQ][
EEQGI[j jQOIg
q]]Gh
EghP
Eg
Q[WkgIG
16. Laboratoire ERIC
Université Lumière Lyon 2
Détecter les évènements
Expérimentations
D
D
• Évaluation qualitative
• Extrait de la liste d’évènements détectés par MABED dans Cen
Page
Diffusion de l’information dans les médias sociaux
Modélisation et analyse
NQ[[EK • Graphe des redondances Graphe des évènements
/ 33 Soutenance de thèse - 25 novembre 2014 Adrien Guille
12
# Intervalle Thématique
1 du 25 09h30 thanksgiving, turkey : hope (0.72), happy (0.71)
au 28 06h30 Les twittos célèbrent Thanksgiving
2 du 25 09h30 thankful : happy (0.77), thanksgiving (0.71)
au 27 09h00 Lié à l’évènement # 1
3 du 10 16h00 veterans : served (0.80), country (0.78), military (0.73), happy (0.72)
au 12 08h00 Commémoration du 11 novembre, « Veterans Day »
4 du 26 13h00 black : friday (0.95), amazon (0.75)
au 28 10h30 Les twittos discutent des offres proposées par Amazon la veille du « Black Friday »
5 du 07 13h30 hcr, bill, health, house, vote : reform (0.92), passed (0.91), passes (0.88)
au 09 04h30 La Chambre des représentants des États-Unis adopte la réforme de santé
6 du 05 19h30 hood, fort : ft (0.92), shooting (0.83), news (0.78), army (0.75), forthood (0.73)
au 08 09h00 Une fusillade a lieu dans l’enceinte de la base militaire américaine de Fort Hood
7 du 19 04h30 chrome : os (0.95), google (0.87), desktop (0.71)
au 21 02h30 Google rend public le code source de Chrome OS pour PC
8 du 27 18h00 tiger, woods : accident (0.91), car (0.88), crash (0.88), injured (0.80)
au 29 05h00 Tiger Woods est victime d’un accident de la route
9 du 28 22h30 tweetie, 2.1, app : retweets (0.93), store (0.90), native (0.89), geotagging (0.88)
au 30 23h30 L’application Tweetie sort sur l’apple store et inclut de nouvelles fonctions, e.g. retweets
10 du 29 17h00 monday, cyber : deals (0.84), pro (0.75)
au 30 23h30 Les twittos partagent les offres commerciales high-tech du « Cyber Monday »
11 du 10 01h00 linkedin : synced (0.86), updates (0.84), status (0.83), twitter (0.71)
au 12 03h00 Linkedin permet à ses utilisateurs de synchroniser leurs statuts avec Twitter
12 du 04 17h00 yankees, series : win (0.84), won (0.84), fans (0.78), phillies (0.73), york (0.72)
au 06 05h30 Les Yankees, l’équipe de baseball de New York remporte laWorld Series face aux Philies
13 du 15 09h00 obama : chinese (0.75), barack (0.72), twitter (0.72), china (0.70)
au 17 23h30 Lors d’une visite en Chine, Barack Obama admet n’avoir jamais utilisé Twitter
14 du 25 10h00 holiday : shopping (0.72)
au 26 10h00 Les twittos réagissent par rapport au « Black Friday », un jour férié dédié au shopping
15 du 19 21h30 oprah, end : talk (0.81), show (0.79), 2011 (0.73), winfrey (0.71)
au 21 16h00 Oprah Winfrey annonce la fin de son talk-show en septembre 2011
16 du 07 11h30 healthcare, reform : house (0.91), bill (0.88), passes (0.83), vote (0.83)
au 09 05h00 Lié à l’évènement #5
17 du 11 03h30 facebook : app (0.74), twitter (0.73)
au 13 08h30 Pas d’évènement correspondant
XGPNQ
ÃÁÁÈ
XGPNQ
ZjgQEIGIh
E]]EEkgI[EIh
XGPNQ
NQ[[EK
q
!O
EZdO[I
NQ[[EK
Q
Q
hgX]vs
EdQjY
!Ç
Q[pQjK
q
dd jqIIjQI
ÃÂ
P]]G N]gj
Z][Gs EsDIg jQOIg q]]Gh
EEQGI[j jQOIg
q]]Gh
EghP
Eg
gdPIGIhgIG][G[EIh gdPIGIhKpJ[IZI[jh
p[jNkhQ][
EEQGI[j jQOIg
q]]Gh
EghP
Eg
Q[WkgIG
NQ[[EK XGPNQ
ÃÁÁÈ
XGPNQ
ZjgQEIGIh
E]]EEkgI[EIh
XGPNQ
NQ[[EK
q
!O
EZdO[I
NQ[[EK
Q
Q
hgX]vs
EdQjY
!Ç
Q[pQjK
q
dd jqIIjQI
ÃÂ
P]]G N]gj
Z][Gs EsDIg jQOIg q]]Gh
EEQGI[j jQOIg
q]]Gh
EghP
Eg
gdPIGIhgIG][G[EIh gdPIGIhKpJ[IZI[jh
p[jNkhQ][
EEQGI[j jQOIg
q]]Gh
EghP
Eg
Q[WkgIG
jQOIg
EEQGI[j q]]Gh
q]]Gh
EghP
gdPIGIhKpJ[IZI[jh
dgJhNkhQ][
Évènement #8
17. Laboratoire ERIC
Université Lumière Lyon 2
Détecter les évènements
Expérimentations
D
• Évaluation qualitative
• Extrait de la liste d’évènements détectés par MABED dans Cen
Page
Diffusion de l’information dans les médias sociaux
Modélisation et analyse
NQ[[EK • Graphe des redondances Graphe des évènements
Évènement #8
/ 33 Soutenance de thèse - 25 novembre 2014 Adrien Guille
12
# Intervalle Thématique
1 du 25 09h30 thanksgiving, turkey : hope (0.72), happy (0.71)
au 28 06h30 Les twittos célèbrent Thanksgiving
2 du 25 09h30 thankful : happy (0.77), thanksgiving (0.71)
au 27 09h00 Lié à l’évènement # 1
3 du 10 16h00 veterans : served (0.80), country (0.78), military (0.73), happy (0.72)
au 12 08h00 Commémoration du 11 novembre, « Veterans Day »
4 du 26 13h00 black : friday (0.95), amazon (0.75)
au 28 10h30 Les twittos discutent des offres proposées par Amazon la veille du « Black Friday »
5 du 07 13h30 hcr, bill, health, house, vote : reform (0.92), passed (0.91), passes (0.88)
au 09 04h30 La Chambre des représentants des États-Unis adopte la réforme de santé
6 du 05 19h30 hood, fort : ft (0.92), shooting (0.83), news (0.78), army (0.75), forthood (0.73)
au 08 09h00 Une fusillade a lieu dans l’enceinte de la base militaire américaine de Fort Hood
7 du 19 04h30 chrome : os (0.95), google (0.87), desktop (0.71)
au 21 02h30 Google rend public le code source de Chrome OS pour PC
8 du 27 18h00 tiger, woods : accident (0.91), car (0.88), crash (0.88), injured (0.80)
au 29 05h00 Tiger Woods est victime d’un accident de la route
9 du 28 22h30 tweetie, 2.1, app : retweets (0.93), store (0.90), native (0.89), geotagging (0.88)
au 30 23h30 L’application Tweetie sort sur l’apple store et inclut de nouvelles fonctions, e.g. retweets
10 du 29 17h00 monday, cyber : deals (0.84), pro (0.75)
au 30 23h30 Les twittos partagent les offres commerciales high-tech du « Cyber Monday »
11 du 10 01h00 linkedin : synced (0.86), updates (0.84), status (0.83), twitter (0.71)
au 12 03h00 Linkedin permet à ses utilisateurs de synchroniser leurs statuts avec Twitter
12 du 04 17h00 yankees, series : win (0.84), won (0.84), fans (0.78), phillies (0.73), york (0.72)
au 06 05h30 Les Yankees, l’équipe de baseball de New York remporte laWorld Series face aux Philies
13 du 15 09h00 obama : chinese (0.75), barack (0.72), twitter (0.72), china (0.70)
au 17 23h30 Lors d’une visite en Chine, Barack Obama admet n’avoir jamais utilisé Twitter
14 du 25 10h00 holiday : shopping (0.72)
au 26 10h00 Les twittos réagissent par rapport au « Black Friday », un jour férié dédié au shopping
15 du 19 21h30 oprah, end : talk (0.81), show (0.79), 2011 (0.73), winfrey (0.71)
au 21 16h00 Oprah Winfrey annonce la fin de son talk-show en septembre 2011
16 du 07 11h30 healthcare, reform : house (0.91), bill (0.88), passes (0.83), vote (0.83)
au 09 05h00 Lié à l’évènement #5
17 du 11 03h30 facebook : app (0.74), twitter (0.73)
au 13 08h30 Pas d’évènement correspondant
XGPNQ
ÃÁÁÈ
XGPNQ
ZjgQEIGIh
E]]EEkgI[EIh
XGPNQ
NQ[[EK
q
!O
EZdO[I
NQ[[EK
Q
Q
hgX]vs
EdQjY
!Ç
Q[pQjK
q
dd jqIIjQI
ÃÂ
P]]G N]gj
Z][Gs EsDIg jQOIg q]]Gh
EEQGI[j jQOIg
q]]Gh
EghP
Eg
gdPIGIhgIG][G[EIh gdPIGIhKpJ[IZI[jh
p[jNkhQ][
EEQGI[j jQOIg
q]]Gh
EghP
Eg
Q[WkgIG
18. Laboratoire ERIC
Université Lumière Lyon 2
Détecter les évènements
Expérimentations
D
D
• Évaluation qualitative
• Extrait de la liste d’évènements détectés par MABED dans Cen
Page
Diffusion de l’information dans les médias sociaux
Modélisation et analyse
NQ[[EK • Graphe des redondances Graphe des évènements
/ 33 Soutenance de thèse - 25 novembre 2014 Adrien Guille
12
# Intervalle Thématique
1 du 25 09h30 thanksgiving, turkey : hope (0.72), happy (0.71)
au 28 06h30 Les twittos célèbrent Thanksgiving
2 du 25 09h30 thankful : happy (0.77), thanksgiving (0.71)
au 27 09h00 Lié à l’évènement # 1
3 du 10 16h00 veterans : served (0.80), country (0.78), military (0.73), happy (0.72)
au 12 08h00 Commémoration du 11 novembre, « Veterans Day »
4 du 26 13h00 black : friday (0.95), amazon (0.75)
au 28 10h30 Les twittos discutent des offres proposées par Amazon la veille du « Black Friday »
5 du 07 13h30 hcr, bill, health, house, vote : reform (0.92), passed (0.91), passes (0.88)
au 09 04h30 La Chambre des représentants des États-Unis adopte la réforme de santé
6 du 05 19h30 hood, fort : ft (0.92), shooting (0.83), news (0.78), army (0.75), forthood (0.73)
au 08 09h00 Une fusillade a lieu dans l’enceinte de la base militaire américaine de Fort Hood
7 du 19 04h30 chrome : os (0.95), google (0.87), desktop (0.71)
au 21 02h30 Google rend public le code source de Chrome OS pour PC
8 du 27 18h00 tiger, woods : accident (0.91), car (0.88), crash (0.88), injured (0.80)
au 29 05h00 Tiger Woods est victime d’un accident de la route
9 du 28 22h30 tweetie, 2.1, app : retweets (0.93), store (0.90), native (0.89), geotagging (0.88)
au 30 23h30 L’application Tweetie sort sur l’apple store et inclut de nouvelles fonctions, e.g. retweets
10 du 29 17h00 monday, cyber : deals (0.84), pro (0.75)
au 30 23h30 Les twittos partagent les offres commerciales high-tech du « Cyber Monday »
11 du 10 01h00 linkedin : synced (0.86), updates (0.84), status (0.83), twitter (0.71)
au 12 03h00 Linkedin permet à ses utilisateurs de synchroniser leurs statuts avec Twitter
12 du 04 17h00 yankees, series : win (0.84), won (0.84), fans (0.78), phillies (0.73), york (0.72)
au 06 05h30 Les Yankees, l’équipe de baseball de New York remporte laWorld Series face aux Philies
13 du 15 09h00 obama : chinese (0.75), barack (0.72), twitter (0.72), china (0.70)
au 17 23h30 Lors d’une visite en Chine, Barack Obama admet n’avoir jamais utilisé Twitter
14 du 25 10h00 holiday : shopping (0.72)
au 26 10h00 Les twittos réagissent par rapport au « Black Friday », un jour férié dédié au shopping
15 du 19 21h30 oprah, end : talk (0.81), show (0.79), 2011 (0.73), winfrey (0.71)
au 21 16h00 Oprah Winfrey annonce la fin de son talk-show en septembre 2011
16 du 07 11h30 healthcare, reform : house (0.91), bill (0.88), passes (0.83), vote (0.83)
au 09 05h00 Lié à l’évènement #5
17 du 11 03h30 facebook : app (0.74), twitter (0.73)
au 13 08h30 Pas d’évènement correspondant
XGPNQ
ÃÁÁÈ
XGPNQ
ZjgQEIGIh
E]]EEkgI[EIh
XGPNQ
NQ[[EK
q
!O
EZdO[I
NQ[[EK
Q
Q
hgX]vs
EdQjY
!Ç
Q[pQjK
q
dd jqIIjQI
ÃÂ
P]]G N]gj
Z][Gs EsDIg jQOIg q]]Gh
EEQGI[j jQOIg
q]]Gh
EghP
Eg
gdPIGIhgIG][G[EIh gdPIGIhKpJ[IZI[jh
p[jNkhQ][
EEQGI[j jQOIg
q]]Gh
EghP
Eg
Q[WkgIG
XGPNQ
ÃÁÁÈ
XGPNQ
NQ[[EK
q
!O
EZdO[I
Q
Q
hgX]vs
EdQjY
!Ç
Q[pQjK
q
N]gj
EEQGI[j jQOIg
q]]Gh
EghP
Eg
gdPIGIhKpJ[IZI[jh
p[jNkhQ][
EEQGI[j jQOIg
q]]Gh
EghP
Eg
Q[WkgIG
jQOIg
EEQGI[j q]]Gh
q]]Gh
EghP
Eg
gdPIGIhKpJ[IZI[jh
dgJhNkhQ][
Q[WkgIG
Évènement #8
19. Laboratoire ERIC
Université Lumière Lyon 2
Diffusion de l’information dans les médias sociaux
Modélisation et analyse
Seconde contribution
Modéliser et prévoir la
diffusion de l’information
dans les médias sociaux
Soutenance de thèse - 25 novembre 2014 Adrien Guille
20. Laboratoire ERIC
Université Lumière Lyon 2
Modéliser et prévoir la diffusion
Introduction
• Comment modéliser et prévoir la diffusion de l’information dans les
médias sociaux ?
• Tâche ardue en raison de l’intrication entre
• Les dynamiques humaines
• Les structures sociales
• On en sait encore peu à propos des facteurs qui gouvernent la diffusion de
Page
Diffusion de l’information dans les médias sociaux
Modélisation et analyse
l’information
/ 33 Soutenance de thèse - 25 novembre 2014 Adrien Guille
14
™
?
21. Laboratoire ERIC
Université Lumière Lyon 2
Modéliser et prévoir la diffusion
État de l’art et proposition
• Approches existantes
• Modélisation ignorant la structure du réseau [Leskovec07, Yang10, Wang12]
• Modélisation basée sur la structure du réseau [Saito10, Galuba10, Motoda11]
• Limitations des approches existantes
• Perte d’information en ignorant la structure du réseau [Katona11]
• Estimation coûteuse des paramètres des modèles basés sur le réseau
• Modèles prédictifs mais pas explicatifs
• Proposition
• Modèle basé sur la structure du réseau
• Formulation des paramètres comme des fonctions de caractéristiques observables
Page
Diffusion de l’information dans les médias sociaux
Modélisation et analyse
des utilisateurs
/ 33 Soutenance de thèse - 25 novembre 2014 Adrien Guille
15
22. Laboratoire ERIC
Université Lumière Lyon 2
Modéliser et prévoir la diffusion
Méthode proposée
• T-BASIC : Time-Based ASynchronous Independent Cascades
• Entrée
• Structure du réseau
• Activité passée des utilisateurs
• Thématique à étudier
Page
Diffusion de l’information dans les médias sociaux
Modélisation et analyse
• Décrite par un mot principal et un
dÂÃ¥j¦
d¥j¦ dÃÄ¥j¦ ÄÂ
IhjIrd]hK=
/ 33 Soutenance de thèse - 25 novembre 2014 Adrien Guille
16
ensemble de mots liés
• Ensemble d’utilisateurs initiant la
diffusion de la thématique
• Sortie
• Série temporelle traduisant l’évolution
du nombre d’utilisateurs relayant
l’information décrite par la thématique
kÃ
kÄ
ˆÂÃ
ˆÄÃ
ˆÄÂ
ˆÃÄ
dÄÃ¥j¦
hjQZIgYIh
dg]DDQYQjKhGI
GQNNkhQ][IjYIh
GKYQhGI
jg[hZQhhQ][
/
jIZdh
Q[NYkI[EK
YKOI[GI
YKOI[GI
j
kÂ
+gKp]QgY
GQNNkhQ][=dgjQg
G’k[I[hIZDYI/
G’kjQYQhjIkgh
Q[QjQYIZI[j
Q[N]gZKh
.
/+.!0./
+.6/$ 1/$
23. Laboratoire ERIC
Université Lumière Lyon 2
Modéliser et prévoir la diffusion
Méthode proposée
• T-BASIC : Time-Based ASynchronous Independent Cascades
• Entrée
• Structure du réseau
• Activité passée des utilisateurs
• Thématique à étudier
Page
Diffusion de l’information dans les médias sociaux
Modélisation et analyse
• Décrite par un mot principal et un
dÂÃ¥j¦
d¥j¦ dÃÄ¥j¦ ÄÂ
IhjIrd]hK=
/ 33 Soutenance de thèse - 25 novembre 2014 Adrien Guille
16
ensemble de mots liés
• Ensemble d’utilisateurs initiant la
diffusion de la thématique
• Sortie
• Série temporelle traduisant l’évolution
du nombre d’utilisateurs relayant
l’information décrite par la thématique
kÃ
kÄ
ˆÂÃ
ˆÄÃ
ˆÄÂ
ˆÃÄ
dÄÃ¥j¦
hjQZIgYIh
dg]DDQYQjKhGI
GQNNkhQ][IjYIh
GKYQhGI
jg[hZQhhQ][
/
jIZdh
Q[NYkI[EK
YKOI[GI
YKOI[GI
j
kÂ
+gKp]QgY
GQNNkhQ][=dgjQg
G’k[I[hIZDYI/
G’kjQYQhjIkgh
Q[QjQYIZI[j
Q[N]gZKh
.
/+.!0./
+.6/$ 1/$
24. Laboratoire ERIC
Université Lumière Lyon 2
Modéliser et prévoir la diffusion
Méthode proposée : description du modèle
• Modèle probabiliste
• Extension du modèle AsIC [Saito10]
• Deux paramètres pour chaque lien (ux →uy)
• pux,uy(t) ∈ [0;1] : probabilité que l’utilisateur uy
• Déroulement de la prévision
• Ensemble S d’utilisateurs initialement activés
• Un utilisateur uy nouvellement activé à l’instant t
Page
Diffusion de l’information dans les médias sociaux
Modélisation et analyse
influence ux à l’instant t
• μux,uy 0 : délai après lequel ux publie un message
si uy l’a influencé
influence ses voisins inactifs ux avec la probabilité
pux,uy(t)
• En cas de succès, ux devient actif en t+μux,uy
dÂÃ¥j¦
dÂÃ¥j¦
d¥j¦ dÃÄ¥j¦ ÄÂ
d¥j¦ dÃÄ¥j¦ ÄÂ
IhjIrd]hK=
IhjIrd]hK=
/ 33 Soutenance de thèse - 25 novembre 2014 Adrien Guille
17
kÃ
kÄ
ˆÂÃ
ˆÄÃ
ˆÄÂ
ˆÃÄ
dÄÃ¥j¦
/
jIZdh
Q[NYkI[EK
YKOI[GI
YKOI[GI
j
kÂ
kÃ
kÄ
ˆÂÃ
ˆÄÃ
ˆÄÂ
ˆÃÄ
dÄÃ¥j¦
/
jIZdh
Q[NYkI[EK
YKOI[GI
YKOI[GI
j
kÂ
25. pux,— Deuxièmement, l’utilisateur uz est exposé aux messages publiés par uy, c’est-à-
Laboratoire ERIC
Université Lumière Lyon 2
dire qu’il n’apparaît pas dans la séquence d’activation ;
instance positive : (vt y
dire qu’il appartient à l’ensemble uy, l’ensemble des voisins entrants de uy
dans G.
Modéliser et prévoir la diffusion
Méthode proposée : estimation des paramètres
• Caractérisation des paires d’utilisateurs
Ainsi, pour un utilisateur uz satisfaisant ces conditions, nous construisons une ins-tance
négative : (vt y
, 0). Au final, nous obtenons un jeu de données équilibré à
uz,uy4.3. Méthode proposée
partir duquel nous pouvons estimer la fonction f . La figure 4.6 illustre ce processus :
les noeuds u1, u2 et u3 ont relayé l’information décrite par une thématique T respec-tivement
4.3. Méthode proposée
4.3. Méthode 4.3. Méthode proposée
FIGURE 4.7 – Représentation du classifieur linéaire construit à partir de la degré d’activité de l’utilisateur ux, Ac(ux), c’est-à-dire : μux,uy = g(Ac(particulièrement, nous définissons g de la façon suivante, de sorte que transmission minimum soit d’une heure :
yi = 1, nous créons l’instance suivante (Ac(ux),ux,uy), où ux,uy est délai de transmission entre uy et ux exprimé en heures. Autrement dit, pour
chaque paire d’utilisateurs (ux,uy) identifiée lors de la construction du jeu • Vecteur v de en 13 t1, attributs t2 et t3, tandis ∈ [0;que 1] les : aspects noeuds u4 sociaux, et u5 n’ont thématiques pas relayé l’information.
et temporels
• Formulation Estimation et estimation des paramètres des de paramètres
f. Nous définissons la probabilité pux,uy(t) – la
• probabilité que l’utilisateur uy influence ux à un instant t à propos d’une théma-tique
Probabilité de diffusion : fonction sigmoïde d’une combinaison linéaire de v
donnée – comme une fonction du vecteur d’attributs les décrivant, c’est-à-dire :
FIGURE 4.7 – Représentation du classifieur linéaire construit à partir de la fonction f .
FIGURE 4.7 – Représentation du classifieur linéaire construit à partir de la fonction degré d’activité de l’utilisateur ux, Ac(ux), c’est-à-dire : μux,uy = g(Ac(ux)). particulièrement, nous définissons g de la façon suivante, de sorte que le délai transmission minimum soit d’une heure :
• Maximisation de la vraisemblance
degré d’activité de l’utilisateur ux, Ac(ux), c’est-à-dire : μux,uy = g(Ac(ux)). Plus
particulièrement, nous définissons g de la façon suivante, de sorte que le délai de
transmission minimum soit d’une heure :
linéaire construit à partir de la fonction f .
• Délai de transmission : fonction du degré d’activité de ux
c’est-à-dire : μux,uy = g(Ac(ux)). Plus
façon suivante, de sorte que le délai de
Page
Diffusion de l’information dans les médias sociaux
Modélisation et analyse
g(Ac(ux)) =
(
(
w0 g(+ w1Ac(ux) si w0 ux)) + w1Ac(ux) 1,
Ac(1 =
sinon.
(
w0 + w1Ac(si ux) w0 + si w1Ac(w0 + ux) w1Ac( 1,
ux) 1,
1 sinon.
g(Ac(ux)) =
1 sinon.
Pour estimer les paramètres w0 et w1, nous construisons un jeu de données dérivé
Pour estimer les paramètres w0 et w1, nous construisons un jeu de données dérivé
Pour estimer les paramètres w0 et w1, nous construisons un jeu de données de D, noté D0. Ce jeu de données est constitué de m = n/2 instances décrites variables • Minimisation du critère des moindres carrés
bw = argmin
de D, noté D0. Ce jeu de données est constitué de m = n/2 instances décrites par deux
variables (xi , zi), selon le principe suivant :
de D, noté D0. Ce jeu de données est constitué de m = n/2 instances décrites par deux
variables (xi , zi), (selon xi , zi), le selon principe le principe suivant suivant :
:
g( g(
yi = 1, nous créons l’instance suivante (Ac(ux),ux,uy), où délai de transmission entre uy et ux exprimé en heures. Autrement chaque paire d’utilisateurs (ux,uy) identifiée lors de la construction — Pour chaque instance (vi , yi) de D décrite par un vecteur vi = vux,uy et telle
— Pour chaque instance (vi , yi) de D décrite par un vecteur vi = vux,uy et que — Pour chaque instance (vi , yi) de D décrite par un vecteur vi = vux,que / 33 Soutenance de thèse - 25 novembre 2014 Adrien Guille
18
uy(t) = f (vt
ux,uy). Comme nous souhaitons que cette fonction soit interprétable et
nous permettent d’analyser l’impact des différents attributs sur la probabilité de dif-fusion,
nous proposons d’exprimer f comme une fonction monotone à valeurs dans
[0; 1] d’une combinaison linéaire des composantes du vecteur d’attributs v de la forme
P13
w0 +
j=1 wj vj . Pour simplifier l’écriture de cette combinaison linéaire, nous modi-fions
le vecteur v de sorte à avoir v0 = 1, ce qui nous permet de la ré-écrire comme
le produit scalaire w · v. La fonction f étant monotone, l’analyse du vecteur de coef-ficients
w permet de quantifier l’impact, négatif ou positif, des différents attributs sur
la probabilité de diffusion de l’information entre deux utilisateurs. Plusieurs formes
paramétriques pour la fonction f sont envisageables. Nous choisissons ici d’utiliser la
fonction sigmoïde et définissons donc f de la manière suivante :
f (v) =
exp(w · v)
1+exp(w · v)
.
110
pux,uy(t) = f (vt
ux,uy). Comme nous souhaitons que cette fonction soit interprétable et
nous permettent d’analyser l’impact des différents attributs sur la probabilité de dif-fusion,
nous proposons d’exprimer f comme une fonction monotone à valeurs dans
[0; 1] d’une combinaison linéaire des composantes du vecteur d’attributs v de la forme
P13
w0 +
j=1 wj vj . Pour simplifier l’écriture de cette combinaison linéaire, nous modi-fions
le vecteur v de sorte à avoir v0 = 1, ce qui nous permet de la ré-écrire comme
le produit scalaire w · v. La fonction f étant monotone, l’analyse du vecteur de coef-ficients
w permet de quantifier l’impact, négatif ou positif, des différents attributs sur
la probabilité de diffusion de l’information entre deux utilisateurs. Plusieurs formes
paramétriques pour la fonction f sont envisageables. Nous choisissons ici d’utiliser la
fonction sigmoïde et définissons donc f de la manière suivante :
f (v) =
exp(w · v)
1+exp(w · v)
.
bw = argmax
w
L(D,wwb),= argmax
w
`(D,w).
4.3. Méthode proposée
FIGURE 4.7 – Représentation du classifieur linéaire construit à partir de la fonction f .
degré d’activité de l’utilisateur ux, Ac(ux), c’est-à-dire : μux,uy = g(Ac(ux)). Plus
particulièrement, nous définissons g de la façon suivante, de sorte que le délai de
transmission minimum soit d’une heure :
ux)) =
(
w0 + w1Ac(ux) si w0 + w1Ac(ux) 1,
1 sinon.
Pour estimer les paramètres w0 et w1, nous construisons un jeu de données dérivé
de D, noté D0. Ce jeu de données est constitué de m = n/2 instances décrites par deux
variables (xi , zi), selon le principe suivant :
— Pour chaque instance (vi , yi) de D décrite par un vecteur vi = vux,uy et telle
que yi = 1, nous créons l’instance suivante (Ac(ux),uy), où est le
ux) si w0 + w1Ac(ux) 1,
sinon.
w0,w1
Xm
i=1
(zi − w0 − w1xi)2.
ux,uy, 1). Les valeurs des attributs Re(ux) et Re(uy) – qui me-surent
la réceptivité des utilisateurs – sont mesurées en t y, c’est-à-dire au moment
de la journée où uy a relayé l’information. Les attributs Th(ux) et Th(uy) sont quant
à eux évalués pour le terme principal de la thématique T. Par ailleurs, pour chaque
paire (ux,uy) identifiée à partir de la séquence d’activation liée à la thématique T,
nous choisissons un utilisateur uz, tel que :
— Premièrement, l’utilisateur uz n’a pas relayé l’information décrite par T, c’est-à-
dire qu’il n’apparaît pas dans la séquence d’activation ;
— Deuxièmement, l’utilisateur uz est exposé aux messages publiés par uy, c’est-à-
dire qu’il appartient à l’ensemble uy, l’ensemble des voisins entrants de uy
dans G.
Ainsi, pour un utilisateur uz satisfaisant ces conditions, nous construisons une ins-tance
négative : (vt y
uz,uy, 0). Au final, nous obtenons un jeu de données équilibré à
partir duquel nous pouvons estimer la fonction f . La figure 4.6 illustre ce processus :
les noeuds u1, u2 et u3 ont relayé l’information décrite par une thématique T respec-tivement
en t1, t2 et t3, tandis que les noeuds u4 et u5 n’ont pas relayé l’information.
Estimation des paramètres de f. Nous définissons la probabilité pux,uy(t) – la
probabilité que l’utilisateur uy influence ux à un instant t à propos d’une théma-tique
donnée – comme une fonction du vecteur d’attributs les décrivant, c’est-à-dire :
pux,uy(t) = f (vt
ux,uy). Comme nous souhaitons que cette fonction soit interprétable et
nous permettent d’analyser l’impact des différents attributs sur la probabilité de dif-fusion,
nous proposons d’exprimer f comme une fonction monotone à valeurs dans
[0; 1] d’une combinaison linéaire des composantes du vecteur d’attributs v de la forme
P13
w0 +
j=1 wj vj . Pour simplifier l’écriture de cette combinaison linéaire, nous modi-fions
le vecteur v de sorte à avoir v0 = 1, ce qui nous permet de la ré-écrire comme
le produit scalaire w · v. La fonction f étant monotone, l’analyse du vecteur de coef-ficients
w permet de quantifier l’impact, négatif ou positif, des différents attributs sur
la probabilité de diffusion de l’information entre deux utilisateurs. Plusieurs formes
paramétriques pour la fonction f sont envisageables. Nous choisissons ici d’utiliser la
fonction sigmoïde et définissons donc f de la manière suivante :
f (v) =
exp(w · v)
1+exp(w · v)
.
110
4.3. Méthode proposée
instance positive : (vt y
ux,uy, 1). Les valeurs des attributs Re(ux) et Re(uy) – qui me-surent
la réceptivité des utilisateurs – sont mesurées en t y, c’est-à-dire au moment
de la journée où uy a relayé l’information. Les attributs Th(ux) et Th(uy) sont quant
à eux évalués pour le terme principal de la thématique T. Par ailleurs, pour chaque
paire (ux,uy) identifiée à partir de la séquence d’activation liée à la thématique T,
nous choisissons un utilisateur uz, tel que :
— Premièrement, l’utilisateur uz n’a pas relayé l’information décrite par T, c’est-à-
dire qu’il n’apparaît pas dans la séquence d’activation ;
— Deuxièmement, l’utilisateur uz est exposé aux messages publiés par uy, c’est-à-
dire qu’il appartient à l’ensemble uy, l’ensemble des voisins entrants de uy
dans G.
Ainsi, pour un utilisateur uz satisfaisant ces conditions, nous construisons une ins-tance
négative : (vt y
uz,uy, 0). Au final, nous obtenons un jeu de données équilibré à
partir duquel nous pouvons estimer la fonction f . La figure 4.6 illustre ce processus :
les noeuds u1, u2 et u3 ont relayé l’information décrite par une thématique T respec-tivement
en t1, t2 et t3, tandis que les noeuds u4 et u5 n’ont pas relayé l’information.
Estimation des paramètres de f. Nous définissons la probabilité pux,uy(t) – la
probabilité que l’utilisateur uy influence ux à un instant t à propos d’une théma-tique
donnée – comme une fonction du vecteur d’attributs les décrivant, c’est-à-dire :
pux,uy(t) = f (vt
ux,uy). Comme nous souhaitons que cette fonction soit interprétable et
nous permettent d’analyser l’impact des différents attributs sur la probabilité de dif-fusion,
nous proposons d’exprimer f comme une fonction monotone à valeurs dans
[0; 1] d’une combinaison linéaire des composantes du vecteur d’attributs v de la forme
P13
w0 +
j=1 wj vj . Pour simplifier l’écriture de cette combinaison linéaire, nous modi-fions
le vecteur v de sorte à avoir v0 = 1, ce qui nous permet la ré-écrire comme
le produit scalaire w · v. La fonction f étant monotone, l’analyse du vecteur de coef-ficients
w permet de quantifier l’impact, négatif ou positif, des différents attributs sur
la probabilité de diffusion de l’information entre deux utilisateurs. Plusieurs formes
paramétriques pour la fonction f sont envisageables. Nous choisissons ici d’utiliser la
fonction sigmoïde et définissons donc f de la manière suivante :
f (v) =
exp(w · v)
1+exp(w · v)
.
110
) = f ) = f ) = f
f ( f (
4.3. Méthode proposée
FIGURE 4.7 – Représentation du classifieur linéaire construit à partir de la fonction f .
degré d’activité de l’utilisateur ux, Ac(ux), c’est-à-dire : μux,uy = g(Ac(ux)). Plus
particulièrement, nous définissons g de la façon suivante, de sorte que le délai de
transmission minimum soit d’une heure :
g(Ac(ux)) =
(
w0 + w1Ac(ux) si w0 + w1Ac(ux) 1,
1 sinon.
Pour estimer les paramètres w0 et w1, nous construisons un jeu de données dérivé
de D, noté D0. Ce jeu de données est constitué de m = n/2 instances décrites par deux
variables (xi , zi), selon le principe suivant :
— Pour chaque instance (vi , yi) de D décrite par un vecteur vi = vux,uy et telle
que yi = 1, nous créons l’instance suivante (Ac(ux),ux,uy), où ux,uy est le
délai de transmission entre uy et ux exprimé en heures. Autrement dit, pour
chaque paire d’utilisateurs (ux,uy) identifiée lors de la construction du jeu de
que yi = 1, nous créons l’instance suivante (Ac(ux),ux,uy), où ux,uy est le
délai de transmission entre uy et ux exprimé en heures. Autrement dit, pour
chaque paire d’utilisateurs (ux,uy) identifiée lors de la construction du jeu de
g( g(
g(
26. degré d’activité pux,de l’utilisateur ux, Ac(ux), c’est-à-dire : μux,uy = g(Ac(ux)). Plus
particulièrement, nous définissons g de la façon suivante, de sorte que le délai de
transmission minimum soit d’une heure :
— Deuxièmement, l’utilisateur uz est exposé aux messages publiés par uy, c’est-à-
Laboratoire ERIC
Université Lumière Lyon 2
dire qu’il n’apparaît pas dans la séquence d’activation ;
instance positive : (vt y
ux,uy, 1). Les valeurs des attributs Re(ux) et Re(uy) – qui me-surent
la réceptivité des utilisateurs – sont mesurées en t y, c’est-à-dire au moment
dire qu’il appartient à l’ensemble uy, l’ensemble des voisins entrants de uy
dans G.
de la journée où uy a relayé l’information. Les attributs Th(ux) et Th(uy) sont quant
à eux évalués pour le terme principal de la thématique T. Par ailleurs, pour chaque
paire (ux,uy) identifiée à partir de la séquence d’activation liée à la thématique T,
nous choisissons un utilisateur uz, tel que :
Modéliser et prévoir la diffusion
Méthode proposée (
w0 w1Ac(ux) : estimation + si w0 + w1Ac(ux) des 1,
paramètres
1 sinon.
• Caractérisation des paires d’utilisateurs
Ainsi, pour un utilisateur uz satisfaisant ces conditions, nous construisons une ins-tance
— Premièrement, l’utilisateur uz n’a pas relayé l’information décrite par T, c’est-à-
négative : (vt y
, 0). Au final, nous obtenons un jeu de données équilibré à
uz,uyg(Ac(ux)) =
4.3. Méthode proposée
dire qu’il n’apparaît pas dans la séquence d’activation ;
— Deuxièmement, l’utilisateur uz est exposé aux messages publiés par uy, c’est-à-
partir duquel nous pouvons estimer la fonction f . La figure 4.6 illustre ce processus :
les noeuds u1, u2 et u3 ont relayé l’information décrite par une thématique T respec-tivement
4.3. Méthode proposée
4.3. Méthode FIGURE 4.7 – Représentation du classifieur linéaire construit à partir de la degré d’activité de l’utilisateur ux, Ac(ux), c’est-à-dire : μux,uy = g(Ac(particulièrement, nous définissons g de la façon suivante, de sorte que transmission minimum soit d’une heure :
yi = 1, nous créons l’instance suivante (Ac(ux),ux,uy), où ux,uy est délai de transmission entre uy et ux exprimé en heures. Autrement dit, pour
chaque paire d’utilisateurs (ux,uy) identifiée lors de la construction du jeu dire qu’il appartient à l’ensemble uy, l’ensemble des voisins entrants de uy
dans G.
Pour estimer les paramètres w0 et w1, nous construisons un jeu de données dérivé
D, noté D0. Ce jeu de données est constitué de m = n/2 instances décrites par deux
Ainsi, pour un utilisateur uz satisfaisant ces conditions, nous construisons une ins-tance
4.3. Méthode proposée
• Vecteur v de en 13 t1, attributs t2 et t3, tandis ∈ [0;que 1] négative les : aspects noeuds : (vt y
u4 sociaux, et u5 n’ont thématiques pas relayé l’information.
et temporels
• Formulation et estimation des paramètres
• Probabilité de diffusion : fonction sigmoïde d’une combinaison linéaire de v
variables (xi , zi), selon le principe suivant :
uz,uy, 0). Au final, nous obtenons un jeu de données équilibré à
partir duquel nous pouvons estimer la fonction f . La figure 4.6 illustre ce processus :
les noeuds u1, u2 et u3 ont relayé l’information décrite par une thématique T respec-tivement
Estimation des paramètres de f. Nous définissons la probabilité pux,uy(t) – la
en t1, t2 et t3, tandis que les noeuds u4 et u5 n’ont pas relayé l’information.
— Pour chaque instance (vi , yi) de D décrite par un vecteur vi = vux,uy et telle
probabilité que l’utilisateur uy influence ux à un instant t à propos d’une théma-tique
4.3. Méthode proposée
4.3. Méthode 4.3. Méthode proposée
proposée
yi = 1, nous créons l’instance suivante (Ac(ux),ux,uy), où délai de transmission entre uy et ux exprimé en heures. Autrement chaque paire d’utilisateurs (ux,uy) identifiée lors de la construction Estimation des paramètres de f. Nous définissons la probabilité pux,uy(t) – la
que yi = 1, nous créons l’instance suivante (Ac(ux),ux,uy), où ux,uy est le
délai de transmission entre uy et ux exprimé en heures. Autrement dit, pour
chaque paire d’utilisateurs (ux,uy) identifiée lors de la construction du jeu de
données D et entre lesquels l’information s’est diffusée (cf. figure 4.6), nous
créons une instance de D0 décrite par le délai de transmission observé, et le
degré d’activité de l’utilisateur ux qui a été influencé par uy.
probabilité que l’utilisateur uy influence ux à un instant t à propos d’une théma-tique
donnée – comme une fonction du vecteur d’attributs les décrivant, c’est-à-dire :
FIGURE 4.7 – Représentation du classifieur linéaire construit à partir de la fonction f .
FIGURE 4.7 – Représentation du classifieur linéaire construit à partir de la fonction degré d’activité de l’utilisateur ux, Ac(ux), c’est-à-dire : μux,uy = g(Ac(ux)). particulièrement, nous définissons g de la façon suivante, de sorte que le délai transmission minimum soit d’une heure :
degré d’activité de l’utilisateur ux, Ac(ux), c’est-à-dire : μux,uy = g(Ac(ux)). Plus
particulièrement, nous définissons g de la façon suivante, de sorte que le délai de
transmission minimum soit d’une heure :
linéaire construit à partir de la fonction f .
donnée – comme une fonction du vecteur d’attributs les décrivant, c’est-à-dire :
pux,uy(t) = f (vt
ux,uy). Comme nous souhaitons que cette fonction soit interprétable et
nous permettent d’analyser l’impact des différents attributs sur la probabilité de dif-fusion,
nous proposons d’exprimer f comme une fonction monotone à valeurs dans
[0; 1] d’une combinaison linéaire des composantes du vecteur d’attributs v de la forme
P13
w0 +
j=1 wj vj . Pour simplifier l’écriture de cette combinaison linéaire, nous modi-fions
le vecteur v de sorte à avoir v0 = 1, ce qui nous permet de la ré-écrire comme
4.3. Méthode proposée
4.3. Méthode proposée
le produit scalaire w · v. La fonction f étant monotone, l’analyse du vecteur de coef-ficients
w permet de quantifier l’impact, négatif ou positif, des différents attributs sur
• Délai de transmission : fonction du degré d’activité de ux
la probabilité de diffusion de l’information entre deux utilisateurs. Plusieurs formes
paramétriques pour la fonction f sont envisageables. Nous choisissons ici d’utiliser la
fonction sigmoïde et définissons donc f de la manière suivante :
Nous proposons FIGURE d’estimer 4.7 – Représentation les paramètres du classifieur w linéaire = {w0,construit w1} à selon partir de la la méthode fonction f .
des
FIGURE 4.7 – Représentation du classifieur linéaire construit à partir de la fonction f .
FIGURE 4.7 – Représentation du classifieur linéaire construit à partir de la fonction f .
(
(
w0 + w1Ac(ux) si w0 + w1Ac(ux) 1,
1 sinon.
moindres carrés (Cornillon et Matzner-Løber, 2007), i.e. en minimisant la somme des
c’est-à-dire : Plus
carrés des différences μux,entre uy les = délais g(Ac(de ux)). transmission observés et les délais prédits, le
critère façon des moindres suivante, carrés de sorte étant que le suivant le délai :
de
Page
Diffusion de l’information dans les médias sociaux
Modélisation et analyse
degré d’activité de l’utilisateur ux, Ac(ux), c’est-à-dire : μux,uy = g(ux)). Plus
particulièrement, nous définissons g de la façon suivante, de sorte que le délai de
transmission minimum soit d’une heure :
degré d’activité de l’utilisateur ux, Ac(ux), c’est-à-dire : μux,uy = g(Ac(ux)). Plus
particulièrement, nous définissons g de la façon suivante, de sorte que le délai de
transmission minimum soit d’une heure :
FIGURE 4.7 – Représentation du classifieur linéaire construit à partir de la fonction f .
FIGURE 4.7 – Représentation du classifieur linéaire construit à partir de la fonction f .
degré d’activité de l’utilisateur ux, Ac(ux), c’est-à-dire : μux,uy = g(Ac(ux)). Plus
particulièrement, nous définissons g de la façon suivante, de sorte que le délai de
transmission minimum soit d’une heure :
degré d’activité de l’utilisateur ux, Ac(ux), c’est-à-dire : μux,uy = g(Ac(ux)). Plus
particulièrement, nous définissons g de la façon suivante, de sorte que le délai de
transmission minimum soit d’une heure :
(
w0 + w1Ac(ux) si w0 + w1Ac(ux) 1,
1 sinon.
bw = argmin
g(Ac(ux)) =
f (v) =
g(Ac(ux)) =
(
w0 + w1Ac(si ux) w0 + si w1Ac(w0 + ux) w1Ac( 1,
ux) 1,
1 sinon.
g(Ac(ux)) =
1 sinon.
degré d’activité de l’utilisateur ux, Ac(ux), c’est-à-dire : μux,uy = g(Ac(ux)). Plus
particulièrement, nous définissons g de la façon suivante, de sorte que le délai de
transmission minimum soit d’une heure :
Pour estimer les paramètres w0 et w1, nous construisons un jeu de données dérivé
Pour estimer les paramètres w0 et w1, nous construisons un jeu de données dérivé
Pour estimer les paramètres w0 et w1, nous construisons un jeu de données de D, noté D0. Ce jeu de données est constitué de m = n/2 instances décrites variables de D, noté D0. Ce jeu de données est constitué de m = n/2 instances décrites par deux
variables (xi , zi), selon le principe suivant :
de D, noté D0. Ce jeu de données est constitué de m = n/2 instances décrites par deux
variables (xi , zi), selon le principe suivant :
(
w0 + w1Ac(ux) si w0 + w1Ac(ux) 1,
1 sinon.
(
w0 + w1Ac(ux) si w0 + w1Ac(ux) 1,
1 sinon.
(xi , zi), selon le principe suivant :
g(Ac(ux)) =
g(Ac(ux)) =
(
w0 + w1Ac(ux) si w0 + w1Ac(ux) 1,
1 sinon.
— Pour chaque instance (vi , yi) de D décrite par un vecteur vi = vux,uy et telle
— Pour chaque instance (vi , yi) de D décrite par un vecteur vi = vux,uy et que — Pour chaque instance (vi , yi) de D décrite par un vecteur vi = vux,que g(Ac(ux)) =
Pour estimer les paramètres w0 et w1, nous construisons un jeu de données dérivé
Pour estimer les paramètres w0 w1, nous construisons un jeu de données dérivé
Pour estimer les paramètres w0 et w1, nous construisons un jeu de données dérivé
g(Ac(ux)) =
/ 33 Soutenance de thèse - 25 novembre 2014 Adrien Guille
18
uy(t) = f (vt
ux,uy). Comme nous souhaitons que cette fonction soit interprétable et
nous permettent d’analyser l’impact des différents attributs sur la probabilité de dif-fusion,
nous proposons d’exprimer f comme une fonction monotone à valeurs dans
[0; 1] d’une combinaison linéaire des composantes du vecteur d’attributs v de la forme
P13
w0 +
j=1 wj vj . Pour simplifier l’écriture de cette combinaison linéaire, nous modi-fions
le vecteur v de sorte à avoir v0 = 1, ce qui nous permet de la ré-écrire comme
le produit scalaire w · v. La fonction f étant monotone, l’analyse du vecteur de coef-ficients
w permet de quantifier l’impact, négatif ou positif, des différents attributs sur
la probabilité de diffusion de l’information entre deux utilisateurs. Plusieurs formes
paramétriques pour la fonction f sont envisageables. Nous choisissons ici d’utiliser la
fonction sigmoïde et définissons donc f de la manière suivante :
f (v) =
exp(w · v)
1+exp(w · v)
.
110
pux,uy(t) = f (vt
ux,uy). Comme nous souhaitons que cette fonction soit interprétable et
nous permettent d’analyser l’impact des différents attributs sur la probabilité de dif-fusion,
nous proposons d’exprimer f comme une fonction monotone à valeurs dans
[0; 1] d’une combinaison linéaire des composantes du vecteur d’attributs v de la forme
P13
w0 +
j=1 wj vj . Pour simplifier l’écriture de cette combinaison linéaire, nous modi-fions
le vecteur v de sorte à avoir v0 = 1, ce qui nous permet de la ré-écrire comme
le produit scalaire w · v. La fonction f étant monotone, l’analyse du vecteur de coef-ficients
w permet de quantifier l’impact, négatif ou positif, des différents attributs sur
la probabilité de diffusion de l’information entre deux utilisateurs. Plusieurs formes
paramétriques pour la fonction f sont envisageables. Nous choisissons ici d’utiliser la
fonction sigmoïde et définissons donc f de la manière suivante :
f (v) =
exp(w · v)
1+exp(w · v)
.
P(Y = yi |vi) = P(Y = 1|vi)yi (1− P(Y = 1|vi))1−yi .
en supposant l’indépendance entre les instances du jeu de données D, nous
la vraisemblance du vecteur w pour le jeu de données D (i.e. P(D|w))
suit :
L(D,w) =
Yn
i=1
P(Y = yi |vi)
=
Yn
i=1
P(Y = 1|vi)yi (1− P(Y = 1|vi))1−yi
=
Yn
i=1
✓
exp(w · vi)
1+exp(w · vi)
◆yi ✓
1−
exp(w · vi)
1+exp(w · vi)
◆1−yi
Estimer le vecteur w s’apparente donc au problème d’optimisation qui consiste à
la vraisemblance du jeu de données D :
bw = argmax
w
L(D,w),
se fait en dérivant L(D,w) par rapport à w. Or, le logarithme naturel étant
fonction strictement croissante, maximiser L(D,w) équivaut par conséquent à
111
4.3. Méthode proposée
maximiser la log-vraisemblance, `(D,w) – dont la dérivation est plus simple. Nous
avons donc le problème d’optimisation suivant, équivalent au précédent :
bw = argmax
w
`(D,w).
Nous exprimons la log-vraisemblance comme suit :
`(D,w) = ln
Yn
i=1
✓
exp(w · vi)
1+exp(w · vi)
◆yi ✓
1
exp(w · vi)
1+exp(w · vi)
◆1yi
!
=
Xn
i=1
Ç
yi ln
✓
exp(w · vi)
1+exp(w · vi)
◆
+(1 yi) ln
✓
1
exp(w · vi)
1+exp(w · vi)
◆1yi
å
.
En exploitant le fait que :
expw · vi
1
4.3. Méthode proposée
FIGURE 4.7 – Représentation du classifieur linéaire construit à partir de la fonction f .
degré d’activité de l’utilisateur ux, Ac(ux), c’est-à-dire : μux,uy = g(Ac(ux)). Plus
particulièrement, nous définissons g de la façon suivante, de sorte que le délai de
transmission minimum soit d’une heure :
ux)) =
(
w0 + w1Ac(ux) si w0 + w1Ac(ux) 1,
1 sinon.
Pour estimer les paramètres w0 et w1, nous construisons un jeu de données dérivé
de D, noté D0. Ce jeu de données est constitué de m = n/2 instances décrites par deux
variables (xi , zi), selon le principe suivant :
— Pour chaque instance (vi , yi) de D décrite par un vecteur vi = vux,uy et telle
que yi = 1, nous créons l’instance suivante (Ac(ux),uy), où est le
ux) si w0 + w1Ac(ux) 1,
sinon.
w0,w1
Xm
i=1
(zi − w0 − w1xi)2.
• Maximisation de la vraisemblance
• Minimisation du critère des moindres carrés
exp(w · v)
1+exp(w · v)
.
110
4.3. Méthode proposée
instance positive : (vt y
ux,uy, 1). Les valeurs des attributs Re(ux) et Re(uy) – qui me-surent
la réceptivité des utilisateurs – sont mesurées en t y, c’est-à-dire au moment
de la journée où uy a relayé l’information. Les attributs Th(ux) et Th(uy) sont quant
à eux évalués pour le terme principal de la thématique T. Par ailleurs, pour chaque
paire (ux,uy) identifiée à partir de la séquence d’activation liée à la thématique T,
nous choisissons un utilisateur uz, tel que :
— Premièrement, l’utilisateur uz n’a pas relayé l’information décrite par T, c’est-à-
dire qu’il n’apparaît pas dans la séquence d’activation ;
— Deuxièmement, l’utilisateur uz est exposé aux messages publiés par uy, c’est-à-
dire qu’il appartient à l’ensemble uy, l’ensemble des voisins entrants de uy
dans G.
Ainsi, pour un utilisateur uz satisfaisant ces conditions, nous construisons une ins-tance
négative : (vt y
uz,uy, 0). Au final, nous obtenons un jeu de données équilibré à
partir duquel nous pouvons estimer la fonction f . La figure 4.6 illustre ce processus :
les noeuds u1, u2 et u3 ont relayé l’information décrite par une thématique T respec-tivement
en t1, t2 et t3, tandis que les noeuds u4 et u5 n’ont pas relayé l’information.
Estimation des paramètres de f. Nous définissons la probabilité pux,uy(t) – la
probabilité que l’utilisateur uy influence ux à un instant t à propos d’une théma-tique
donnée – comme une fonction du vecteur d’attributs les décrivant, c’est-à-dire :
pux,uy(t) = f (vt
ux,uy). Comme nous souhaitons que cette fonction soit interprétable et
nous permettent d’analyser l’impact des différents attributs sur la probabilité de dif-fusion,
nous proposons d’exprimer f comme une fonction monotone à valeurs dans
[0; 1] d’une combinaison linéaire des composantes du vecteur d’attributs v de la forme
P13
w0 +
j=1 wj vj . Pour simplifier l’écriture de cette combinaison linéaire, nous modi-fions
le vecteur v de sorte à avoir v0 = 1, ce qui nous permet la ré-écrire comme
le produit scalaire w · v. La fonction f étant monotone, l’analyse du vecteur de coef-ficients
w permet de quantifier l’impact, négatif ou positif, des différents attributs sur
la probabilité de diffusion de l’information entre deux utilisateurs. Plusieurs formes
paramétriques pour la fonction f sont envisageables. Nous choisissons ici d’utiliser la
fonction sigmoïde et définissons donc f de la manière suivante :
f (v) =
exp(w · v)
1+exp(w · v)
.
110
4.3. Méthode proposée
instance positive : (vt y
ux,uy, 1). Les valeurs des attributs Re(ux) et Re(– qui me-surent
la réceptivité des utilisateurs – sont mesurées en t y, c’est-à-dire au moment
de la journée où uy a relayé l’information. Les attributs Th(ux) et Th(uy) sont quant
à eux évalués pour le terme principal de la thématique T. Par ailleurs, pour chaque
paire (ux,uy) identifiée à partir de la séquence d’activation liée à la thématique T,
nous choisissons un utilisateur uz, tel que :
— Premièrement, l’utilisateur uz n’a pas relayé l’information décrite par T, c’est-à-
dire qu’il n’apparaît pas dans la séquence d’activation ;
— Deuxièmement, l’utilisateur uz est exposé aux messages publiés par uy, c’est-à-
dire qu’il appartient à l’ensemble uy, l’ensemble des voisins entrants de uy
dans G.
Ainsi, pour un utilisateur uz satisfaisant ces conditions, nous construisons une ins-tance
négative : (vt y
uz,uy, 0). Au final, nous obtenons un jeu de données équilibré à
partir duquel nous pouvons estimer la fonction f . La figure 4.6 illustre ce processus :
les noeuds u1, u2 et u3 ont relayé l’information décrite par une thématique T respec-tivement
en t1, t2 et t3, tandis que les noeuds u4 et u5 n’ont pas relayé l’information.
Estimation des paramètres de f. Nous définissons la probabilité pux,uy(t) – la
probabilité que l’utilisateur uy influence ux à un instant t à propos d’une théma-tique
donnée – comme une fonction du vecteur d’attributs les décrivant, c’est-à-dire :
pux,uy(t) = f (vt
ux,uy). Comme nous souhaitons que cette fonction soit interprétable et
nous permettent d’analyser l’impact des différents attributs sur la probabilité de dif-fusion,
nous proposons d’exprimer f comme une fonction monotone à valeurs dans
[0; 1] d’une combinaison linéaire des composantes du vecteur d’attributs v de la forme
P13
w0 +
j=1 wj vj . Pour simplifier l’écriture de cette combinaison linéaire, nous modi-fions
le vecteur v de sorte à avoir v0 = 1, ce qui nous permet de la ré-écrire comme
le produit scalaire w · v. La fonction f étant monotone, l’analyse du vecteur de coef-ficients
w permet de quantifier l’impact, négatif ou positif, des différents attributs sur
la probabilité de diffusion de l’information entre deux utilisateurs. Plusieurs formes
paramétriques pour la fonction f sont envisageables. Nous choisissons ici d’utiliser la
fonction sigmoïde et définissons donc f de la manière suivante :
f (v) =
exp(w · v)
1+exp(w · v)
.
110
4.3. Méthode proposée
instance positive : (vt y
ux,uy, 1). Les valeurs des attributs Re(ux) et Re(uy) – qui me-surent
la réceptivité des utilisateurs – sont mesurées en t y, c’est-à-dire au moment
de la journée où uy a relayé l’information. Les attributs Th(ux) et Th(uy) sont quant
à eux évalués pour le terme principal de la thématique T. Par ailleurs, pour chaque
paire (ux,uy) identifiée à partir de la séquence d’activation liée à la thématique T,
nous choisissons un utilisateur uz, tel que :
— Premièrement, l’utilisateur uz n’a pas relayé l’information décrite par T, c’est-à-
dire qu’il n’apparaît pas dans la séquence d’activation ;
— Deuxièmement, l’utilisateur uz est exposé aux messages publiés par uy, c’est-à-
dire qu’il appartient à l’ensemble uy, l’ensemble des voisins entrants de uy
dans G.
Ainsi, pour un utilisateur uz satisfaisant ces conditions, nous construisons une ins-tance
négative : (vt y
uz,uy, 0). Au final, nous obtenons un jeu de données équilibré à
partir duquel nous pouvons estimer la fonction f . La figure 4.6 illustre ce processus :
les noeuds u1, u2 et u3 ont relayé l’information décrite par une thématique T respec-tivement
en t1, t2 et t3, tandis que les noeuds u4 et u5 n’ont pas relayé l’information.
Estimation des paramètres de f. Nous définissons la probabilité pux,uy(t) – la
probabilité que l’utilisateur uy influence ux à un instant t à propos d’une théma-tique
donnée – comme une fonction du vecteur d’attributs les décrivant, c’est-à-dire :
pux,uy(t) = f (vt
ux,uy). Comme nous souhaitons que cette fonction soit interprétable et
nous permettent d’analyser l’impact des différents attributs sur la probabilité de dif-fusion,
nous proposons d’exprimer f comme une fonction monotone à valeurs dans
[0; 1] d’une combinaison linéaire des composantes du vecteur d’attributs v de la forme
P13
w0 +
j=1 wj vj . Pour simplifier l’écriture de cette combinaison linéaire, nous modi-fions
le vecteur v de sorte à avoir v0 = 1, ce qui nous permet de la ré-écrire comme
le produit scalaire w · v. La fonction f étant monotone, l’analyse du vecteur de coef-ficients
w permet de quantifier l’impact, négatif ou positif, des différents attributs sur
la probabilité de diffusion de l’information entre deux utilisateurs. Plusieurs formes
paramétriques pour la fonction f sont envisageables. Nous choisissons ici d’utiliser la
fonction sigmoïde et définissons donc f de la manière suivante :
f (v) =
exp(w · v)
1+exp(w · v)
.
110
4.3. Méthode proposée
instance positive : (vt y
ux,uy, 1). Les valeurs des attributs Re(ux) et Re(uy) – qui me-surent
la réceptivité des utilisateurs – sont mesurées en t y, c’est-à-dire au moment
de la journée où uy a relayé l’information. Les attributs Th(ux) et Th(uy) sont quant
à eux évalués pour le terme principal de la thématique T. Par ailleurs, pour chaque
paire (ux,uy) identifiée à partir de séquence d’activation liée à la thématique T,
nous choisissons un utilisateur uz, tel que :
— Premièrement, l’utilisateur uz n’a pas relayé l’information décrite par T, c’est-à-
dire qu’il n’apparaît pas dans la séquence d’activation ;
— Deuxièmement, l’utilisateur uz est exposé aux messages publiés par uy, c’est-à-
dire qu’il appartient à l’ensemble uy, l’ensemble des voisins entrants de uy
dans G.
Ainsi, pour un utilisateur uz satisfaisant ces conditions, nous construisons une ins-tance
négative : (vt y
uz,uy, 0). Au final, nous obtenons un jeu de données équilibré à
partir duquel nous pouvons estimer la fonction f . La figure 4.6 illustre ce processus :
les noeuds u1, u2 et u3 ont relayé l’information décrite par une thématique T respec-tivement
en t1, t2 et t3, tandis que les noeuds u4 et u5 n’ont pas relayé l’information.
Estimation des paramètres de f. Nous définissons la probabilité pux,uy(t) – la
probabilité que l’utilisateur uy influence ux à un instant t à propos d’une théma-tique
donnée – comme une fonction du vecteur d’attributs les décrivant, c’est-à-dire :
pux,uy(t) = f (vt
ux,uy). Comme nous souhaitons que cette fonction soit interprétable et
nous permettent d’analyser l’impact des différents attributs sur la probabilité de dif-fusion,
nous proposons d’exprimer f comme une fonction monotone à valeurs dans
[0; 1] d’une combinaison linéaire des composantes du vecteur d’attributs v de la forme
P13
w0 +
j=1 wj vj . Pour simplifier l’écriture de cette combinaison linéaire, nous modi-fions
le vecteur v de sorte à avoir v0 = 1, ce qui nous permet de la ré-écrire comme
le produit scalaire w · v. La fonction f étant monotone, l’analyse du vecteur de coef-ficients
w permet de quantifier l’impact, négatif ou positif, des différents attributs sur
la probabilité de diffusion l’information entre deux utilisateurs. Plusieurs formes
paramétriques pour la fonction f sont envisageables. Nous choisissons ici d’utiliser la
fonction sigmoïde et définissons donc f de la manière suivante :
f (v) =
exp(w · v)
1+exp(w · v)
.
110
4.3. Méthode proposée
instance positive : (vt y
ux,uy, 1). Les valeurs des attributs Re(ux) et Re(uy) – qui me-surent
la réceptivité des utilisateurs – sont mesurées en t y, c’est-à-dire au moment
de la journée où uy a relayé l’information. Les attributs Th(ux) et Th(uy) sont quant
à eux évalués pour le terme principal de la thématique T. Par ailleurs, pour chaque
paire (ux,uy) identifiée à partir de la séquence d’activation liée à la thématique T,
nous choisissons un utilisateur uz, tel que :
— Premièrement, l’utilisateur uz n’a pas relayé l’information décrite par T, c’est-à-
dire qu’il n’apparaît pas dans la séquence d’activation ;
— Deuxièmement, l’utilisateur uz est exposé aux messages publiés par uy, c’est-à-
dire qu’il appartient à l’ensemble uy, l’ensemble des voisins entrants de uy
dans G.
Ainsi, pour un utilisateur uz satisfaisant ces conditions, nous construisons une ins-tance
négative : (vt y
uz,uy, 0). Au final, nous obtenons un jeu de données équilibré à
partir duquel nous pouvons estimer la fonction f . La figure 4.6 illustre ce processus :
les noeuds u1, u2 et u3 ont relayé l’information décrite par une thématique T respec-tivement
en t1, t2 et t3, tandis que les noeuds u4 et u5 n’ont pas relayé l’information.
Estimation des paramètres de f. Nous définissons la probabilité pux,uy(t) – la
probabilité que l’utilisateur uy influence ux à un instant t à propos d’une théma-tique
donnée – comme une fonction du vecteur d’attributs les décrivant, c’est-à-dire :
pux,uy(t) = f (vt
ux,uy). Comme nous souhaitons que cette fonction soit interprétable et
nous permettent d’analyser l’impact des différents attributs sur la probabilité de dif-fusion,
nous proposons d’exprimer f comme une fonction monotone à valeurs dans
[0; 1] d’une combinaison linéaire des composantes du vecteur d’attributs v de la forme
P13
w0 +
j=1 wj vj . Pour simplifier l’écriture de cette combinaison linéaire, nous modi-fions
le vecteur v de sorte à avoir v0 = 1, ce qui nous permet de la ré-écrire comme
le produit scalaire w · v. La fonction f étant monotone, l’analyse du vecteur de coef-ficients
w permet de quantifier l’impact, négatif ou positif, des différents attributs sur
la probabilité de diffusion de l’information entre deux utilisateurs. Plusieurs formes
paramétriques pour la fonction f sont envisageables. Nous choisissons ici d’utiliser la
fonction sigmoïde et définissons donc f de la manière suivante :
f (v) =
exp(w · v)
1+exp(w · v)
.
110
4.3. Méthode proposée
instance positive : (vt y
ux,uy, 1). Les valeurs des attributs Re(ux) et Re(uy) – qui me-surent
la réceptivité des utilisateurs – sont mesurées en t y, c’est-à-dire au moment
de la journée où uy a relayé l’information. Les attributs Th(ux) et Th(uy) sont quant
à eux évalués pour le terme principal de la thématique T. Par ailleurs, pour chaque
paire (ux,uy) identifiée à partir de la séquence d’activation liée à la thématique T,
nous choisissons un utilisateur uz, tel que :
— Premièrement, l’utilisateur uz n’a pas relayé l’information décrite par T, c’est-à-
dire qu’il n’apparaît pas dans la séquence d’activation ;
— Deuxièmement, l’utilisateur uz est exposé aux messages publiés par uy, c’est-à-
dire qu’il appartient à l’ensemble uy, l’ensemble des voisins entrants de uy
dans G.
Ainsi, pour un utilisateur uz satisfaisant ces conditions, nous construisons une ins-tance
négative : (vt y
uz,uy, 0). Au final, nous obtenons un jeu de données équilibré à
partir duquel nous pouvons estimer la fonction f . La figure 4.6 illustre ce processus :
les noeuds u1, u2 et u3 ont relayé l’information décrite par une thématique T respec-tivement
en t1, t2 et t3, tandis que les noeuds u4 et u5 n’ont pas relayé l’information.
Estimation des paramètres de f. Nous définissons la probabilité pux,uy(t) – la
probabilité que l’utilisateur uy influence ux à un instant t à propos d’une théma-tique
donnée – comme une fonction du vecteur d’attributs les décrivant, c’est-à-dire :
pux,uy(t) = f (vt
ux,uy). Comme nous souhaitons que cette fonction soit interprétable et
nous permettent d’analyser l’impact des différents attributs sur la probabilité de dif-fusion,
nous proposons d’exprimer f comme une fonction monotone à valeurs dans
[0;1] d’une combinaison linéaire des composantes du vecteur d’attributs v de la forme
P13
w0 +
j=1 wj vj . Pour simplifier l’écriture de cette combinaison linéaire, nous modi-fions
le vecteur v de sorte à avoir v0 = 1, ce qui nous permet de la ré-écrire comme
le produit scalaire w · v. La fonction f étant monotone, l’analyse du vecteur de coef-ficients
w permet de quantifier l’impact, négatif positif, des différents attributs sur
la probabilité de diffusion de l’information entre deux utilisateurs. Plusieurs formes
paramétriques pour la fonction f sont envisageables. Nous choisissons ici d’utiliser la
fonction sigmoïde et définissons donc f de la manière suivante :
f (v) =
exp(w · v)
1+exp(w · v)
.
110
4.3. Méthode proposée
FIGURE 4.7 – Représentation du classifieur linéaire construit à partir de la fonction f .
degré d’activité de l’utilisateur ux, Ac(ux), c’est-à-dire : μux,uy = g(Ac(ux)). Plus
particulièrement, nous définissons g de la façon suivante, de sorte que le délai de
transmission minimum soit d’une heure :
g(Ac(ux)) =
(
w0 + w1Ac(ux) si w0 + w1Ac(ux) 1,
1 sinon.
Pour estimer les paramètres w0 et w1, nous construisons un jeu de données dérivé
de D, noté D0. Ce jeu de données est constitué de m = n/2 instances décrites par deux
variables (xi , zi), selon le principe suivant :
— Pour chaque instance (vi , yi) de D décrite par un vecteur vi = vux,uy et telle
que yi = 1, nous créons l’instance suivante (Ac(ux),ux,uy), où ux,uy est le
délai de transmission entre uy et ux exprimé en heures. Autrement dit, pour
chaque paire d’utilisateurs (ux,uy) identifiée lors de la construction du jeu de
que yi = 1, nous créons l’instance suivante (Ac(ux),ux,uy), où ux,uy est le
délai de transmission entre uy et ux exprimé en heures. Autrement dit, pour
chaque paire d’utilisateurs (ux,uy) identifiée lors de la construction du jeu de
Pour estimer les paramètres w0 et w1, nous construisons un jeu de données dérivé
de D, noté D0. Ce jeu de données est constitué de m = n/2 instances décrites par deux
de D, noté D0. Ce jeu de données est constitué de m = n/2 instances décrites par deux
g(Ac(ux)) =
(
w0 + w1Ac(ux) si w0 + w1Ac(ux) 1,
1 sinon.
Pour estimer les paramètres w0 et w1, nous construisons un jeu de données dérivé
de D, noté D0. Ce jeu de données est constitué de m = n/2 instances décrites par deux
variables (xi , zi), selon le principe suivant :
de D, noté D0. Ce jeu de données est constitué de m = n/2 instances décrites par deux
variables (xi , zi), selon le principe suivant :
de D, noté D0. Ce jeu de données est constitué de m = n/2 instances décrites par deux
27. Laboratoire ERIC
Université Lumière Lyon 2
Modéliser et prévoir la diffusion
Expérimentations
• Protocole
• Réseau : 5,7·106 abonnements pour 52·103 utilisateurs de Twitter [Kwak10]
• Trois corpus : C1 (oct. 09) C2 (nov. 09) C3 (déc. 09), au total 4·106 tweets [Yang11]
• Jeux de données d’apprentissage : construits à l’aide de C1 et C2 , et MABED
• Jeux de données de test : construits à l’aide de C2 et C3 , et MABED
• Évaluation de la procédure d’estimation des probabilités de diffusion
• Classifieur h basé sur f avec un seuil θ = 0,5
• Classifieurs courants
Page
Diffusion de l’information dans les médias sociaux
Modélisation et analyse
™
• Classifieur à vaste marge
• Classifieur bayésien naïf
™
/ 33 Soutenance de thèse - 25 novembre 2014 Adrien Guille
19
Modéliser et prédire la diffusion de l’information
Métrique (h | f,✓ ) SVM-l SVM-g SVM-p2 SVM-p3 Bayésien naïf
Précision 0,700 0,712 0,712 0,721 0,688 0,708
Rappel 0,822 0,799 0,798 0,755 0,692 0,777
F-mesure 0,756 0,753 0,753 0,738 0,690 0,741
TABLE 4.4 – Performances des six classifieurs sur le jeu de données Dtest.
28. Laboratoire ERIC
Université Lumière Lyon 2
Modéliser et prévoir la diffusion
Expérimentations
• Évaluation de T-BASIC pour la prévision de la diffusion
• Méthodes comparées : One-time-lag Predictor [Yang10] et αT-BASIC
• Données : 30 séries temporelles extraites à l’aide de MABED
• Métrique d’évaluation : erreur relative par rapport au volume [Yang10]
• Réduction de l’erreur par rapport au One-time-lag Predictor
• Analyse de l’effet des caractéristiques des utilisateurs (ux →uy)
• Taux de mention (aspect social)
• Rôle (aspect social)
• Thématique
• Réceptivité (aspect temporel)
• Degré d’activité (aspect social)
Page
Diffusion de l’information dans les médias sociaux
Modélisation et analyse
• 21,2% pour T-BASIC et 14,3% pour αT-BASIC
Tm=1
Tm=0
Ro=1
Ro=0
effet négatif effet positif
/ 33 Soutenance de thèse - 25 novembre 2014 Adrien Guille
20
Modéliser et prédire la diffusion de l’information
10−2 10−1 100 101 102
Th(T)=1
Th(T)=0
Re(t)=1
Re(t)=0
Ac=1
Ac=0
attribut variant pour ux
attribut variant pour uy
FIGURE 4.10 – Rapports de cotes pour différents attributs, mesurés par rapport aux
29. Laboratoire ERIC
Université Lumière Lyon 2
Diffusion de l’information dans les médias sociaux
Modélisation et analyse
Troisième contribution
Un logiciel libre pour la
fouille des données issues
des médias sociaux
Soutenance de thèse - 25 novembre 2014 Adrien Guille
30. Laboratoire ERIC
Université Lumière Lyon 2
Un logiciel libre pour la fouille des données issues des médias sociaux
Introduction
• Comment identifier les utilisateurs influents par rapport à la diffusion de
l’information dans les médias sociaux ?
• Besoin de nombreux acteurs de la sociétés, e.g. entreprises, services
• Scénario de base
• Détecter des évènements puis identifier les utilisateurs influant par rapport à
Page
Diffusion de l’information dans les médias sociaux
Modélisation et analyse
gouvernementaux, journalistes
• Marketing viral
• Sécurité
• Investigation journalistique
• etc.
ces évènements
• Éventuellement agir en conséquence
/ 33 Soutenance de thèse - 25 novembre 2014 Adrien Guille
22
31. Laboratoire ERIC
Université Lumière Lyon 2
Un logiciel libre pour la fouille des données issues des médias sociaux
État de l’art et proposition
• Logiciels existants
• Prototypes fermés pour la détection d’évènements [Bernstein10, Marcus11, Lee13]
• Logiciels libres pour l’analyse de l’influence [Gephi, Tulip, SNAP]
• Limitations des logiciels existants
• Fossé entre détection d’évènements et analyse de l’influence
• Proposition
• Analyse conjointe des évènements et de l’influence
• Identification des utilisateurs influents par rapport aux évènements détectés
• Logiciel libre
• Autonome (interface utilisateur) ou bibliothèque (interface de programmation)
Page
Diffusion de l’information dans les médias sociaux
Modélisation et analyse
/ 33 Soutenance de thèse - 25 novembre 2014 Adrien Guille
23
32. Laboratoire ERIC
Université Lumière Lyon 2
Un logiciel libre pour la fouille des données issues des médias sociaux
Logiciel proposé
• SONDY : SOcial Network DYnamics
• Publics visés
• Non-experts : interface utilisateur avancée et visualisations adaptées
• Chercheurs du domaine : interface de programmation et import d’algorithmes
• Architecture
• Quatre services : import/préparation des données, détection d’évènements,
Page
Diffusion de l’information dans les médias sociaux
Modélisation et analyse
analyse de l’influence, import d’algorithmes
/ 33 Soutenance de thèse - 25 novembre 2014 Adrien Guille
24
Į ș
ȕ ࢥ
33. Laboratoire ERIC
Université Lumière Lyon 2
Un logiciel libre pour la fouille des données issues des médias sociaux
SONDY : import et préparation des données
• Import
• Deux fichiers CSV
• Corpus de messages
• Réseau social
• Pré-traitement
• Partitionnement du corpus de messages
• Segmentation du texte
• Racinisation
• Lemmatisation
• Filtrage
• Sélection d’une sous-période de temps
• Suppression des mots vides
Page
Diffusion de l’information dans les médias sociaux
Modélisation et analyse
/ 33 Soutenance de thèse - 25 novembre 2014 Adrien Guille
25
34. Laboratoire ERIC
Université Lumière Lyon 2
Un logiciel libre pour la fouille des données issues des médias sociaux
SONDY : détection et visualisation des évènements
• Algorithmes implémentés
• Peaky Topics [Shamma11]
• Persistent Conversations [Shamma11]
• Trending Score [Benhardus13]
• EDCoW [Weng11]
• ET [Parikh13]
• Pont vers On-line LDA
• MABED
• Visualisations
• Liste des évènements
• Courbe de fréquence et MACD [Lu12]
• Liste des messages liés aux évènements
• Frise chronologique
Page
Diffusion de l’information dans les médias sociaux
Modélisation et analyse
/ 33 Soutenance de thèse - 25 novembre 2014 Adrien Guille
26
35. Laboratoire ERIC
Université Lumière Lyon 2
Un logiciel libre pour la fouille des données issues des médias sociaux
SONDY : analyse et visualisation de l’influence
• Algorithmes implémentés
• Page Rank [Page98]
• Décomposition en k couches [Kitsak10]
• Log-décomposition en k couches
[Brown11]
• Centralité d’intermédiarité [Freeman77]
• Capitalistes sociaux [Dugué14]
• Visualisations
• Distribution des rangs des utilisateurs
• Coloration du réseau social
• Liste des messages des utilisateurs
• Séquence d’activation
Page
Diffusion de l’information dans les médias sociaux
Modélisation et analyse
/ 33 Soutenance de thèse - 25 novembre 2014 Adrien Guille
27
36. Laboratoire ERIC
Université Lumière Lyon 2
Un logiciel libre pour la fouille des données issues des médias sociaux
Scénario d’utilisation : non-expert
• Analyser les évènements liés à la société Google
Page
Diffusion de l’information dans les médias sociaux
Modélisation et analyse
/ 33 Soutenance de thèse - 25 novembre 2014 Adrien Guille
28
37. Laboratoire ERIC
Université Lumière Lyon 2
Un logiciel libre pour la fouille des données issues des médias sociaux
Scénario d’utilisation : non-expert
• Analyser les évènements liés à la société Google
Page
Diffusion de l’information dans les médias sociaux
Modélisation et analyse
/ 33 Soutenance de thèse - 25 novembre 2014 Adrien Guille
28
38. Laboratoire ERIC
Université Lumière Lyon 2
Un logiciel libre pour la fouille des données issues des médias sociaux
Scénario d’utilisation : non-expert
• Analyser les évènements liés à la société Google
Page
Diffusion de l’information dans les médias sociaux
Modélisation et analyse
/ 33 Soutenance de thèse - 25 novembre 2014 Adrien Guille
28
39. Laboratoire ERIC
Université Lumière Lyon 2
Un logiciel libre pour la fouille des données issues des médias sociaux
Scénario d’utilisation : non-expert
• Analyser les évènements liés à la société Google
Page
Diffusion de l’information dans les médias sociaux
Modélisation et analyse
/ 33 Soutenance de thèse - 25 novembre 2014 Adrien Guille
28
40. Laboratoire ERIC
Université Lumière Lyon 2
Un logiciel libre pour la fouille des données issues des médias sociaux
Scénario d’utilisation : non-expert
• Analyser les évènements liés à la société Google
Page
Diffusion de l’information dans les médias sociaux
Modélisation et analyse
/ 33 Soutenance de thèse - 25 novembre 2014 Adrien Guille
28
41. Laboratoire ERIC
Université Lumière Lyon 2
Un logiciel libre pour la fouille des données issues des médias sociaux
Scénario d’utilisation : non-expert
• Identifier les utilisateurs influant à propos de la société Google
Page
Diffusion de l’information dans les médias sociaux
Modélisation et analyse
/ 33 Soutenance de thèse - 25 novembre 2014 Adrien Guille
29
42. Laboratoire ERIC
Université Lumière Lyon 2
Un logiciel libre pour la fouille des données issues des médias sociaux
Scénario d’utilisation : non-expert
• Identifier les utilisateurs influant à propos de la société Google
Page
Diffusion de l’information dans les médias sociaux
Modélisation et analyse
/ 33 Soutenance de thèse - 25 novembre 2014 Adrien Guille
29
43. Laboratoire ERIC
Université Lumière Lyon 2
Un logiciel libre pour la fouille des données issues des médias sociaux
Scénario d’utilisation : chercheur du domaine
• Utilisation de l’interface de programmation de SONDY
• Pour automatiser des expérimentations
• Pour réutiliser les méthodes implémentées dans un autre programme
Page
Diffusion de l’information dans les médias sociaux
Modélisation et analyse
/ 33 Soutenance de thèse - 25 novembre 2014 Adrien Guille
30
import fr.ericlab.sondy.*;
import org.apache.commons.io.FileUtils;
public class Programme {
public static void main(String[] args) {
AppVariables state;
DataManipulation dataManipulation;
// import d’un jeu de données
dataManipulation.importDataset(messages.csv,network.csv,
Nom,Description optionnelle,state);
// préparation du jeu de données
dataManipulation.prepareStream(60,English,false,state);
// chargement de la méthode MABED
EventDetectionAlgorithm mabed = (EventDetectionAlgorithm)
Class.forName(MABED).newInstance(state);
for(double i = 0.2; i = 1; i += 0.1){
// variation du paramètre sigma de la méthode
mabed.sigma = i;
mabed.k = 40;
mabed.theta = 0.7
mabed.p = 10;
mabed.apply();
EventDetectionResults results = mabed.getResults();
// écriture des résultats
FileUtils.write(chemin,results);
}
}
}
44. Laboratoire ERIC
Université Lumière Lyon 2
Conclusion
Résultats obtenus
• MABED : détection efficace des évènements significatifs
• Considérer les mentions dans les messages
• T-BASIC : modélisation explicative du phénomène de diffusion
• Les caractéristiques sociales, thématiques et temporelles des utilisateurs
• SONDY : analyse de l’influence par rapport aux évènements
• Accessibilité de l’interface utilisateur par des non-experts
• Grâce notamment à des visualisations adaptées
• Accessibilité de l’interface de programmation
• e.g. implémentation d’un algorithme par des étudiants de master
Page
Diffusion de l’information dans les médias sociaux
Modélisation et analyse
• Conduit à une détection plus précise des évènements significatifs
• Avec une plus grande robustesse en présence de bruit
• Influent de diverses façons sur le phénomène de diffusion
• Notamment les caractéristiques des utilisateurs subissant l’influence
/ 33 Soutenance de thèse - 25 novembre 2014 Adrien Guille
31
45. Laboratoire ERIC
Université Lumière Lyon 2
Conclusion
Perspectives de travail
• Globalement
• Diversifier les sources de données
• MABED
• Caractériser plus précisément les interactions (e.g. re-tweets, localisations)
• Faire le lien entre détection d’évènements et détection de communautés
• T-BASIC
• Relaxer certaines hypothèses
• SONDY
• Adapter le logiciel aux données volumineuses
Page
Diffusion de l’information dans les médias sociaux
Modélisation et analyse
• Propositions génériques mais interprétation des résultats liée aux données
• Ne plus considérer la seule influence interne au réseau étudié
• Ne plus considérer indépendamment les processus de diffusion simultanés
• Faciliter l’implémentation d’algorithmes parallèles voire distribués
/ 33 Soutenance de thèse - 25 novembre 2014 Adrien Guille
32
46. Laboratoire ERIC
Université Lumière Lyon 2
Conclusion
Impact des travaux de thèse
• Publications
✴ * Invitation à rédiger une version étendue pour la revue internationale SNAM (Springer)
• Citations
• Plus de 90 citations selon Google Scholar, au 25 novembre 2014
• Téléchargements
• Plus de 750 téléchargements de SONDY, au 25 novembre 2014
Page
Diffusion de l’information dans les médias sociaux
Modélisation et analyse
/ 33 Soutenance de thèse - 25 novembre 2014 Adrien Guille
33
Revue
internationale
Conférence
internationale
Atelier
international
Conférence
nationale
SIGMOD Record,
vol.42, 2013
ASONAM 2014,
SIGMOD 2013
MSND @ WWW
2012
EGC 2012, 2013,
2014)
Revue
internationale
Conférence
internationale
Atelier
international
Conférence
nationale
• ACM SIGMOD Record
(volume 42) 2013
• IEEE/ACM ASONAM 2014 *
• ACM SIGMOD 2013
(démo)
• PhD @ ACM SIGMOD 2013
• MSND @ ACM WWW 2012
• EGC 2014
• EGC 2013 (démo)
• EGC 2012
47. Laboratoire ERIC
Université Lumière Lyon 2
Conclusion
Impact des travaux de thèse
• Publications
✴ * Invitation à rédiger une version étendue pour la revue internationale SNAM (Springer)
• Citations
• Plus de 90 citations selon Google Scholar, au 25 novembre 2014
• Téléchargements
• Plus de 750 téléchargements de SONDY, au 25 novembre 2014
Page
Diffusion de l’information dans les médias sociaux
Modélisation et analyse
/ 33 Soutenance de thèse - 25 novembre 2014 Adrien Guille
33
Revue
internationale
Conférence
internationale
Atelier
international
Conférence
nationale
SIGMOD Record,
vol.42, 2013
ASONAM 2014,
SIGMOD 2013
MSND @ WWW
2012
EGC 2012, 2013,
2014)
Revue
internationale
Conférence
internationale
Atelier
international
Conférence
nationale
• ACM SIGMOD Record
(volume 42) 2013
• IEEE/ACM ASONAM 2014 *
• ACM SIGMOD 2013
(démo)
• PhD @ ACM SIGMOD 2013
• MSND @ ACM WWW 2012
• EGC 2014
• EGC 2013 (démo)
• EGC 2012
Merci pour votre attention !