1. Laboratoire ERIC
Université Lumière Lyon 2
Détection d’évènements
dans les médias sociaux
La méthode MABED et le logiciel SONDY
Séminaire de l’équipe ADVANSE - Laboratoire d'Informatique, de
Robotique et de Microélectronique de Montpellier
23 janvier 2015
Adrien Guille, PhD
Laboratoire ERIC, Université Lumière Lyon 2
2. Laboratoire ERIC
Université Lumière Lyon 2
Page
Détection d’évènements dans les médias sociaux
La méthode MABED et le logiciel SONDY
Séminaire ADVANSE (LIRMM) - 23 janvier 2015 Adrien Guille/ 24
Contexte
Les médias sociaux
• Nouveaux vecteurs d’information efficaces
• Twitter : communication de Barack Obama [Hughes09]
• Facebook : printemps arabe [Howard11]
• Deux fonctionnalités essentielles
• Publication de messages sur une page de profil
• Connexion à d’autres utilisateurs afin de suivre leurs publications
2
3. Laboratoire ERIC
Université Lumière Lyon 2
Page
Détection d’évènements dans les médias sociaux
La méthode MABED et le logiciel SONDY
Séminaire ADVANSE (LIRMM) - 23 janvier 2015 Adrien Guille/ 24
La méthode MABED
Introduction
• Détecter les évènements significatifs dans les médias sociaux
• Évènement : «quelque chose» qui se produit à un moment donné [Aggarwal12]
• Évènement significatif : potentiellement traité par les médias traditionnels
[McMinn13]
• Utile pour l’analyse journalistique, la veille d’information, etc.
• Tâche complexe
• Messages liés aux évènements noyés par des messages sans rapport, i.e. bruit
• On suppose que les thématiques saillantes signalent les évènements [Kleinberg02]
3
4. Laboratoire ERIC
Université Lumière Lyon 2
Page
Détection d’évènements dans les médias sociaux
La méthode MABED et le logiciel SONDY
Séminaire ADVANSE (LIRMM) - 23 janvier 2015 Adrien Guille/ 24
La méthode MABED
État de l’art
• Idée commune : détecter les thématiques saillantes
• Pondération statistique des termes
• Peaky Topics [Shamma11], Trending Score [Benhardus13]
• Possible ambiguité, manque de contexte
• Modélisation probabiliste des thématiques latentes
• On-line LDA [Lau12], ET-LDA [Yuheng12]
• Passage à l’échelle difficile [Aiello13]
• Classification non supervisée des termes
• EDCoW [Weng11], TwEvent [Li12], ET [Parikh13]
• Descriptions des évènements bruités
4
5. Laboratoire ERIC
Université Lumière Lyon 2
Page
Détection d’évènements dans les médias sociaux
La méthode MABED et le logiciel SONDY
Séminaire ADVANSE (LIRMM) - 23 janvier 2015 Adrien Guille/ 24
La méthode MABED
Synthèse de l’état de l’art et proposition
• Limitations des méthodes existantes
• Supposent que tous les évènements ont une même durée
• Paramètre fixé manuellement [Romero11]
• Considèrent uniquement l’aspect textuel des messages
• Proposition
• Estimer dynamiquement la durée de chaque évènement
• Exploiter l’aspect social des messages via les mentions
• Mention : lien dynamique vers un autre utilisateurs inséré dans un message
5
6. Laboratoire ERIC
Université Lumière Lyon 2
Page
Détection d’évènements dans les médias sociaux
La méthode MABED et le logiciel SONDY
Séminaire ADVANSE (LIRMM) - 23 janvier 2015 Adrien Guille/ 24
La méthode MABED
Formulation du problème
• Entrée
• Un corpus C contenant N messages,
partitionné en n tranches temporelles
• V, V@, Nt, Ni
t, Ni
@t
• Sortie
• La liste L des k évènements aux k plus
fortes magnitudes d’impact
• Définitions
• Évènement : une thématique saillante
et une valeur Mag traduisant sa
magnitude d’impact
• Thématique saillante : un intervalle
temporel I, un terme principal t, un
ensemble pondéré S de mots liés
6
7. Laboratoire ERIC
Université Lumière Lyon 2
Page
Détection d’évènements dans les médias sociaux
La méthode MABED et le logiciel SONDY
Séminaire ADVANSE (LIRMM) - 23 janvier 2015 Adrien Guille/ 24
La méthode MABED
Vue d’ensemble de la méthode proposée
• MABED
• Mention-Anomaly-Based Event Detection
• Processus en deux phases
• Phase 1
• Analyser la fréquence de création de
mentions associée à chaque mot du
vocabulaire V@ pour détecter les
évènements (Mag,I,t,Ø)
• Phase 2
• Sélectionner les mots liés à chaque
évènement
• Générer la liste des k évènements
7
8. Laboratoire ERIC
Université Lumière Lyon 2
Page
Détection d’évènements dans les médias sociaux
La méthode MABED et le logiciel SONDY
Séminaire ADVANSE (LIRMM) - 23 janvier 2015 Adrien Guille/ 24
La méthode MABED
Méthode proposée : phase 1
• Mesurer l’anomalie
• Par rapport à la fréquence de création de mentions à la tranche temporelle i
• Pour chaque mot t
• Mesurer la magnitude d’impact
• En fonction de la mesure d’anomalie
• Pour un évènement décrit par :
• Un mot principal t
• Un intervalle temporel I = [a;b]
8
P(Ni
@t
) =
✓
Ni
Ni
@t
◆
p
Ni
@t
@t (1 p@t)Ni
Ni
@t ,
@t est la probabilité qu’un message contienne le mot t et au moins une men-
lle que soit la tranche temporelle. Comme le nombre de messages Ni
est
ns le contexte des médias sociaux, nous pouvons raisonnablement supposer
@t
) peut être approximée par une loi normale, c’est-à-dire :
P(Ni
@t
) ⇠ N (Ni
p@t, Ni
p@t(1 p@t)).
découle que la quantité espérée de messages contenant le mot t et au moins
tion à la ième
tranche temporelle est :
E[t|i] = Ni
p@t,où p@t = N@t/N.
, nous définissons l’anomalie dans la fréquence de création de mentions liée
à la ième
tranche temporelle comme suit :
anomalie(t, i) = Ni
@t
E[t|i].
cette formulation, l’anomalie est positive uniquement lorsque la fréquence
de création de mentions est strictement supérieure à l’espérance. Les mots
que soit la tranche temporelle. Comme le nombre de messages Ni
est
e contexte des médias sociaux, nous pouvons raisonnablement supposer
peut être approximée par une loi normale, c’est-à-dire :
P(Ni
@t
) ⇠ N (Ni
p@t, Ni
p@t(1 p@t)).
oule que la quantité espérée de messages contenant le mot t et au moins
n à la ième
tranche temporelle est :
E[t|i] = Ni
p@t,où p@t = N@t/N.
ous définissons l’anomalie dans la fréquence de création de mentions liée
a ième
tranche temporelle comme suit :
anomalie(t, i) = Ni
@t
E[t|i].
te formulation, l’anomalie est positive uniquement lorsque la fréquence
création de mentions est strictement supérieure à l’espérance. Les mots
59
P(Ni
@t
) ⇠ N (Ni
p@t, Ni
p@t(1 p@t)).
ule que la quantité espérée de messages contenant le mot t et au moins
à la ième
tranche temporelle est :
E[t|i] = Ni
p@t,où p@t = N@t/N.
us définissons l’anomalie dans la fréquence de création de mentions liée
ième
tranche temporelle comme suit :
anomalie(t, i) = Ni
@t
E[t|i].
e formulation, l’anomalie est positive uniquement lorsque la fréquence
création de mentions est strictement supérieure à l’espérance. Les mots
59
- ++
3.3. Méthode proposée
ènements et spécifiques à une période temporelle particulière auront
voir des valeurs d’anomalie positives élevées durant cette période. Au
mots récurrents (i.e. triviaux) qui ne sont pas liés à un évènement auront
d’anomalie qui divergeront peu par rapport à l’espérance. Par ailleurs,
nt à des approches plus sophistiquées comme par exemple la modélisation
es à l’aide de mixtures gaussiennes, cette formulation passe facilement à
adapte donc facilement à la taille du vocabulaire.
e la magnitude d’impact. La magnitude d’impact, Mag, d’un évènement
tervalle I = [a; b] et au mot principal t est donnée par la formule ci-
correspond à l’aire algébrique sous la fonction d’anomalie sur l’intervalle
Mag(t, I) =
bZ
a
anomalie(t, i)di
bX
3.3. Méthode proposée
liés à des évènements et spécifiques à une période temporelle particulière auront
tendance à avoir des valeurs d’anomalie positives élevées durant cette période. Au
contraire, les mots récurrents (i.e. triviaux) qui ne sont pas liés à un évènement auront
des valeurs d’anomalie qui divergeront peu par rapport à l’espérance. Par ailleurs,
contrairement à des approches plus sophistiquées comme par exemple la modélisation
des fréquences à l’aide de mixtures gaussiennes, cette formulation passe facilement à
l’échelle et s’adapte donc facilement à la taille du vocabulaire.
Calcul de la magnitude d’impact. La magnitude d’impact, Mag, d’un évènement
associé à l’intervalle I = [a; b] et au mot principal t est donnée par la formule ci-
dessous. Elle correspond à l’aire algébrique sous la fonction d’anomalie sur l’intervalle
[a; b].
Mag(t, I) =
bZ
a
anomalie(t, i)di
=
bX
i=a
anomalie(t, i)
L’aire algébrique est obtenue en intégrant la fonction discrète d’anomalie, ce qui
9. Laboratoire ERIC
Université Lumière Lyon 2
Page
Détection d’évènements dans les médias sociaux
La méthode MABED et le logiciel SONDY
Séminaire ADVANSE (LIRMM) - 23 janvier 2015 Adrien Guille/ 24
La méthode MABED
Méthode proposée : phase 1
• Détecter les évènements
• Pour tous les mots du vocabulaire V@
• Identifier l’intervalle I tel que :
• Résoudre un problème du type «Sous-Séquence Contiguë de Somme Maximale» :
• À la fin de la phase I
• Une liste L’ d’évènements (|L’| = V@), chacun décrit par :
• Un mot principal t
• Un intervalle temporel I
• Sa magnitude d’impact Mag
9
- ++
=
bX
i=a
anomalie(t, i)
ue est obtenue en intégrant la fonction discrète d’anomalie, ce qui
s à une somme.
des évènements. Pour chaque mot t 2 V@, nous cherchons à iden-
ui maximise la magnitude d’impact, c’est-à-dire :
I = argmax
I
Mag(t, I).
s montré précédemment que la magnitude d’impact d’un évènement
principal t et l’intervalle I = [a; b] correspond à la somme de l’ano-
rvalle. Par conséquent, cela revient à résoudre un problème du type
ontiguë de somme maximale » (SSCSM), un type de problème cou-
flots de données (Lappas et al., 2009), qui trouve également des
divers domaines tels que la bio-informatique (Fan et al., 2003) ou
s d’associations (Fukuda et al., 1996). En d’autres termes, pour un
60
I = argmax
I
Mag(t, I)
Or, nous avons montré précédemment que la magnitude d’impact d’un évènement
rit par le mot principal t et l’intervalle I = [a; b] correspond à la somme de l’ano-
ie sur cet intervalle. Par conséquent, cela revient à résoudre un problème du type
us-séquence contiguë de somme maximale » (SSCSM), un type de problème cou-
en fouille de flots de données (Lappas et al., 2009), qui trouve également des
lications dans divers domaines tels que la bio-informatique (Fan et al., 2003) ou
ouille de règles d’associations (Fukuda et al., 1996). En d’autres termes, pour un
t, nous cherchons à identifier l’intervalle I = [a; b] tel que :
Mag(t, I) = max{
bX
i=a
anomalie(t, i)|1 ∂ a ∂ b ∂ n}
Cette formulation permet à l’anomalie d’être négative en certains points de l’in-
alle, si et seulement si cela permet d’étendre l’intervalle tout en augmentant la
gnitude. C’est une propriété intéressante, puisque cela permet d’éviter la fragmen-
on de longs évènements s’étendant sur plusieurs jours et dont l’anomalie associée
ent négative par exemple la nuit, du fait du faible niveau d’activité nocturne sur
10. Laboratoire ERIC
Université Lumière Lyon 2
Page
Détection d’évènements dans les médias sociaux
La méthode MABED et le logiciel SONDY
Séminaire ADVANSE (LIRMM) - 23 janvier 2015 Adrien Guille/ 24
La méthode MABED
Méthode proposée : phase 2
• Identifier les mots décrivant au mieux les évènements
• Identification des mots candidats (parmi V) selon la cooccurrence
• Sélection selon l’intensité de la corrélation entre leur fréquence absolue
• Mesurée selon le coefficient ne supposant pas la stationnarité [Erdem12]
• Comparée à un seuil θ
10
ènements
alyser des données boursières, réputées non-stationnaires – possède
s intéressantes pour notre application : (i) il est non-paramétrique et
ert pas d’hypothèse de stationnarité contrairement, par exemple, au
Pearson. Ce coefficient prend en compte le décalage temporel afin de
eux la direction de la co-variation des deux séries temporelles au fil
souci de concision, nous ne donnons ici que la formule permettant
e coefficient, étant donnés les mots t, t0
q
et l’intervalle temporel I =
⇢Ot,t0
q
=
bX
i=a+1
At,t0
q
(b a 1)AtAt0
q
,
où At,t0
q
= (Ni
t
Ni 1
t
)(Ni
t0 Ni 1
t0 )
Détecter les évènements
conçu pour analyser des données boursières, réputées non-stationnaires
deux propriétés intéressantes pour notre application : (i) il est non-param
(ii) il ne requiert pas d’hypothèse de stationnarité contrairement, par ex
coefficient de Pearson. Ce coefficient prend en compte le décalage tempo
capturer au mieux la direction de la co-variation des deux séries tempor
du temps. Par souci de concision, nous ne donnons ici que la formule p
d’approximer ce coefficient, étant donnés les mots t, t0
q
et l’intervalle tem
[a; b] :
⇢Ot,t0
q
=
bX
i=a+1
At,t0
q
(b a 1)AtAt0
q
,
où At,t0
q
= (Ni
t
Ni 1
t
)(Ni
t0
q
Ni 1
t0
q
)
A2
t
=
Pb
i=a+1
(Ni
t
Ni 1
t
)2
b a 1
Pb i i 1 2
11. Laboratoire ERIC
Université Lumière Lyon 2
Page
Détection d’évènements dans les médias sociaux
La méthode MABED et le logiciel SONDY
Séminaire ADVANSE (LIRMM) - 23 janvier 2015 Adrien Guille/ 24
La méthode MABED
Méthode proposée : phase 2
• Construire la liste des k évènements
• Deux structures
• Graphe des évènements
• Graphe des redondances
• Détecter la redondance
• Selon la connectivité dans le graphe des évènements
• Selon le recouvrement temporel
• Fusionner les évènements dupliqués
• Selon les composantes connexes au sein du graphe des redondances
11
12. Laboratoire ERIC
Université Lumière Lyon 2
Page
Détection d’évènements dans les médias sociaux
La méthode MABED et le logiciel SONDY
Séminaire ADVANSE (LIRMM) - 23 janvier 2015 Adrien Guille/ 24
La méthode MABED
Méthode proposée : phase 2
• Exemple
12
13. Laboratoire ERIC
Université Lumière Lyon 2
Page
Détection d’évènements dans les médias sociaux
La méthode MABED et le logiciel SONDY
Séminaire ADVANSE (LIRMM) - 23 janvier 2015 Adrien Guille/ 24
La méthode MABED
Méthode proposée : phase 2
• Exemple
13
14. Laboratoire ERIC
Université Lumière Lyon 2
Page
Détection d’évènements dans les médias sociaux
La méthode MABED et le logiciel SONDY
Séminaire ADVANSE (LIRMM) - 23 janvier 2015 Adrien Guille/ 24
La méthode MABED
Expérimentations : protocole
• Corpus
• Cen : 1,5·106 tweets publiés nov. 2009 [Yang11]
• Cfr : 2·106 tweets publiés en mar. 2012 contenant des mots-clés [ANR ImagiWeb]
• Méthodes comparées
• Trending Score (TS2, TS3) [Benhardus13] et ET [Parikh13]
• α-MABED
• Choix des paramètres
• (α)-MABED : tranches temporelles de 30 minutes, p=10, θ=0.7, σ=0.5
• Trending Score et ET : tranches temporelles de 24 heures
• Métriques d’évaluation
• Évaluation de la significativité des évènements par des juges humains
• Précision, rappel et F-mesure
• DERate [Li12]
• Temps de calcul
14
15. Laboratoire ERIC
Université Lumière Lyon 2
Page
Détection d’évènements dans les médias sociaux
La méthode MABED et le logiciel SONDY
Séminaire ADVANSE (LIRMM) - 23 janvier 2015 Adrien Guille/ 24
La méthode MABED
Expérimentations : évaluation quantitative
• Observations
• Gain moyen concernant la F-mesure de 17,2% par rapport à α-MABED
• Gain plus important pour le corpus le plus bruité, Cen
15
3.4. Expérimentations
Corpus : Cen
Méthode Précision F-mesure DERate Temps de calcul
MABED 0,775 0,682 0,193 96s
↵-MABED 0,625 0,571 0,160 126s
ET 0,575 0,575 0 3480s
TS2 0,600 0,514 0,250 80s
TS3 0,375 0,281 0,4 82s
Corpus : Cf r
Méthode Précision F-mesure DERate Temps de calcul
MABED 0,825 0,825 0 88s
↵-MABED 0,725 0,712 0,025 113s
ET 0,700 0.674 0,071 4620s
TS2 0,725 0,671 0,138 69s
TS3 0,700 0,616 0,214 74s
TABLE 3.4 – Performances des cinq méthodes sur les deux corpus.
3.4. Expérimentations
Corpus : Cen
Méthode Précision F-mesure DERate Temps de calcul
MABED 0,775 0,682 0,193 96s
↵-MABED 0,625 0,571 0,160 126s
ET 0,575 0,575 0 3480s
TS2 0,600 0,514 0,250 80s
TS3 0,375 0,281 0,4 82s
Corpus : Cf r
Méthode Précision F-mesure DERate Temps de calcul
MABED 0,825 0,825 0 88s
↵-MABED 0,725 0,712 0,025 113s
ET 0,700 0.674 0,071 4620s
TS2 0,725 0,671 0,138 69s
TS3 0,700 0,616 0,214 74s
TABLE 3.4 – Performances des cinq méthodes sur les deux corpus.
16. Laboratoire ERIC
Université Lumière Lyon 2
Page
Détection d’évènements dans les médias sociaux
La méthode MABED et le logiciel SONDY
Séminaire ADVANSE (LIRMM) - 23 janvier 2015 Adrien Guille/ 24
La méthode MABED
Expérimentations : évaluation quantitative
• Efficacité
• Temps linéaire en fonction de la taille du corpus
• Algorithme aisément parallèlisable
• Effet du paramètre σ
• Influe principalement sur le DERate
16
9
0.5
1
0.4 0.55 0.7 0.85 1
Taille du sous-échantillon
Tempsdecalculnormalisé
MABED
MABED (8 threads)
Figure 5 Runtime comparison versus subsample size.
Event Detection, Tracking and Visualization in Twitter 9
We also measure the DERate (Li et al, 2012), which
denotes the percentage of events that are duplicates
among all significant events detected :
DERate =
# of duplicated events
# of detected significant events
4.2 Quantitative Evaluation
Hereafter, we discuss the performance of the five
considered methods, based on the rates assigned by
the annotators. The inter-annotator agreement, mea-
sured with Cohen’s Kappa (Landis and Koch, 1977),
is ' 0.76, showing a strong agreement. Table 3 (page
10) reports the precision, the F-measure defined as the
harmonic mean of precision and recall (i.e. 2· P ·R
P +R
), the
DERate and the running-time of each method for both
corpora.
Comparison against baselines We notice that MABED
achieves the best performance on the two corpora, with
a precision of 0.775 and F-measure of 0.682 on Cen, and
a precision and a F-measure of 0.825 on Cfr. Although
ET yields a better DERate on Cen, it still achieves lower
precision and recall than MABED on both corpora. Fur-
thermore, we measure an average relative gain of 17.2%
over ↵-MABED in the F-measure, which suggests that
considering the mentioning behavior of users leads to
0.5
1
0.4 0.55 0.7 0.85 1
Taille du sous-échantillon
Tempsdecalculnormalisé
MABED
MABED (8 threads)
Figure 5 Runtime comparison versus subsample size.
0.2 0.4 0.6 0.8 1
0.2
0.4
0.6
0.8
Valeur de
Précision/F-mesure/DERate
Précision
F-mesure
DERate
Figure 6 Precision, F-measure and DERate of MABED on
Cen for different values of .
17. Laboratoire ERIC
Université Lumière Lyon 2
Page
Détection d’évènements dans les médias sociaux
La méthode MABED et le logiciel SONDY
Séminaire ADVANSE (LIRMM) - 23 janvier 2015 Adrien Guille/ 24
La méthode MABED
Expérimentations : évaluation qualitative
• Extrait de la liste d’évènements détectés à partir de Cen
• Distribution de la durée des évènements détectés dans Cen et Cfr
17
1
au 28 06h30 Les twittos célèbrent Thanksgiving
2
du 25 09h30 thankful : happy (0.77), thanksgiving (0.71)
au 27 09h00 Lié à l’évènement # 1
3
du 10 16h00 veterans : served (0.80), country (0.78), military (0.73), happy (0.72)
au 12 08h00 Commémoration du 11 novembre, « Veterans Day »
4
du 26 13h00 black : friday (0.95), amazon (0.75)
au 28 10h30 Les twittos discutent des offres proposées par Amazon la veille du « Black Friday »
5
du 07 13h30 hcr, bill, health, house, vote : reform (0.92), passed (0.91), passes (0.88)
au 09 04h30 La Chambre des représentants des États-Unis adopte la réforme de santé
6
du 05 19h30 hood, fort : ft (0.92), shooting (0.83), news (0.78), army (0.75), forthood (0.73)
au 08 09h00 Une fusillade a lieu dans l’enceinte de la base militaire américaine de Fort Hood
7
du 19 04h30 chrome : os (0.95), google (0.87), desktop (0.71)
au 21 02h30 Google rend public le code source de Chrome OS pour PC
8
du 27 18h00 tiger, woods : accident (0.91), car (0.88), crash (0.88), injured (0.80)
au 29 05h00 Tiger Woods est victime d’un accident de la route
9
du 28 22h30 tweetie, 2.1, app : retweets (0.93), store (0.90), native (0.89), geotagging (0.88)
au 30 23h30 L’application Tweetie sort sur l’apple store et inclut de nouvelles fonctions, e.g. retweets
10
du 29 17h00 monday, cyber : deals (0.84), pro (0.75)
au 30 23h30 Les twittos partagent les offres commerciales high-tech du « Cyber Monday »
11
du 10 01h00 linkedin : synced (0.86), updates (0.84), status (0.83), twitter (0.71)
au 12 03h00 Linkedin permet à ses utilisateurs de synchroniser leurs statuts avec Twitter
12
du 04 17h00 yankees, series : win (0.84), won (0.84), fans (0.78), phillies (0.73), york (0.72)
au 06 05h30 Les Yankees, l’équipe de baseball de New York remporte la World Series face aux Philies
13
du 15 09h00 obama : chinese (0.75), barack (0.72), twitter (0.72), china (0.70)
au 17 23h30 Lors d’une visite en Chine, Barack Obama admet n’avoir jamais utilisé Twitter
14
du 25 10h00 holiday : shopping (0.72)
au 26 10h00 Les twittos réagissent par rapport au « Black Friday », un jour férié dédié au shopping
15
du 19 21h30 oprah, end : talk (0.81), show (0.79), 2011 (0.73), winfrey (0.71)
au 21 16h00 Oprah Winfrey annonce la fin de son talk-show en septembre 2011
16
du 07 11h30 healthcare, reform : house (0.91), bill (0.88), passes (0.83), vote (0.83)
au 09 05h00 Lié à l’évènement #5
17
du 11 03h30 facebook : app (0.74), twitter (0.73)
au 13 08h30 Pas d’évènement correspondant
18
du 18 14h00 whats : happening (0.76), twitter (0.73)
au 21 03h00 Twitter demande maintenant « What’s happening ? » et plus « What are you doing ? »
du 20 10h00 cern : lhc (0.86), beam (0.79)
5 nov. #6 (13h30) 6 nov. 7 nov.
0
max
Temps (CST)Anomalie
« hood »
« fort »
« shooting »
FIGURE 3.12 – Anomalie mesurée pour les mots « hood », « fort » et « shooting » du 5
au 7 novembre à minuit (CST).
0
0,1
0,2
0,3
0,4
<12 [12;24] ]24;36] ]36;48] ]48;60] >60
Durée des évènements (en heures)
Pourcentaged’évènements
Cen
Cf r
FIGURE 3.13 – Distribution de la durée des évènements détectés par MABED.
18. Laboratoire ERIC
Université Lumière Lyon 2
Page
Détection d’évènements dans les médias sociaux
La méthode MABED et le logiciel SONDY
Séminaire ADVANSE (LIRMM) - 23 janvier 2015 Adrien Guille/ 24
La méthode MABED
Expérimentations : évaluation qualitative
• Extrait de la liste d’évènements détectés à partir de Cen
• Graphe des redondances Graphe des évènements (e8)
• Distribution de la durée des évènements détectés dans Cen et Cfr
18
5 nov. #6 (13h30) 6 nov. 7 nov.
0
max
Temps (CST)Anomalie
« hood »
« fort »
« shooting »
FIGURE 3.12 – Anomalie mesurée pour les mots « hood », « fort » et « shooting » du 5
au 7 novembre à minuit (CST).
0
0,1
0,2
0,3
0,4
<12 [12;24] ]24;36] ]36;48] ]48;60] >60
Durée des évènements (en heures)
Pourcentaged’évènements
Cen
Cf r
FIGURE 3.13 – Distribution de la durée des évènements détectés par MABED.
19. Laboratoire ERIC
Université Lumière Lyon 2
Page
Détection d’évènements dans les médias sociaux
La méthode MABED et le logiciel SONDY
Séminaire ADVANSE (LIRMM) - 23 janvier 2015 Adrien Guille/ 24
La méthode MABED
Expérimentations : évènements et communautés
• Distribution des catégories d’évènements détectés en fonction de la
communauté des utilisateurs (Louvain)
• Catégories d’évènements selon [McMinn13]
19
Détecter les évènements
0
0.5
1
1.5
2
2.5
Poids
Cen(c0)
Cen(c1)
(a) Évènements détectés dans les corpus Cen(c0) et Cen(c1).
0
0.5
1
1.5
2
2.5
Divers
Conflitsarmésetattaques
Sport
Catastrophesetaccidents
Artcultureetdivertissement
Businessetéconomie
Justicepolitiqueetscandales
Scienceettechnologie
Catégorie d’évènements
Poids
Cen
Cen(aléatoire)
(b) Évènements détectés dans les corpus Cen et Cen(aléatoire).
FIGURE 3.17 – Distribution du poids des catégories des évènements détectés par MA-
BED dans les corpus Cen(c0), Cen(c1), Cen et Cen(aléatoire)
Détecter les évènements
0
0.5
1
1.5
2
2.5
Poids
Cen(c0)
Cen(c1)
(a) Évènements détectés dans les corpus Cen(c0) et Cen(c1).
0
0.5
1
1.5
2
2.5
Divers
Conflitsarmésetattaques
Sport
Catastrophesetaccidents
Artcultureetdivertissement
Businessetéconomie
Justicepolitiqueetscandales
Scienceettechnologie
Catégorie d’évènements
Poids
Cen
Cen(aléatoire)
(b) Évènements détectés dans les corpus Cen et Cen(aléatoire).
FIGURE 3.17 – Distribution du poids des catégories des évènements détectés par MA-
BED dans les corpus Cen(c0), Cen(c1), Cen et Cen(aléatoire)
Détecter les évènements
0
0.5
1
1.5
2
2.5
Poids
Cen(c0)
Cen(c1)
(a) Évènements détectés dans les corpus Cen(c0) et Cen(c1).
0
0.5
1
1.5
2
2.5
Divers
etattaques
Sport
taccidents
ertissement
téconomie
tscandales
echnologie
Poids
Cen
Cen(aléatoire)
20. Laboratoire ERIC
Université Lumière Lyon 2
Page
Détection d’évènements dans les médias sociaux
La méthode MABED et le logiciel SONDY
Séminaire ADVANSE (LIRMM) - 23 janvier 2015 Adrien Guille/ 24
La méthode MABED
Visualisations
• Frise chronologique illustrée
20
21. Laboratoire ERIC
Université Lumière Lyon 2
Page
Détection d’évènements dans les médias sociaux
La méthode MABED et le logiciel SONDY
Séminaire ADVANSE (LIRMM) - 23 janvier 2015 Adrien Guille/ 24
La méthode MABED
Visualisations
• Évolution de la magnitude d’impact des évènements au fil du temps
21
22. Laboratoire ERIC
Université Lumière Lyon 2
Page
Détection d’évènements dans les médias sociaux
La méthode MABED et le logiciel SONDY
Séminaire ADVANSE (LIRMM) - 23 janvier 2015 Adrien Guille/ 24
La méthode MABED
Visualisations
• Graphe des évènements
22
23. Laboratoire ERIC
Université Lumière Lyon 2
Page
Détection d’évènements dans les médias sociaux
La méthode MABED et le logiciel SONDY
Séminaire ADVANSE (LIRMM) - 23 janvier 2015 Adrien Guille/ 24
La méthode MABED
Conclusion
• Proposition d’une nouvelle méthode : MABED
• Prise en compte de l’aspect social du flux de message
• Estimation dynamique de la durée de chaque évènement
• Expérimentations
• Temps d’exécution linéaire en fonction de la taille du corpus
• Meilleure précision en considérant l’aspect social
• Robustesse accrue en présence de bruit
• Mise en lumière du lien entre détection d’évènements et communautés
• Partage du code
• Implémentation centralisée/parallèlisée http://github.com/AdrienGuille/MABED
• Visualisations http://mediamining.univ-lyon2.fr/people/guille/MABED
• Publications liées
• ASONAM 2014, invitation pour la revue SNAM (en cours de relecture)
23
24. Laboratoire ERIC
Université Lumière Lyon 2
Page
Détection d’évènements dans les médias sociaux
La méthode MABED et le logiciel SONDY
Séminaire ADVANSE (LIRMM) - 23 janvier 2015 Adrien Guille/ 24
Le logiciel SONDY
Détection d’évènements et analyse de l’influence
• Logiciel libre
• http://github.com/AdrienGuille/SONDY
• Interface graphique (UI) et interface de programmation (API)
• Publication liée
• SIGMOD 2013
24
Collecte et préparation des
données
Détection et visualisation
des évènements
Analyse et visualisation de
l’influence des utilisateurs