SlideShare uma empresa Scribd logo
1 de 24
Baixar para ler offline
Laboratoire ERIC
Université Lumière Lyon 2
Détection d’évènements
dans les médias sociaux
La méthode MABED et le logiciel SONDY
Séminaire de l’équipe ADVANSE - Laboratoire d'Informatique, de
Robotique et de Microélectronique de Montpellier
23 janvier 2015
Adrien Guille, PhD
Laboratoire ERIC, Université Lumière Lyon 2
Laboratoire ERIC
Université Lumière Lyon 2
Page
Détection d’évènements dans les médias sociaux
La méthode MABED et le logiciel SONDY
Séminaire ADVANSE (LIRMM) - 23 janvier 2015 Adrien Guille/ 24
Contexte
Les médias sociaux
• Nouveaux vecteurs d’information efficaces
• Twitter : communication de Barack Obama [Hughes09]
• Facebook : printemps arabe [Howard11]
• Deux fonctionnalités essentielles
• Publication de messages sur une page de profil
• Connexion à d’autres utilisateurs afin de suivre leurs publications
2
Laboratoire ERIC
Université Lumière Lyon 2
Page
Détection d’évènements dans les médias sociaux
La méthode MABED et le logiciel SONDY
Séminaire ADVANSE (LIRMM) - 23 janvier 2015 Adrien Guille/ 24
La méthode MABED
Introduction
• Détecter les évènements significatifs dans les médias sociaux
• Évènement : «quelque chose» qui se produit à un moment donné [Aggarwal12]
• Évènement significatif : potentiellement traité par les médias traditionnels
[McMinn13]
• Utile pour l’analyse journalistique, la veille d’information, etc.
• Tâche complexe
• Messages liés aux évènements noyés par des messages sans rapport, i.e. bruit
• On suppose que les thématiques saillantes signalent les évènements [Kleinberg02]
3
Laboratoire ERIC
Université Lumière Lyon 2
Page
Détection d’évènements dans les médias sociaux
La méthode MABED et le logiciel SONDY
Séminaire ADVANSE (LIRMM) - 23 janvier 2015 Adrien Guille/ 24
La méthode MABED
État de l’art
• Idée commune : détecter les thématiques saillantes
• Pondération statistique des termes
• Peaky Topics [Shamma11], Trending Score [Benhardus13]
• Possible ambiguité, manque de contexte
• Modélisation probabiliste des thématiques latentes
• On-line LDA [Lau12], ET-LDA [Yuheng12]
• Passage à l’échelle difficile [Aiello13]
• Classification non supervisée des termes
• EDCoW [Weng11], TwEvent [Li12], ET [Parikh13]
• Descriptions des évènements bruités
4
Laboratoire ERIC
Université Lumière Lyon 2
Page
Détection d’évènements dans les médias sociaux
La méthode MABED et le logiciel SONDY
Séminaire ADVANSE (LIRMM) - 23 janvier 2015 Adrien Guille/ 24
La méthode MABED
Synthèse de l’état de l’art et proposition
• Limitations des méthodes existantes
• Supposent que tous les évènements ont une même durée
• Paramètre fixé manuellement [Romero11]
• Considèrent uniquement l’aspect textuel des messages
• Proposition
• Estimer dynamiquement la durée de chaque évènement
• Exploiter l’aspect social des messages via les mentions
• Mention : lien dynamique vers un autre utilisateurs inséré dans un message
5
Laboratoire ERIC
Université Lumière Lyon 2
Page
Détection d’évènements dans les médias sociaux
La méthode MABED et le logiciel SONDY
Séminaire ADVANSE (LIRMM) - 23 janvier 2015 Adrien Guille/ 24
La méthode MABED
Formulation du problème
• Entrée
• Un corpus C contenant N messages,
partitionné en n tranches temporelles
• V, V@, Nt, Ni
t, Ni
@t
• Sortie
• La liste L des k évènements aux k plus
fortes magnitudes d’impact
• Définitions
• Évènement : une thématique saillante
et une valeur Mag traduisant sa
magnitude d’impact
• Thématique saillante : un intervalle
temporel I, un terme principal t, un
ensemble pondéré S de mots liés
6
Laboratoire ERIC
Université Lumière Lyon 2
Page
Détection d’évènements dans les médias sociaux
La méthode MABED et le logiciel SONDY
Séminaire ADVANSE (LIRMM) - 23 janvier 2015 Adrien Guille/ 24
La méthode MABED
Vue d’ensemble de la méthode proposée
• MABED
• Mention-Anomaly-Based Event Detection
• Processus en deux phases
• Phase 1
• Analyser la fréquence de création de
mentions associée à chaque mot du
vocabulaire V@ pour détecter les
évènements (Mag,I,t,Ø)
• Phase 2
• Sélectionner les mots liés à chaque
évènement
• Générer la liste des k évènements
7
Laboratoire ERIC
Université Lumière Lyon 2
Page
Détection d’évènements dans les médias sociaux
La méthode MABED et le logiciel SONDY
Séminaire ADVANSE (LIRMM) - 23 janvier 2015 Adrien Guille/ 24
La méthode MABED
Méthode proposée : phase 1
• Mesurer l’anomalie
• Par rapport à la fréquence de création de mentions à la tranche temporelle i
• Pour chaque mot t
• Mesurer la magnitude d’impact
• En fonction de la mesure d’anomalie
• Pour un évènement décrit par :
• Un mot principal t
• Un intervalle temporel I = [a;b]
8
P(Ni
@t
) =
✓
Ni
Ni
@t
◆
p
Ni
@t
@t (1 p@t)Ni
Ni
@t ,
@t est la probabilité qu’un message contienne le mot t et au moins une men-
lle que soit la tranche temporelle. Comme le nombre de messages Ni
est
ns le contexte des médias sociaux, nous pouvons raisonnablement supposer
@t
) peut être approximée par une loi normale, c’est-à-dire :
P(Ni
@t
) ⇠ N (Ni
p@t, Ni
p@t(1 p@t)).
découle que la quantité espérée de messages contenant le mot t et au moins
tion à la ième
tranche temporelle est :
E[t|i] = Ni
p@t,où p@t = N@t/N.
, nous définissons l’anomalie dans la fréquence de création de mentions liée
à la ième
tranche temporelle comme suit :
anomalie(t, i) = Ni
@t
E[t|i].
cette formulation, l’anomalie est positive uniquement lorsque la fréquence
de création de mentions est strictement supérieure à l’espérance. Les mots
que soit la tranche temporelle. Comme le nombre de messages Ni
est
e contexte des médias sociaux, nous pouvons raisonnablement supposer
peut être approximée par une loi normale, c’est-à-dire :
P(Ni
@t
) ⇠ N (Ni
p@t, Ni
p@t(1 p@t)).
oule que la quantité espérée de messages contenant le mot t et au moins
n à la ième
tranche temporelle est :
E[t|i] = Ni
p@t,où p@t = N@t/N.
ous définissons l’anomalie dans la fréquence de création de mentions liée
a ième
tranche temporelle comme suit :
anomalie(t, i) = Ni
@t
E[t|i].
te formulation, l’anomalie est positive uniquement lorsque la fréquence
création de mentions est strictement supérieure à l’espérance. Les mots
59
P(Ni
@t
) ⇠ N (Ni
p@t, Ni
p@t(1 p@t)).
ule que la quantité espérée de messages contenant le mot t et au moins
à la ième
tranche temporelle est :
E[t|i] = Ni
p@t,où p@t = N@t/N.
us définissons l’anomalie dans la fréquence de création de mentions liée
ième
tranche temporelle comme suit :
anomalie(t, i) = Ni
@t
E[t|i].
e formulation, l’anomalie est positive uniquement lorsque la fréquence
création de mentions est strictement supérieure à l’espérance. Les mots
59
- ++
3.3. Méthode proposée
ènements et spécifiques à une période temporelle particulière auront
voir des valeurs d’anomalie positives élevées durant cette période. Au
mots récurrents (i.e. triviaux) qui ne sont pas liés à un évènement auront
d’anomalie qui divergeront peu par rapport à l’espérance. Par ailleurs,
nt à des approches plus sophistiquées comme par exemple la modélisation
es à l’aide de mixtures gaussiennes, cette formulation passe facilement à
adapte donc facilement à la taille du vocabulaire.
e la magnitude d’impact. La magnitude d’impact, Mag, d’un évènement
tervalle I = [a; b] et au mot principal t est donnée par la formule ci-
correspond à l’aire algébrique sous la fonction d’anomalie sur l’intervalle
Mag(t, I) =
bZ
a
anomalie(t, i)di
bX
3.3. Méthode proposée
liés à des évènements et spécifiques à une période temporelle particulière auront
tendance à avoir des valeurs d’anomalie positives élevées durant cette période. Au
contraire, les mots récurrents (i.e. triviaux) qui ne sont pas liés à un évènement auront
des valeurs d’anomalie qui divergeront peu par rapport à l’espérance. Par ailleurs,
contrairement à des approches plus sophistiquées comme par exemple la modélisation
des fréquences à l’aide de mixtures gaussiennes, cette formulation passe facilement à
l’échelle et s’adapte donc facilement à la taille du vocabulaire.
Calcul de la magnitude d’impact. La magnitude d’impact, Mag, d’un évènement
associé à l’intervalle I = [a; b] et au mot principal t est donnée par la formule ci-
dessous. Elle correspond à l’aire algébrique sous la fonction d’anomalie sur l’intervalle
[a; b].
Mag(t, I) =
bZ
a
anomalie(t, i)di
=
bX
i=a
anomalie(t, i)
L’aire algébrique est obtenue en intégrant la fonction discrète d’anomalie, ce qui
Laboratoire ERIC
Université Lumière Lyon 2
Page
Détection d’évènements dans les médias sociaux
La méthode MABED et le logiciel SONDY
Séminaire ADVANSE (LIRMM) - 23 janvier 2015 Adrien Guille/ 24
La méthode MABED
Méthode proposée : phase 1
• Détecter les évènements
• Pour tous les mots du vocabulaire V@
• Identifier l’intervalle I tel que :
• Résoudre un problème du type «Sous-Séquence Contiguë de Somme Maximale» :
• À la fin de la phase I
• Une liste L’ d’évènements (|L’| = V@), chacun décrit par :
• Un mot principal t
• Un intervalle temporel I
• Sa magnitude d’impact Mag
9
- ++
=
bX
i=a
anomalie(t, i)
ue est obtenue en intégrant la fonction discrète d’anomalie, ce qui
s à une somme.
des évènements. Pour chaque mot t 2 V@, nous cherchons à iden-
ui maximise la magnitude d’impact, c’est-à-dire :
I = argmax
I
Mag(t, I).
s montré précédemment que la magnitude d’impact d’un évènement
principal t et l’intervalle I = [a; b] correspond à la somme de l’ano-
rvalle. Par conséquent, cela revient à résoudre un problème du type
ontiguë de somme maximale » (SSCSM), un type de problème cou-
flots de données (Lappas et al., 2009), qui trouve également des
divers domaines tels que la bio-informatique (Fan et al., 2003) ou
s d’associations (Fukuda et al., 1996). En d’autres termes, pour un
60
I = argmax
I
Mag(t, I)
Or, nous avons montré précédemment que la magnitude d’impact d’un évènement
rit par le mot principal t et l’intervalle I = [a; b] correspond à la somme de l’ano-
ie sur cet intervalle. Par conséquent, cela revient à résoudre un problème du type
us-séquence contiguë de somme maximale » (SSCSM), un type de problème cou-
en fouille de flots de données (Lappas et al., 2009), qui trouve également des
lications dans divers domaines tels que la bio-informatique (Fan et al., 2003) ou
ouille de règles d’associations (Fukuda et al., 1996). En d’autres termes, pour un
t, nous cherchons à identifier l’intervalle I = [a; b] tel que :
Mag(t, I) = max{
bX
i=a
anomalie(t, i)|1 ∂ a ∂ b ∂ n}
Cette formulation permet à l’anomalie d’être négative en certains points de l’in-
alle, si et seulement si cela permet d’étendre l’intervalle tout en augmentant la
gnitude. C’est une propriété intéressante, puisque cela permet d’éviter la fragmen-
on de longs évènements s’étendant sur plusieurs jours et dont l’anomalie associée
ent négative par exemple la nuit, du fait du faible niveau d’activité nocturne sur
Laboratoire ERIC
Université Lumière Lyon 2
Page
Détection d’évènements dans les médias sociaux
La méthode MABED et le logiciel SONDY
Séminaire ADVANSE (LIRMM) - 23 janvier 2015 Adrien Guille/ 24
La méthode MABED
Méthode proposée : phase 2
• Identifier les mots décrivant au mieux les évènements
• Identification des mots candidats (parmi V) selon la cooccurrence
• Sélection selon l’intensité de la corrélation entre leur fréquence absolue
• Mesurée selon le coefficient ne supposant pas la stationnarité [Erdem12]
• Comparée à un seuil θ
10
ènements
alyser des données boursières, réputées non-stationnaires – possède
s intéressantes pour notre application : (i) il est non-paramétrique et
ert pas d’hypothèse de stationnarité contrairement, par exemple, au
Pearson. Ce coefficient prend en compte le décalage temporel afin de
eux la direction de la co-variation des deux séries temporelles au fil
souci de concision, nous ne donnons ici que la formule permettant
e coefficient, étant donnés les mots t, t0
q
et l’intervalle temporel I =
⇢Ot,t0
q
=
bX
i=a+1
At,t0
q
(b a 1)AtAt0
q
,
où At,t0
q
= (Ni
t
Ni 1
t
)(Ni
t0 Ni 1
t0 )
Détecter les évènements
conçu pour analyser des données boursières, réputées non-stationnaires
deux propriétés intéressantes pour notre application : (i) il est non-param
(ii) il ne requiert pas d’hypothèse de stationnarité contrairement, par ex
coefficient de Pearson. Ce coefficient prend en compte le décalage tempo
capturer au mieux la direction de la co-variation des deux séries tempor
du temps. Par souci de concision, nous ne donnons ici que la formule p
d’approximer ce coefficient, étant donnés les mots t, t0
q
et l’intervalle tem
[a; b] :
⇢Ot,t0
q
=
bX
i=a+1
At,t0
q
(b a 1)AtAt0
q
,
où At,t0
q
= (Ni
t
Ni 1
t
)(Ni
t0
q
Ni 1
t0
q
)
A2
t
=
Pb
i=a+1
(Ni
t
Ni 1
t
)2
b a 1
Pb i i 1 2
Laboratoire ERIC
Université Lumière Lyon 2
Page
Détection d’évènements dans les médias sociaux
La méthode MABED et le logiciel SONDY
Séminaire ADVANSE (LIRMM) - 23 janvier 2015 Adrien Guille/ 24
La méthode MABED
Méthode proposée : phase 2
• Construire la liste des k évènements
• Deux structures
• Graphe des évènements
• Graphe des redondances
• Détecter la redondance
• Selon la connectivité dans le graphe des évènements
• Selon le recouvrement temporel
• Fusionner les évènements dupliqués
• Selon les composantes connexes au sein du graphe des redondances
11
Laboratoire ERIC
Université Lumière Lyon 2
Page
Détection d’évènements dans les médias sociaux
La méthode MABED et le logiciel SONDY
Séminaire ADVANSE (LIRMM) - 23 janvier 2015 Adrien Guille/ 24
La méthode MABED
Méthode proposée : phase 2
• Exemple
12
Laboratoire ERIC
Université Lumière Lyon 2
Page
Détection d’évènements dans les médias sociaux
La méthode MABED et le logiciel SONDY
Séminaire ADVANSE (LIRMM) - 23 janvier 2015 Adrien Guille/ 24
La méthode MABED
Méthode proposée : phase 2
• Exemple
13
Laboratoire ERIC
Université Lumière Lyon 2
Page
Détection d’évènements dans les médias sociaux
La méthode MABED et le logiciel SONDY
Séminaire ADVANSE (LIRMM) - 23 janvier 2015 Adrien Guille/ 24
La méthode MABED
Expérimentations : protocole
• Corpus
• Cen : 1,5·106 tweets publiés nov. 2009 [Yang11]
• Cfr : 2·106 tweets publiés en mar. 2012 contenant des mots-clés [ANR ImagiWeb]
• Méthodes comparées
• Trending Score (TS2, TS3) [Benhardus13] et ET [Parikh13]
• α-MABED
• Choix des paramètres
• (α)-MABED : tranches temporelles de 30 minutes, p=10, θ=0.7, σ=0.5
• Trending Score et ET : tranches temporelles de 24 heures
• Métriques d’évaluation
• Évaluation de la significativité des évènements par des juges humains
• Précision, rappel et F-mesure
• DERate [Li12]
• Temps de calcul
14
Laboratoire ERIC
Université Lumière Lyon 2
Page
Détection d’évènements dans les médias sociaux
La méthode MABED et le logiciel SONDY
Séminaire ADVANSE (LIRMM) - 23 janvier 2015 Adrien Guille/ 24
La méthode MABED
Expérimentations : évaluation quantitative
• Observations
• Gain moyen concernant la F-mesure de 17,2% par rapport à α-MABED
• Gain plus important pour le corpus le plus bruité, Cen
15
3.4. Expérimentations
Corpus : Cen
Méthode Précision F-mesure DERate Temps de calcul
MABED 0,775 0,682 0,193 96s
↵-MABED 0,625 0,571 0,160 126s
ET 0,575 0,575 0 3480s
TS2 0,600 0,514 0,250 80s
TS3 0,375 0,281 0,4 82s
Corpus : Cf r
Méthode Précision F-mesure DERate Temps de calcul
MABED 0,825 0,825 0 88s
↵-MABED 0,725 0,712 0,025 113s
ET 0,700 0.674 0,071 4620s
TS2 0,725 0,671 0,138 69s
TS3 0,700 0,616 0,214 74s
TABLE 3.4 – Performances des cinq méthodes sur les deux corpus.
3.4. Expérimentations
Corpus : Cen
Méthode Précision F-mesure DERate Temps de calcul
MABED 0,775 0,682 0,193 96s
↵-MABED 0,625 0,571 0,160 126s
ET 0,575 0,575 0 3480s
TS2 0,600 0,514 0,250 80s
TS3 0,375 0,281 0,4 82s
Corpus : Cf r
Méthode Précision F-mesure DERate Temps de calcul
MABED 0,825 0,825 0 88s
↵-MABED 0,725 0,712 0,025 113s
ET 0,700 0.674 0,071 4620s
TS2 0,725 0,671 0,138 69s
TS3 0,700 0,616 0,214 74s
TABLE 3.4 – Performances des cinq méthodes sur les deux corpus.
Laboratoire ERIC
Université Lumière Lyon 2
Page
Détection d’évènements dans les médias sociaux
La méthode MABED et le logiciel SONDY
Séminaire ADVANSE (LIRMM) - 23 janvier 2015 Adrien Guille/ 24
La méthode MABED
Expérimentations : évaluation quantitative
• Efficacité
• Temps linéaire en fonction de la taille du corpus
• Algorithme aisément parallèlisable
• Effet du paramètre σ
• Influe principalement sur le DERate
16
9
0.5
1
0.4 0.55 0.7 0.85 1
Taille du sous-échantillon
Tempsdecalculnormalisé
MABED
MABED (8 threads)
Figure 5 Runtime comparison versus subsample size.
Event Detection, Tracking and Visualization in Twitter 9
We also measure the DERate (Li et al, 2012), which
denotes the percentage of events that are duplicates
among all significant events detected :
DERate =
# of duplicated events
# of detected significant events
4.2 Quantitative Evaluation
Hereafter, we discuss the performance of the five
considered methods, based on the rates assigned by
the annotators. The inter-annotator agreement, mea-
sured with Cohen’s Kappa (Landis and Koch, 1977),
is  ' 0.76, showing a strong agreement. Table 3 (page
10) reports the precision, the F-measure defined as the
harmonic mean of precision and recall (i.e. 2· P ·R
P +R
), the
DERate and the running-time of each method for both
corpora.
Comparison against baselines We notice that MABED
achieves the best performance on the two corpora, with
a precision of 0.775 and F-measure of 0.682 on Cen, and
a precision and a F-measure of 0.825 on Cfr. Although
ET yields a better DERate on Cen, it still achieves lower
precision and recall than MABED on both corpora. Fur-
thermore, we measure an average relative gain of 17.2%
over ↵-MABED in the F-measure, which suggests that
considering the mentioning behavior of users leads to
0.5
1
0.4 0.55 0.7 0.85 1
Taille du sous-échantillon
Tempsdecalculnormalisé
MABED
MABED (8 threads)
Figure 5 Runtime comparison versus subsample size.
0.2 0.4 0.6 0.8 1
0.2
0.4
0.6
0.8
Valeur de
Précision/F-mesure/DERate
Précision
F-mesure
DERate
Figure 6 Precision, F-measure and DERate of MABED on
Cen for different values of .
Laboratoire ERIC
Université Lumière Lyon 2
Page
Détection d’évènements dans les médias sociaux
La méthode MABED et le logiciel SONDY
Séminaire ADVANSE (LIRMM) - 23 janvier 2015 Adrien Guille/ 24
La méthode MABED
Expérimentations : évaluation qualitative
• Extrait de la liste d’évènements détectés à partir de Cen
• Distribution de la durée des évènements détectés dans Cen et Cfr
17
1
au 28 06h30 Les twittos célèbrent Thanksgiving
2
du 25 09h30 thankful : happy (0.77), thanksgiving (0.71)
au 27 09h00 Lié à l’évènement # 1
3
du 10 16h00 veterans : served (0.80), country (0.78), military (0.73), happy (0.72)
au 12 08h00 Commémoration du 11 novembre, « Veterans Day »
4
du 26 13h00 black : friday (0.95), amazon (0.75)
au 28 10h30 Les twittos discutent des offres proposées par Amazon la veille du « Black Friday »
5
du 07 13h30 hcr, bill, health, house, vote : reform (0.92), passed (0.91), passes (0.88)
au 09 04h30 La Chambre des représentants des États-Unis adopte la réforme de santé
6
du 05 19h30 hood, fort : ft (0.92), shooting (0.83), news (0.78), army (0.75), forthood (0.73)
au 08 09h00 Une fusillade a lieu dans l’enceinte de la base militaire américaine de Fort Hood
7
du 19 04h30 chrome : os (0.95), google (0.87), desktop (0.71)
au 21 02h30 Google rend public le code source de Chrome OS pour PC
8
du 27 18h00 tiger, woods : accident (0.91), car (0.88), crash (0.88), injured (0.80)
au 29 05h00 Tiger Woods est victime d’un accident de la route
9
du 28 22h30 tweetie, 2.1, app : retweets (0.93), store (0.90), native (0.89), geotagging (0.88)
au 30 23h30 L’application Tweetie sort sur l’apple store et inclut de nouvelles fonctions, e.g. retweets
10
du 29 17h00 monday, cyber : deals (0.84), pro (0.75)
au 30 23h30 Les twittos partagent les offres commerciales high-tech du « Cyber Monday »
11
du 10 01h00 linkedin : synced (0.86), updates (0.84), status (0.83), twitter (0.71)
au 12 03h00 Linkedin permet à ses utilisateurs de synchroniser leurs statuts avec Twitter
12
du 04 17h00 yankees, series : win (0.84), won (0.84), fans (0.78), phillies (0.73), york (0.72)
au 06 05h30 Les Yankees, l’équipe de baseball de New York remporte la World Series face aux Philies
13
du 15 09h00 obama : chinese (0.75), barack (0.72), twitter (0.72), china (0.70)
au 17 23h30 Lors d’une visite en Chine, Barack Obama admet n’avoir jamais utilisé Twitter
14
du 25 10h00 holiday : shopping (0.72)
au 26 10h00 Les twittos réagissent par rapport au « Black Friday », un jour férié dédié au shopping
15
du 19 21h30 oprah, end : talk (0.81), show (0.79), 2011 (0.73), winfrey (0.71)
au 21 16h00 Oprah Winfrey annonce la fin de son talk-show en septembre 2011
16
du 07 11h30 healthcare, reform : house (0.91), bill (0.88), passes (0.83), vote (0.83)
au 09 05h00 Lié à l’évènement #5
17
du 11 03h30 facebook : app (0.74), twitter (0.73)
au 13 08h30 Pas d’évènement correspondant
18
du 18 14h00 whats : happening (0.76), twitter (0.73)
au 21 03h00 Twitter demande maintenant « What’s happening ? » et plus « What are you doing ? »
du 20 10h00 cern : lhc (0.86), beam (0.79)
5 nov. #6 (13h30) 6 nov. 7 nov.
0
max
Temps (CST)Anomalie
« hood »
« fort »
« shooting »
FIGURE 3.12 – Anomalie mesurée pour les mots « hood », « fort » et « shooting » du 5
au 7 novembre à minuit (CST).
0
0,1
0,2
0,3
0,4
<12 [12;24] ]24;36] ]36;48] ]48;60] >60
Durée des évènements (en heures)
Pourcentaged’évènements
Cen
Cf r
FIGURE 3.13 – Distribution de la durée des évènements détectés par MABED.
Laboratoire ERIC
Université Lumière Lyon 2
Page
Détection d’évènements dans les médias sociaux
La méthode MABED et le logiciel SONDY
Séminaire ADVANSE (LIRMM) - 23 janvier 2015 Adrien Guille/ 24
La méthode MABED
Expérimentations : évaluation qualitative
• Extrait de la liste d’évènements détectés à partir de Cen
• Graphe des redondances Graphe des évènements (e8)
• Distribution de la durée des évènements détectés dans Cen et Cfr
18
5 nov. #6 (13h30) 6 nov. 7 nov.
0
max
Temps (CST)Anomalie
« hood »
« fort »
« shooting »
FIGURE 3.12 – Anomalie mesurée pour les mots « hood », « fort » et « shooting » du 5
au 7 novembre à minuit (CST).
0
0,1
0,2
0,3
0,4
<12 [12;24] ]24;36] ]36;48] ]48;60] >60
Durée des évènements (en heures)
Pourcentaged’évènements
Cen
Cf r
FIGURE 3.13 – Distribution de la durée des évènements détectés par MABED.
Laboratoire ERIC
Université Lumière Lyon 2
Page
Détection d’évènements dans les médias sociaux
La méthode MABED et le logiciel SONDY
Séminaire ADVANSE (LIRMM) - 23 janvier 2015 Adrien Guille/ 24
La méthode MABED
Expérimentations : évènements et communautés
• Distribution des catégories d’évènements détectés en fonction de la
communauté des utilisateurs (Louvain)
• Catégories d’évènements selon [McMinn13]
19
Détecter les évènements
0
0.5
1
1.5
2
2.5
Poids
Cen(c0)
Cen(c1)
(a) Évènements détectés dans les corpus Cen(c0) et Cen(c1).
0
0.5
1
1.5
2
2.5
Divers
Conflitsarmésetattaques
Sport
Catastrophesetaccidents
Artcultureetdivertissement
Businessetéconomie
Justicepolitiqueetscandales
Scienceettechnologie
Catégorie d’évènements
Poids
Cen
Cen(aléatoire)
(b) Évènements détectés dans les corpus Cen et Cen(aléatoire).
FIGURE 3.17 – Distribution du poids des catégories des évènements détectés par MA-
BED dans les corpus Cen(c0), Cen(c1), Cen et Cen(aléatoire)
Détecter les évènements
0
0.5
1
1.5
2
2.5
Poids
Cen(c0)
Cen(c1)
(a) Évènements détectés dans les corpus Cen(c0) et Cen(c1).
0
0.5
1
1.5
2
2.5
Divers
Conflitsarmésetattaques
Sport
Catastrophesetaccidents
Artcultureetdivertissement
Businessetéconomie
Justicepolitiqueetscandales
Scienceettechnologie
Catégorie d’évènements
Poids
Cen
Cen(aléatoire)
(b) Évènements détectés dans les corpus Cen et Cen(aléatoire).
FIGURE 3.17 – Distribution du poids des catégories des évènements détectés par MA-
BED dans les corpus Cen(c0), Cen(c1), Cen et Cen(aléatoire)
Détecter les évènements
0
0.5
1
1.5
2
2.5
Poids
Cen(c0)
Cen(c1)
(a) Évènements détectés dans les corpus Cen(c0) et Cen(c1).
0
0.5
1
1.5
2
2.5
Divers
etattaques
Sport
taccidents
ertissement
téconomie
tscandales
echnologie
Poids
Cen
Cen(aléatoire)
Laboratoire ERIC
Université Lumière Lyon 2
Page
Détection d’évènements dans les médias sociaux
La méthode MABED et le logiciel SONDY
Séminaire ADVANSE (LIRMM) - 23 janvier 2015 Adrien Guille/ 24
La méthode MABED
Visualisations
• Frise chronologique illustrée
20
Laboratoire ERIC
Université Lumière Lyon 2
Page
Détection d’évènements dans les médias sociaux
La méthode MABED et le logiciel SONDY
Séminaire ADVANSE (LIRMM) - 23 janvier 2015 Adrien Guille/ 24
La méthode MABED
Visualisations
• Évolution de la magnitude d’impact des évènements au fil du temps
21
Laboratoire ERIC
Université Lumière Lyon 2
Page
Détection d’évènements dans les médias sociaux
La méthode MABED et le logiciel SONDY
Séminaire ADVANSE (LIRMM) - 23 janvier 2015 Adrien Guille/ 24
La méthode MABED
Visualisations
• Graphe des évènements
22
Laboratoire ERIC
Université Lumière Lyon 2
Page
Détection d’évènements dans les médias sociaux
La méthode MABED et le logiciel SONDY
Séminaire ADVANSE (LIRMM) - 23 janvier 2015 Adrien Guille/ 24
La méthode MABED
Conclusion
• Proposition d’une nouvelle méthode : MABED
• Prise en compte de l’aspect social du flux de message
• Estimation dynamique de la durée de chaque évènement
• Expérimentations
• Temps d’exécution linéaire en fonction de la taille du corpus
• Meilleure précision en considérant l’aspect social
• Robustesse accrue en présence de bruit
• Mise en lumière du lien entre détection d’évènements et communautés
• Partage du code
• Implémentation centralisée/parallèlisée http://github.com/AdrienGuille/MABED
• Visualisations http://mediamining.univ-lyon2.fr/people/guille/MABED
• Publications liées
• ASONAM 2014, invitation pour la revue SNAM (en cours de relecture)
23
Laboratoire ERIC
Université Lumière Lyon 2
Page
Détection d’évènements dans les médias sociaux
La méthode MABED et le logiciel SONDY
Séminaire ADVANSE (LIRMM) - 23 janvier 2015 Adrien Guille/ 24
Le logiciel SONDY
Détection d’évènements et analyse de l’influence
• Logiciel libre
• http://github.com/AdrienGuille/SONDY
• Interface graphique (UI) et interface de programmation (API)
• Publication liée
• SIGMOD 2013
24
Collecte et préparation des
données
Détection et visualisation
des évènements
Analyse et visualisation de
l’influence des utilisateurs

Mais conteúdo relacionado

Destaque

Quick Start Guide Minelab GPX-4000 Metal Detector French Language 4901 0060 ...
Quick Start Guide Minelab GPX-4000 Metal Detector  French Language 4901 0060 ...Quick Start Guide Minelab GPX-4000 Metal Detector  French Language 4901 0060 ...
Quick Start Guide Minelab GPX-4000 Metal Detector French Language 4901 0060 ...Serious Detecting
 
Instruction Manual Minelab GPX 4800-5000 Metal Detector French Language ...
Instruction Manual Minelab GPX 4800-5000 Metal Detector French Language      ...Instruction Manual Minelab GPX 4800-5000 Metal Detector French Language      ...
Instruction Manual Minelab GPX 4800-5000 Metal Detector French Language ...Serious Detecting
 
Reconnaissance faciale
Reconnaissance facialeReconnaissance faciale
Reconnaissance facialeAymen Fodda
 
SENSIVIC : La détection automatique d'anormalités sonores
SENSIVIC : La détection automatique d'anormalités sonoresSENSIVIC : La détection automatique d'anormalités sonores
SENSIVIC : La détection automatique d'anormalités sonoresPascale Demartini
 
Instruction Manual Minelab Eureka Gold Metal Detector French Language 4901 ...
Instruction Manual Minelab Eureka Gold Metal Detector French Language   4901 ...Instruction Manual Minelab Eureka Gold Metal Detector French Language   4901 ...
Instruction Manual Minelab Eureka Gold Metal Detector French Language 4901 ...Serious Detecting
 
Instruction Manual Minelab X-TERRA 705 Metal Detector French Language (4901-0...
Instruction Manual Minelab X-TERRA 705 Metal Detector French Language (4901-0...Instruction Manual Minelab X-TERRA 705 Metal Detector French Language (4901-0...
Instruction Manual Minelab X-TERRA 705 Metal Detector French Language (4901-0...Serious Detecting
 
Internet lernen - Tipps von Howard Rheingold
Internet lernen - Tipps von Howard RheingoldInternet lernen - Tipps von Howard Rheingold
Internet lernen - Tipps von Howard RheingoldAlex Boerger
 
Web Application Security
Web Application SecurityWeb Application Security
Web Application SecurityJonathan Weiss
 
Meetup #6 Voiture Connectée à Paris
Meetup #6 Voiture Connectée à ParisMeetup #6 Voiture Connectée à Paris
Meetup #6 Voiture Connectée à ParisLaurent Dunys
 
Plagiat : Détection et prévention
Plagiat : Détection et préventionPlagiat : Détection et prévention
Plagiat : Détection et préventionJean-Luc Trussart
 
Reconnaissance de panneaux de signalisation routière en utilisant la détectio...
Reconnaissance de panneaux de signalisation routière en utilisant la détectio...Reconnaissance de panneaux de signalisation routière en utilisant la détectio...
Reconnaissance de panneaux de signalisation routière en utilisant la détectio...Loghin Dumitru
 
Les systèmes RADAR (CFAR)
Les systèmes RADAR (CFAR)Les systèmes RADAR (CFAR)
Les systèmes RADAR (CFAR)amsnet
 
PCR : Polymerase chain reaction : classique et en temps réel
PCR : Polymerase chain reaction : classique et en temps réelPCR : Polymerase chain reaction : classique et en temps réel
PCR : Polymerase chain reaction : classique et en temps réelNadia Terranti
 
Détection des droites par la transformée de Hough
Détection des droites par la transformée de HoughDétection des droites par la transformée de Hough
Détection des droites par la transformée de HoughKhaled Fayala
 

Destaque (20)

Quick Start Guide Minelab GPX-4000 Metal Detector French Language 4901 0060 ...
Quick Start Guide Minelab GPX-4000 Metal Detector  French Language 4901 0060 ...Quick Start Guide Minelab GPX-4000 Metal Detector  French Language 4901 0060 ...
Quick Start Guide Minelab GPX-4000 Metal Detector French Language 4901 0060 ...
 
Les detecteurs tout ou rien
Les detecteurs tout ou rienLes detecteurs tout ou rien
Les detecteurs tout ou rien
 
Instruction Manual Minelab GPX 4800-5000 Metal Detector French Language ...
Instruction Manual Minelab GPX 4800-5000 Metal Detector French Language      ...Instruction Manual Minelab GPX 4800-5000 Metal Detector French Language      ...
Instruction Manual Minelab GPX 4800-5000 Metal Detector French Language ...
 
Reconnaissance faciale
Reconnaissance facialeReconnaissance faciale
Reconnaissance faciale
 
SENSIVIC : La détection automatique d'anormalités sonores
SENSIVIC : La détection automatique d'anormalités sonoresSENSIVIC : La détection automatique d'anormalités sonores
SENSIVIC : La détection automatique d'anormalités sonores
 
Formation traitement d_images
Formation traitement d_imagesFormation traitement d_images
Formation traitement d_images
 
Instruction Manual Minelab Eureka Gold Metal Detector French Language 4901 ...
Instruction Manual Minelab Eureka Gold Metal Detector French Language   4901 ...Instruction Manual Minelab Eureka Gold Metal Detector French Language   4901 ...
Instruction Manual Minelab Eureka Gold Metal Detector French Language 4901 ...
 
Instruction Manual Minelab X-TERRA 705 Metal Detector French Language (4901-0...
Instruction Manual Minelab X-TERRA 705 Metal Detector French Language (4901-0...Instruction Manual Minelab X-TERRA 705 Metal Detector French Language (4901-0...
Instruction Manual Minelab X-TERRA 705 Metal Detector French Language (4901-0...
 
Internet lernen - Tipps von Howard Rheingold
Internet lernen - Tipps von Howard RheingoldInternet lernen - Tipps von Howard Rheingold
Internet lernen - Tipps von Howard Rheingold
 
MIOsoft: SIM Fraud Detection
MIOsoft: SIM Fraud DetectionMIOsoft: SIM Fraud Detection
MIOsoft: SIM Fraud Detection
 
Fraud detection
Fraud detectionFraud detection
Fraud detection
 
Web Application Security
Web Application SecurityWeb Application Security
Web Application Security
 
Meetup #6 Voiture Connectée à Paris
Meetup #6 Voiture Connectée à ParisMeetup #6 Voiture Connectée à Paris
Meetup #6 Voiture Connectée à Paris
 
Plagiat : Détection et prévention
Plagiat : Détection et préventionPlagiat : Détection et prévention
Plagiat : Détection et prévention
 
Network Security
Network SecurityNetwork Security
Network Security
 
Reconnaissance de panneaux de signalisation routière en utilisant la détectio...
Reconnaissance de panneaux de signalisation routière en utilisant la détectio...Reconnaissance de panneaux de signalisation routière en utilisant la détectio...
Reconnaissance de panneaux de signalisation routière en utilisant la détectio...
 
Les systèmes RADAR (CFAR)
Les systèmes RADAR (CFAR)Les systèmes RADAR (CFAR)
Les systèmes RADAR (CFAR)
 
PCR : Polymerase chain reaction : classique et en temps réel
PCR : Polymerase chain reaction : classique et en temps réelPCR : Polymerase chain reaction : classique et en temps réel
PCR : Polymerase chain reaction : classique et en temps réel
 
Détection des droites par la transformée de Hough
Détection des droites par la transformée de HoughDétection des droites par la transformée de Hough
Détection des droites par la transformée de Hough
 
Enfermedad renal crónica 2012
Enfermedad renal crónica  2012Enfermedad renal crónica  2012
Enfermedad renal crónica 2012
 

Séminaire invité - LIRMM - 23 janvier 2015

  • 1. Laboratoire ERIC Université Lumière Lyon 2 Détection d’évènements dans les médias sociaux La méthode MABED et le logiciel SONDY Séminaire de l’équipe ADVANSE - Laboratoire d'Informatique, de Robotique et de Microélectronique de Montpellier 23 janvier 2015 Adrien Guille, PhD Laboratoire ERIC, Université Lumière Lyon 2
  • 2. Laboratoire ERIC Université Lumière Lyon 2 Page Détection d’évènements dans les médias sociaux La méthode MABED et le logiciel SONDY Séminaire ADVANSE (LIRMM) - 23 janvier 2015 Adrien Guille/ 24 Contexte Les médias sociaux • Nouveaux vecteurs d’information efficaces • Twitter : communication de Barack Obama [Hughes09] • Facebook : printemps arabe [Howard11] • Deux fonctionnalités essentielles • Publication de messages sur une page de profil • Connexion à d’autres utilisateurs afin de suivre leurs publications 2
  • 3. Laboratoire ERIC Université Lumière Lyon 2 Page Détection d’évènements dans les médias sociaux La méthode MABED et le logiciel SONDY Séminaire ADVANSE (LIRMM) - 23 janvier 2015 Adrien Guille/ 24 La méthode MABED Introduction • Détecter les évènements significatifs dans les médias sociaux • Évènement : «quelque chose» qui se produit à un moment donné [Aggarwal12] • Évènement significatif : potentiellement traité par les médias traditionnels [McMinn13] • Utile pour l’analyse journalistique, la veille d’information, etc. • Tâche complexe • Messages liés aux évènements noyés par des messages sans rapport, i.e. bruit • On suppose que les thématiques saillantes signalent les évènements [Kleinberg02] 3
  • 4. Laboratoire ERIC Université Lumière Lyon 2 Page Détection d’évènements dans les médias sociaux La méthode MABED et le logiciel SONDY Séminaire ADVANSE (LIRMM) - 23 janvier 2015 Adrien Guille/ 24 La méthode MABED État de l’art • Idée commune : détecter les thématiques saillantes • Pondération statistique des termes • Peaky Topics [Shamma11], Trending Score [Benhardus13] • Possible ambiguité, manque de contexte • Modélisation probabiliste des thématiques latentes • On-line LDA [Lau12], ET-LDA [Yuheng12] • Passage à l’échelle difficile [Aiello13] • Classification non supervisée des termes • EDCoW [Weng11], TwEvent [Li12], ET [Parikh13] • Descriptions des évènements bruités 4
  • 5. Laboratoire ERIC Université Lumière Lyon 2 Page Détection d’évènements dans les médias sociaux La méthode MABED et le logiciel SONDY Séminaire ADVANSE (LIRMM) - 23 janvier 2015 Adrien Guille/ 24 La méthode MABED Synthèse de l’état de l’art et proposition • Limitations des méthodes existantes • Supposent que tous les évènements ont une même durée • Paramètre fixé manuellement [Romero11] • Considèrent uniquement l’aspect textuel des messages • Proposition • Estimer dynamiquement la durée de chaque évènement • Exploiter l’aspect social des messages via les mentions • Mention : lien dynamique vers un autre utilisateurs inséré dans un message 5
  • 6. Laboratoire ERIC Université Lumière Lyon 2 Page Détection d’évènements dans les médias sociaux La méthode MABED et le logiciel SONDY Séminaire ADVANSE (LIRMM) - 23 janvier 2015 Adrien Guille/ 24 La méthode MABED Formulation du problème • Entrée • Un corpus C contenant N messages, partitionné en n tranches temporelles • V, V@, Nt, Ni t, Ni @t • Sortie • La liste L des k évènements aux k plus fortes magnitudes d’impact • Définitions • Évènement : une thématique saillante et une valeur Mag traduisant sa magnitude d’impact • Thématique saillante : un intervalle temporel I, un terme principal t, un ensemble pondéré S de mots liés 6
  • 7. Laboratoire ERIC Université Lumière Lyon 2 Page Détection d’évènements dans les médias sociaux La méthode MABED et le logiciel SONDY Séminaire ADVANSE (LIRMM) - 23 janvier 2015 Adrien Guille/ 24 La méthode MABED Vue d’ensemble de la méthode proposée • MABED • Mention-Anomaly-Based Event Detection • Processus en deux phases • Phase 1 • Analyser la fréquence de création de mentions associée à chaque mot du vocabulaire V@ pour détecter les évènements (Mag,I,t,Ø) • Phase 2 • Sélectionner les mots liés à chaque évènement • Générer la liste des k évènements 7
  • 8. Laboratoire ERIC Université Lumière Lyon 2 Page Détection d’évènements dans les médias sociaux La méthode MABED et le logiciel SONDY Séminaire ADVANSE (LIRMM) - 23 janvier 2015 Adrien Guille/ 24 La méthode MABED Méthode proposée : phase 1 • Mesurer l’anomalie • Par rapport à la fréquence de création de mentions à la tranche temporelle i • Pour chaque mot t • Mesurer la magnitude d’impact • En fonction de la mesure d’anomalie • Pour un évènement décrit par : • Un mot principal t • Un intervalle temporel I = [a;b] 8 P(Ni @t ) = ✓ Ni Ni @t ◆ p Ni @t @t (1 p@t)Ni Ni @t , @t est la probabilité qu’un message contienne le mot t et au moins une men- lle que soit la tranche temporelle. Comme le nombre de messages Ni est ns le contexte des médias sociaux, nous pouvons raisonnablement supposer @t ) peut être approximée par une loi normale, c’est-à-dire : P(Ni @t ) ⇠ N (Ni p@t, Ni p@t(1 p@t)). découle que la quantité espérée de messages contenant le mot t et au moins tion à la ième tranche temporelle est : E[t|i] = Ni p@t,où p@t = N@t/N. , nous définissons l’anomalie dans la fréquence de création de mentions liée à la ième tranche temporelle comme suit : anomalie(t, i) = Ni @t E[t|i]. cette formulation, l’anomalie est positive uniquement lorsque la fréquence de création de mentions est strictement supérieure à l’espérance. Les mots que soit la tranche temporelle. Comme le nombre de messages Ni est e contexte des médias sociaux, nous pouvons raisonnablement supposer peut être approximée par une loi normale, c’est-à-dire : P(Ni @t ) ⇠ N (Ni p@t, Ni p@t(1 p@t)). oule que la quantité espérée de messages contenant le mot t et au moins n à la ième tranche temporelle est : E[t|i] = Ni p@t,où p@t = N@t/N. ous définissons l’anomalie dans la fréquence de création de mentions liée a ième tranche temporelle comme suit : anomalie(t, i) = Ni @t E[t|i]. te formulation, l’anomalie est positive uniquement lorsque la fréquence création de mentions est strictement supérieure à l’espérance. Les mots 59 P(Ni @t ) ⇠ N (Ni p@t, Ni p@t(1 p@t)). ule que la quantité espérée de messages contenant le mot t et au moins à la ième tranche temporelle est : E[t|i] = Ni p@t,où p@t = N@t/N. us définissons l’anomalie dans la fréquence de création de mentions liée ième tranche temporelle comme suit : anomalie(t, i) = Ni @t E[t|i]. e formulation, l’anomalie est positive uniquement lorsque la fréquence création de mentions est strictement supérieure à l’espérance. Les mots 59 - ++ 3.3. Méthode proposée ènements et spécifiques à une période temporelle particulière auront voir des valeurs d’anomalie positives élevées durant cette période. Au mots récurrents (i.e. triviaux) qui ne sont pas liés à un évènement auront d’anomalie qui divergeront peu par rapport à l’espérance. Par ailleurs, nt à des approches plus sophistiquées comme par exemple la modélisation es à l’aide de mixtures gaussiennes, cette formulation passe facilement à adapte donc facilement à la taille du vocabulaire. e la magnitude d’impact. La magnitude d’impact, Mag, d’un évènement tervalle I = [a; b] et au mot principal t est donnée par la formule ci- correspond à l’aire algébrique sous la fonction d’anomalie sur l’intervalle Mag(t, I) = bZ a anomalie(t, i)di bX 3.3. Méthode proposée liés à des évènements et spécifiques à une période temporelle particulière auront tendance à avoir des valeurs d’anomalie positives élevées durant cette période. Au contraire, les mots récurrents (i.e. triviaux) qui ne sont pas liés à un évènement auront des valeurs d’anomalie qui divergeront peu par rapport à l’espérance. Par ailleurs, contrairement à des approches plus sophistiquées comme par exemple la modélisation des fréquences à l’aide de mixtures gaussiennes, cette formulation passe facilement à l’échelle et s’adapte donc facilement à la taille du vocabulaire. Calcul de la magnitude d’impact. La magnitude d’impact, Mag, d’un évènement associé à l’intervalle I = [a; b] et au mot principal t est donnée par la formule ci- dessous. Elle correspond à l’aire algébrique sous la fonction d’anomalie sur l’intervalle [a; b]. Mag(t, I) = bZ a anomalie(t, i)di = bX i=a anomalie(t, i) L’aire algébrique est obtenue en intégrant la fonction discrète d’anomalie, ce qui
  • 9. Laboratoire ERIC Université Lumière Lyon 2 Page Détection d’évènements dans les médias sociaux La méthode MABED et le logiciel SONDY Séminaire ADVANSE (LIRMM) - 23 janvier 2015 Adrien Guille/ 24 La méthode MABED Méthode proposée : phase 1 • Détecter les évènements • Pour tous les mots du vocabulaire V@ • Identifier l’intervalle I tel que : • Résoudre un problème du type «Sous-Séquence Contiguë de Somme Maximale» : • À la fin de la phase I • Une liste L’ d’évènements (|L’| = V@), chacun décrit par : • Un mot principal t • Un intervalle temporel I • Sa magnitude d’impact Mag 9 - ++ = bX i=a anomalie(t, i) ue est obtenue en intégrant la fonction discrète d’anomalie, ce qui s à une somme. des évènements. Pour chaque mot t 2 V@, nous cherchons à iden- ui maximise la magnitude d’impact, c’est-à-dire : I = argmax I Mag(t, I). s montré précédemment que la magnitude d’impact d’un évènement principal t et l’intervalle I = [a; b] correspond à la somme de l’ano- rvalle. Par conséquent, cela revient à résoudre un problème du type ontiguë de somme maximale » (SSCSM), un type de problème cou- flots de données (Lappas et al., 2009), qui trouve également des divers domaines tels que la bio-informatique (Fan et al., 2003) ou s d’associations (Fukuda et al., 1996). En d’autres termes, pour un 60 I = argmax I Mag(t, I) Or, nous avons montré précédemment que la magnitude d’impact d’un évènement rit par le mot principal t et l’intervalle I = [a; b] correspond à la somme de l’ano- ie sur cet intervalle. Par conséquent, cela revient à résoudre un problème du type us-séquence contiguë de somme maximale » (SSCSM), un type de problème cou- en fouille de flots de données (Lappas et al., 2009), qui trouve également des lications dans divers domaines tels que la bio-informatique (Fan et al., 2003) ou ouille de règles d’associations (Fukuda et al., 1996). En d’autres termes, pour un t, nous cherchons à identifier l’intervalle I = [a; b] tel que : Mag(t, I) = max{ bX i=a anomalie(t, i)|1 ∂ a ∂ b ∂ n} Cette formulation permet à l’anomalie d’être négative en certains points de l’in- alle, si et seulement si cela permet d’étendre l’intervalle tout en augmentant la gnitude. C’est une propriété intéressante, puisque cela permet d’éviter la fragmen- on de longs évènements s’étendant sur plusieurs jours et dont l’anomalie associée ent négative par exemple la nuit, du fait du faible niveau d’activité nocturne sur
  • 10. Laboratoire ERIC Université Lumière Lyon 2 Page Détection d’évènements dans les médias sociaux La méthode MABED et le logiciel SONDY Séminaire ADVANSE (LIRMM) - 23 janvier 2015 Adrien Guille/ 24 La méthode MABED Méthode proposée : phase 2 • Identifier les mots décrivant au mieux les évènements • Identification des mots candidats (parmi V) selon la cooccurrence • Sélection selon l’intensité de la corrélation entre leur fréquence absolue • Mesurée selon le coefficient ne supposant pas la stationnarité [Erdem12] • Comparée à un seuil θ 10 ènements alyser des données boursières, réputées non-stationnaires – possède s intéressantes pour notre application : (i) il est non-paramétrique et ert pas d’hypothèse de stationnarité contrairement, par exemple, au Pearson. Ce coefficient prend en compte le décalage temporel afin de eux la direction de la co-variation des deux séries temporelles au fil souci de concision, nous ne donnons ici que la formule permettant e coefficient, étant donnés les mots t, t0 q et l’intervalle temporel I = ⇢Ot,t0 q = bX i=a+1 At,t0 q (b a 1)AtAt0 q , où At,t0 q = (Ni t Ni 1 t )(Ni t0 Ni 1 t0 ) Détecter les évènements conçu pour analyser des données boursières, réputées non-stationnaires deux propriétés intéressantes pour notre application : (i) il est non-param (ii) il ne requiert pas d’hypothèse de stationnarité contrairement, par ex coefficient de Pearson. Ce coefficient prend en compte le décalage tempo capturer au mieux la direction de la co-variation des deux séries tempor du temps. Par souci de concision, nous ne donnons ici que la formule p d’approximer ce coefficient, étant donnés les mots t, t0 q et l’intervalle tem [a; b] : ⇢Ot,t0 q = bX i=a+1 At,t0 q (b a 1)AtAt0 q , où At,t0 q = (Ni t Ni 1 t )(Ni t0 q Ni 1 t0 q ) A2 t = Pb i=a+1 (Ni t Ni 1 t )2 b a 1 Pb i i 1 2
  • 11. Laboratoire ERIC Université Lumière Lyon 2 Page Détection d’évènements dans les médias sociaux La méthode MABED et le logiciel SONDY Séminaire ADVANSE (LIRMM) - 23 janvier 2015 Adrien Guille/ 24 La méthode MABED Méthode proposée : phase 2 • Construire la liste des k évènements • Deux structures • Graphe des évènements • Graphe des redondances • Détecter la redondance • Selon la connectivité dans le graphe des évènements • Selon le recouvrement temporel • Fusionner les évènements dupliqués • Selon les composantes connexes au sein du graphe des redondances 11
  • 12. Laboratoire ERIC Université Lumière Lyon 2 Page Détection d’évènements dans les médias sociaux La méthode MABED et le logiciel SONDY Séminaire ADVANSE (LIRMM) - 23 janvier 2015 Adrien Guille/ 24 La méthode MABED Méthode proposée : phase 2 • Exemple 12
  • 13. Laboratoire ERIC Université Lumière Lyon 2 Page Détection d’évènements dans les médias sociaux La méthode MABED et le logiciel SONDY Séminaire ADVANSE (LIRMM) - 23 janvier 2015 Adrien Guille/ 24 La méthode MABED Méthode proposée : phase 2 • Exemple 13
  • 14. Laboratoire ERIC Université Lumière Lyon 2 Page Détection d’évènements dans les médias sociaux La méthode MABED et le logiciel SONDY Séminaire ADVANSE (LIRMM) - 23 janvier 2015 Adrien Guille/ 24 La méthode MABED Expérimentations : protocole • Corpus • Cen : 1,5·106 tweets publiés nov. 2009 [Yang11] • Cfr : 2·106 tweets publiés en mar. 2012 contenant des mots-clés [ANR ImagiWeb] • Méthodes comparées • Trending Score (TS2, TS3) [Benhardus13] et ET [Parikh13] • α-MABED • Choix des paramètres • (α)-MABED : tranches temporelles de 30 minutes, p=10, θ=0.7, σ=0.5 • Trending Score et ET : tranches temporelles de 24 heures • Métriques d’évaluation • Évaluation de la significativité des évènements par des juges humains • Précision, rappel et F-mesure • DERate [Li12] • Temps de calcul 14
  • 15. Laboratoire ERIC Université Lumière Lyon 2 Page Détection d’évènements dans les médias sociaux La méthode MABED et le logiciel SONDY Séminaire ADVANSE (LIRMM) - 23 janvier 2015 Adrien Guille/ 24 La méthode MABED Expérimentations : évaluation quantitative • Observations • Gain moyen concernant la F-mesure de 17,2% par rapport à α-MABED • Gain plus important pour le corpus le plus bruité, Cen 15 3.4. Expérimentations Corpus : Cen Méthode Précision F-mesure DERate Temps de calcul MABED 0,775 0,682 0,193 96s ↵-MABED 0,625 0,571 0,160 126s ET 0,575 0,575 0 3480s TS2 0,600 0,514 0,250 80s TS3 0,375 0,281 0,4 82s Corpus : Cf r Méthode Précision F-mesure DERate Temps de calcul MABED 0,825 0,825 0 88s ↵-MABED 0,725 0,712 0,025 113s ET 0,700 0.674 0,071 4620s TS2 0,725 0,671 0,138 69s TS3 0,700 0,616 0,214 74s TABLE 3.4 – Performances des cinq méthodes sur les deux corpus. 3.4. Expérimentations Corpus : Cen Méthode Précision F-mesure DERate Temps de calcul MABED 0,775 0,682 0,193 96s ↵-MABED 0,625 0,571 0,160 126s ET 0,575 0,575 0 3480s TS2 0,600 0,514 0,250 80s TS3 0,375 0,281 0,4 82s Corpus : Cf r Méthode Précision F-mesure DERate Temps de calcul MABED 0,825 0,825 0 88s ↵-MABED 0,725 0,712 0,025 113s ET 0,700 0.674 0,071 4620s TS2 0,725 0,671 0,138 69s TS3 0,700 0,616 0,214 74s TABLE 3.4 – Performances des cinq méthodes sur les deux corpus.
  • 16. Laboratoire ERIC Université Lumière Lyon 2 Page Détection d’évènements dans les médias sociaux La méthode MABED et le logiciel SONDY Séminaire ADVANSE (LIRMM) - 23 janvier 2015 Adrien Guille/ 24 La méthode MABED Expérimentations : évaluation quantitative • Efficacité • Temps linéaire en fonction de la taille du corpus • Algorithme aisément parallèlisable • Effet du paramètre σ • Influe principalement sur le DERate 16 9 0.5 1 0.4 0.55 0.7 0.85 1 Taille du sous-échantillon Tempsdecalculnormalisé MABED MABED (8 threads) Figure 5 Runtime comparison versus subsample size. Event Detection, Tracking and Visualization in Twitter 9 We also measure the DERate (Li et al, 2012), which denotes the percentage of events that are duplicates among all significant events detected : DERate = # of duplicated events # of detected significant events 4.2 Quantitative Evaluation Hereafter, we discuss the performance of the five considered methods, based on the rates assigned by the annotators. The inter-annotator agreement, mea- sured with Cohen’s Kappa (Landis and Koch, 1977), is  ' 0.76, showing a strong agreement. Table 3 (page 10) reports the precision, the F-measure defined as the harmonic mean of precision and recall (i.e. 2· P ·R P +R ), the DERate and the running-time of each method for both corpora. Comparison against baselines We notice that MABED achieves the best performance on the two corpora, with a precision of 0.775 and F-measure of 0.682 on Cen, and a precision and a F-measure of 0.825 on Cfr. Although ET yields a better DERate on Cen, it still achieves lower precision and recall than MABED on both corpora. Fur- thermore, we measure an average relative gain of 17.2% over ↵-MABED in the F-measure, which suggests that considering the mentioning behavior of users leads to 0.5 1 0.4 0.55 0.7 0.85 1 Taille du sous-échantillon Tempsdecalculnormalisé MABED MABED (8 threads) Figure 5 Runtime comparison versus subsample size. 0.2 0.4 0.6 0.8 1 0.2 0.4 0.6 0.8 Valeur de Précision/F-mesure/DERate Précision F-mesure DERate Figure 6 Precision, F-measure and DERate of MABED on Cen for different values of .
  • 17. Laboratoire ERIC Université Lumière Lyon 2 Page Détection d’évènements dans les médias sociaux La méthode MABED et le logiciel SONDY Séminaire ADVANSE (LIRMM) - 23 janvier 2015 Adrien Guille/ 24 La méthode MABED Expérimentations : évaluation qualitative • Extrait de la liste d’évènements détectés à partir de Cen • Distribution de la durée des évènements détectés dans Cen et Cfr 17 1 au 28 06h30 Les twittos célèbrent Thanksgiving 2 du 25 09h30 thankful : happy (0.77), thanksgiving (0.71) au 27 09h00 Lié à l’évènement # 1 3 du 10 16h00 veterans : served (0.80), country (0.78), military (0.73), happy (0.72) au 12 08h00 Commémoration du 11 novembre, « Veterans Day » 4 du 26 13h00 black : friday (0.95), amazon (0.75) au 28 10h30 Les twittos discutent des offres proposées par Amazon la veille du « Black Friday » 5 du 07 13h30 hcr, bill, health, house, vote : reform (0.92), passed (0.91), passes (0.88) au 09 04h30 La Chambre des représentants des États-Unis adopte la réforme de santé 6 du 05 19h30 hood, fort : ft (0.92), shooting (0.83), news (0.78), army (0.75), forthood (0.73) au 08 09h00 Une fusillade a lieu dans l’enceinte de la base militaire américaine de Fort Hood 7 du 19 04h30 chrome : os (0.95), google (0.87), desktop (0.71) au 21 02h30 Google rend public le code source de Chrome OS pour PC 8 du 27 18h00 tiger, woods : accident (0.91), car (0.88), crash (0.88), injured (0.80) au 29 05h00 Tiger Woods est victime d’un accident de la route 9 du 28 22h30 tweetie, 2.1, app : retweets (0.93), store (0.90), native (0.89), geotagging (0.88) au 30 23h30 L’application Tweetie sort sur l’apple store et inclut de nouvelles fonctions, e.g. retweets 10 du 29 17h00 monday, cyber : deals (0.84), pro (0.75) au 30 23h30 Les twittos partagent les offres commerciales high-tech du « Cyber Monday » 11 du 10 01h00 linkedin : synced (0.86), updates (0.84), status (0.83), twitter (0.71) au 12 03h00 Linkedin permet à ses utilisateurs de synchroniser leurs statuts avec Twitter 12 du 04 17h00 yankees, series : win (0.84), won (0.84), fans (0.78), phillies (0.73), york (0.72) au 06 05h30 Les Yankees, l’équipe de baseball de New York remporte la World Series face aux Philies 13 du 15 09h00 obama : chinese (0.75), barack (0.72), twitter (0.72), china (0.70) au 17 23h30 Lors d’une visite en Chine, Barack Obama admet n’avoir jamais utilisé Twitter 14 du 25 10h00 holiday : shopping (0.72) au 26 10h00 Les twittos réagissent par rapport au « Black Friday », un jour férié dédié au shopping 15 du 19 21h30 oprah, end : talk (0.81), show (0.79), 2011 (0.73), winfrey (0.71) au 21 16h00 Oprah Winfrey annonce la fin de son talk-show en septembre 2011 16 du 07 11h30 healthcare, reform : house (0.91), bill (0.88), passes (0.83), vote (0.83) au 09 05h00 Lié à l’évènement #5 17 du 11 03h30 facebook : app (0.74), twitter (0.73) au 13 08h30 Pas d’évènement correspondant 18 du 18 14h00 whats : happening (0.76), twitter (0.73) au 21 03h00 Twitter demande maintenant « What’s happening ? » et plus « What are you doing ? » du 20 10h00 cern : lhc (0.86), beam (0.79) 5 nov. #6 (13h30) 6 nov. 7 nov. 0 max Temps (CST)Anomalie « hood » « fort » « shooting » FIGURE 3.12 – Anomalie mesurée pour les mots « hood », « fort » et « shooting » du 5 au 7 novembre à minuit (CST). 0 0,1 0,2 0,3 0,4 <12 [12;24] ]24;36] ]36;48] ]48;60] >60 Durée des évènements (en heures) Pourcentaged’évènements Cen Cf r FIGURE 3.13 – Distribution de la durée des évènements détectés par MABED.
  • 18. Laboratoire ERIC Université Lumière Lyon 2 Page Détection d’évènements dans les médias sociaux La méthode MABED et le logiciel SONDY Séminaire ADVANSE (LIRMM) - 23 janvier 2015 Adrien Guille/ 24 La méthode MABED Expérimentations : évaluation qualitative • Extrait de la liste d’évènements détectés à partir de Cen • Graphe des redondances Graphe des évènements (e8) • Distribution de la durée des évènements détectés dans Cen et Cfr 18 5 nov. #6 (13h30) 6 nov. 7 nov. 0 max Temps (CST)Anomalie « hood » « fort » « shooting » FIGURE 3.12 – Anomalie mesurée pour les mots « hood », « fort » et « shooting » du 5 au 7 novembre à minuit (CST). 0 0,1 0,2 0,3 0,4 <12 [12;24] ]24;36] ]36;48] ]48;60] >60 Durée des évènements (en heures) Pourcentaged’évènements Cen Cf r FIGURE 3.13 – Distribution de la durée des évènements détectés par MABED.
  • 19. Laboratoire ERIC Université Lumière Lyon 2 Page Détection d’évènements dans les médias sociaux La méthode MABED et le logiciel SONDY Séminaire ADVANSE (LIRMM) - 23 janvier 2015 Adrien Guille/ 24 La méthode MABED Expérimentations : évènements et communautés • Distribution des catégories d’évènements détectés en fonction de la communauté des utilisateurs (Louvain) • Catégories d’évènements selon [McMinn13] 19 Détecter les évènements 0 0.5 1 1.5 2 2.5 Poids Cen(c0) Cen(c1) (a) Évènements détectés dans les corpus Cen(c0) et Cen(c1). 0 0.5 1 1.5 2 2.5 Divers Conflitsarmésetattaques Sport Catastrophesetaccidents Artcultureetdivertissement Businessetéconomie Justicepolitiqueetscandales Scienceettechnologie Catégorie d’évènements Poids Cen Cen(aléatoire) (b) Évènements détectés dans les corpus Cen et Cen(aléatoire). FIGURE 3.17 – Distribution du poids des catégories des évènements détectés par MA- BED dans les corpus Cen(c0), Cen(c1), Cen et Cen(aléatoire) Détecter les évènements 0 0.5 1 1.5 2 2.5 Poids Cen(c0) Cen(c1) (a) Évènements détectés dans les corpus Cen(c0) et Cen(c1). 0 0.5 1 1.5 2 2.5 Divers Conflitsarmésetattaques Sport Catastrophesetaccidents Artcultureetdivertissement Businessetéconomie Justicepolitiqueetscandales Scienceettechnologie Catégorie d’évènements Poids Cen Cen(aléatoire) (b) Évènements détectés dans les corpus Cen et Cen(aléatoire). FIGURE 3.17 – Distribution du poids des catégories des évènements détectés par MA- BED dans les corpus Cen(c0), Cen(c1), Cen et Cen(aléatoire) Détecter les évènements 0 0.5 1 1.5 2 2.5 Poids Cen(c0) Cen(c1) (a) Évènements détectés dans les corpus Cen(c0) et Cen(c1). 0 0.5 1 1.5 2 2.5 Divers etattaques Sport taccidents ertissement téconomie tscandales echnologie Poids Cen Cen(aléatoire)
  • 20. Laboratoire ERIC Université Lumière Lyon 2 Page Détection d’évènements dans les médias sociaux La méthode MABED et le logiciel SONDY Séminaire ADVANSE (LIRMM) - 23 janvier 2015 Adrien Guille/ 24 La méthode MABED Visualisations • Frise chronologique illustrée 20
  • 21. Laboratoire ERIC Université Lumière Lyon 2 Page Détection d’évènements dans les médias sociaux La méthode MABED et le logiciel SONDY Séminaire ADVANSE (LIRMM) - 23 janvier 2015 Adrien Guille/ 24 La méthode MABED Visualisations • Évolution de la magnitude d’impact des évènements au fil du temps 21
  • 22. Laboratoire ERIC Université Lumière Lyon 2 Page Détection d’évènements dans les médias sociaux La méthode MABED et le logiciel SONDY Séminaire ADVANSE (LIRMM) - 23 janvier 2015 Adrien Guille/ 24 La méthode MABED Visualisations • Graphe des évènements 22
  • 23. Laboratoire ERIC Université Lumière Lyon 2 Page Détection d’évènements dans les médias sociaux La méthode MABED et le logiciel SONDY Séminaire ADVANSE (LIRMM) - 23 janvier 2015 Adrien Guille/ 24 La méthode MABED Conclusion • Proposition d’une nouvelle méthode : MABED • Prise en compte de l’aspect social du flux de message • Estimation dynamique de la durée de chaque évènement • Expérimentations • Temps d’exécution linéaire en fonction de la taille du corpus • Meilleure précision en considérant l’aspect social • Robustesse accrue en présence de bruit • Mise en lumière du lien entre détection d’évènements et communautés • Partage du code • Implémentation centralisée/parallèlisée http://github.com/AdrienGuille/MABED • Visualisations http://mediamining.univ-lyon2.fr/people/guille/MABED • Publications liées • ASONAM 2014, invitation pour la revue SNAM (en cours de relecture) 23
  • 24. Laboratoire ERIC Université Lumière Lyon 2 Page Détection d’évènements dans les médias sociaux La méthode MABED et le logiciel SONDY Séminaire ADVANSE (LIRMM) - 23 janvier 2015 Adrien Guille/ 24 Le logiciel SONDY Détection d’évènements et analyse de l’influence • Logiciel libre • http://github.com/AdrienGuille/SONDY • Interface graphique (UI) et interface de programmation (API) • Publication liée • SIGMOD 2013 24 Collecte et préparation des données Détection et visualisation des évènements Analyse et visualisation de l’influence des utilisateurs