Στέφανος Μπουρτζούδης

Μπουρτζούδης Στέφανος,
Τμήμα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών, Α.Π.Θ
Υπό την επίβλεψη του Καθηγητή κ. Περικλή Α. Μήτκα
Εντοπισμός Γεγονότων σε Δεδομένα
Κοινωνικών Μέσων με Χρήση Τεχνικών
Αναγνώρισης Συναισθήματος
Διπλωματική Εργασία

1. Περιγραφή του προβλήματος
2. Στόχοι της εργασίας
3. Περιγραφή της μεθοδολογίας
4. Αποτελέσματα της μεθοδολογίας
5. Συμπεράσματα & Μελλοντική εργασία
Δομή της παρουσίασης

• Μεγάλος όγκος δεδομένων
• Συνεχής ροή νέων δεδομένων
• Μεγάλο ποσοστό θορύβου στα δεδομένα
Περιγραφή του προβλήματος
Δύσκολος ο εντοπισμός γεγονότων σε σύντομο
χρονικό διάστημα από τη χρονική στιγμή που
αυτά συμβαίνουν.

Πιο αποτελεσματική αναπαράσταση των γεγονότων που
περιέχονται σε ένα σύνολο δεδομένων
Στόχος της εργασίας
Προκλήσεις:
• Εντοπισμός υποψήφιων γεγονότων μέσα σε περιοχές υψηλής πόλωσης
• Περίληψη των υποψήφιων γεγονότων
• Ομαδοποίηση υποψήφιων γεγονότων

Συλλογή tweets:
• Twitter REST API
• Twitter Streaming API
Μεθοδολογία (1/6)
Προ-επεξεργασία:
• Διατήρηση Αγγλικών tweets
• Σύμπτυξη ή αφαίρεση
χαρακτηριστικών
• Εξαγωγή οντοτήτων
• Συντακτική ανάλυση
• Εισαγωγή στη MongoDB
Πεδίο Περιγραφή
text Το αρχικό κείμενο του tweet
publicationTime Ο χρόνος δημιουργίας του tweet σε
milliseconds
username Το όνομα του χρήστη που δημοσίευσε το
tweet
hashtags Η λίστα των hashtags που περιέχει το tweet
entities Η λίστα των οντοτήτων που περιέχονται
στο tweet
reposts Ο αριθμός των αναδημοσιεύσεων του
συγκεκριμένου tweet από άλλους χρήστες
original Μεταβλητή τύπου boolean που δίνει αν το
tweet είναι πρωτότυπο ή αν είναι retweet
properNouns Η λίστα των κύριων ονομάτων που
περιέχονται στο tweet
posTags Η λίστα περιγραφής του μέρους του λόγου
για κάθε λέξη του κειμένου του tweet
cleanText Το κείμενο του tweet επεξεργασμένο
accepted Μεταβλητή τύπου boolean που δίνει αν το
tweet είναι αποδεκτό

Ανάλυση συναισθήματος στο αρχικό κείμενο του κάθε
tweet:
• Βιβλιοθήκη SentiStrength (Thelwall et al. 2012)
• Αποτέλεσμα 2 ακέραιοι. π.χ (3,5)
• Υπολογισμός πόλωσης
Μείωση θορύβου στο κείμενο των tweets:
• Όλες οι διευθύνσεις URL αντικαταστάθηκαν
• Τα mentions σε άλλους χρήστες αντικαταστάθηκαν
• Το σύμβολο # των hashtags αφαιρέθηκε
• Αφαιρέθηκαν επαναλαμβανόμενα γράμματα

Δημιουργία ευρετηρίου όρων:
• Δημιουργία ευρετηρίου με τη βιβλιοθήκη Lucene
• Προσαρμοσμένος αναλυτής κειμένου (n-grams)
Χρονική κατάτμηση:
• Με βάση το χρόνο δημιουργίας των tweets
• Δημιουργία μη επικαλυπτόμενων χρονικών
περιοχών (timeslots) με χρονική διάρκεια σε λεπτά

Αυξητικό μοντέλο 𝑡𝑓 ∙ 𝑖𝑑𝑓:
• Υπολογισμός της σταθμισμένης συχνότητας
εμφάνισης των όρων μέσα σε κάθε χρονική περιοχή
• Η βαρύτητα των όρων προσαρμόζεται με το
πέρασμα του χρόνου
Εξαγωγή οντοτήτων:
𝜃 = 𝑚𝑒𝑑𝑖𝑎𝑛 + 𝛾 ∙ 𝑚𝑒𝑎𝑛

Ιστόγραμμα της πόλωση:
𝑝𝑜𝑙𝑎𝑟𝑖𝑡𝑦𝑖 =
𝑡𝑜𝑡𝑎𝑙 𝑝𝑜𝑠𝑖𝑡𝑖𝑣𝑒,𝑖 − 𝑡𝑜𝑡𝑎𝑙 𝑛𝑒𝑔𝑎𝑡𝑖𝑣𝑒,𝑖
𝑡𝑜𝑡𝑎𝑙 𝑝𝑜𝑠𝑖𝑡𝑖𝑣𝑒,𝑖 + 𝑡𝑜𝑡𝑎𝑙 𝑛𝑒𝑔𝑎𝑡𝑖𝑣𝑒,𝑖
Εντοπισμός κορυφών στο ιστόγραμμα της πόλωση:
• Αλγόριθμος Palshikar (2009)
• Παράμετροι windowSize, strigency
Περίληψη υποψήφιων γεγονότων:
• Υπολογισμός συσχέτισης όρων
• Συντελεστής συσχέτισης Erdem et al. (2011)

Ομαδοποίηση υποψήφιων γεγονότων:
• Μη κατευθυνόμενος γράφος
• Ομαδοποίηση γράφου μέσω του
αλγόριθμου SCAN (Xu et al. 2007)
Εύρεση αντιπροσωπευτικών tweets για κάθε γεγονός:
• Αναζήτηση των όρων στη Lucene
• Αποτελέσματα με την υψηλότερη βαθμολογία

• 12 Ιουνίου έως τις 13 Ιουλίου
• 32 εθνικές ομάδες
• 64 αγώνες
• Διαδικτυακά συμμετείχαν πάνω από 1
δισ. χρήστες απ’ όλο τον κόσμο
Παγκόσμιο Κύπελλο ποδοσφαίρου 2014
Σύνολο δεδομένων:
• 12.835.386 tweets
• Όλα γραμμένα στα Αγγλικά
• Από 1η Απριλίου 2007 έως 18η Ιουλίου 2014

• Χρονική κατάτμηση (30, 60 και 90 λεπτά)
• Εξαγωγή οντοτήτων (γ = 10)
• Εύρεση υποψήφιων γεγονότων (180 λεπτά, stringency = 2)
• Περίληψη υποψήφιων γεγονότων (𝑐𝑜𝑒𝑓 ≥ 0,90)
• Ομαδοποίηση υποψήφιων γεγονότων (μ=3, ε=[0,65 0,70 0,75])
Εύρεση γεγονότων στη διάρκεια του Παγκοσμίου
Κυπέλλου ποδοσφαίρου

Αποτελέσματα
timeslot ε Precision Recall F1 TP P
30 0,65 0,7412 0,8873 0,8077 63 85
30 0,7 0,7317 0,8824 0,8000 60 82
30 0,75 0,9333 1,0000 0,9655 14 15
60 0,65 0,8302 1,0000 0,9072 44 53
60 0,7 0,8077 1,0000 0,8936 42 52
60 0,75 0,9333 1,0000 0,9655 14 15
90 0,65 0,8696 1,0000 0,9302 20 23
90 0,7 0,8571 1,0000 0,9231 18 21
90 0,75 0,7500 1,0000 0,8571 3 4

• Χρονική κατάτμηση (1, 2, 5 λεπτά)
• Εξαγωγή οντοτήτων (γ = 10)
• Εύρεση υποψήφιων γεγονότων (10 λεπτά, stringency = 1)
• Περίληψη υποψήφιων γεγονότων (𝑐𝑜𝑒𝑓 ≥ 0,75)
• Ομαδοποίηση υποψήφιων γεγονότων (μ = 3, ε = [0,45 0,50 0,55
0,60 0,65])
Εύρεση γεγονότων στη διάρκεια ενός
ποδοσφαιρικού αγώνα

Αποτελέσματα για τον αγώνα Γαλλία - Ονδούρα
Timeslot ε Precision Recall F1 TP P
1 0.45 0,7333 0,7857 0,7586 11 15
1 0.5 0,7273 0,8000 0,7619 8 11
1 0.55 0,8571 1,0000 0,9231 6 7
1 0.6 0,8571 1,0000 0,9231 6 7
1 0.65 1,0000 1,0000 1,0000 2 2
2 0.45 0,8000 1,0000 0,8889 12 15
2 0.5 0,8182 1,0000 0,9000 9 11
2 0.55 0,8000 1,0000 0,8889 8 10
2 0.6 0,8000 1,0000 0,8889 4 5
2 0.65 0,6667 1,0000 0,8000 2 3
5 0.45 1,0000 1,0000 1,0000 2 2
5 0.5 1,0000 1,0000 1,0000 1 1
5 0.55 1,0000 1,0000 1,0000 1 1
5 0.6 1,0000 1,0000 1,0000 1 1
5 0.65 1,0000 1,0000 1,0000 1 1

• Γεγονότα σε κοντινή χρονική απόσταση &
χρονικά επικαλυπτόμενα
• Πολυγλωσσική υποστήριξη του συστήματος
• Λειτουργία σε πραγματικό χρόνο
Συμπεράσματα & Μελλοντική εργασία

Ερωτήσεις;
Σας ευχαριστώ

Στέφανος Μπουρτζούδης

Recomendados

Recomendados

Mais conteúdo relacionado

Semelhante a Στέφανος Μπουρτζούδης

Semelhante a Στέφανος Μπουρτζούδης (20)

Mais de ISSEL

Mais de ISSEL (20)

Στέφανος Μπουρτζούδης