Εντοπισμός θέσης επισημασμένου αντικειμένου σε εσωτερικό χώρο με χρήση πολλαπ...
Στέφανος Μπουρτζούδης
1. Μπουρτζούδης Στέφανος,
Τμήμα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών, Α.Π.Θ
Υπό την επίβλεψη του Καθηγητή κ. Περικλή Α. Μήτκα
Εντοπισμός Γεγονότων σε Δεδομένα
Κοινωνικών Μέσων με Χρήση Τεχνικών
Αναγνώρισης Συναισθήματος
Διπλωματική Εργασία
2. 1. Περιγραφή του προβλήματος
2. Στόχοι της εργασίας
3. Περιγραφή της μεθοδολογίας
4. Αποτελέσματα της μεθοδολογίας
5. Συμπεράσματα & Μελλοντική εργασία
Δομή της παρουσίασης
3. • Μεγάλος όγκος δεδομένων
• Συνεχής ροή νέων δεδομένων
• Μεγάλο ποσοστό θορύβου στα δεδομένα
Περιγραφή του προβλήματος
Δύσκολος ο εντοπισμός γεγονότων σε σύντομο
χρονικό διάστημα από τη χρονική στιγμή που
αυτά συμβαίνουν.
4. Πιο αποτελεσματική αναπαράσταση των γεγονότων που
περιέχονται σε ένα σύνολο δεδομένων
Στόχος της εργασίας
Προκλήσεις:
• Εντοπισμός υποψήφιων γεγονότων μέσα σε περιοχές υψηλής πόλωσης
• Περίληψη των υποψήφιων γεγονότων
• Ομαδοποίηση υποψήφιων γεγονότων
5. Συλλογή tweets:
• Twitter REST API
• Twitter Streaming API
Μεθοδολογία (1/6)
Προ-επεξεργασία:
• Διατήρηση Αγγλικών tweets
• Σύμπτυξη ή αφαίρεση
χαρακτηριστικών
• Εξαγωγή οντοτήτων
• Συντακτική ανάλυση
• Εισαγωγή στη MongoDB
Πεδίο Περιγραφή
text Το αρχικό κείμενο του tweet
publicationTime Ο χρόνος δημιουργίας του tweet σε
milliseconds
username Το όνομα του χρήστη που δημοσίευσε το
tweet
hashtags Η λίστα των hashtags που περιέχει το tweet
entities Η λίστα των οντοτήτων που περιέχονται
στο tweet
reposts Ο αριθμός των αναδημοσιεύσεων του
συγκεκριμένου tweet από άλλους χρήστες
original Μεταβλητή τύπου boolean που δίνει αν το
tweet είναι πρωτότυπο ή αν είναι retweet
properNouns Η λίστα των κύριων ονομάτων που
περιέχονται στο tweet
posTags Η λίστα περιγραφής του μέρους του λόγου
για κάθε λέξη του κειμένου του tweet
cleanText Το κείμενο του tweet επεξεργασμένο
accepted Μεταβλητή τύπου boolean που δίνει αν το
tweet είναι αποδεκτό
6. Ανάλυση συναισθήματος στο αρχικό κείμενο του κάθε
tweet:
• Βιβλιοθήκη SentiStrength (Thelwall et al. 2012)
• Αποτέλεσμα 2 ακέραιοι. π.χ (3,5)
• Υπολογισμός πόλωσης
Μεθοδολογία (2/6)
Μείωση θορύβου στο κείμενο των tweets:
• Όλες οι διευθύνσεις URL αντικαταστάθηκαν
• Τα mentions σε άλλους χρήστες αντικαταστάθηκαν
• Το σύμβολο # των hashtags αφαιρέθηκε
• Αφαιρέθηκαν επαναλαμβανόμενα γράμματα
7. Δημιουργία ευρετηρίου όρων:
• Δημιουργία ευρετηρίου με τη βιβλιοθήκη Lucene
• Προσαρμοσμένος αναλυτής κειμένου (n-grams)
Μεθοδολογία (3/6)
Χρονική κατάτμηση:
• Με βάση το χρόνο δημιουργίας των tweets
• Δημιουργία μη επικαλυπτόμενων χρονικών
περιοχών (timeslots) με χρονική διάρκεια σε λεπτά
8. Αυξητικό μοντέλο 𝑡𝑓 ∙ 𝑖𝑑𝑓:
• Υπολογισμός της σταθμισμένης συχνότητας
εμφάνισης των όρων μέσα σε κάθε χρονική περιοχή
• Η βαρύτητα των όρων προσαρμόζεται με το
πέρασμα του χρόνου
Μεθοδολογία (4/6)
Εξαγωγή οντοτήτων:
𝜃 = 𝑚𝑒𝑑𝑖𝑎𝑛 + 𝛾 ∙ 𝑚𝑒𝑎𝑛
10. Ομαδοποίηση υποψήφιων γεγονότων:
• Μη κατευθυνόμενος γράφος
• Ομαδοποίηση γράφου μέσω του
αλγόριθμου SCAN (Xu et al. 2007)
Μεθοδολογία (6/6)
Εύρεση αντιπροσωπευτικών tweets για κάθε γεγονός:
• Αναζήτηση των όρων στη Lucene
• Αποτελέσματα με την υψηλότερη βαθμολογία
11. • 12 Ιουνίου έως τις 13 Ιουλίου
• 32 εθνικές ομάδες
• 64 αγώνες
• Διαδικτυακά συμμετείχαν πάνω από 1
δισ. χρήστες απ’ όλο τον κόσμο
Παγκόσμιο Κύπελλο ποδοσφαίρου 2014
Σύνολο δεδομένων:
• 12.835.386 tweets
• Όλα γραμμένα στα Αγγλικά
• Από 1η Απριλίου 2007 έως 18η Ιουλίου 2014
16. • Γεγονότα σε κοντινή χρονική απόσταση &
χρονικά επικαλυπτόμενα
• Πολυγλωσσική υποστήριξη του συστήματος
• Λειτουργία σε πραγματικό χρόνο
Συμπεράσματα & Μελλοντική εργασία