One of the most important and fastest growing sectors of Computer Science is Artificial Intelligence. One very important and fundamental issue it deals with is Natural Language Processing, which refers to the analysis and understanding of human languages and the ability of interaction between human and ”intelligent” systems using these languages. As the volume of information is constantly increasing and people need more and more information, a very important field of research in Natural Language Processing is Question Answering. Since the beginning of the use of computers, the ability to pose questions and receiving answers from them was a fundamental objective. A very important category of question answering systems is the open-domain question answering systems, which are able to answer general knowledge questions based on an external source of knowledge, such as Wikipedia. The develoment of Transformers and BERT-based models has led to improvements in the performance of Question Answering Systems. Although these models contributed decisevely in the development of Question Answering, the fact is that most question answering systems and especially the open domain ones, work in English, while the number of systems in other languages is very limited. The present diploma thesis attempts to design and develop an open-domain question answering system in Greek. For this purpose, in the absence of the necessary datasets in Greek, machine translation is performed on some of the most suitable question answering datasets from English to Greek. Moreover, a series of models are trained for Question Answering and Information Retrieval, which is a very important part of the open-domain question answering system. Then, the overall system, which is based on the greek Wikipedia, is installed. The system is accessed by the users via a web application that has been designed and developed for this purpose. Finally, the results of the performance evaluation of the system and its components are presented.
2. ΣΥΣΤΗΜΑΤΑ
ΑΠΑΝΤΗΣΗΣ
ΕΡΩΤΗΣΕΩΝ
Η Απάντηση Ερωτήσεων είναι
βασικό ζήτημα με το οποίο
ασχολείται η Επεξεργασία Φυσικής
Γλώσσας
Στηρίζεται σε προεκπαιδευμένα
γλωσσικά μοντέλα τα οποία
επανεκπαιδεύονται για την
Απάντηση Ερωτήσεων
Δύο βασικά είδη Συστημάτων
Απάντησης Ερωτήσεων
Συστήματα Απάντησης Ερωτήσεων
Κλειστού Τύπου: Απαντούν σε
ερωτήσεις ενός συγκεκριμένου
γνωστικού πεδίου
Συστήματα Απάντησης Ερωτήσεων
Ανοιχτού Τύπου: Απαντούν σε
ερωτήσεις οι οποίες μπορεί να
προέρχονται από κάθε γνωστικό
αντικείμενο
4. TRANSFORMERS
Ανήκουν στην κατηγορία μοντέλων Seq2Seq
Λαμβάνουν ως είσοδο μια ακολουθία λέξεων
και παράγουν μια άλλη ακολουθία
Στηρίζονται στον μηχανισμό Attention. ο
οποίος επιτρέπει την ορθότερη επεξεργασία
των λέξεων της εισόδου μέσω εύρεσης
νοηματικών συνδέσεων μεταξύ των λέξεων
της ακολουθίας εισόδου.
5. BERT
Ισχυρό γλωσσικό μοντέλο
μηχανικής μάθησης βασισμένο
σε Transformers
Κατάλληλο για χρήση σε
ζητήματα Επεξεργασίας
Φυσικής Γλώσσας
Μοντέλα σε πολλές γλώσσες,
στα Ελληνικά το Greek BERT
Εκπαίδευση σε δύο στάδια
Προεκπάιδευση: Εκπαίδευση σε
μεγάλα σύνολα κειμένου για
εκμάθηση ιδιαιτεροτήτων και
μοτίβων της γλώσσας
Fine-Tuning: Εκπαίδευση σε
κατάλληλα σύνολα δεδομένων
για ζητήματα Επεξεργασίας
Φυσικής Γλώσσας
7. DOCUMENT STORES
Βάσεις δεδομένων στις
οποίες αποθηκεύουμε τα
γνωσιακά δεδομένα (π.χ.
Wikipedia)
Διάφορα είδη, ανάλογα με το
είδος του Retriever που
χρησιμοποιείται
Μήκος κειμένων βάσης
ανάλογα εξαρτώμενο
Αποθήκευση κειμένων με
τεχνικές "κυλιόμενου
παραθύρου" προς αποφυγή
απώλειας πληροφορίας
8. RETRIEVERS
Υπεύθυνοι για το φιλτράρισμα των
κειμένων της βάσης δεδομένων και την
επιστροφή σχετικών με την υποβληθείσα
ερώτηση κειμένων για περαιτέρω
επεξεργασία και αναζήτηση της
απάντησης
Ο αριθμός των εγγραφών που
επιστρέφονται είναι σημαντικός για την
επιτυχή λειτουργία του συστήματος
Διάφορα είδη Retrievers
9. SPARSE RETRIEVERS
tf-idf: Μέθοδος Ανάκτησης Πληροφορίας με έμφαση στην συχνότητα
εμφάνισης κοινών λέξεων και στη σπανιότητα ύπαρξής τους στις εγγραφές
του DocumentStore
BM25: Παραλλαγή του tf-idf με καλύτερες επιδόσεις. Μειώνει την
επίδραση πολύ κοινών λέξεων, όπως άρθρα, και λαμβάνει υπόψιν το μήκος
των εγγράφων
Γλωσσικά ανεξάρτητοι
10. DENSE PASSAGE RETRIEVERS (DPR)
Χρησιμοποιεί μοντέλα BERT
Κωδικοποιεί όλες τις εγγραφές της Βάσης Δεδομένων
Κωδικοποιεί τις ερωτήσεις που τίθενται
Επιλέγει τις εγγραφές με την πλησιέστερη κωδικοποίηση με αυτή της
ερώτησης
11. READERS
Γλωσσικά μοντέλα υπεύθυνα για την ανεύρεση και εξαγωγή απάντησης σε
ερώτηση πάνω σε δοθέν κείμενο
Εξάγουν αυτούσια την απάντηση από το υπό επεξεργασία κείμενο
Στηρίζονται σε υπάρχοντα γλωσσικά μοντέλα (BERT) τα οποία
επανεκπαιδεύονται σε QA Datasets
12. ΠΕΡΙΓΡΑΦΗ ΤΟΥ ΠΡΟΒΛΗΜΑΤΟΣ
Απουσία Συστήματος
Απάντησης Ερωτήσεων
Ανοιχτού Τύπου στα
Ελληνικά
Έλλειψη Ελληνικών
Μοντέλων Reader και
Retriever
13. ΣΤΟΧΟΣ ΤΗΣ ΕΡΓΑΣΙΑΣ
Επανεκπαίδευση Greek
BERT για δημιουργία
Ελληνικών Μοντέλων
Reader και DPR
Δημιουργία Συστήματος
Απάντησης Ερωτήσεων
Ανοιχτού Τύπου στα
Ελληνικά
15. QA DATASETS
• Χρησιμοποιούνται για εκπαίδευση Readers και DPR
• Περιέχουν τριάδες ερωτήσεων-απαντήσεων-κειμένου
• Αναγράφουν τη σχετική θέση της απάντησης στο κείμενο
• Ύπαρξη ερωτήσεων χωρίς απάντηση
• Πραγματοποιήθηκε μηχανική μετάφραση σε 4 από τα μεγαλύτερα QA datasets:
SQuAD, TriviaQA, NewsQA και Natural Questions(NQ)
• Μετάφραση ειδικής μορφής του Natural Questions για εκπαίδευση DPR
• Ειδική μέριμνα ώστε η μετάφραση να μην καταστρέφει τη λειτουργικότητα του
dataset και να γίνουν οι απαραίτητες προσαρμογές στη σχετική θέση της απάντησης
• Διατήρηση υψηλού ποσοστού (~90%) του αρχικού dataset μετά τη μετάφραση
17. ΕΡΓΑΛΕΙΑ ΠΟΥ ΧΡΗΣΙΜΟΠΟΙΗΘΗΚΑΝ
HuggingFace: Αποθετήριο Μοντέλων Transformers. Χρησιμοποιείται για
την λήψη των απαραίτητων προεκπαιδευμένων μοντέλων BERT, αλλά και
για την αποθήκευση των επανεκπαιδευμένων και των datasets στα οποία
εκπαιδεύτηκαν
Haystack: Πλατφόρμα για τη δημιουργία Συστημάτων Απάντησης
Ερωτήσεων διαφόρων τύπων. Διευκολύνει την ένωση των συνθετικών
στοιχείων του συστήματος, ώστε να προκύψει το συνολικό σύστημα
Παρέχουν επίσης απαραίτητα Scripts για την εκπαίδευση DPR και Readers
18. ΕΚΠΑΙΔΕΥΣΗ DENSE PASSAGE RETRIEVERS
ΣΤΑ ΕΛΛΗΝΙΚΑ
Dataset Εκπαίδευσης DPR: Οι εγγραφές περιλαμβάνουν την ερώτηση, το
κείμενο που περιέχει την απάντηση και κάποια κείμενα που δεν την
περιέχουν
Εκπαίδευση 4 ελληνικών μοντέλων DPR με βάση το Greek BERT, με ένα και
τρία μη περιέχοντα την απάντηση κείμενα και για 20 και 40 epochs.
Στόχος η διερεύνηση της αποτελεσματικότητας των διαφορετικών μοντέλων
Σύγκριση αποτελεσμάτων με κλασικό BM25 Retriever
19. ΑΞΙΟΛΟΓΗΣΗ RETRIEVERS
Η μετρική Recall εκφράζει το ποσοστό της επιτυχούς
ανάκτησης του περιέχοντος την απάντηση εγγράφου
Αξιολόγηση στα τμήματα αξιολόγησης των datasets
Αξιολόγηση για επιστροφή 5, 20 και 50 εγγράφων για κάθε
μοντέλο
Τα DPR μοντέλα δεν ξεπερνούν την απόδοση του BM25
Καλύτερο DPR το εκπαιδευμένο για 40 epochs και με ένα μη
περιέχον την απάντηση κείμενο
Η αύξηση των ανακτώμενων εγγράφων αυξάνει την
αποτελεσματικότητα
20. ΕΚΠΑΙΔΕΥΣΗ READERS ΣΤΑ ΕΛΛΗΝΙΚΑ
Εκπαίδευση 14 ελληνικών μοντέλων Reader με βάση το Greek BERT
Εκπαίδευση στα 4 μεταφρασμένα datasets και σε συνδυασμούς τους
(SQuAD-NQ, SQuAD-NQ-TriviaQA, συνολικό)
Εκπαίδευση για 3 και 4 epochs
21. ΑΞΙΟΛΟΓΗΣΗ READERS
Η μετρική F1 εκφράζει το ποσοστό
επικάλυψης της ορθής και της εξαχθείσας
απάντησης στην ερώτηση.
Αξιολόγηση στα τμήματα αξιολόγησης των
datasets
Τα μοντέλα που εκπαιδεύτηκαν στα
συνδυασμένα datasets έχουν καλύτερα
αποτελέσματα
Δεν υπάρχουν ιδιαίτερες διαφορές στην
απόδοση μεταξύ των αντίστοιχων μοντέλων
για 3 και 4 epochs
22. DOCUMENT STORE ΕΛΛΗΝΙΚΟΥ ΣΥΣΤΗΜΑΤΟΣ
Λήψη και κατάλληλη
επεξεργασία αντιγράφου
ελληνικής Wikipedia και
εγγραφή του σε Document
Store
Δημιουργία Document Store για
sparse και DPR Retrievers
23. ΕΓΚΑΤΑΣΤΑΣΗ ΣΥΣΤΗΜΑΤΟΣ
Δημιουργήθηκαν δύο Συστήματα Απάντησης Ερωτήσεων Ανοιχτού Τύπου
Ο Retriever του πρώτου είναι ο καλύτερος DPR, δηλαδή αυτός που εκπαιδεύτηκε
για 40 epochs με ένα μη περιέχον την απάντηση κείμενο
Ο Retriever του δεύτερου είναι ο ΒΜ25, ο οποίος είχε την καλύτερη απόδοση
Επιλέγεται η επιστροφή 20 εγγράφων ανά ερώτηση
Ο Reader και των δύο συστημάτων είναι αυτός που εκπαιδεύτηκε για 4 epochs σε
όλα τα datasets
Δημιουργήθηκε διαδικτυακή εφαρμογή για καλύτερη πρόσβαση στο σύστημα
24. ΑΞΙΟΛΟΓΗΣΗ ΣΥΣΤΗΜΑΤΩΝ
Αξιολόγηση σε τμήμα του NQ
Το σύστημα με BM25 έχει καλύτερα
αποτελέσματα
Χαμηλότερη απόδοση από την αρχική των
Readers
Πιθανές αιτίες η μη επιστροφή του σωστού
κειμένου και η κατάτμηση των εγγράφων της
βάσης
26. ΣΥΜΠΕΡΑΣΜΑΤΑ
Επιχειρήθηκε η δημιουργία Ελληνικού Συστήματος Απάντησης Ερωτήσεων Ανοιχτού Τύπου
Οι Readers ανταποκρίνονται αρκετά καλά τόσο στην αξιολόγηση των datasets όσο και σε πρακτικά
παραδείγματα
Οι DPR Retrievers δεν ξεπερνούν την απόδοση του ΒΜ25
Η μετάφραση των datasets δίνει τη δυνατότητα εκπαίδευσης των μοντέλων στα Ελληνικά αλλά δεν μπορεί να
δώσει εξίσου καλά αποτελέσματα με πρωτότυπα ελληνικά datasets
Πρώτο βήμα για περαιτέρω έρευνα
27. ΜΕΛΛΟΝΤΙΚΕΣ ΕΠΕΚΤΑΣΕΙΣ
Δημιουργία εξ αρχής ελληνικών QA datasets και εκπαίδευση μοντέλων με αυτά
Χρήση μεγαλύτερων ελληνικών μοντέλων BERT
Χρήση εργαλείων για βελτίωση της μορφής των απαντήσεων
Προσθήκη επιπλέον δυνατοτήτων όπως φωνητική εισαγωγή ερωτήσεων
Επίσημη έκδοση του Συστήματος
28. ΕΥΧΑΡΙΣΤΙΕΣ
Ευχαριστώ τον κύριο Συμεωνίδη για την εμπιστοσύνη και την υποστήριξή του
κατά τη διάρκεια τής εργασίας
Ευχαριστώ τον Υπ. Δρ Νικόλα Μάλαμα για τη συνεχή βοήθειά του στην
εκπόνηση της εργασίας