2. Εισαγωγή
• Αλγόριθμος που αναπαριστά τη διαδικασία
λήψης αποφάσεων για εκτέλεση κινήσεων
προς εκπλήρωση ενός στόχου μέσω
παρατήρησης.
• Λειτουργεί επί της βάσης ότι υπάρχει απόκλιση
μεταξύ προτίμησης και επιλογής.
• Αναπαριστά δομημένα αυτή την απόκλιση, δεν
τη μεταχειρίζεται ως θόρυβο.
3. Δυο μορφές απόκλισης:
Ανακριβείς πεποιθήσεις (αβεβαιότητα):
αναπαρίστανται ως κατανομές πιθανοτήτων στις
καταστάσεις και ενημερώνονται με Μπευζιανή
επαγωγή.
Χρονική ασυνέπεια
>απλοϊκά (naïve)
ασυνεπής
>εξελιγμένα
(sophisticated)
ασυνεπής
5. Ορισμός παραμέτρων μοντέλου
• Καταστάσεις S
• Πράξεις Α
• Ντετερμινιστική συνάρτηση ωφελιμότητας
(deterministic utility function) U
• Στοχαστική συνάρτηση επιλογής πράξης
(stochastic action choice function) C
• Στοχαστική συνάρτηση μετάβασης σε
κατάσταση (stochastic state transition function)
T
• Πιθανότητα να επιλεχθεί μια πράξη σε μια
κατάσταση C.
7. Ορισμός παραμέτρων μοντέλου
• Ορισμός πράκτορα με χρονική ασυνέπεια
Για τον απλοϊκό πράκτορα: a C∼ (s, d + 1)
Για τον εξελιγμένο πράκτορα: a C∼ (s, 0).
8. Ορισμός παραμέτρων μοντέλου
• Ορισμός χρονικά ασυνεπούς πράκτορα
με αβεβαιότητα:
Κατανομή πιθανοτήτων στις καταστάσεις
p(s) η οποία μπορεί να ενημερωθεί μέσω
συνάρτησης πιθανοφάνειας.
9. Εξαγωγή προτιμήσεων
• Ορίζεται ένας χώρος πιθανών πρακτόρων.
• Κάθε πράκτορας ορίζεται ως:
θ := (p(s), U, Y, k, α)
Κατόπιν υπολογίζεται ύστερη (posterior)
κοινή κατανομή για όλους τους πράκτορες
10. Εξαγωγή συμπερασμάτων
Κάθε επιλογή έχει μια τρέχουσα και μια όψιμη
ωφελιμότητα.
• Συμπερασμός με πλήρη γνώση: η όψιμη
ωφελιμότητα του V.C δεν πρέπει να είναι πολύ
μεγαλύτερη από αυτήν του D.S για τον απλοϊκό
πράκτορα.
• Συμπερασμός με αβεβαιότητα: οι
παρατηρήσεις είναι έγκυρες όταν μια επιλογή
παίρνει υψηλή ωφελιμότητα και είναι γνωστό ότι
είναι διαθέσιμη.
11. • Συμπερασμός μέσω πολλαπλών επεισοδίων
Λόγω χρονικής ασυνέπειας το μοντέλο μπορεί
να αναγνωρίσει ότι ο παρακάτω πράκτορας
προτιμά το V.G παρόλο που επιλέγει το D.S σε
¾ επεισόδια.
12. Συμμετοχή ανθρώπων-κριτών
• Πείραμα 1: Συμπερασμός με πλήρη γνώση: άνθρωποι έκριναν
την ορθότητα εξηγήσεων της συμπεριφοράς του πράκτορα,
γνωρίζοντας εξαρχής τις προτιμήσεις τους. Συχνότερη εξήγηση:
αποφυγή/αδυναμία αποφυγής του πειρασμού.
• Πείραμα 2: Συμπερασμός με αβεβαιότητα: άνθρωποι παρήγαγαν
εξήγήσεις για τη συμπεριφορά του πράκτορα χωρίς να γνωρίζουν
τις προτιμήσεις τους. Συχνότερες εξηγήσεις: εσφαλμένη εντύπωση
και προτίμηση.
• Πείραμα 3: Συμπερασμός με πολλαπλά επεισόδια: οι
συμμετέχοντες διέκριναν μέσω παρατήρησης αν ο πράκτορας
προτιμά το V.C ή το D.S. Επέλεξαν το V.C παρόλο που ο
πράκτορας επέλεξε ¾ φορές το D.S. (Συμβατότητα με το μοντέλο).