SlideShare ist ein Scribd-Unternehmen logo
1 von 30
Generierung von aktionsfähigen Empfehlungen:
                  Ein Spielfilm-Empfehlungs-Algorithmus mit Erklärungsfähigkeit




    PROVIDING ACTIONABLE RECOMMENDATIONS
    A Movie Recommendation Algorithm with Explanation Capability



                                      Dipl.-Oek. Paul Marx




Gefördert durch                                                                   In Kooperation mit

                                                                                                 1
Ziele der Arbeit

                                          Entwicklung einer Empfehlungs-Methode,
                                          welche für ihre Nutzer effektive und
                                          effiziente Empfehlungen generiert
effektives und
  effizientes
Empfehlungs-       Genauigkeit
                                              Genauigkeit
    system
                                              - zutreffende Empfehlungen mit hohem
                                                Präferenzwert


                            Praktische        Erklärugsfähigkeit/Transparenz
           Erklärungs-
                             Anwend-          - verständliche und aktionsfähige Erklärung
           fähigkeit
                              barkeit           warum/wie die Empfehlung zustande kommt
                                              - höhere Auswahl-Effizienz und -effektivität;
                                              - Instrument zur Handhabung von Fehlern


                                              Praktische Anwendbarkeit
                                              - alle Nutzer bekommen gute Empfehlungen


                                                                                              2
GLIEDERUNG
1. Konzeptioneller Rahmen und theoretische Basis
      Empfehlungssystemen
  
   Erklärungen in Empfehlugssystemen
      Spielfilmeigenschaften in Empfehlungen

2. Konzept des Hybriden Spilefilmempfehlungsalgorithmuns mit
   Erklärungsfähigkeit
      Konzept
      Modell
      Methode

3. Empirische Studie

4. Fazit

                                                               5
E-Commerce
                                                 Empfehlungssystemen

                                                             ...helfen Menschen das Informations-Overload-Problem zu überwinden,
                                                             indem sie die Gesamtmenge der angebotenen Produkte zu einer kleinen
                  1.500                                      überschauberen Liste relevanter Alternativen reduzieren.
                  Games



                                                             Vorteile für Nutzer:
                 65.000
                 Filme
                                                                   Reduktion des Information-Overload-Problems
                                                                   geringerer Such-Aufwand
            75.000
            Filme & TV Shows
                                                                   geringere Auswahl-Komplexität und Auswahl-Risiko
                                                                   bessere Auswahl
          720.000
          Apps                                                     höhere Zufriedenheit


         2.500.000                                           Vorteile für Betrieber:
         Bücher

                                                                   besseres Management der Kundenbeziehung
          28.000.000                                               höhere Kundenloyalität und Kundenbindung
          Songs

                                                                   höhere Cross-Selling & Up-Selling Potentiale
                                                                   höhere Wettbewerbs-Barriere
30.000.000 Songs
                                    Empfehlungen sind nicht 100%ig fehlerfrei

  Herlocker et al. (2004); Schafer, Konstan, and Riedl (2001); Bodapati (2008); Wei, Shaw, and Easely (2002); Ricci, Rokach, and Shapira (2011)   6
“That popped up
                                                                                       because I previously
                                                                                       ordered “Barabella”,
                                                                                       starring Jane Fonda.”
        Jeffrey Preston “Jeff” Bezos
        amazon.com
        Gründer und CEO




                                                                Recommendations




                                                Erklärungen der Empfehlungen helfen Nutzern,
                                                  Fehler in den Empfehlungen zu handhaben




Quelle: Zaslow, Jeffrey (2002) “If TiVo Thinks You Are Gay, Here’s How to Set it Straight”, in The Wall Street Magazine, Nov. 26, 2002   7
Erklärungen der Empfehlungen helfen Nutzern,
                                  Fehler in den Empfehlungen zu handhaben

                                          Weitere Vorzüge der Erklärungen



                                    Nutzer                                                          Anbieter
                          Einschätzen des Zutreffens
                          der Empfehlungen für das
                          aktuelle Entscheidungs-                                                  Steigerung von
                          kontext
                                                                                                      Transparenz
                          Entdecken versteckter
                                                                                                      Vertrauen und
                          Entscheidungs-Kriterien
                                                                                                      Glaubwürdigkeit
                          Lösen der Präferenzkonflikte
                                                                                                      Akzeptanz
                          durch Hervorheben
                          entscheidungsrelevanter                                                     Zufriedenheit
                          Informationen

                          Effektivere und effizientere
                          Auswahlentscheidungen

Herlocker, Konstan & Riedl (2000); Tintarev (2007),Tintarev & Masthoff (2007, 2011); Chen (2009)                        8
Erklärungsfähigkeit eines Empfehlungssystems hängt von dem
                      eingesetzten Empfehlugsalgoritmus ab




                                               Wie genau sollen Erklärungen
                                               beschaffen sein, um Nutzern effektive
   Collaborative Filtering                     und effiziente Auswahl-Entscheidungen
      User-based                               zu ermöglichen?
      Item-based
      Matrix Factorization

   Content-based Filtering
                                               Welche Empfehlungsmethoden können
                                               solche Erklärungen realisieren?
   Hybrid Systems


                                                                                ion [is]
“Recommendation agents should think              “… the goal of a good explanat
                                                                                ore
like the people they are attempting to           to enable the user to make a m
                                                                               quality
help if the goal is to assist consumers in       accurate judgment of the true
making better choices”                           of an item”
                                                               Bilgic and Mooney (2005)
                                Aksoy (2006)


                                                                                           9
Erklärungsstile, Zufriedenheit mit
                                                          und Effektivität der Auswahl

Keyword+                                   Bezug auf Inhalte des empfohlelen Films und andere Filme


                                         1
                                           “Million Dollar Baby (2004) is recommendedTechniques
                                                              Post-Processing to n wieder
                                                             Post-Processing Techniques geben nicht unbedingt die echten
Influence                                                                         Präferenze
                                                                                            you because
                                                                                 oder
                                           it is a Drama directed by Clint Eastwood and starring Morgan Freeman,
                                                                 Content-based Filtering
                                           which are also included in Unforgiven (1992), Se7en (1995) and Gran Torino
                                           (2008) that you have already rated.”

                                           Bezug auf Eigenschaften des empfohlelen Films


                                         2
Keyword                                    “Ihnen wird X gefallen, weil es E1, E2, E3, … enthällt”
                                                                Content-based Filtering
                                           “Million Dollar Baby (2004) is recommended to you because it is a Drama
                                           directed by Clint Eastwood and starring Morgan Freeman.”


                                           Bezugnahme auf andere Filme


                                         3
Influence                                   “Ihnen wird X gefallen, weil Ihnen Y, Z, … gefallen hat”
                                                        Item-based Collaborative Filtering
                                           “Million Dollar Baby (2004) is recommended because you gave high ratings to
                                           Unforgiven (1992), Se7en (1995) and Gran Torino (2008).”




                                         4
                                           Bezugnahme auf andere Nutzer
Nearest Neighbor                                             gefällt, gefällt auch Y, die Qualität empfohlener Items zu
                                           “Kunden, denen XNutzer tendieren dazu, Z, ...“
                                                      User-based Collaborative Filtering Akzeptanz
                                                        überschätzen. Dies Baby (2004) also von Vertrauen und
                                           “People who liked Million Dollar führt zum Verlust liked Se7en (1995).”

Tintareff and Masthoff (2007, 2011); Symenoidis, Nanopoulos, and Manopoulos (2008); Billus and Pazzani (1999); Herlocker, Konstan, and Riedl (2000); Bilgic and Mooney (2005)   10
Präferenzrelevante Spielfilmeigenschaften




    Spielfilme sind Erfahrungsgüter

    Konsumenten Beurteilen Spielfilme
    anhand von sog. “quasi-search”-
    Eigenschaften und an filmbezogener
    Kommunikation




Hennig-Thurau, Walsh, and Wruck (2001); Hennig-Thurau, Houston, and Walsh (2007); Austin (1989)   11
GLIEDERUNG
1. Konzeptioneller Rahmen und theoretische Basis
      Empfehlungssystemen
  
   Erklärungen in Empfehlugssystemen
      Spielfilmeigenschaften in Empfehlungen

2. Konzept des Hybriden Spilefilmempfehlungsalgorithmuns
   mit Erklärungsfähigkeit
      Konzept
      Modell
      Methode

3. Empirische Studie

4. Fazit

                                                          12
Konzeptuelles Schema des zu entwickelnden
                            Empfehlungssystems




                     content-based
                     recommender

Input                                            hybridization step        Output
                        item-based
                  collaborative filtering
                      recommender



   Kombination mit der item-basierten Methode, da nicht alle Nutzer ihre
   Präferenen auf Filmeigenschaften basieren

   Ergebnis der Hybridisierung = Empfehlung derjenigen Komponente, die
   Präferenzen des Nutzers am besten wiedergibt


                                                                                    13
Basismodell der Nutzerpräferenzen
Erwartungswert des Ratings für
  einen Spielfilm, wenn keine
Informationen über den Nutzer
    und Spielfilm vorliegen
                                                   ru,i - Rating des Nutzers u für den Film i

                      ru,i = µ + ∑ mi, j pu, j     mi,j - (Dummy-)Variable für j-te Eigenschaft i-ten des Films
                                                   pu,j - Präferenzwert der j-ten Eigenschaft durch Nutzer u
                                 j∈J               µ - Durchschnittlicher Rating aller Spielfilme




                                                 Cameron
                                                              DiCaprio
                                                                             +
                                       µ
                                                                             –
                                                      Drama




                                                                                                                  14
Basismodell der Nutzerpräferenzen



                                    ru,i - Rating des Nutzers u für den Film i

         ru,i = µ + ∑ mi, j pu, j   mi,j - (Dummy-)Variable für j-te Eigenschaft i-ten des Films
                                    pu,j - Präferenzwert der j-ten Eigenschaft durch Nutzer u
                    j∈J             µ - Durchschnittlicher Rating aller Spielfilme




Bei der Bewertung von Alternativen tendieren Konsumenten mehr Gewicht auf
negative Informationen zu legen, als auf positive (Lutz 1975; Wright 1974;
Kanouse and Hanson 1972; Ito, Larsen, and Cacioppo 1998)

“Pros-and-cons”-Erklärungsstil erweitert die Effektivität der Erklärungen:



Titanic (1997) is recommended to you because it matches your preference highly.
Pros:     High budget Hollywood movie directed by James Cameron.
Cons: 
 You don’t like the movie’s drama genre and its star Leonardo Di Caprio.
Taking these factors into account, we expect that you will rate this movie 8 of 10.

                                                                                                   15
Berücksichtigung statischer Effekte
                                 jenseits Nutzer-Spielfilm-Interaktionen



                 ru,i = µ + bu + bi su + ∑ mi, j pu, j
                                                  j∈J

     ru,i - Rating des Nutzers u für den Film i                     bu - Nutzer-Bias
     mi,j - (Dummy-)Variable für j-te Eigenschaft i-ten des Films   bi - Item-Bias
     pu,j - Präferenzwert der j-ten Eigenschaft durch Nutzer u      su - Skallierungsfaktor der Nutzerreaktion auf populäre
     µ - Durchschnittlicher Rating aller Spielfilme                 Spielfilme




              Cameron                                                 bisu, su>1
                                                                               Cameron
                               DiCaprio                                                         +
                                                                      bi       Cameron DiCaprio
bu                                            +                       bu                  bisu, su<1
                                                                                         DiCaprio
µ                                                                     µ
                                              –                                                                    –
                       Drama                                                                Drama



                                                                                                                              16
Berücksichtigung der zeitlichen Dynamik
                                              von Nutzerpräferenzen



                        ru,i = µ + bu + α ut + (bi + βi t)(su + γ ut) + ∑ mi, j ( pu, j + δu, j t)
                                                                          j∈J




ru,i - Rating des Nutzers u für den Film i
mi,j - (Dummy-)Variable für j-te Eigenschaft i-ten des Films
pu,j - Präferenzwert der j-ten Eigenschaft durch Nutzer u
µ - Durchschnittlicher Rating aller Spielfilme
bu - Nutzer-Bias
bi - Item-Bias
su - Skallierungsfaktor der Nutzerreaktion auf populäre Spielfilme
αu - Steigungskoeffizient des zeitlichen Trends vom Nutzer-Bias
βu - Steigungskoeffizient des zeitlichen Trends vom Item-Bias
ɣu - Steigungskoeffizient des zeitlichen Trends der Nutzerreaktion
       auf populäre Spielfilme




                                                                                                     17
Schätzung der Modelparameter



                 ru,i = µ + bu + α ut + (bi + βi t)(su + γ ut) + ∑ mi, j ( pu, j + δu, j t)
                                                                             j∈J


Anzahl d. Parameter   =           1 +1 +            1     +1 + 1 +1          +           374*2       = 754
pro Nutzer

              Median von Ratings pro Nutzer: MoviePilot: 25, Netflix: 96

              Zu wenige Daten für eine algebraische und/oder statistische Lösung

              Schätzung der Parameter mittels Optimierungsmethoden möglich
              (z.B. Gradientenverfahren)

              Ziel - Itterative Minimierung der Verlustfunktion:


                      min             (!!,! − !!,! )! =
                      !,!
                            (!,!)∈!

                      min             (!!,! − (! + !! + !! ! + ! !! + !! ! !! + !! ! + ! !! !! ))!
                                                                                          !
                      !,!
                            (!,!)∈!

                                                                                                             18
Zweischrittiges Verfahren zur
                              Schätzung der Modelparameter


              ru,i = µ + bu + α ut + (bi + βi t)(su + γ ut) + ∑ mi, j ( pu, j + δu, j t)
                                                                j∈J




  Optimierungsmethoden hängen stark von der Wahl des Start-Punktes der
  Optimierug ab und tendieren zum Finden einer suboptimalen Lösung, wenn
  der Start-Punkt nicht optimal gewählt ist

Daher zweischrittiges Verfahren:


Schritt 1: Schätzung initieller Parameter-Werte (möglichst nah an die eigentliche Lösung)
     Univariate Hilfsregressionen für jeden Nutzer und Parameter
         Bestimmung der Signifikanz der Parameter
         Konfidenzintervalle

Schritt 2: Optimierung der Parameter-Werte durch Minimierung der Verlustfunktion
     Optimierung nur innerhalb der Konfidenzintervalle aus Schritt 1


                                                                                            19
Schritt 1: Schätzung initieller Parameter-Werte

                                            Omitted Variable Bias
                                                                      sachlogisch          können korrelieren
      Beispiel:                                                  Korrektur der Überschätzung:
                                                                       unkorreliert

      X1 = Clint Eastwood
      X2 = Western                                 ru,i = µ + bu + α ut Hilfsregressionenγdes+ ∑ mi, j ( pu, j + δu, j t)
                                                                 Zwei + (bi + βi t)(su + ut) Typs (2):
                                                                                                  j∈J
                                                          (5)    !! = ! !!" + !!" !! !
      wenn “richtiges” Modell lautet:
(1)   !! = ! !! + !! !!! + !! !!! + !!                    (6)  !! = ! !!" + !!" !!
                                                        Univariate Schätzung der Präferenz-Parameter
      und unterspezifiziertes Modell ist
                                                        => Modell-Spezifizierungs-Fehler
                                                               analog zu (3) bilde ein Gleichungssystem
(2)   !! = ! !! + !! !!! + !!
                                                           (Omitted Variable Bias)
                                                                   !! = ! !! + !! !!"
                                                            Überschätzung der Präferenzwerte
                                                          (7)
      dann
                                                               !! = ! !! + !! !!" der Parameter-
                                                             Fehlerhafte Schätzung
(3)    ! !! = ! !! + !! !!"
      mit
                                                             Varianzen
                                                                 setze (5) und (6) in (7) ein und löse nach betas auf
(4)    !!" =     !!! !!! /    !
                             !!!                             Fehlerhafte Signifikanzprüfung (t-Test)

                                                          (8)Fehlerhafte Konfidenzintervalle
                                                               !! = !!! − ! !! !!"
        b21 Regressionskoeffizient aus
        Regression von X2 auf X1                                         !! − !! !!"
                                                          (9)     !! =
                                                                         1 − !!" !!"
  α1 ist überschätzt wenn β2 ≠0 und/oder b21 ≠0


                                                                                                                        20
Schritt 1: Schätzung initieller Parameter-Werte

                                            Omitted Variable Bias

      z.B.                                                    Korrektur der Überschätzung:
      X1 = Clint Eastwood
      X2 = Western                                            führe zwei Hilfsregressionen des “Typs (4)” durch:
                                                        (5)   !! = ! !!" + !!" !! !
      wenn “richtiges” Modell lautet:
(1)   !! = ! !! + !! !!! + !! !!! + !!                  (6)   !! = ! !!" + !!" !!

      und unterspeziertes Modell ist
                                                              bilde ein Gleichungssystem analog zu (3)
(2)   !! = ! !! + !! !!! + !!
                                                               !! = ! !! + !! !!"
                                                        (7)
      dann
                                                               !! = ! !! + !! !!"
(3)    ! !! = ! !! + !! !!"
      mit                                                     setze (5) und (6) in (7) ein und löse nach betas auf
                             !
(4)    !!" =    !!! !!! /   !!!
                                                                   !! − !! !!"
                                                        (8)   !! =
        b21 Regressionskoeffizient aus                             1 − !!" !!"
        Hilfsregression von X2 auf X1                         !! = !!! − ! !! !!"
                                                        (9)

  α1 ist überschätzt wenn β2 ≠0 und/oder b21 ≠0         β1 und β2 sind die korrigierte Effekte


                                                                                                                21
Schritt 1: Schätzung initieller Parameter-Werte

                                             Omitted Variable Bias

                                                                           Korrektur der Varianz
                                                                           und Inferenzstatistiken:

       Fehlerhafte Schätzung der Varianz führt zu
                                                              berechne die Varianz nach Definition basierend
       fehlerhaften t-Test-Ergebnissen (Signifikanztest)
                                                              auf korrigierten Schätzungen von β1 (8) und β2 (9)
       und fehlerhaften Konfidenzintervalen

                         !!                                                  !!                   !
                                                                                                 !! /!"
(10)          !! = !                                       (12)   !"# !! = !   !
                                                                                  !"# =
                                                                              !!"              !        !
                                                                                              !!" 1 − !!"
                       !"#(!! )



(11)      !! − !! !"# !! ≤ !! ≤ ! !! + !! !"!(!! )            korrigierte Varianz ermöglicht verlässlichere
                                                              Signifikanztests und Berechnung der
                                                              Konfidenzintervalle




                                                                                                               22
Schritt 2: Optimierung der Parameter-Werte


                     min              (!!,! − (! + !! + !! ! + ! !! + !! ! !! + !! ! + ! !! !! ))!
                                                                                          !
                      !,!
                            (!,!)∈!



!! ← !! + !!! −2!!,!
!! ← !! + !!! ! −2!!,!                                    Optimierung der Parameter-Werte durch
!! ← !! + !!! −2!!,! !! + !! !
                                                          Conjugate Gradient Descent Methode
!! ← !! + !!! ! −2!!,! !! + !! !
!! ← !! + !!! −2!!,! !! + !! !                                 Start-Punkt: Werte aus univariaten
!! ← !! + !!! ! −2!!,! !! + !! !                               Hilfsregressionen (Schritt 1)
!!,! ← !!,! + !!!,! !!,! −2!!,!
!!,! ← !!,! + !!!,! !!,! ! −2!!,!
                                                               Parameter-Werte dürfen nur innerhalb ihrer
!!,! = !!,! − !!,!                                             Konfidenzintervale variiert werden
                                                               Itteratives Lernen der Parameter
                                                                   Holdout-Set von 6 zufällig gezogenen
                                                                   Ratings per Nutzer zur Vermeidung des
                                                                   Overfittings
                                                                   Stopp wenn Verlustfunktion auf dem
                                                                   Holdout-Set nicht mehr optimiert werden
                                                                   kann



                                                                                                             23
GLIEDERUNG
1. Konzeptioneller Rahmen und theoretische Basis
      Empfehlungssystemen
  
   Erklärungen in Empfehlugssystemen
      Spielfilmeigenschaften in Empfehlungen

2. Konzept des Hybriden Spilefilmempfehlungsalgorithmuns mit
   Erklärungsfähigkeit
      Konzept
      Modell
      Methode

3. Empirische Studie

4. Fazit

                                                               24
Empirische Studie




                    Rating-Daten von
                    Moviepilot und Netflix

                    Verknüpfung mit Daten
                    über Speilfilm-
                    Charakteristiken von IMDb
                    und InsideKino

                    Validierungs-Holdout-Set
                    bestehend aus 6 letzten
                    Ratings per Nutzer zur
                    methodenneutralen
                    Beurteilung der
                    Vorhersage-Genauigkeit



                                                25
Empirische Studie

                               Benchmarks & Metriken


                                      Vergleich der Vorhersagegenauigkeit verschidener
                                      Algorithmen und Benchmarks
                                         Global Average
          !
          !!!   !! − !!                  Durchschnittsraten aller Nutzer
!"# = !
                !                        = unterste Grenze der Genauigkeit
           !               !             Netflix Prize Winner Algoritmus
           !!!   !! − !!
!"#$ =                                   = oberste Grenze der Genauigkeit
                 !
                                         Collaborative Filtering
                                             Item-based
                                             Cosine und Pearson
            !"#
!"#$ = !                                     User-based
         !!"# − !!"#                         Cosine und Pearson
          !"#$                               SVD Matrix Factorization nach Funk (2006)
!"#$% =                                      Basis für alle MF-Algorithmen
        !!"# − !!"#



                                                                                         26
Ergebnisse

                      Vergleich der Genauigkeit




Obwohl die entwickelte Content-based-Methode alleine keine
besonders gute Ergebnisse erzeugt, führt ihre Hybridiisierung mit
der Item-based Collaborative-Filtering-Methode zu einer
erheblichen Verbesserung der Schätzungsgenauigkeit, sodass das
Hybrid die genauseten Ergebnisse aufzeigt
                                                                    27
Ergebnisse

                                            Fehler im Optimisierungsschritt


                                                                           Der kummulative Fehler (MAE,
                                                                           RMSE) setzt sich hauptsächlich aus
                                                                           relativ geringer Anzahl (≈1/3) sehr
                                                                           hoher Abweichungen zusammen,
                                                   n=47610                 nicht aus großer Anzahl
                                                                           vergleichbar hohen Fehler


                                                                           Die Meisten hohen Abweichungen
                                                                           “gehören” denselben Nutzern


                                                                           Hybridisierung mit Item-based-
                                                                           Methode verbessert den
                                                                           Fehlermaß erheblich

                                                                           –> Es exisitiert eine Gruppe der
                                                                           Nutzer, die ihre Präferenzen nicht
                                                                           auf Spielfilmeigenschaften basieren
Verteilung der absoluten Vorhersage-Fehler des Optimierungs-Schritts                                             28
Ergebnisse

               Konsistenz der Ergebnisse & Erklärungsstil


Die Ergebnisse sind konsistent für beide verwendeten Datensätze




      Prozentuelle Verbesserung der Vorhersagegenauigkeit der Hybriden Methode im Verleich




Jede Nutzer-Gruppe erhält Eklärungen der Empfehlungen in dem
für sie effektivsten Erklärungsstil




                           Erklärungsstil der generierten Empfehluneg
                                                                                             29
GLIEDERUNG
1. Konzeptioneller Rahmen und theoretische Basis
      Empfehlungssystemen
  
   Erklärungen in Empfehlugssystemen
      Spielfilmeigenschaften in Empfehlungen

2. Konzept des Hybriden Spilefilmempfehlungsalgorithmuns mit
   Erklärungsfähigkeit
      Konzept
      Modell
      Methode

3. Empirische Studie

4. Fazit

                                                               30
Zusammenfassung und Forschungsbeitrag




Entwicklung des Conten-basierten Algortitmus für Speilfilmempfehlungen, welcher für die
Merheit der Nutzer (2/3) die genauesten Empfehlungen generiert und sie mit Erklärungen
unterstützt, die Effektivität der Auswahls-Entscheidungen auf der Nutzerseite verbessert

Erweiterung des Keyword-Erklärungsstils zum Pros-and-Cons-Erklärungsstil durch
integration von negativen Hinweisen. Dies erhöht potentiell die Effektivität von
Empfehlungen für Auswahlsentscheidungen der Nutzer

Entwicklung eines neuen statisitischen Verfahrens für Schätung der Parameter von im
hohen Maße unterdeterminierten linear-additiven (Regressions-)Modellen

Aufzeigen der Existenz zweier substatiell großer Nutzer-Gruppen, deren Präferenzen auf
unterschiedliche Weise entstehen. Während Präferenzen des Großteils der Nutzer (2/3) mit
Hilfe des Multiattributiven Nutzenmodels können verlässlich beschrieben werden, basiert
der Rest der Nutzer (1/3) ihre Auswahlentscheidungen auf anderen, weniger gut
formalisierbaren Faktoren.

Empirische Unterstützung der These von Aksoy, dass “[recommendation] agents should
think like the people they are attempting to help”



                                                                                           31
Viele n Dank!




                32

Weitere ähnliche Inhalte

Andere mochten auch

Delibera2 - Sales coaching
Delibera2 - Sales coachingDelibera2 - Sales coaching
Delibera2 - Sales coachingKleinlein
 
Dual Lens 720p HD DVR X6 I1000 F70 DVR Dash Cam User Manual
 Dual Lens 720p HD DVR X6 I1000 F70 DVR Dash Cam User Manual Dual Lens 720p HD DVR X6 I1000 F70 DVR Dash Cam User Manual
Dual Lens 720p HD DVR X6 I1000 F70 DVR Dash Cam User Manualdashcamtalk
 
Chapter 9 Marketing Research Malhotra
Chapter 9 Marketing Research MalhotraChapter 9 Marketing Research Malhotra
Chapter 9 Marketing Research MalhotraAADITYA TANTIA
 
La e-pharmacie peut-elle faire face aux géants du Web ?
La e-pharmacie peut-elle faire face aux géants du Web ?La e-pharmacie peut-elle faire face aux géants du Web ?
La e-pharmacie peut-elle faire face aux géants du Web ?Morgan REMOLEUR
 
Chapter 1 Marketing Research Malhotra
Chapter 1 Marketing Research MalhotraChapter 1 Marketing Research Malhotra
Chapter 1 Marketing Research MalhotraAADITYA TANTIA
 
4. marketing vorlesung - ws13 14 (thema 4. strategisches marketing)
4. marketing   vorlesung - ws13 14 (thema 4. strategisches marketing)4. marketing   vorlesung - ws13 14 (thema 4. strategisches marketing)
4. marketing vorlesung - ws13 14 (thema 4. strategisches marketing)Paul Marx
 
Market Research - course slides
Market Research - course slidesMarket Research - course slides
Market Research - course slidesPaul Marx
 

Andere mochten auch (7)

Delibera2 - Sales coaching
Delibera2 - Sales coachingDelibera2 - Sales coaching
Delibera2 - Sales coaching
 
Dual Lens 720p HD DVR X6 I1000 F70 DVR Dash Cam User Manual
 Dual Lens 720p HD DVR X6 I1000 F70 DVR Dash Cam User Manual Dual Lens 720p HD DVR X6 I1000 F70 DVR Dash Cam User Manual
Dual Lens 720p HD DVR X6 I1000 F70 DVR Dash Cam User Manual
 
Chapter 9 Marketing Research Malhotra
Chapter 9 Marketing Research MalhotraChapter 9 Marketing Research Malhotra
Chapter 9 Marketing Research Malhotra
 
La e-pharmacie peut-elle faire face aux géants du Web ?
La e-pharmacie peut-elle faire face aux géants du Web ?La e-pharmacie peut-elle faire face aux géants du Web ?
La e-pharmacie peut-elle faire face aux géants du Web ?
 
Chapter 1 Marketing Research Malhotra
Chapter 1 Marketing Research MalhotraChapter 1 Marketing Research Malhotra
Chapter 1 Marketing Research Malhotra
 
4. marketing vorlesung - ws13 14 (thema 4. strategisches marketing)
4. marketing   vorlesung - ws13 14 (thema 4. strategisches marketing)4. marketing   vorlesung - ws13 14 (thema 4. strategisches marketing)
4. marketing vorlesung - ws13 14 (thema 4. strategisches marketing)
 
Market Research - course slides
Market Research - course slidesMarket Research - course slides
Market Research - course slides
 

Mehr von Paul Marx

HS Worms - Probevortrag - Dynamic Pricing.pdf
HS Worms - Probevortrag - Dynamic Pricing.pdfHS Worms - Probevortrag - Dynamic Pricing.pdf
HS Worms - Probevortrag - Dynamic Pricing.pdfPaul Marx
 
SEO in KMU: Ansatzpunkte und Methodologie
SEO in KMU: Ansatzpunkte und MethodologieSEO in KMU: Ansatzpunkte und Methodologie
SEO in KMU: Ansatzpunkte und MethodologiePaul Marx
 
Einsatzbereiche und Wirksamkeit von Social Media Marketing für KMU
 Einsatzbereiche und Wirksamkeit von Social Media Marketing für KMU Einsatzbereiche und Wirksamkeit von Social Media Marketing für KMU
Einsatzbereiche und Wirksamkeit von Social Media Marketing für KMUPaul Marx
 
Innovative Ansätze des digitalen Marketing für Non-Profit Vorhaben mit gesel...
Innovative Ansätze des digitalen Marketing für Non-Profit Vorhaben  mit gesel...Innovative Ansätze des digitalen Marketing für Non-Profit Vorhaben  mit gesel...
Innovative Ansätze des digitalen Marketing für Non-Profit Vorhaben mit gesel...Paul Marx
 
Einführung in die Methodik der Conjoint-Analyse
Einführung in die Methodik der Conjoint-AnalyseEinführung in die Methodik der Conjoint-Analyse
Einführung in die Methodik der Conjoint-AnalysePaul Marx
 
Applied pricing on platform markets
Applied pricing on platform marketsApplied pricing on platform markets
Applied pricing on platform marketsPaul Marx
 
Einfluss und Nutzen von Digitalisierung und Biologisierung auf eine nachhalti...
Einfluss und Nutzen von Digitalisierung und Biologisierung auf eine nachhalti...Einfluss und Nutzen von Digitalisierung und Biologisierung auf eine nachhalti...
Einfluss und Nutzen von Digitalisierung und Biologisierung auf eine nachhalti...Paul Marx
 
How Advancements in Technology Influence Marketing: Natural Language Processing
How Advancements in Technology Influence Marketing: Natural Language ProcessingHow Advancements in Technology Influence Marketing: Natural Language Processing
How Advancements in Technology Influence Marketing: Natural Language ProcessingPaul Marx
 
Preispolitik
PreispolitikPreispolitik
PreispolitikPaul Marx
 
Herausforderung und chancen in der kundengewinnung für digitale medienprodukte
Herausforderung und chancen in der kundengewinnung für digitale medienprodukteHerausforderung und chancen in der kundengewinnung für digitale medienprodukte
Herausforderung und chancen in der kundengewinnung für digitale medienproduktePaul Marx
 
Digital Marketing: Concepts, Controlling, Perspectives
Digital Marketing: Concepts, Controlling, PerspectivesDigital Marketing: Concepts, Controlling, Perspectives
Digital Marketing: Concepts, Controlling, PerspectivesPaul Marx
 
Grundlagen der Umfrageforschung (www.questionstar.de) : 7. Ergebnisse berichten
Grundlagen der Umfrageforschung (www.questionstar.de) : 7. Ergebnisse berichtenGrundlagen der Umfrageforschung (www.questionstar.de) : 7. Ergebnisse berichten
Grundlagen der Umfrageforschung (www.questionstar.de) : 7. Ergebnisse berichtenPaul Marx
 
Grundlagen der Umfrageforschung (www.questionstar.de) : 6. Fortgeschrittene T...
Grundlagen der Umfrageforschung (www.questionstar.de) : 6. Fortgeschrittene T...Grundlagen der Umfrageforschung (www.questionstar.de) : 6. Fortgeschrittene T...
Grundlagen der Umfrageforschung (www.questionstar.de) : 6. Fortgeschrittene T...Paul Marx
 
Grundlagen der Umfrageforschung (www.questionstar.de) : 5. Datenanalyse
Grundlagen der Umfrageforschung (www.questionstar.de) : 5. DatenanalyseGrundlagen der Umfrageforschung (www.questionstar.de) : 5. Datenanalyse
Grundlagen der Umfrageforschung (www.questionstar.de) : 5. DatenanalysePaul Marx
 
Grundlagen der Umfrageforschung (www.questionstar.de): 4. Stichproben
Grundlagen der Umfrageforschung (www.questionstar.de): 4. StichprobenGrundlagen der Umfrageforschung (www.questionstar.de): 4. Stichproben
Grundlagen der Umfrageforschung (www.questionstar.de): 4. StichprobenPaul Marx
 
Grundlagen der Umfrageforschung (www.questionstar.de): 3. Fragebogen
Grundlagen der Umfrageforschung (www.questionstar.de): 3. FragebogenGrundlagen der Umfrageforschung (www.questionstar.de): 3. Fragebogen
Grundlagen der Umfrageforschung (www.questionstar.de): 3. FragebogenPaul Marx
 
Grundlagen der Umfrageforschung (www.questionstar.de): 2. Messung und Skalierung
Grundlagen der Umfrageforschung (www.questionstar.de): 2. Messung und SkalierungGrundlagen der Umfrageforschung (www.questionstar.de): 2. Messung und Skalierung
Grundlagen der Umfrageforschung (www.questionstar.de): 2. Messung und SkalierungPaul Marx
 
Principles of Survey Research (questionStar)
Principles of Survey Research (questionStar)Principles of Survey Research (questionStar)
Principles of Survey Research (questionStar)Paul Marx
 
Grundlagen der Umfrageforschung (Uni Siegen)
Grundlagen der Umfrageforschung (Uni Siegen)Grundlagen der Umfrageforschung (Uni Siegen)
Grundlagen der Umfrageforschung (Uni Siegen)Paul Marx
 
как проводить опросы
как проводить опросы как проводить опросы
как проводить опросы Paul Marx
 

Mehr von Paul Marx (20)

HS Worms - Probevortrag - Dynamic Pricing.pdf
HS Worms - Probevortrag - Dynamic Pricing.pdfHS Worms - Probevortrag - Dynamic Pricing.pdf
HS Worms - Probevortrag - Dynamic Pricing.pdf
 
SEO in KMU: Ansatzpunkte und Methodologie
SEO in KMU: Ansatzpunkte und MethodologieSEO in KMU: Ansatzpunkte und Methodologie
SEO in KMU: Ansatzpunkte und Methodologie
 
Einsatzbereiche und Wirksamkeit von Social Media Marketing für KMU
 Einsatzbereiche und Wirksamkeit von Social Media Marketing für KMU Einsatzbereiche und Wirksamkeit von Social Media Marketing für KMU
Einsatzbereiche und Wirksamkeit von Social Media Marketing für KMU
 
Innovative Ansätze des digitalen Marketing für Non-Profit Vorhaben mit gesel...
Innovative Ansätze des digitalen Marketing für Non-Profit Vorhaben  mit gesel...Innovative Ansätze des digitalen Marketing für Non-Profit Vorhaben  mit gesel...
Innovative Ansätze des digitalen Marketing für Non-Profit Vorhaben mit gesel...
 
Einführung in die Methodik der Conjoint-Analyse
Einführung in die Methodik der Conjoint-AnalyseEinführung in die Methodik der Conjoint-Analyse
Einführung in die Methodik der Conjoint-Analyse
 
Applied pricing on platform markets
Applied pricing on platform marketsApplied pricing on platform markets
Applied pricing on platform markets
 
Einfluss und Nutzen von Digitalisierung und Biologisierung auf eine nachhalti...
Einfluss und Nutzen von Digitalisierung und Biologisierung auf eine nachhalti...Einfluss und Nutzen von Digitalisierung und Biologisierung auf eine nachhalti...
Einfluss und Nutzen von Digitalisierung und Biologisierung auf eine nachhalti...
 
How Advancements in Technology Influence Marketing: Natural Language Processing
How Advancements in Technology Influence Marketing: Natural Language ProcessingHow Advancements in Technology Influence Marketing: Natural Language Processing
How Advancements in Technology Influence Marketing: Natural Language Processing
 
Preispolitik
PreispolitikPreispolitik
Preispolitik
 
Herausforderung und chancen in der kundengewinnung für digitale medienprodukte
Herausforderung und chancen in der kundengewinnung für digitale medienprodukteHerausforderung und chancen in der kundengewinnung für digitale medienprodukte
Herausforderung und chancen in der kundengewinnung für digitale medienprodukte
 
Digital Marketing: Concepts, Controlling, Perspectives
Digital Marketing: Concepts, Controlling, PerspectivesDigital Marketing: Concepts, Controlling, Perspectives
Digital Marketing: Concepts, Controlling, Perspectives
 
Grundlagen der Umfrageforschung (www.questionstar.de) : 7. Ergebnisse berichten
Grundlagen der Umfrageforschung (www.questionstar.de) : 7. Ergebnisse berichtenGrundlagen der Umfrageforschung (www.questionstar.de) : 7. Ergebnisse berichten
Grundlagen der Umfrageforschung (www.questionstar.de) : 7. Ergebnisse berichten
 
Grundlagen der Umfrageforschung (www.questionstar.de) : 6. Fortgeschrittene T...
Grundlagen der Umfrageforschung (www.questionstar.de) : 6. Fortgeschrittene T...Grundlagen der Umfrageforschung (www.questionstar.de) : 6. Fortgeschrittene T...
Grundlagen der Umfrageforschung (www.questionstar.de) : 6. Fortgeschrittene T...
 
Grundlagen der Umfrageforschung (www.questionstar.de) : 5. Datenanalyse
Grundlagen der Umfrageforschung (www.questionstar.de) : 5. DatenanalyseGrundlagen der Umfrageforschung (www.questionstar.de) : 5. Datenanalyse
Grundlagen der Umfrageforschung (www.questionstar.de) : 5. Datenanalyse
 
Grundlagen der Umfrageforschung (www.questionstar.de): 4. Stichproben
Grundlagen der Umfrageforschung (www.questionstar.de): 4. StichprobenGrundlagen der Umfrageforschung (www.questionstar.de): 4. Stichproben
Grundlagen der Umfrageforschung (www.questionstar.de): 4. Stichproben
 
Grundlagen der Umfrageforschung (www.questionstar.de): 3. Fragebogen
Grundlagen der Umfrageforschung (www.questionstar.de): 3. FragebogenGrundlagen der Umfrageforschung (www.questionstar.de): 3. Fragebogen
Grundlagen der Umfrageforschung (www.questionstar.de): 3. Fragebogen
 
Grundlagen der Umfrageforschung (www.questionstar.de): 2. Messung und Skalierung
Grundlagen der Umfrageforschung (www.questionstar.de): 2. Messung und SkalierungGrundlagen der Umfrageforschung (www.questionstar.de): 2. Messung und Skalierung
Grundlagen der Umfrageforschung (www.questionstar.de): 2. Messung und Skalierung
 
Principles of Survey Research (questionStar)
Principles of Survey Research (questionStar)Principles of Survey Research (questionStar)
Principles of Survey Research (questionStar)
 
Grundlagen der Umfrageforschung (Uni Siegen)
Grundlagen der Umfrageforschung (Uni Siegen)Grundlagen der Umfrageforschung (Uni Siegen)
Grundlagen der Umfrageforschung (Uni Siegen)
 
как проводить опросы
как проводить опросы как проводить опросы
как проводить опросы
 

PROVIDING ACTIONABLE RECOMMENDATIONS: A Movie Recommendation Algorithm with Explanation Capability

  • 1. Generierung von aktionsfähigen Empfehlungen: Ein Spielfilm-Empfehlungs-Algorithmus mit Erklärungsfähigkeit PROVIDING ACTIONABLE RECOMMENDATIONS A Movie Recommendation Algorithm with Explanation Capability Dipl.-Oek. Paul Marx Gefördert durch In Kooperation mit 1
  • 2. Ziele der Arbeit Entwicklung einer Empfehlungs-Methode, welche für ihre Nutzer effektive und effiziente Empfehlungen generiert effektives und effizientes Empfehlungs- Genauigkeit Genauigkeit system - zutreffende Empfehlungen mit hohem Präferenzwert Praktische Erklärugsfähigkeit/Transparenz Erklärungs- Anwend- - verständliche und aktionsfähige Erklärung fähigkeit barkeit warum/wie die Empfehlung zustande kommt - höhere Auswahl-Effizienz und -effektivität; - Instrument zur Handhabung von Fehlern Praktische Anwendbarkeit - alle Nutzer bekommen gute Empfehlungen 2
  • 3. GLIEDERUNG 1. Konzeptioneller Rahmen und theoretische Basis Empfehlungssystemen Erklärungen in Empfehlugssystemen Spielfilmeigenschaften in Empfehlungen 2. Konzept des Hybriden Spilefilmempfehlungsalgorithmuns mit Erklärungsfähigkeit Konzept Modell Methode 3. Empirische Studie 4. Fazit 5
  • 4. E-Commerce Empfehlungssystemen ...helfen Menschen das Informations-Overload-Problem zu überwinden, indem sie die Gesamtmenge der angebotenen Produkte zu einer kleinen 1.500 überschauberen Liste relevanter Alternativen reduzieren. Games Vorteile für Nutzer: 65.000 Filme Reduktion des Information-Overload-Problems geringerer Such-Aufwand 75.000 Filme & TV Shows geringere Auswahl-Komplexität und Auswahl-Risiko bessere Auswahl 720.000 Apps höhere Zufriedenheit 2.500.000 Vorteile für Betrieber: Bücher besseres Management der Kundenbeziehung 28.000.000 höhere Kundenloyalität und Kundenbindung Songs höhere Cross-Selling & Up-Selling Potentiale höhere Wettbewerbs-Barriere 30.000.000 Songs Empfehlungen sind nicht 100%ig fehlerfrei Herlocker et al. (2004); Schafer, Konstan, and Riedl (2001); Bodapati (2008); Wei, Shaw, and Easely (2002); Ricci, Rokach, and Shapira (2011) 6
  • 5. “That popped up because I previously ordered “Barabella”, starring Jane Fonda.” Jeffrey Preston “Jeff” Bezos amazon.com Gründer und CEO Recommendations Erklärungen der Empfehlungen helfen Nutzern, Fehler in den Empfehlungen zu handhaben Quelle: Zaslow, Jeffrey (2002) “If TiVo Thinks You Are Gay, Here’s How to Set it Straight”, in The Wall Street Magazine, Nov. 26, 2002 7
  • 6. Erklärungen der Empfehlungen helfen Nutzern, Fehler in den Empfehlungen zu handhaben Weitere Vorzüge der Erklärungen Nutzer Anbieter Einschätzen des Zutreffens der Empfehlungen für das aktuelle Entscheidungs- Steigerung von kontext Transparenz Entdecken versteckter Vertrauen und Entscheidungs-Kriterien Glaubwürdigkeit Lösen der Präferenzkonflikte Akzeptanz durch Hervorheben entscheidungsrelevanter Zufriedenheit Informationen Effektivere und effizientere Auswahlentscheidungen Herlocker, Konstan & Riedl (2000); Tintarev (2007),Tintarev & Masthoff (2007, 2011); Chen (2009) 8
  • 7. Erklärungsfähigkeit eines Empfehlungssystems hängt von dem eingesetzten Empfehlugsalgoritmus ab Wie genau sollen Erklärungen beschaffen sein, um Nutzern effektive Collaborative Filtering und effiziente Auswahl-Entscheidungen User-based zu ermöglichen? Item-based Matrix Factorization Content-based Filtering Welche Empfehlungsmethoden können solche Erklärungen realisieren? Hybrid Systems ion [is] “Recommendation agents should think “… the goal of a good explanat ore like the people they are attempting to to enable the user to make a m quality help if the goal is to assist consumers in accurate judgment of the true making better choices” of an item” Bilgic and Mooney (2005) Aksoy (2006) 9
  • 8. Erklärungsstile, Zufriedenheit mit und Effektivität der Auswahl Keyword+ Bezug auf Inhalte des empfohlelen Films und andere Filme 1 “Million Dollar Baby (2004) is recommendedTechniques Post-Processing to n wieder Post-Processing Techniques geben nicht unbedingt die echten Influence Präferenze you because oder it is a Drama directed by Clint Eastwood and starring Morgan Freeman, Content-based Filtering which are also included in Unforgiven (1992), Se7en (1995) and Gran Torino (2008) that you have already rated.” Bezug auf Eigenschaften des empfohlelen Films 2 Keyword “Ihnen wird X gefallen, weil es E1, E2, E3, … enthällt” Content-based Filtering “Million Dollar Baby (2004) is recommended to you because it is a Drama directed by Clint Eastwood and starring Morgan Freeman.” Bezugnahme auf andere Filme 3 Influence “Ihnen wird X gefallen, weil Ihnen Y, Z, … gefallen hat” Item-based Collaborative Filtering “Million Dollar Baby (2004) is recommended because you gave high ratings to Unforgiven (1992), Se7en (1995) and Gran Torino (2008).” 4 Bezugnahme auf andere Nutzer Nearest Neighbor gefällt, gefällt auch Y, die Qualität empfohlener Items zu “Kunden, denen XNutzer tendieren dazu, Z, ...“ User-based Collaborative Filtering Akzeptanz überschätzen. Dies Baby (2004) also von Vertrauen und “People who liked Million Dollar führt zum Verlust liked Se7en (1995).” Tintareff and Masthoff (2007, 2011); Symenoidis, Nanopoulos, and Manopoulos (2008); Billus and Pazzani (1999); Herlocker, Konstan, and Riedl (2000); Bilgic and Mooney (2005) 10
  • 9. Präferenzrelevante Spielfilmeigenschaften Spielfilme sind Erfahrungsgüter Konsumenten Beurteilen Spielfilme anhand von sog. “quasi-search”- Eigenschaften und an filmbezogener Kommunikation Hennig-Thurau, Walsh, and Wruck (2001); Hennig-Thurau, Houston, and Walsh (2007); Austin (1989) 11
  • 10. GLIEDERUNG 1. Konzeptioneller Rahmen und theoretische Basis Empfehlungssystemen Erklärungen in Empfehlugssystemen Spielfilmeigenschaften in Empfehlungen 2. Konzept des Hybriden Spilefilmempfehlungsalgorithmuns mit Erklärungsfähigkeit Konzept Modell Methode 3. Empirische Studie 4. Fazit 12
  • 11. Konzeptuelles Schema des zu entwickelnden Empfehlungssystems content-based recommender Input hybridization step Output item-based collaborative filtering recommender Kombination mit der item-basierten Methode, da nicht alle Nutzer ihre Präferenen auf Filmeigenschaften basieren Ergebnis der Hybridisierung = Empfehlung derjenigen Komponente, die Präferenzen des Nutzers am besten wiedergibt 13
  • 12. Basismodell der Nutzerpräferenzen Erwartungswert des Ratings für einen Spielfilm, wenn keine Informationen über den Nutzer und Spielfilm vorliegen ru,i - Rating des Nutzers u für den Film i ru,i = µ + ∑ mi, j pu, j mi,j - (Dummy-)Variable für j-te Eigenschaft i-ten des Films pu,j - Präferenzwert der j-ten Eigenschaft durch Nutzer u j∈J µ - Durchschnittlicher Rating aller Spielfilme Cameron DiCaprio + µ – Drama 14
  • 13. Basismodell der Nutzerpräferenzen ru,i - Rating des Nutzers u für den Film i ru,i = µ + ∑ mi, j pu, j mi,j - (Dummy-)Variable für j-te Eigenschaft i-ten des Films pu,j - Präferenzwert der j-ten Eigenschaft durch Nutzer u j∈J µ - Durchschnittlicher Rating aller Spielfilme Bei der Bewertung von Alternativen tendieren Konsumenten mehr Gewicht auf negative Informationen zu legen, als auf positive (Lutz 1975; Wright 1974; Kanouse and Hanson 1972; Ito, Larsen, and Cacioppo 1998) “Pros-and-cons”-Erklärungsstil erweitert die Effektivität der Erklärungen: Titanic (1997) is recommended to you because it matches your preference highly. Pros: High budget Hollywood movie directed by James Cameron. Cons: You don’t like the movie’s drama genre and its star Leonardo Di Caprio. Taking these factors into account, we expect that you will rate this movie 8 of 10. 15
  • 14. Berücksichtigung statischer Effekte jenseits Nutzer-Spielfilm-Interaktionen ru,i = µ + bu + bi su + ∑ mi, j pu, j j∈J ru,i - Rating des Nutzers u für den Film i bu - Nutzer-Bias mi,j - (Dummy-)Variable für j-te Eigenschaft i-ten des Films bi - Item-Bias pu,j - Präferenzwert der j-ten Eigenschaft durch Nutzer u su - Skallierungsfaktor der Nutzerreaktion auf populäre µ - Durchschnittlicher Rating aller Spielfilme Spielfilme Cameron bisu, su>1 Cameron DiCaprio + bi Cameron DiCaprio bu + bu bisu, su<1 DiCaprio µ µ – – Drama Drama 16
  • 15. Berücksichtigung der zeitlichen Dynamik von Nutzerpräferenzen ru,i = µ + bu + α ut + (bi + βi t)(su + γ ut) + ∑ mi, j ( pu, j + δu, j t) j∈J ru,i - Rating des Nutzers u für den Film i mi,j - (Dummy-)Variable für j-te Eigenschaft i-ten des Films pu,j - Präferenzwert der j-ten Eigenschaft durch Nutzer u µ - Durchschnittlicher Rating aller Spielfilme bu - Nutzer-Bias bi - Item-Bias su - Skallierungsfaktor der Nutzerreaktion auf populäre Spielfilme αu - Steigungskoeffizient des zeitlichen Trends vom Nutzer-Bias βu - Steigungskoeffizient des zeitlichen Trends vom Item-Bias ɣu - Steigungskoeffizient des zeitlichen Trends der Nutzerreaktion auf populäre Spielfilme 17
  • 16. Schätzung der Modelparameter ru,i = µ + bu + α ut + (bi + βi t)(su + γ ut) + ∑ mi, j ( pu, j + δu, j t) j∈J Anzahl d. Parameter = 1 +1 + 1 +1 + 1 +1 + 374*2 = 754 pro Nutzer Median von Ratings pro Nutzer: MoviePilot: 25, Netflix: 96 Zu wenige Daten für eine algebraische und/oder statistische Lösung Schätzung der Parameter mittels Optimierungsmethoden möglich (z.B. Gradientenverfahren) Ziel - Itterative Minimierung der Verlustfunktion: min (!!,! − !!,! )! = !,! (!,!)∈! min (!!,! − (! + !! + !! ! + ! !! + !! ! !! + !! ! + ! !! !! ))! ! !,! (!,!)∈! 18
  • 17. Zweischrittiges Verfahren zur Schätzung der Modelparameter ru,i = µ + bu + α ut + (bi + βi t)(su + γ ut) + ∑ mi, j ( pu, j + δu, j t) j∈J Optimierungsmethoden hängen stark von der Wahl des Start-Punktes der Optimierug ab und tendieren zum Finden einer suboptimalen Lösung, wenn der Start-Punkt nicht optimal gewählt ist Daher zweischrittiges Verfahren: Schritt 1: Schätzung initieller Parameter-Werte (möglichst nah an die eigentliche Lösung) Univariate Hilfsregressionen für jeden Nutzer und Parameter Bestimmung der Signifikanz der Parameter Konfidenzintervalle Schritt 2: Optimierung der Parameter-Werte durch Minimierung der Verlustfunktion Optimierung nur innerhalb der Konfidenzintervalle aus Schritt 1 19
  • 18. Schritt 1: Schätzung initieller Parameter-Werte Omitted Variable Bias sachlogisch können korrelieren Beispiel: Korrektur der Überschätzung: unkorreliert X1 = Clint Eastwood X2 = Western ru,i = µ + bu + α ut Hilfsregressionenγdes+ ∑ mi, j ( pu, j + δu, j t) Zwei + (bi + βi t)(su + ut) Typs (2): j∈J (5) !! = ! !!" + !!" !! ! wenn “richtiges” Modell lautet: (1) !! = ! !! + !! !!! + !! !!! + !! (6) !! = ! !!" + !!" !! Univariate Schätzung der Präferenz-Parameter und unterspezifiziertes Modell ist => Modell-Spezifizierungs-Fehler analog zu (3) bilde ein Gleichungssystem (2) !! = ! !! + !! !!! + !! (Omitted Variable Bias) !! = ! !! + !! !!" Überschätzung der Präferenzwerte (7) dann !! = ! !! + !! !!" der Parameter- Fehlerhafte Schätzung (3) ! !! = ! !! + !! !!" mit Varianzen setze (5) und (6) in (7) ein und löse nach betas auf (4) !!" = !!! !!! / ! !!! Fehlerhafte Signifikanzprüfung (t-Test) (8)Fehlerhafte Konfidenzintervalle !! = !!! − ! !! !!" b21 Regressionskoeffizient aus Regression von X2 auf X1 !! − !! !!" (9) !! = 1 − !!" !!" α1 ist überschätzt wenn β2 ≠0 und/oder b21 ≠0 20
  • 19. Schritt 1: Schätzung initieller Parameter-Werte Omitted Variable Bias z.B. Korrektur der Überschätzung: X1 = Clint Eastwood X2 = Western führe zwei Hilfsregressionen des “Typs (4)” durch: (5) !! = ! !!" + !!" !! ! wenn “richtiges” Modell lautet: (1) !! = ! !! + !! !!! + !! !!! + !! (6) !! = ! !!" + !!" !! und unterspeziertes Modell ist bilde ein Gleichungssystem analog zu (3) (2) !! = ! !! + !! !!! + !! !! = ! !! + !! !!" (7) dann !! = ! !! + !! !!" (3) ! !! = ! !! + !! !!" mit setze (5) und (6) in (7) ein und löse nach betas auf ! (4) !!" = !!! !!! / !!! !! − !! !!" (8) !! = b21 Regressionskoeffizient aus 1 − !!" !!" Hilfsregression von X2 auf X1 !! = !!! − ! !! !!" (9) α1 ist überschätzt wenn β2 ≠0 und/oder b21 ≠0 β1 und β2 sind die korrigierte Effekte 21
  • 20. Schritt 1: Schätzung initieller Parameter-Werte Omitted Variable Bias Korrektur der Varianz und Inferenzstatistiken: Fehlerhafte Schätzung der Varianz führt zu berechne die Varianz nach Definition basierend fehlerhaften t-Test-Ergebnissen (Signifikanztest) auf korrigierten Schätzungen von β1 (8) und β2 (9) und fehlerhaften Konfidenzintervalen !! !! ! !! /!" (10) !! = ! (12) !"# !! = ! ! !"# = !!" ! ! !!" 1 − !!" !"#(!! ) (11) !! − !! !"# !! ≤ !! ≤ ! !! + !! !"!(!! ) korrigierte Varianz ermöglicht verlässlichere Signifikanztests und Berechnung der Konfidenzintervalle 22
  • 21. Schritt 2: Optimierung der Parameter-Werte min (!!,! − (! + !! + !! ! + ! !! + !! ! !! + !! ! + ! !! !! ))! ! !,! (!,!)∈! !! ← !! + !!! −2!!,! !! ← !! + !!! ! −2!!,! Optimierung der Parameter-Werte durch !! ← !! + !!! −2!!,! !! + !! ! Conjugate Gradient Descent Methode !! ← !! + !!! ! −2!!,! !! + !! ! !! ← !! + !!! −2!!,! !! + !! ! Start-Punkt: Werte aus univariaten !! ← !! + !!! ! −2!!,! !! + !! ! Hilfsregressionen (Schritt 1) !!,! ← !!,! + !!!,! !!,! −2!!,! !!,! ← !!,! + !!!,! !!,! ! −2!!,! Parameter-Werte dürfen nur innerhalb ihrer !!,! = !!,! − !!,! Konfidenzintervale variiert werden Itteratives Lernen der Parameter Holdout-Set von 6 zufällig gezogenen Ratings per Nutzer zur Vermeidung des Overfittings Stopp wenn Verlustfunktion auf dem Holdout-Set nicht mehr optimiert werden kann 23
  • 22. GLIEDERUNG 1. Konzeptioneller Rahmen und theoretische Basis Empfehlungssystemen Erklärungen in Empfehlugssystemen Spielfilmeigenschaften in Empfehlungen 2. Konzept des Hybriden Spilefilmempfehlungsalgorithmuns mit Erklärungsfähigkeit Konzept Modell Methode 3. Empirische Studie 4. Fazit 24
  • 23. Empirische Studie Rating-Daten von Moviepilot und Netflix Verknüpfung mit Daten über Speilfilm- Charakteristiken von IMDb und InsideKino Validierungs-Holdout-Set bestehend aus 6 letzten Ratings per Nutzer zur methodenneutralen Beurteilung der Vorhersage-Genauigkeit 25
  • 24. Empirische Studie Benchmarks & Metriken Vergleich der Vorhersagegenauigkeit verschidener Algorithmen und Benchmarks Global Average ! !!! !! − !! Durchschnittsraten aller Nutzer !"# = ! ! = unterste Grenze der Genauigkeit ! ! Netflix Prize Winner Algoritmus !!! !! − !! !"#$ = = oberste Grenze der Genauigkeit ! Collaborative Filtering Item-based Cosine und Pearson !"# !"#$ = ! User-based !!"# − !!"# Cosine und Pearson !"#$ SVD Matrix Factorization nach Funk (2006) !"#$% = Basis für alle MF-Algorithmen !!"# − !!"# 26
  • 25. Ergebnisse Vergleich der Genauigkeit Obwohl die entwickelte Content-based-Methode alleine keine besonders gute Ergebnisse erzeugt, führt ihre Hybridiisierung mit der Item-based Collaborative-Filtering-Methode zu einer erheblichen Verbesserung der Schätzungsgenauigkeit, sodass das Hybrid die genauseten Ergebnisse aufzeigt 27
  • 26. Ergebnisse Fehler im Optimisierungsschritt Der kummulative Fehler (MAE, RMSE) setzt sich hauptsächlich aus relativ geringer Anzahl (≈1/3) sehr hoher Abweichungen zusammen, n=47610 nicht aus großer Anzahl vergleichbar hohen Fehler Die Meisten hohen Abweichungen “gehören” denselben Nutzern Hybridisierung mit Item-based- Methode verbessert den Fehlermaß erheblich –> Es exisitiert eine Gruppe der Nutzer, die ihre Präferenzen nicht auf Spielfilmeigenschaften basieren Verteilung der absoluten Vorhersage-Fehler des Optimierungs-Schritts 28
  • 27. Ergebnisse Konsistenz der Ergebnisse & Erklärungsstil Die Ergebnisse sind konsistent für beide verwendeten Datensätze Prozentuelle Verbesserung der Vorhersagegenauigkeit der Hybriden Methode im Verleich Jede Nutzer-Gruppe erhält Eklärungen der Empfehlungen in dem für sie effektivsten Erklärungsstil Erklärungsstil der generierten Empfehluneg 29
  • 28. GLIEDERUNG 1. Konzeptioneller Rahmen und theoretische Basis Empfehlungssystemen Erklärungen in Empfehlugssystemen Spielfilmeigenschaften in Empfehlungen 2. Konzept des Hybriden Spilefilmempfehlungsalgorithmuns mit Erklärungsfähigkeit Konzept Modell Methode 3. Empirische Studie 4. Fazit 30
  • 29. Zusammenfassung und Forschungsbeitrag Entwicklung des Conten-basierten Algortitmus für Speilfilmempfehlungen, welcher für die Merheit der Nutzer (2/3) die genauesten Empfehlungen generiert und sie mit Erklärungen unterstützt, die Effektivität der Auswahls-Entscheidungen auf der Nutzerseite verbessert Erweiterung des Keyword-Erklärungsstils zum Pros-and-Cons-Erklärungsstil durch integration von negativen Hinweisen. Dies erhöht potentiell die Effektivität von Empfehlungen für Auswahlsentscheidungen der Nutzer Entwicklung eines neuen statisitischen Verfahrens für Schätung der Parameter von im hohen Maße unterdeterminierten linear-additiven (Regressions-)Modellen Aufzeigen der Existenz zweier substatiell großer Nutzer-Gruppen, deren Präferenzen auf unterschiedliche Weise entstehen. Während Präferenzen des Großteils der Nutzer (2/3) mit Hilfe des Multiattributiven Nutzenmodels können verlässlich beschrieben werden, basiert der Rest der Nutzer (1/3) ihre Auswahlentscheidungen auf anderen, weniger gut formalisierbaren Faktoren. Empirische Unterstützung der These von Aksoy, dass “[recommendation] agents should think like the people they are attempting to help” 31