10. Vorgehensweise
Artikelprofil
Benutzerprofil
Klassifizierungsmethoden
Feedback
PROFILE LEARNER
Profil = strukturierte Darstellung der Benutzerinteressen
Sammlung von Daten (Benutzerbewertungen bzw. Feedback)
⇒ Training set f¨r den aktiven Benutzer
u
Verallgemeinerung der Daten ⇒ Erstellung des Benutzerprofils
Umsetzung der Generalisierungsstrategie durch
Maschinenlerntechniken
Speicherung des Benutzerprofils in einem Profilarchiv (f¨r
u
FILTERING COMPONENT)
Bettina Pflugbeil
Funktionsweise und Ans¨tze von inhaltsbasiertem Filtern
a
11. Vorgehensweise
Artikelprofil
Benutzerprofil
Klassifizierungsmethoden
Feedback
FILTERING COMPONENT
Vorhersage uber Interesse des Benutzers f¨r neuen Artikel
u
¨
neue Artikelrepr¨sentation
a
⇒ Vergleich der Attribute des Benutzerprofils mit den der
jeweiligen Artikelprofile
Vergleich mittels Klassifizierungsalgorithmen
Ergebnis = repr¨sentiert Interesse des Benutzers an diesem
a
Objekt
Top-Artikel“⇒ Speicherung in Empfehlungsliste
”
Bettina Pflugbeil
Funktionsweise und Ans¨tze von inhaltsbasiertem Filtern
a
17. Vorgehensweise
Artikelprofil
Benutzerprofil
Klassifizierungsmethoden
Feedback
Strukturierte Daten
Unstrukturierte Daten
Beispiel: Teil eines Zeitungsartikels
Artikelbeschreibung meistens textuelle Eigenschaften
(Webseite, Zeitungen, E-Mails...)
keine gut definierten Werte (↔ strukturierte Daten)
keine Liste von Meta-Information“, sondern Liste von
”
relevanten Schl¨sselw¨rtern
u
o
⇒ Einsatz von diversen Verfahren zur Extrahierung
Bettina Pflugbeil
Funktionsweise und Ans¨tze von inhaltsbasiertem Filtern
a
23. Vorgehensweise
Artikelprofil
Benutzerprofil
Klassifizierungsmethoden
Feedback
Strukturierte Daten
Unstrukturierte Daten
Verbesserung und Begrenzung
Stoppw¨rter
o
L¨schen von bestimmten Wortarten wie Pr¨positionen,
o
a
Konjunktionen, Artikel usw.
Grund: kommen in so gut wie allen Dokumenten vor, haben
jedoch auf den Inhalt bzw. die Schl¨sselw¨rter keinen Einfluss
u
o
Stemming
Ersetzen der verschiedenen Wortvarianten durch ihren
gemeinsamen Wortstamm
⇒ Verringert die Vektorgr¨ße
o
⇒ Verbesserung des Matching-Prozesses
Probleme: Abk¨rzungen oder gleichlautende W¨rter
u
o
Bettina Pflugbeil
Funktionsweise und Ans¨tze von inhaltsbasiertem Filtern
a
24. Vorgehensweise
Artikelprofil
Benutzerprofil
Klassifizierungsmethoden
Feedback
Strukturierte Daten
Unstrukturierte Daten
Verbesserung und Begrenzung
Redewendung
Verwendung ganzer Redewendungen oder Phrasen als Terme
Grund: h¨here Aussagekraft
o
Anwendung von Lexika oder Ontologien
Problem: keine Erfassung der Semantik (String-Matching)
→ Polysemie: Ein Wort/ mehrere Bedeutungen
→ Synonymie: viele W¨rter/ dieselbe Bedeutung
o
⇒ Schl¨sselidee: Wissensbasen wie Lexika oder Ontologien
u
Bettina Pflugbeil
Funktionsweise und Ans¨tze von inhaltsbasiertem Filtern
a
32. Vorgehensweise
Artikelprofil
Benutzerprofil
Klassifizierungsmethoden
Feedback
Probabilistische Methoden und Naive Bayes
Entscheidungsbaum
Methode des n¨chsten Nachbarn
a
Relevantes Feedback und Rocchio’s Methode
Lineare Klassifikatoren
Probabilistische Methoden und Naive Bayes
Wahrscheinlichkeitsmethode f¨r induktives Lernen
u
Erzeugung eines Wahrscheinlichkeitsmodells (unbekannter
Umweltzustand“) an Hand von davor beobachteten Daten
”
Bayes theorem
P(c|d) =
P(c)∗P(d|c)
P(d)
f¨r Klassifizierung des Dokuments d, wird Klasse mit h¨chster
u
o
Wahrscheinlichkeit ausgew¨hlt
a
Bettina Pflugbeil
Funktionsweise und Ans¨tze von inhaltsbasiertem Filtern
a
33. Vorgehensweise
Artikelprofil
Benutzerprofil
Klassifizierungsmethoden
Feedback
Probabilistische Methoden und Naive Bayes
Entscheidungsbaum
Methode des n¨chsten Nachbarn
a
Relevantes Feedback und Rocchio’s Methode
Lineare Klassifikatoren
Probabilistische Methoden und Naive Bayes
beobachtete Daten nicht ausreichend
⇒ Unabh¨ngigkeitsannahme
a
⇒ Berechnung der Wahrscheinlichkeit f¨r jedes Wort
u
gute Ergebnisse bei Textdokumentsklassifizierung trotz
Diskrepanz zur realen Welt (↔ Methode des n¨chsten
a
Nachbarn)
Probleme beim Benutzerprofil:
→ unterschiedliche L¨nge der Dokumente (training set)
a
→ seltene Kategorien
→ mehr positives als negatives Feedback
Verwendung: NewsDude, Daily Learner, LIBRA...
Bettina Pflugbeil
Funktionsweise und Ans¨tze von inhaltsbasiertem Filtern
a
34. Vorgehensweise
Artikelprofil
Benutzerprofil
Klassifizierungsmethoden
Feedback
Probabilistische Methoden und Naive Bayes
Entscheidungsbaum
Methode des n¨chsten Nachbarn
a
Relevantes Feedback und Rocchio’s Methode
Lineare Klassifikatoren
Entscheidungsbaum
Erstellung eines Entscheidungsbaumes durch rekursive
Aufteilung der Textdokumente (Trainingsdaten) in
Untergruppen
⇒ Untergruppen enthalten nur noch Instanzen der Klasse
Aufteilung durch Test der Merkmale (An- bzw. Abwesenheit)
Verwendung der informativsten Eigenschaften f¨r die Tests
u
nicht ideal f¨r unstrukturierte Daten
u
⇒ besser kleine B¨ume mit wenigen Tests
a
RIPPER: post-pruning-Algorithmus (Optimierung) und
Unterst¨tzung von Attributen mit mehrfachen Werten
u
bereits angewendet bei: Klassifizierung von E-Mails,
Data-Mining-Probleme, Personalisierung von Werbung
Bettina Pflugbeil
Funktionsweise und Ans¨tze von inhaltsbasiertem Filtern
a
36. Vorgehensweise
Artikelprofil
Benutzerprofil
Klassifizierungsmethoden
Feedback
Probabilistische Methoden und Naive Bayes
Entscheidungsbaum
Methode des n¨chsten Nachbarn
a
Relevantes Feedback und Rocchio’s Methode
Lineare Klassifikatoren
Methode des n¨chsten Nachbarn
a
Untersuchen, ob Benutzer gleichartige Dokumente in der
Vergangenheit positiv bewertet hat
zwei Informationen n¨tig:
o
→ Historie der Vorlieben (like/ dislike)
→ Algorithmus zur Bestimmung der Gleichartigkeit
Speicherung aller Trainingsdaten
Klassifizierung eines neuen Artikels:
¨
⇒ Berechnet durch Ahnlichkeitsfunktion den n¨chsten bzw.
a
die k n¨chsten Nachbarn
a
¨
⇒ Ubernahme der Daten der n¨chsten Nachbarn
a
Bettina Pflugbeil
Funktionsweise und Ans¨tze von inhaltsbasiertem Filtern
a
37. Vorgehensweise
Artikelprofil
Benutzerprofil
Klassifizierungsmethoden
Feedback
Probabilistische Methoden und Naive Bayes
Entscheidungsbaum
Methode des n¨chsten Nachbarn
a
Relevantes Feedback und Rocchio’s Methode
Lineare Klassifikatoren
Methode des n¨chsten Nachbarn
a
strukturierte Daten - Euklidische Abstandsmetrik
⇒ d(p, q) = (p1 − q1)2 + (p2 − q2)2
¨
unstrukturierte Daten (VRM) - Kosinus-Ahnlichkeitsmaß
Problem bei Euklidischer Abstandsmetrik:
Gleichbehandlung egal ob kleiner oder großer Wert
⇒ Dokumente werden als gleichartig angesehen, wenn beide
nicht bei dem abgefragtem“Thema ubereinstimmen
¨
”
Bettina Pflugbeil
Funktionsweise und Ans¨tze von inhaltsbasiertem Filtern
a
39. Vorgehensweise
Artikelprofil
Benutzerprofil
Klassifizierungsmethoden
Feedback
Probabilistische Methoden und Naive Bayes
Entscheidungsbaum
Methode des n¨chsten Nachbarn
a
Relevantes Feedback und Rocchio’s Methode
Lineare Klassifikatoren
Relevantes Feedback und Rocchio’s Methode
Benutzer geben explizites Feedback, ob die abgerufenen
Artikel relevant waren. (R¨ckkopplungsmechanismus)
u
⇒ Verfeinerung der Abfrage durch das System
⇒ Verbesserung der Abfrageergebnisse
Grund: Qualit¨t h¨ngt sehr stark von den abgefragten
a a
Schl¨sselw¨rtern ab
u
o
→ durchschnittlich zwei Schl¨sselw¨rter (oft mehrdeutig)
u
o
Bettina Pflugbeil
Funktionsweise und Ans¨tze von inhaltsbasiertem Filtern
a
40. Vorgehensweise
Artikelprofil
Benutzerprofil
Klassifizierungsmethoden
Feedback
Probabilistische Methoden und Naive Bayes
Entscheidungsbaum
Methode des n¨chsten Nachbarn
a
Relevantes Feedback und Rocchio’s Methode
Lineare Klassifikatoren
Relevantes Feedback und Rocchio’s Methode
Teilen der bewerteten Dokumente in zwei Bereiche:
→ D+: relevante Dokumente
→ D-: unrelevante Dokumente
⇒ Erstellung eines Prototypen (Durchschnitt)
Verfeinerung des aktuellen Abfragevektors
⇒ Vektor bewegt sich in Richtung der relevanten Daten
empirische Daten: gute Methode - am besten die erstn 10 bis
20 W¨rter daf¨r benutzen
o
u
aber bei zu vielen Termen problematisch (oft mehrdeutig)
Bettina Pflugbeil
Funktionsweise und Ans¨tze von inhaltsbasiertem Filtern
a
43. Vorgehensweise
Artikelprofil
Benutzerprofil
Klassifizierungsmethoden
Feedback
Probabilistische Methoden und Naive Bayes
Entscheidungsbaum
Methode des n¨chsten Nachbarn
a
Relevantes Feedback und Rocchio’s Methode
Lineare Klassifikatoren
Lineare Klassifikatoren
Berechnung einer linearen Entscheidungsgrenze
große Anzahl von Algorithmen in dieser Kategorie
Bettina Pflugbeil
Funktionsweise und Ans¨tze von inhaltsbasiertem Filtern
a
45. Vorgehensweise
Artikelprofil
Benutzerprofil
Klassifizierungsmethoden
Feedback
Nachteile
keine Ber¨cksichtigung subjektiver Attribute
u
¨
→ Asthetik
→ korrekte Hyperlinks
→ Benutzerfreundlichkeit
→ multimediale Elemente
¨
Uberspezialisierung
→ Empfehlung nur uber gleichartige, positiv bewertete Artikel
¨
→ gleiche Zeitungsartikel werden vorgeschlagen
⇒ gewissen Zufall einbauen
Extrahierung von Eigenschaftsmerkmalen muss m¨glich sein
o
Bettina Pflugbeil
Funktionsweise und Ans¨tze von inhaltsbasiertem Filtern
a