Schaffert, Sandra; Bürger, Tobias; Hilzensauer, Wolf; Schneider, Cornelia & Wieden-Bischof, Diana (2010). Empfehlungen im Web. Konzepte und Realisierungen. Band 3 der Reihe „Social Media“ (hrsg. von Georg Güntner und Sebastian Schaffert), Salzburg: Salzburg Research. (ISBN 978-3-902448-16-3) - frei zugängliche Version (CC Lizenz!) - auch im Buchhandel erhältlich!
3. Sandra Schafert
Empfehlungen im Web
Konzepte und Realisierungen
mit Beiträgen von Tobias Bürger, Wolf Hilzensauer,
Cornelia Schneider und Diana Wieden-Bischof
5. VORWORT
Das Kompetenzzentrum für Neue Medien, das Salzburg NewMediaLab, betrachtet im
Rahmen seines Forschungsprogramms die Wechselwirkung zwischen digitalen Inhalten
und ihren Autor(inn)en bzw. Konsument(inn)en aus technologischer und sozialer Per-
spektve. Dabei ergibt sich naturgemäß die Frage, welche Art von Beziehungen zwischen
Autor(inn)en und Leser(innen) untereinander, aber auch zu den von ihnen erstellten
bzw. konsumierten Inhalten besteht. Weiters untersuchen wir, wie sich die aufgrund die-
ser Beziehungen entstehenden Gemeinschafen auf die Atraktvität und Nutzung der In-
halte sowie auf das Angebot von erweiterten Diensten auswirkt.
Unter der Bezeichnung „ComStudy“ wurde im Oktober 2009 am Salzburg NewMediaLab
eine Studie gestartet, die sich mit Orienterungs- und Entscheidungshilfen für den Auf-
bau und die Nutzung von Online-Communitys beschäfigt. Dabei betrachten wir auch
die in der Wechselwirkung von Inhalten und Communitys anfallenden Metainformato-
nen und die auf den Inhalten basierenden Dienste, wie etwa Empfehlungs- und Reputa-
tonssysteme.
Das Informatonsangebot im Internet ist mitlerweile so angewachsen und unübersicht-
lich geworden, dass Suchmaschinen alleine die Flut der Daten für die Benutzer(innen)
nicht mehr ausreichend fltern und darstellen können. Deswegen gehen fortschritliche
Informatonsplatormen und digitale soziale Netzwerke zunehmend dazu über, das Pa-
radigma des Suchens umzukehren: Nicht mehr die Benutzer(innen) suchen nach Infor-
matonen, sondern die Informatonen suchen (und fnden) die Benutzer(innen). Voraus-
setzung dafür sind Empfehlungssysteme, die Informatonen nach unterschiedlichen Ge-
sichtspunkten – z.B. anhand der Profle der Anwender(nnen) – (semi-)automatsch aus-
wählen, fltern und vorschlagen. Der vorliegende Band stellt Ansätze und Methoden für
Empfehlungssysteme vor, zeigt mögliche Einsatzgebiete auf und gibt praktsche Hinweise
für die Implementerung solcher Systeme.
Die Darstellung der Analyse und von deren Ergebnissen erfolgt – wie in den beiden vor-
angehenden Publikatonen – stets unter dem Gesichtspunkt, den Leserinnen und Lesern
praktsche Orienterungs- und Entscheidungshilfen für die Konzepton und Umsetzung
zur Verfügung zu stellen. Im Namen des Salzburg NewMediaLab wünsche ich Ihnen in
diesem Sinne bei der Lektüre viele brauchbare Anregungen und viel Erfolg bei der prak-
tschen Umsetzung in Ihren Online-Communitys oder bei Ihren Informatonssystemen.
Georg Güntner
Leiter des Salzburg NewMediaLab
Februar 2010
6. DANK & ANMERKUNG ZUR SCHREIBWEISE
Herzlichen Dank an Prof. Dr. Peter Dolog, Dr. Hendrik Drachsler sowie Dr. Marco Kalz für
Ihre Bereitschaf, uns in diesem Studie einige Fragen zu beantworten und uns so an ih-
rer Expertse teilhaben zu lassen.
Danke auch an meine Kolleginnen und Kollegen: an Mag. Diana Wieden-Bischof und
Mag. Wolf Hilzensauer für ihre Unterstützung bei der Recherche und Beschreibung von
Beispielen; an Dr. Tobias Bürger für seinen Beitrag zu LIVE und sein Feedback zur Studie
sowie an DI (FH) Mag. Cornelia Schneider für ihren Beitrag zu Empfehlungssystemen im
Gesundheitsbereich, an Mag. Renate Steinmann und Dr. Andreas Strasser für das Lekto-
rat, danke auch an Daniela Gnad für das Titelbild!
Da die Gefahr groß ist, die eine oder den anderen zu übersehen, der bei den Trefen,
oder in E-Mails oder beim informellen Gespräch beim Kafee hilfreich war, danke ich den
weiteren Kolleg(inn)en ohne einzelne Namen zu nennen: Wie bei jeder der Veröfentli-
chungen im Rahmen des Projektes ComStudy stecken auch hier hinter vielen Ideen und
Hinweisen auf interessante Tools, Projekte, Veröfentlichungen und Expert(inn)en zahl-
reiche Kolleg(inn)en des Salzburg NewMediaLab und der Salzburg Research Forschungs-
gesellschaf. Es macht Spaß, mit so vielen cleveren Köpfen zusammenzuarbeiten!
Schließlich, wie bei den bisherigen Veröfentlichungen dieser Reihe auch hier: Um die-
sen Beitrag nicht durch weibliche Endungen, Bindestriche und Klammern zu einem zwar
korrekten, aber auch schwerer zu lesenden Werk zu machen, haben wir im Folgenden
durchgehend darauf verzichtet, die gendergerechte Schreibweise zu verwenden. Zudem
haben wir uns bemüht, auf englische Ausdrücke oder Lehenswörter zu verzichten, wo
sie uns unnötg erschienen – aber im Bereich des Internets und der modernen Manage-
mentheorie kommt man leider viel zu of nicht darum herum.
Sandra Schafert
Salzburg Research Forschungsgesellschaf
Februar 2010
7. INHALTSVERZEICHNIS
1 Einleitung und Hintergrund........................................................................................ 9
1.1 Empfehlungen im Web........................................................................................... 9
1.2 Schwerpunkte, Forschungsfragen und Vorgehen.................................................10
1.3 Hintergrund.......................................................................................................... 10
2 Empfehlungssysteme: Ansätze und Methoden......................................................... 13
2.1 Ziele und Zwecke des Einsatzes von Empfehlungssystemen................................. 13
2.2 Quellen für Empfehlungssysteme.........................................................................14
2.3 Personalisierte und allgemeine Empfehlungen ....................................................15
2.4 Inhaltsbasiertes Filtern......................................................................................... 15
2.5 Kollaboratves Filtern............................................................................................22
2.6 Verfahren der Ähnlichkeitsfeststellung von Nutzern bzw. Elementen..................25
2.7 Ähnlichkeit und weitere Kriterien.........................................................................28
2.8 Nachteile und Herausforderungen der Ansätze ...................................................28
2.9 Hybride Lösungen.................................................................................................30
3 Empfehlungssysteme: Ausgewählte Einsatzgebiete.................................................. 35
3.1 Überblick über fünf ausgewählte Einsatzgebiete..................................................35
3.2 Experten- und Arbeitsplatzsuche im Web............................................................ 36
3.3 Partnersuche im Web........................................................................................... 39
3.4 Produktempfehlungen .........................................................................................42
3.5 Empfehlungssysteme für Web-Materialien.......................................................... 51
3.6 Spezielle Einsatzgebiete und weitere Empfehlungssysteme................................. 58
4 Entwicklung von Empfehlungssystemen...................................................................67
4.1 Entwicklung im Überblick..................................................................................... 67
4.2 Aktve Einbindung von Nutzern............................................................................ 67
4.3 Ziel und Zweck des Empfehlungssystem...............................................................68
4.4 Konzeptonelle Beschreibung............................................................................... 68
4.5 Implementerung ................................................................................................69
4.6 Evaluaton: Überprüfung der Qualität und Nützlichkeit von Empfehlungen.........70
5 Ausblick....................................................................................................................73
Literatur und Quellen.................................................................................................. 75
Autorinnen und Autoren............................................................................................. 80
Social Media – Weitere Bände.....................................................................................80
8.
9. 1 EINLEITUNG UND HINTERGRUND
1.1 Empfehlungen im Web
Wachsende Datenbestände machen es schwierig sich zu orienteren. Empfehlungssyste-
me werden daher immer häufger eingesetzt. Sie schlagen zum Beispiel Produkte,
Dienstleistungen, Webseiten, Filme, Bilder, Lieder, Experten, Musikgruppen oder poten-
zielle Freunde und Lebenspartner vor. Insbesondere durch den Anwuchs von Beiträgen
in Social-Media-Anwendungen sind Empfehlungssysteme gefragt, damit interessante
Beiträge und Personen nicht „untergehen“. Auch bei der gezielten und personalisierten
Werbung im Web oder bei Suchmaschinen werden Verfahren der Empfehlungssysteme
eingesetzt. Empfehlungen unterstützen auch Prozesse wie die Reiseplanung, das Lernen,
das Tagging und auch das Verschreiben von Arzneimiteln.
Empfehlungssysteme haben die Aufgabe (vgl. Sorge, 2008) „einem Nutzer Objekte zu
empfehlen, die für ihn interessant sein könnten“ (S. 18). Klahold (2009) versteht unter
einem Empfehlungssystem ein System, „das einem Benutzer in einem gegebenen Kon-
text aus einer gegebenen Enttätsmenge aktv eine Teilmenge „nützlicher“ Elemente
empfehlt“ (S. 1). Empfehlungssysteme werden auch im Deutschen häufg als „Recom-
mender-Systeme“ bezeichnet.
Als Voraussetzung für die Notwendigkeit von Empfehlungssystemen betrachtet Klahold
(2009) das Anwachsen von Informatonen und den exponentellen Ansteg des Datenvo-
lumens im 20. Jahrhundert (S. 16). Auch wenn es nicht als Empfehlungssystem bezeich-
net wird, ist Klahold (2009) zufolge, die erste akademische Beschäfigung mit einem
Empfehlungssystem das Werk von Luhn (1958): Er beschreibt ein System, dass selektv
Informatonen an bestmmte Organisatonen verteilt.
Ein Überblick über aktuelle Realisierungen und Erfahrungen mit solchen Empfehlungs-
systemen, die als Service für Nutzer und Communitys einen entscheidenden Faktor für
die Atraktvität eines Systems ausmachen können, wird hier gegeben, wobei auch die
konkrete technologische Umsetzung und die Konzepte beschrieben werden. Während
sich der Begrif der „Empfehlungssysteme“ in einigen Beiträgen nur auf automatsche
Verfahren der Empfehlung beschränkt, beziehen wir in dieser Arbeit alle Formen der
Empfehlungen mit ein.
Grundsätzlich wird für Empfehlungssysteme in der Regel eines der beiden folgenden
Verfahren oder eine Kombinaton von beiden genutzt:
| Beim inhaltsbasierten Filtern (Engl. „Content Based Filtering“) beruhen die Empfeh-
lungen auf den Eigenschafen der Elemente, die empfohlen werden. Beispielsweise
wird ein Buch empfohlen, weil ein Abgleich des Klappentexts sowie des Benutzerpro-
fls ergeben hat, dass es ihn interessieren könnte (Klahold, 2009).
| Beim kollaboratven Filtern (Engl. „Collaboratve Filtering“) werden Empfehlungen
auf der Basis von Daten zu ähnlichen Benutzerproflen gegeben. Beispielsweise wer-
den hier Bücher empfohlen, die andere Nutzer mit ähnlichem Benutzerprofl bereits
gekauf, gelesen oder positv bewertet haben (Klahold, 2009).
Ein weiteres wichtges Beschreibungsmerkmal eines Empfehlungssystem ist es, ob per-
sonalisierte Empfehlungen gegeben werden oder ob die Empfehlung für jeden Nutzer
gleichermaßen gilt.
Darüberhinaus gibt es auch Systeme und Anwendungen, die unterstützen, dass Nutzer
anderen Nutzern direkte (persönliche) Empfehlungen geben (s. Terveen & Hill, 2001;
Brand-Haushofer, 2005).
9
10. 1.2 Schwerpunkte, Forschungsfragen und Vorgehen
Schwerpunkte unserer Ausführungen sind die unterschiedlichen Formen und Einsatz-
möglichkeiten von Empfehlungssystemen im Web.
Folgende, eher praktsche Fragen waren dabei forschungsleitend:
| Welche Arten von Empfehlungssystemen im Web gibt es derzeit?
| Wie und zu welchem Zweck werden sie eingesetzt?
| Welche Erfahrungen wurden dabei bisher gemacht?
Diese Publikaton verfolgt das Ziel, über unterschiedliche Branchen und Anwendungsbe-
reiche hinweg, Realisierungsmöglichkeiten und Beispiele vorzustellen. Dabei wird be-
trachtet, welchen Nutzen einzelne Benutzer eines Services oder einzelne Community-
Mitglieder haben und wie ggf. die Nutzergruppe insgesamt davon proftert.
Im Überblick beschäfigt sich die Studie also mit:
| Motven für den Einsatz von Empfehlungssystemen,
| unterschiedlichen Ansätze und technologischen Grundlagen,
| Realisierungen für unterschiedliche Einsatzbereiche,
| Hinweisen zur Entwicklung solcher Systeme sowie
| Herausforderungen und zukünfigen Forschungsfragen.
Ein gewisses technisches Grundverständnis voraussetzend, wendet sich diese Studie vor
allem an Praktker, die sich durch die unterschiedlichen Nutzungsmöglichkeiten anregen
lassen wollen, für ihre eigenen Webplatormen innovatve Empfehlungsservices zu ent-
wickeln. Hierfür wurden Beispiele, Publikatonen und Experten einbezogen, um einen
guten Einsteg und Überblick zum aktuellen Stand der Nutzung sowie anregende Einbli-
cke ermöglichen zu können.
Beim Entwurf des Projektes und der Forschungsschwerpunkte gab es keine deutschspra-
chige umfangreichere Einführung in Empfehlungssysteme. Während der Recherchen er-
schien jedoch ein neues Buch: Klahold (2009) führt in die unterschiedlichen Empfeh-
lungssysteme, ihre Struktur und verwendete Technologien und Methoden systematsch
für Studierende der Informatk ein. Diese Broschüre hat hingegen eher die unterschiedli-
chen Einsatzgebiete und Erfahrungen sowie die Entwicklung von Empfehlungssystemen
für Gestalter und Verantwortliche von Webplatormen im Fokus. Auf alle Fälle beein-
fusste und inspirierte uns das Buch von Klahold (2009); häufg wird daher auf diese
Quelle verwiesen.
1.3 Hintergrund
Diese Broschüre ist ein Ergebnis der „ComStudy“, die am Salzburg NewMediaLab (SNML)
im Zeitraum von Oktober 2008 bis Januar 2010 durchgeführt wurde. Das SNML, das
Kompetenzzentrum für Neue Medien in Österreich, arbeitet daran, digitale Inhalte cle-
ver zu strukturieren, verknüpfen, personalisieren, für alle aufndbar zu machen und
nachhaltg zu nutzen und betrachtet dabei die Community als einen wesentlichen Faktor
vieler Projekte.
Im Rahmen der ComStudy wurde bereits eine Studie zum erfolgreichen Community-
Aufau durchgeführt, die anhand von Literaturanalysen, Best-Practce-Beispielen, Fall-
analysen und Expertenbefragungen für unterschiedliche Szenarien konkrete Implemen-
terungsempfehlungen gibt (Schafert & Wieden-Bischof, 2009). In einer weiteren Bro-
schüre wurde die Entstehung und Nutzung von (Meta-) Informatonen in Communitys
10
11. beschrieben. Unterschiedliche Einsatzgebiete und Nutzungen, von der Entwicklung von
Services für die Communitys selbst bis zum unternehmensgetriebenen Webmonitoring
werden dabei beschrieben (Schafert u.a., 2009). Auf diesen Vorarbeiten beruht im Rah-
men des Projektes zudem eine Studie zu Feedback- und Reputatonssystemen (Schafert
u.a., 2010).
Auch dieser Band basiert darauf, da bei der Entwicklung von Empfehlungssystemen auf
(Meta-) Informatonen unterschiedlichster Art zurückgegrifen werden kann (s. letzte
Seite in diesem Band).
11
13. 2 EMPFEHLUNGSSYSTEME: ANSÄTZE UND METHODEN
In diesem Abschnit werden die unterschiedlichen Ansätze und Methoden von Empfeh-
lungssystemen vorgestellt. Dazu werden zunächst Ziele und Zwecke ihres Einsatzes und
ihre Quellen vorgestellt. Im Anschluss wir ein Einsteg in die unterschiedlichen Verfahren
des inhaltsbasierten als auch kollaboratven Filtern und hybrider Ansätze geboten.
Leider nutzen einige Forscher unterschiedliche Bezeichnungen für die gleichen Verfah-
ren von Empfehlungssystemen, während andere identsche Bezeichnungen verwenden,
aber ofensichtlich unterschiedliches verstehen (Schickel-Zuber, 2007, 21). Im Folgenden
wurde Aufau und Bezeichnungen der Verfahren aus aktuelleren Veröfentlichungen ge-
wählt und beschrieben (u.a. Schickel-Zuber, 2007; Klahold, 2009).
2.1 Ziele und Zwecke des Einsatzes von Empfehlungssystemen
Einleitend wurde festgestellt, dass Empfehlungssysteme die Aufgabe haben, Nutzern
von Anwendungen Objekte vorzuschlagen, die für sie interessant sein können. Doch
welche Ziele und Zwecke verfolgen Betreiber eines Angebots, das ein Empfehlungssys-
tem enthält?
Unmitelbare Zwecke, die Empfehlungssysteme erfüllen sollen sind, dass
| Nutzer für sie interessante, neuartge und nützliche Empfehlungen für Experten, Pro-
dukte, Dienstleistungen, potenzielle Ehepartner, Lernpartner, Webseiten, usw. erhal-
ten, und/oder
| dadurch Prozesse, beispielsweise Recherchen, Lernen, Arzneiverordnung, Planung
von Reisen etc. erleichtert, beschleunigt und verbessert werden.
Ziele, die Betreiber mit dem Einsatz von Empfehlungssystemen verfolgen, können dabei
sein:
| mit Hilfe des Empfehlungssystems mehr Nutzer zu bekommen,
| zufriedenere Nutzer zu erhalten,
| sich durch besseren Service von Mitbewerbern zu unterscheiden sowie
| höhere Umsätze und/oder Gewinne zu sichern.
Insbesondere im Online-Handel versprechen gute Empfehlungssysteme so erhöhte Um-
sätze durch das Vorschlagen passender, reizvoller weiterer Produkte, die für die Kunden
auch tatsächlich interessant sind. So wird das Hauptgeschäf bei Amazon oder iTunes
Store nicht mehr mit den Verkaufsschlagern gemacht, sondern mit Nischenprodukten.
Diese gilt es aber zu fnden, daher sind Empfehlungssysteme unabdingbar (vgl. Klahold,
2009).
Strategische Ziele, die damit verfolgt werden können sind zum Beispiel: die Nutzer an
den eigenen Service zu binden, sie zu aktvieren und/oder ein Alleinstellungsmerkmal im
Vergleich mit den Mitbewerbern zu erlangen.
Gleichzeitg, wenn beispielsweise mit der Einführung von Empfehlungssystemen auch
Bewertungssysteme eingeführt werden können, ermöglichen Empfehlungssysteme auch
leichteres Monitoring und Auswertung der Nutzer und ihrer Interessen. Auch können
Betreiber, beispielsweise in Handelsplatormen Auswirkungen der Empfehlungen von
Produkten oder personalisierter Werbung analysieren und dadurch auch Wissen über
gute Produktplatzierung und Werbung gewinnen.
13
14. 2.2 Quellen für Empfehlungssysteme
Als Quellen für Empfehlungssysteme stehen eine ganze Reihe von (Meta-) Informato-
nen über Nutzer sowie den Empfehlungselementen zur Verfügung. Beispielsweise sind
dies (s. Schafert u.a. 2009, 10):
| das Nutzerverhalten, beispielsweise das Such- und Browsingverhalten,
| die Kommunikatons- und Netzwerkstruktur als Möglichkeit die sozialen Gegebenhei-
ten zu erfassen und zu nutzen,
| Bewertungen, die dazu genutzt werden, um Produkte, Personen, Objekte oder Web-
seiten zu evaluieren und zu beurteilen,
| Social Tagging als eine innovatve und populäre Variante von gemeinschaflicher Ver-
schlagwortung von Dokumenten,
| Texte, da aus dieser Datenquelle eine Reihe von (auch überraschenden) Metainfor-
matonen analysiert und abgeleitet werden können,
| Metadatenformate als klassische Form von Metainformatonen sowie schließlich
| verknüpfe Daten und Schemata (z. B. Thesauri, Ontologien, Linked Data).
Bei Empfehlungssystemen wird darüberhinaus auch damit experimentert, beispielswei-
se Persönlichkeitsmerkmale abzufragen und auszuwerten, um Empfehlungen zu verbes-
sern (Nunes & Blanc, 2008).
Die unterschiedlichen Quellen werden in explizite Empfehlungen, d.h. Empfehlungen
durch Bewertungen von Nutzern, sowie verhaltensbasierte Empfehlungen durch sonst-
ge Aktvitäten der Nutzer unterschieden. Nach Neumann (2009) sind mit der Nutzung
dieser unterschiedlichen Quellen auch unterschiedliche Herausforderungen verbunden.
Nutzer Designprobleme der Mechanismen
Nutzertyp Verhalten Explizite Empfehlungen Verhaltensbasierte
Empfehlungen
unvoreingenommen passiv passiver Konsum Free-Rider-Efekt, –
Netzwerkefekte
unvoreingenommen aktv wahrheitsgemäßer Beitrag Privatsphäre (Privatsphäre)
voreingenommen, aktv voreingenommener Beitrag Voreingenommenheit, (Voreingenommenheit)
Feedback-Efekte
Glaubwürdigkeit
Tabelle 1: Nutzertypen und Designprobleme von Empfehlungssystemen
mit expliziten vs. verhaltensbasierten Empfehlungen
Quelle: Neumann, 2009, Tabelle 3.1, 28
Prinzipiell sind bei beiden Verfahren v.a. Voreingenommenheit und Parteilichkeit bei
Nutzern eine Herausforderung, insbesondere wenn bewusst und intensiv zugunsten
oder gegen Produkte bewertet wird. Parteiische Nutzer können auch Feedback-Efekte
hervorrufen, d.h. dass ein frühzeitges positves Feedback zu größeren Marktchancen
von Produkten führt, ein frühes negatves Feedback jedoch die Chancen für spätere Ver-
besserungen der Bewertungen und Absatzchancen stark einschränkt.
Empfehlungen sind auch gewissermaßen ein öfentliches Gut, von dem jeder profteren
kann. Dies gilt im besonderen Maße für Nutzer, die nur von den Bewertungen anderer
14
15. profteren, aber nicht selbst daran mitwirken („Free-Rider-Efekt“). Wünschenswert ist
allerdings, dass alle Nutzer mitwirken und Netzwerkefekte entstehen können.
2.3 Personalisierte und allgemeine Empfehlungen
Als erstes Unterscheidungsmerkmal der unterschiedlichen Verfahren wird häufg ausge-
wählt, ob das System personalisierte, d.h. auf einen Nutzer zugeschnite, Empfehlungen
gibt. Insbesondere Bewertungsplatormen wie die Nachrichtensammlung Digg1 geben
auf der Startseite keine personalisierten Empfehlungen ab, sondern aggregieren aus den
Bewertungen der Digg-Nutzer Empfehlungen von Nachrichten, die für alle Besucher der
Seite gelten. Registrierte Nutzer bekommen jedoch auch ihr Profl zugeschnitene Emp-
fehlungen (s. Abbildung 1).
Ebenso keine personalisierten Empfehlungen in diesem Sinne geben beispielsweise Sys-
teme, die zu einzelnen Produkten oder Webseiten weiterführende oder ähnliche Pro-
dukte und Webseiten anbieten, wenn diese Empfehlungen nicht aufgrund des Nutzer-
profls gegeben werden, sondern bei jedem Nutzer gleichermaßen angezeigt werden.
Abbildung 1: Allgemeine Nachrichtenempfehlungen und
die personalisierte Empfehlungsmaschine bei Digg
Quelle: htp://digg.com (02/2010)
Als registrierter Nutzer erhält man bei Digg jedoch personalisierte Empfehlungen für Ar-
tkel: Vorgeschlagen werden Beiträge, die Nutzer mit einem ähnlichen Profl gut fnden.
Personalisierte Empfehlungssysteme können auch die Nutzer-History berücksichtgen
und (auch ohne Berücksichtgung anderer Nutzerprofle) Empfehlungen geben (Tanaka,
Hori & Yamamoto 2008).
Im Folgenden stellen wir die zwei grundsätzlich unterschiedliche Verfahren vor, die bei
Empfehlungssystemen eingesetzt werden: das inhaltsbasierte sowie das kollaboratve
Filtern.
2.4 Inhaltsbasiertes Filtern
Das inhaltsbasierte Filtern hängt stark von den Objekten ab, die empfohlen werden sol-
len: Bücher, Videos, Fotos, Musikdateien und andere Produkte sind dabei unterschied-
lich beschrieben und nutzen auch unterschiedliche Metadatenformate. Die Eigenschaf-
ten der Objekte sind die Basis für die Empfehlungen. Was andere Nutzer machen, spielt
also keine Rolle. Folgende Abbildung gibt einen Überblick über die Prozesse beim in-
haltsbasierten Filtern, die wir im Folgenden genauer vorstellen.
1
htp://digg.com, Stand 02/2010
15
16. Abbildung 2: Überblick über das Vorgehen bei inhaltsbasierten Empfehlungen
Quelle: Nutzung von Abbildungen von Artkeln der folgenden Zeitschrifen:
Oberbadisches Volksblat, Ahlener Zeitung, Rheinische Zeitung, Kleine Zeitung
Eigenschafsanalyse
Die Datenbasis des Systems kann beim inhaltsbasierten Filtern grundsätzlich unter-
schiedlich erlangt werden:
| Die Elemente können mit Hilfe von Experten beschrieben werden. Insbesondere Ler-
nempfehlungen in Lernumgebungen werden aufgrund von Angaben von Experten,
i.d.R. der Lehrenden gegeben. Dazu werden beispielsweise im Lernmanagementsys-
tem Angaben zum Aufau der Lerneinheiten gemacht, welches Modul beispielsweise
welchem Modul folgt bzw. folgen sollte. Eine Reihe von weiteren Empfehlungssyste-
men verwenden Metadaten von Objekten, ohne dass spezifsche weitere Auswertun-
gen vorgenommen werden: So können Bücher von gleichen Autoren empfohlen wer-
den oder Bücher, die in der gleichen Rubrik veröfentlicht wurden.
| Davon unterscheiden sich Empfehlungssysteme, die zu empfehlende Objekte bzw.
deren Nutzer erst weiteren Auswertungen und Analysen unterziehen, um entspre-
chende Daten zu erhalten. Viele Empfehlungssysteme greifen nicht auf explizite Ele-
mentbeschreibungen wie z. B. Metadaten zurück.
Of sind Eigenschafen der Empfehlungselemente eben noch nicht bekannt oder be-
schrieben, sondern müssen erst analysiert werden (in der Abbildung 2 mit „a“ gekenn-
zeichnet).
16
17. Auch für andere Formate wie Videos, Audios und Bilder gibt es Verfahren der automat-
schen Analyse. Erprobter und sehr häufg im Einsatz sind bei Empfehlungssystemen je-
doch vor allem Eigenschafsanalysen von Texten. Auf diesen Bereich gehen wir daher im
Folgenden besonders ein.
Eigenschafsanalyse am Beispiel von Texten
Besonders bei Texten müssen deren Besonderheiten erst vom Empfehlungssystem fest-
gestellt werden. Die Verfahren zur Analyse von Eigenschafen von Texten heißt „Feature
Selecton“ bzw. eben Eigenschafsanalyse (vgl. Klahold, 2009, 42). Dazu gibt es eine Rei-
he von Verfahren, die diese Analyse ermöglichen. Bei Texten ist es wichtg, die Schlüssel-
worte (bzw. Stchworte) zu erhalten, die zentrale Bedeutung für den Text haben (siehe
Klahold, 2009, 42f). Dabei kommen Verfahren der Informaton Extracton (auf Deutsch
„Informatonsgewinnung“), zum Einsatz, also semantsche wie statstsche Verfahren (s.
Knoth, Schmidt & Smrž, 2008). Nicht zuletzt durch Empfehlungssysteme ist die Nachfra-
ge und Zitatonshäufgkeit von einschlägigen Werken wie „Informaton to modern infor-
maton retrieval“ von Salton und McGill (1986) oder „Informaton Retrieval von van Rijs-
bergen (1979) immer noch hoch (s. Heymann, 2004).
Im Folgenden zeigen wir ein typisches Verfahren am Beispiel von vier Ausschniten aus
Liedtexten. Hier werden zunächst Wörter, die in der deutschen Sprache sehr häufg sind
und keinen Mehrwert für die Diferenzierung von Texten haben, gestrichen und nicht
weiter ausgewertet. In solchen „Stopplisten“ stehen typischerweise Worte wie „auch“,
„als“, „an“, „keine“, „kann“, „sind“, „oder“ sowie „und“. In der folgenden Tabelle wird ge-
zeigt, welche Wortlisten sich aus drei Beispielsätzen ergeben, wenn Stopplistenwörter
gestrichen werden, Wiederholungen gelöscht sowie Wörter auf ihre Grundformen zu-
rückgeführt werden.
Originalsatz (Liedtexte) Nach Streichung der Stoppwörter
Text A „Wir tanzen Tango und möglichst lang. Es spielt sich eng wir, tanzen, Tango, möglichst, lange, spielt, eng, Gedräng
bei dem Gedräng.“
Text B „Eins, zwei, drei, vier, Brüderchen, komm tanz mit mir. eins, zwei, drei, vier, Brüderchen, komm, tanz, mir, eins, zwei,
Eins, zwei, drei, vier, beide Hände reich ich dir.“ drei, vier, beide, Hände, reich, ich, dir
Text C „Oh, Donna Clara, ich hab dich tanzen gesehn, und deine oh, Donna, Clara, ich, tanzen, gesehn, deine, Schönheit,
Schönheit hat mich toll gemacht.“ mich, toll, gemacht
Text D „Komm, tanz den Tango mit mir! Und folge mir im Tango- komm, tanz, Tango, mir, folge, mir, Tangoschrit, hier, ich,
schrit hier! Ich tanz den Tanz ganz lange mit dir.“ tanz, Tanz, ganz, lange, dir
Tabelle 2: Charakteristk der Empfehlungssysteme in ausgewählten Einsatzgebieten.
Quelle: Textauszüge von Nina Hagen, Volksgut, Comedian Harmonists und Bodo Wartke
Folgende Verfahren zur Textanalyse werden in der Praxis häufg eingesetzt:
| Das Verfahren „Term Frequency – Inverse Document Frequency“ (kurz TF/IDF) ist ein
statstsches Verfahren: Es zählt alle Wörter im Text. Wörter, die dabei in allen Texten
(im gesamten Korpus) vorkommen, erhalten ein geringes Gewicht. Wörter, die nur in
wenigen Texten vorkommen, erhalten ein größeres Gewicht und werden zur Be-
schreibung eines Textes bedeutsamer eingeschätzt. Dabei werden in aller Regel auch
Stemming- bzw. Lemmatsierungs-Verfahren eingesetzt, d.h. Worte werden auf ihre
Stammformen gebracht, um beispielsweise unterschiedliche Beugungsformen kor-
rekt zu zählen.
17
18. | Der Ansatz der „Mutual Informaton“ berechnet die Wahrscheinlichkeit, dass zwei
Worte gemeinsam in einem Text vorkommen. Durch den Vergleich der Wahrschein-
lichkeit des gemeinsamen Aufretens mit der des unabhängigen Aufretens der Wort-
paare wird ein Ähnlichkeitsmaß von Texten berechenbar.
Diese Ansätze wurden vielfältg präzisiert und weiterentwickelt, beispielsweise sind das
„Okapi Weightng Scheme“ und das Okapi-BM2-Verfahren Weiterentwicklungen des
TF/IDF-Verfahrens (s. Cummins & O’Riordan, 2006). Ein weiteres patentertes Verfahren
ist das Latent Semantc Indexing. Marco Kalz beschreibt es im Expertengespräch (s.
S. 65).
Bei solchen statstschen Verfahren werden v.a. Wörter gezählt und seltener semant-
sche Bezüge ausgewertet. Verwandte Wörter bzw. die Wortbedeutungen zu berücksich-
tgen wird v.a. durch Einbezug von Thesauri, Synonym-Lexika und Wörterbüchern mög-
lich. Bei mehrdeutgen Wörtern wie „Bank“ können beispielsweise über die assoziierten
Wörter weitere Zuordnungen vorgenommen werden. Trit das Wort „Bank“ beispiels-
weise im Zusammenhang mit „Kredit“, „Überweisung“ auf, passt dieser Beitrag wohl
eher zu einem Artkel mit Beiträgen zu Geldinsttuten als zu anderen Beiträgen zur Sitz-
gelegenheit „Bank“ (siehe ausführlich bei Klahold, 2009, 48). Ein Verfahren, das ebenso
Wortbedeutungen auswertet ist der Ansatz der „Named Entty Recogniton“: Hier wer-
den sogenannte „Enttätstypen“ durch die Stellung im Satz identfziert. Beispielsweise
können das Personen, Firmen oder Orte sein, die aufgrund der Stellung im Satz, der
Häufgkeit oder auch durch Abgleich mit Listen als Personennamen, Firmennamen oder
Ortsnamen identfziert werden.
Für Empfehlungssysteme wurden eigene Heuristken dafür entwickelt, welche Wörter
wichtg sind bzw. den Inhalt des analysierten Textes widerspiegeln. Für ein Empfehlungs-
system von Webseiten, dem InfoFinder, wurde beispielsweise folgende Heuristk einge-
setzt (Krulwosh & Burkey, 1997; Übersetzung in Klahold, 2009, 112):
| Worte, die in einer Stoppwortliste, stehen sind grundsätzlich unwichtg,
| komplet groß geschriebene Worte sind wichtg (Vermutung, es handelt sich um ein
Akronym),
| in Klammern oder Anführungszeichen stehende Worte nach einem komplet groß ge-
schriebenen Wort sind wichtg (Vermutung, es handelt sich dabei um eine Defniton
eines Akronyms),
| anders formaterte Wortolgen von zwei bis drei Worten, die kein eigenständiger Satz
sind, sind wichtg (Vermutung, es handelt sich um die erstmalige Verwendung eines
wichtgen Wortes),
| Worte in Aufzählungen, Überschrifen, Bildunterschrifen, Tabellenspalten und -zei-
len sind wichtg,
| ofmals wiederholte Wortolgen sind wichtg,
| Substantve in direkter Folge sind wichtg (Vermutung, es handelt sich um einen
Fachbegrif),
| Worte, die Sonderzeichen (beispielsweise einen Bindestrich), Zifern oder Großbuch-
staben enthalten, sind wichtg.
18
19. Darstellung und Speicherung der Eigenschafen
Eine einfache Darstellung von Eigenschafen eines Textes ist die einfache unstrukturierte
Sammlung der Schlüsselworte („Bag of Words“, Klahold, 2009, 58). In der Regel werden
die Eigenschafen in Form von Vektoren dargestellt (s. Klahold, 2009, 56f; Abbildung 2
mit „b“ gekennzeichnet). Texte werden dabei i.d.R. mit Vektoren repräsentert, die so
viele Komponenten haben, wie der Korpus Worte besitzt. Anhand der Ähnlichkeit von
Vektoren wird auf die Ähnlichkeit der analysierten Texte geschlossen (s. Abschnit 2.6,
S. 25)
Am obigen Beispiel der Liedtexte dargestellt (s. Tabelle 2, S. 17), können Vektoren bei-
spielsweise folgendermaßen aussehen:
Schlüsselworte Vektoraufau: wir, tanzen, Tango, möglichst, lange, spielt, eng, Gedräng, Zahl der
eins, zwei, drei, vier, Brüderchen, komm, tanz, mir, beide, Hände, reich, ich, Schlüssel-
dir, oh, Donna, Clara, gesehn, deine, Schönheit, mich, toll, gemacht, folge, worte ohne
Tangoschrit, hier, Tanz, ganz Wiederho-
lungen
Text A wir, tanzen, Tango, mög- VRA=(1,1,1,1,1,1,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0) 8
lichst, lange, spielt, eng, VBA=(1,1,1,1,1,1,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0)
Gedräng
Text B eins, zwei, drei, vier, Brü- VRB=(0,0,0,0,0,0,0,0,2,2,2,2,1,1,1,1,1,1,1,1,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0) 14
derchen, komm, tanz, mir, VBB=(0,0,0,0,0,0,0,0,1,1,1,1,1,1,1,1,1,1,1,1,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0)
eins, zwei, drei, vier, beide,
Hände, reich, ich, dir
Text C oh, Donna, Clara, ich, tan- VRC=(0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,1,1,1,1,1,1,1,1,1,0,0,0,0,0) 11
zen, gesehn, deine, Schön- VBC=(0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,1,1,1,1,1,1,1,1,1,0,0,0,0,0)
heit, mich, toll, gemacht
Text D komm, tanz, Tango, mir, VRD=(0,0,1,0,1,0,0,0,0,0,0,0,0,1,2,2,0,0,0,0,1,1,0,0,0,0,0,0,0,0,0,1,1,1,1,1) 12
folge, mir, Tangoschrit, VRD=(0,0,1,0,1,0,0,0,0,0,0,0,0,1,1,1,0,0,0,0,1,1,0,0,0,0,0,0,0,0,0,1,1,1,1,1)
hier, ich, tanz, Tanz, ganz,
lange, dir
Tabelle 3: Darstellung der Schlüsselworte in Vektoren mit reellen und binären Komponenten
In der Darstellung wird die Zahl der entsprechenden Worte im Vektor dargestellt. Mög-
lich ist auch eine binäre Darstellung, bei der „1“ für „vorhanden“ und „0“ für „nicht vor-
handen“ steht. Vektoren mit mehr als drei Dimensionen lassen sich dabei kaum bildlich
vorstellen. In der Darstellung wird die Zahl der entsprechenden Worte im Vektor darge-
stellt. Schon beim Betrachten der Vektoren kann man sich vorstellen, welche Vektoren
ähnlich sind.
Vergleich der Empfehlungselemente
Sind die Eigenschafen von Empfehlungselementen analysiert bzw. bekannt, wird beim
inhaltsbasierten Filtern ein Vergleich zwischen den Empfehlungselementen vorgenom-
men. Dazu stehen wiederum unterschiedliche Verfahren bzw. Algorithmen zur Verfü-
gung (in der Abbildung c). Typischerweise wird die Ähnlichkeit von Elementen als nütz-
lich empfunden, um darauf aufauend Empfehlungen auszusprechen. Wir stellen ausge-
wählte Verfahren in Abschnit 2.6 vor (s. S. 25).
19
20. Bei der Entscheidung für ein oder mehrere Verfahren bzw. einen Algorithmus ist es
wichtg, dass die Ergebnisse in einer angemessenen Zeit zur Verfügung stehen: „Um die
Laufzeitkomplexität zu reduzieren muss die Eigenschafsanalyse ein möglichst gutes Ver-
hältnis zwischen der Menge der Eigenschafen und der dadurch gegebenen diskriminie-
renden Wirkung bezüglich der Empfehlungselemente erzielen“ (Klahold, 2009, 42).
Fallbezogenes und eigenschafsbezogenes Filtern
Es können zwei Arten des inhaltsbasierten Filterns unterschieden werden.
Zum einen werden beim eigenschafsbezogenen Filtern (Engl. „atributon based“) Emp-
fehlungen aufgrund der Übereinstmmungen des Profls der Nutzer (z. B. seinen Qualif-
katonen) mit den Elementen (z. B. Stellenanzeigen) gegeben (siehe Abbildung 3,
rechts).
Zum anderen werden beim fallbezogenen Verfahren (Engl. „case based“) personalisierte
Empfehlungen auf Basis der Ähnlichkeiten von Elementen gegeben (siehe Abbildung 3,
links): Hat jemand z. B. einen Text zu Delphinen hoch bewertet, so wird er weitere Texte
zu diesem Thema vorgeschlagen bekommen.
Abbildung 3: Inhaltsbasiertes Filtern: eigenschafsbezogenes (links)
und fallbezogenes Filtern (rechts)
Quelle: Darstellung in Anlehnung an Kim, 2006, abgebildet in Drachsler, 2009
20
21. Beispiele für Empfehlungssysteme mit inhaltsbasiertem Filtern
Ausgewählte Beispiele für Empfehlungssysteme, die auf inhaltsbasiertem Filtern beru-
hen, werden in Klahold (2009, 102f) vorgestellt und hier zusammengefasst.
Name Empfeh- Kurzbeschreibung Eigenschafsanalyse Proflbildung Distanzmaß Literatur
lungsele-
ment
Informaton E-Mail E-Mails erhalten Manuelle Ergänzung Manuelle Erstel- Regelbasiert Malone, Grant,
Lense Metadaten (Ort, der Metadaten lung des Interes- (einfache Über- Turbak (1986)
Produkt etc.) sensprofls durch einstmmung)
Nutzer
Infoscope Usenet- Vorhandene Filterre- Heuristk, manuelle Manuelle Pfege regelbasiert Fischer & Ste-
Nachrichten geln für eine „virtu- Metadaten, Text- vens (1991)
elle“ Newsgroup struktur, NLP, Basis-
werden bewertet korpus-Statstk, TF-
IDF-Derivat
Letzia Webseiten Webseiten (Subsei- TF-IDF-Derivat Manuelle Pfege Cosinus-Ähn- Liebermann
ten oder Links) wer- (Schlüsselworte) lichkeitsmaß (1995)
den empfohlen
WebWatcher Webseiten Hyperlinks auf Web- TF-IDF-Derivat Manuelle Pfege Mutual Infor- Armstrong, Frei-
seiten und neue (Interessensspezif- maton tag, Joachims &
Webseiten werden katon) Mitchell (1995)
empfohlen u.a.
Syskill & We- Webseiten Webseiten werden TF-IDF-Derivat Auf Basis von Be- Naiver-Bayes- Pazanni, mUra-
bert empfohlen wertungen des Klassifkator matsu & Billsus
Nutzers von Web- (1996)
seiten (Schlüssel-
worte)
InfoFinder Webseiten Webseiten werden Heuristk Auf Basis von Be- ID3-Algorithmus Krulwosh & Bur-
empfohlen wertungen des key (1997)
Nutzers (Smiley
anklicken)
LIBRA Bücher Bücherempfehlun- Manuelle Metada- Auf Basis von Naiver-Bayes- Mooney & Roy
gen ten Buchbewertungen Klassifkator (2000)
des Nutzers
Tabelle 4: Übersicht über ausgewählte Empfehlungssysteme, die inhaltsbasiertes Filtern verwenden.
Quelle: Klahold, 2009, 102f
Die hier genannten Verfahren zur Distanzermitlung werden in Abschnit 2.6 (S.25) be-
schrieben.
21
22. 2.5 Kollaboratves Filtern
Beim kollaboratven Filtern werden Empfehlungen aufgrund anderer ähnlicher Benutzer-
profle gegeben (Klahold, 2009, 62f). Folgende Abbildung gibt einen Überblick über das
Verfahren, dass wir im Folgenden detaillierter beschreiben.
Abbildung 4: Überblick des Vorgehens beim kollaboratven Filtern
Implizite und explizite Bewertungen
Grundlage für das kollaboratve Filtern sind die Bewertungen von Nutzern (siehe Abbil-
dung 4 mit „a“ gekennzeichnet). Diese können implizit durch Auswertung des Nutzerver-
haltens generiert werden, zum Beispiel kann vermerkt werden, welche Elemente an-
geklickt und/oder länger betrachtet wurden oder was gekauf wurde. So wird bei WAIR,
einem Empfehlungssystem für Webseiten, die Bewertung einer Webseiten nicht explizit
durch den Nutzer erbeten: Bewertungen von Webseiten werden hier aus dem Nutzer-
verhalten abgeleitet beispielsweise der Lesedauer, Setzen von Lesezeichen, Scrollen, Be-
nutzen von Hyperlinks (in der Webseite; s. Seo & Zang, 2000; Klahold, 2009, 133f). Häu-
fg werden jedoch auch explizite Bewertungen der Nutzer erbeten, beispielsweise auf ei-
ner Skala mit fünf Sternen.
Unterschiedliche Verfahren kollaboratven Filterns
Mit Hilfe dieser Daten wird nun berechnet, wie relevant ein Empfehlungselement für
einen Nutzer ist. Dazu gibt es beim kollaboratven Filtern wiederum mindestens vier An-
sätze zu unterscheiden (in der Abbildung 4 mit „b“ gekennzeichnet, Klahold, 2009, 62f;
Kim, 2006; Drachsler, 2009 u.a.).
22
23. Abbildung 5: Nutzer- und elementbasiertes kollaboratves Filtern
Quelle: Darstellung in Anlehnung an Kim, 2006; abgebildet in Drachsler, 2009
(i) Beim nutzerbezogenen Algorithmus wird festgestellt, welche Nutzer besonders ähn-
lich sind und deren Bewertungen eines Empfehlungselement als Relevanzmaß festge-
legt: Was ähnliche Nutzer als gut befnden, erhält eine hohe Relevanz und wird dem
Nutzer empfohlen (in der Abbildung 5 links).
(ii) Beim elementbezogenen Algorithmus werden eigene, als gut bewertete Elemente ge-
nommen und dann wird paarweise nach Elementen gesucht, die ebenso gut bewertet
werden. Die Relevanz berechnet sich beispielsweise in Form eines „gewichteten Durch-
schnits der Bewertungen des Benutzers für die (..) ähnlichsten Empfehlungselemente“
(Klahold, 2009, 65, in der Abbildung 5 rechts).
Abbildung 6: Modell- bzw. speicherbasiertes Verfahren beim kollaboratven Filtern
(iii) Beim modell- bzw. speicherbasierten Verfahren werden alle Benutzerdaten und das
Benutzerverhalten in den Filterprozess eingebunden. Dabei kommen multvariate Ver-
fahren zum Einsatz, die am Ende von Abschnit 2.6 (S. 25) beschrieben werden, bei-
spielsweise K-Means-Clustering.
(iv) Wenn die Zuordnung nicht aufgrund solcher Verfahren, sondern auf Basis einfacher
Angaben wie beispielsweise Alter und Geschlecht erfolgt, werden darauf beruhende
Empfehlungen für Elemente, die Gleichaltrige und Gleichgeschlechtliche als stereotypes
bzw. demographisches kollaboratves Filtern bezeichnet (siehe z. B. Drachsler, 2009, 57).
23
24. Beispiele von Empfehlungssystemen für kollaboratves Filtern
Ausgewählte Beispiele für Empfehlungssysteme, die auf kollaboratven Filtern beruhen,
werden in Klahold (2009) vorgestellt und hier zusammengefasst.
Name Empfeh- Kurzbeschreibung Eigenschafsanalyse Proflbildung Distanzmaß Literatur
lungsele-
ment
Tapestry E-Mails Anzeige von E-Mails, Relevanzbewertung Manuelle Pfege regelbasiert Goldberg u.a.
die von anderen durch Nutzer (muss Nutzer aus- (1992)
Nutzern als relevant wählen, dessen
eingestuf werden Einschätzungen
man nutzen will)
Ringo Musik Vorschläge für Inter- Bewertungen durch Bewertung von Regelbasiert Shardanand &
preten und Alben Nutzer Musikstücken (benutzerbezo- Maes (1995)
gener Korrelat-
onskoefzient)
Group Lense Usenet- In Newsgroup-Rea- Bewertungen auf ei- Bewertung von Pearson Korre- Resnick u.a.
Nachrichten dern werden Nach- ner Skala von 1-5 Usenet-Nachrich- latonskoefzi- (1994)
richten gekennzeich- ten ent
net
Siteseer Bookmark- Browser-Bookmark- Manuelle Metada- Bookmarks und Nearest-Neig- Rucker & Polanco
Empfehlun- vergleich ten und Bookmarks ihre Gruppierun- bours-Verfahren (1997)
gen gen
Jester (Eigen- Witze Witzempfehlungen Bewertung auf Initale Bewertung Nearest-Neig- Goldberg u.a.
taste) 200er-Skala ausgewählter Wit- bours-Verfahren (2000)
ze auf 200er-Skala,
Zuordnung in Be-
nutzergruppen
(Clusteranalyse, 40
Gruppen)
Amazon Bücher Bücherempfehlun- Kaufverhalten (ele- Weitere Empfeh- Kosinus-Ähn- Linden, Smith &
gen „Käufer dieses mentbasiertes kolla- lungen zu aktuell lichkeitsmaß York (2003)
Buches kaufen boratves Filtern) aufgerufenen Bü- zwischen Buch-
auch...“ chern vektoren
SurfLen Webseiten Empfehlungen im Webseitenaufrufe Weitere Empfeh- Heuristk Fu, Budzik &
Browser-Plugin (elementbasiertes lungen zu aktuell Hammond (2000)
kollaboratves Fil- aufgerufenen Web-
tern) seiten
Tabelle 5: Übersicht über ausgewählte Empfehlungssysteme die kollaboratves Filtern verwenden.
Quelle: Klahold, 2009, 87f
In dieser Übersicht werden, wie auch schon beim inhaltsbasierten Filtern, Verfahren der
Ähnlichkeitsfeststellung genannt, auf die wir im Folgenden eingehen werden.
24
25. 2.6 Verfahren der Ähnlichkeitsfeststellung von Nutzern bzw. Elementen
Beim inhaltsbasierten wie beim kollaboratven Filtern wird in aller Regel versucht, ähnli-
che Nutzer bzw. ähnliche Elemente zu identfzieren: Es werden entweder ähnliche Nut-
zerprofle oder auch ähnliche Elemente gesucht, um daraus Empfehlungen abzuleiten.
Dazu kommen beim inhaltsbasierten und kollaboratven Filtern die gleichen Methoden
zum Einsatz. Einige davon beschreiben wir im Folgenden kurz: Zum einen kommen dabei
Verfahren, die Distanzen zwischen bzw. Ähnlichkeiten von Vektoren berechnen zum Ein-
satz, denn wie oben dargestellt sind Vektoren die übliche Darstellung von Eigen-
schafsproflen. Zum anderen werden Verfahren eingesetzt, die versuchen, Empfeh-
lungselemente oder auch Nutzergruppen zuzuordnen.
Distanzen und Ähnlichkeitsmaße von Vektoren
Wenn es darum geht, „ähnliche“ Elemente zu empfehlen, müssen Aussagen über die
Ähnlichkeiten von (allen) Elementen eines Korpus von möglichen Empfehlungselemen-
ten vorliegen. Es gibt eine Vielzahl von Möglichkeiten, Aussagen über Ähnlichkeiten von
Vektoren zu generieren.
Bei den Verfahren werden in aller Regel zwei Vektoren miteinander verglichen.
| Ein einfaches Verfahren beruht darauf zu zählen, wie of an der gleichen Stelle eines
Vektors eine „1“ vorkommt, d.h. in unserem Beispiel, zu zählen, wieviele gemeinsa-
me Worte zwei Texte aufweisen. Schnell wird allerdings klar, dass so längere Texte
mit diesem Verfahren deutlich häufger „Ähnlichkeiten“ aufweisen als kürzere. Hier
sind Korrekturen vorzunehmen. Folgende beiden Koefzienten wurden daher u.a.
entwickelt.
| Der Overlap-Koefzient berechnet sich aus dem Quotenten der gemeinsamen Wort-
menge und der kleineren der beiden Wortmengen und kann als „Maß für die wech-
selseitge Inklusion“ interpretert werden (Klahold, 2009, 73). Für den Vergleich von
Vektor B und Vektor D des Beispiels berechnet er sich folgendermaßen: 5/12=0,42; 5
ist dabei die Zahl der gemeinsamen Worte, 12 die kleinere Wortmenge beider Vekto-
ren.
| Der Dice-Koefzient berechnet sich dem Quotenten der doppelten Anzahl der ge-
meinsamen Worte und der Summe der Worte beider Wortmengen. Die Beziehung
wird auch hier aus dem Grad des gemeinsamen Vorkommens von Worten abgeleitet.
Im Beispiel berechnet sich der Koefzient für die Vektoren B und D folgendermaßen:
2*5/(14+12)=0,38; 5 ist dabei die Zahl der gemeinsamen Worte, 14 die Zahl der Wor-
te von Vektor B, 12 die Zahl der Worte von Vektor D.
Bei beiden Koefzienten kennzeichnen also höhere Werte eine größere Ähnlichkeit der
Vektoren. Exemplarisch zeigen wir die Ergebnisse dieser Berechnungen an unserem Bei-
spiel des Vergleichs von Liedertexten (s. Tabelle 2, S. 17 Und Tabelle 3, S. 19).
25
26. Ver- Vektoren gemein- Overlap- Dice-Koef- Pearson Kor-
gleich same Koefzient zient relatonsko-
Wort- efzient
menge
A,B VA=(1,1,1,1,1,1,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0) 0 0,00 0,00 -0,43
VB=(0,0,0,0,0,0,0,0,1,1,1,1,1,1,1,1,1,1,1,1,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0)
B,C VB=(0,0,0,0,0,0,0,0,1,1,1,1,1,1,1,1,1,1,1,1,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0) 1 0,09 0,08 -0,41
VC=(0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,1,1,1,1,1,1,1,1,1,0,0,0,0,0)
C,D VC=(0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,1,1,1,1,1,1,1,1,1,0,0,0,0,0) 1 0,09 0,09 -0,34
VD=(0,0,1,0,1,0,0,0,0,0,0,0,0,1,1,1,0,0,0,0,1,1,0,0,0,0,0,0,0,0,0,1,1,1,1,1)
A,C VA=(1,1,1,1,1,1,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0) 0 0,00 0,00 -0,21
VC=(0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,1,1,1,1,1,1,1,1,1,0,0,0,0,0)
B,D VB=(0,0,0,0,0,0,0,0,1,1,1,1,1,1,1,1,1,1,1,1,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0) 5 0,42 0,38 0,04
VD=(0,0,1,0,1,0,0,0,0,0,0,0,0,1,1,1,0,0,0,0,1,1,0,0,0,0,0,0,0,0,0,1,1,1,1,1)
Tabelle 6: Ausgewählte Koefzienten zum Vergleich von Vektoren
In unserem Beispiel zeigt sich durch die Berechnung dieser Koefzienten (s. Tabelle 6),
dass die Zeilen „Eins, zwei, drei, vier, Brüderchen, komm tanz mit mir. Eins, zwei, drei,
vier, beide Hände reich ich dir“ sowie „Komm, tanz den Tango mit mir! Und folge mir im
Tangoschrit hier! Ich tanz den Tanz ganz lange mit dir“ die größte Ähnlichkeit im Bezug
auf die ihre (auf simple Weise extrahierten) Schlüsselwörter haben. Das Beispiel macht
also auch deutlich, dass das Verfahren der Text-Extrahierung nicht immer brauchbare Er-
gebnisse für nützliche Empfehlungen ergeben. Es erscheint wenig wahrscheinlich, dass
jemand der ein Kinderlied mag, die Empfehlung eines Schlagers als sehr nützlich ein-
schätzt.
Schließlich gibt es weitere Verfahren der Ähnlichkeitsberechnungen, die das Streuungs-
verhalten der Vektoren vergleichen (Klahold, 2009, 71): Der Pearson-Korrelatonskoef-
zient vergleicht so die jeweiligen Abweichungen von den mitleren Werten für jede Ei-
genschaf und kann Werte von -1 bis +1 ergeben. Eine negatve Korrelaton (-1) würde in
unserem Beispiel bedeuten, dass die beiden zu vergleichenden Vektoren quasi spiegel-
bildlich aufgebaut sind, z. B. V1=(0,0,1,1) und V2=(1,1,0,0). Gleiche bzw. ähnliche Vekto-
ren würden hoch korrelieren (bis max. +1).
Distanzen sind „der klassische Weg, die Dimension der 'Ähnlichkeit' mathematsch bere-
chenbar zu machen“ (Klahold, 2009, 68). Im Folgenden werden zwei Beispiele für Di-
stanzberechnungen vorgestellt:
| Der Euklidische Abstand ist „die Wurzel der Summe der quadrierten Diferenzen über
alle Koordinaten“ (Rahnenführer, 2009, 8). Im zwei- bzw. dreidimensionalen Raum ist
der Euklidische Abstand der Abstand zwischen zwei Punkten im Koordinatensystem.
| Der „Manhatan Abstand“ oder auch „City-Block-Abstand“ ist die „Summe der abso-
luten (unquadrierten) Diferenzen über alle Koordinaten“ (Rahnenführer, 2008, 9). Im
zweidimensionalen Raum ist der Manhaten-Abstand der Weg, den man gehen muss,
wenn man nicht zu einem anderen Punkt geht, sondern sich nur in Richtung der Di-
mensionen bewegen kann. In der Darstellung erinnern diese Abstände an die recht-
winkligen Straßenpläne des Zentrums von New York.
Ein weiteres Maß, das häufg eingesetzt wird, ist das Cosinus-Ähnlichkeitsmaß. Es be-
rechnet den Unterschied zwischen den Winkeln der Vektoren durch deren Cosinus. Zwar
26
27. lässt sich dieses Vorgehen insbesondere bei den vieldimensionalen Vektoren unserer
Beispiele bildlich kaum vorstellen, es handelt sich dabei allerdings um ein Standardver-
fahren des Vektorenvergleichs. Je ähnlicher sich Vektoren sind, desto kleiner ist der Win-
kel zwischen ihnen (s. Klahold, 2009, 72).
Bei der Wahl eines Verfahrens sind neben der Laufzeitkomplexität auch weitere grund-
sätzliche Überlegungen wichtg. Beispielsweise ist zu überlegen, ob grobe Unterschiede
bei den Abweichungswerten (Streuungsmaß) der einzelnen Eigenschafen durch eine
Normalisierung ausgeglichen werden sollten. Umgekehrt könnte auch überlegt werden,
ob es Eigenschafen gibt, die wichtger bzw. unwichtger bei der Berechnung der Ähn-
lichkeit sind und dementsprechend Gewichtungen vorgenommen werden sollten. Bei-
spielsweise würde ein gleichwertger Einbezug aller Eigenschafen von Kleidungsstücken
auf einer Handelsplatorm kaum nützliche Empfehlungen für Käufer ergeben: Hohe Zu-
sammenhänge bzw. Ähnlichkeitsmaße würden sich typischerweise für die gleichen Pro-
dukte in unterschiedlichen Konfektonsgrößen ergeben. Nützliche Empfehlungen sind je-
doch eher passende oder ergänzende Kleidungsstücke in der gleichen Konfektonsgröße,
beispielsweise das Hemd zur Jeans in der gleichen Konfektonsgröße (siehe auch Ab-
schnit 2.7, S. 28).
Klassifkatonsverfahren
Während die bisher vorgestellten Verfahren versuchen, jedes Element in einem System
miteinander zu vergleichen, versuchen die folgenden Verfahren, Elemente zu gruppie-
ren. Empfohlen werden dann Elemente aus einer Gruppe. In der Regel werden die Grup-
pen mit Trainingsdaten bzw. der aktuellen Version des Korpus unter Einbezug von Exper-
tenwissen gebildet; weitere Elemente werden dann den Gruppen zugeordnet. Das Spek-
trum an multvariaten Verfahren stellt zahlreiche Möglichkeiten und Ansätze zur Verfü-
gung. Im Folgenden möchten wir nur kurz einige Ansätze skizzieren (s. Klahold, 2009,
77f):
| Das Minimum-Descripton-Length-Verfahren verfolgt den Ansatz, dass ein Empfeh-
lungselement immer derjenigen Klasse zugeordnet wird, bei deren erweiterter binär-
codierten Darstellung am wenigsten Speicherplatz benötgt wird. Es basiert also auf
der Annahme, dass das kompakteste Modell optmal ist.
| Der Naive-Bayes-Klassifkator berechnet die bedingte Wahrscheinlichkeit, dass ein
Empfehlungselement einer Klasse zugehörig ist. Es wird dabei von der (naiven) An-
nahme ausgegangen, dass alle Atribute unabhängig voneinander aufreten.
| Beim ID3-Verfahren wird mit Trainingsdaten ein Entscheidungsbaum aufgebaut. Dazu
durchläuf ein Algorithmus die Daten, der jeweils diejenigen Eigenschafen (Vektor-
positonen) auswählt, die den Korpus am deutlichsten teilen. Das kann bei Personen
beispielsweise das Rauchverhalten sein (Raucher bzw. Nichtraucher). Alle Elemente
werden dann in diesem Baum zugeordnet.
| K-Means-Clustering ist das klassische Clustering-Verfahren. Besonderheit beim Clus-
tering ist, dass die Gruppierungen erst im Verfahren entstehen und nicht schon vor-
her bekannt sind. Es werden willkürlich im Vektorenraum Punkte ausgewählt und es
wird geschaut, ob diese brauchbare „Zentren“ für Ansammlungen von Elementen (im
mehrdimensionalen Vektorraum) sind. Dann wird solange iteratv verbessert, bis pas-
sende „Cluster“ entdeckt und ausgewählt sind.
27
28. Soziale Netzwerkanalyse als alternatver Ansatz für die Ähnlichkeitssuche beim kolla-
boratven Filtern
Neben den oben beschriebenen „klassischen“ Verfahren der Ähnlichkeitsfeststellung
gibt es Versuche, auch die Soziale Netzwerkanalyse als eigenständiges Verfahren für
Empfehlungssysteme fruchtbar zu machen. Typischerweise spannen sich Kontakte und
Kommunikaton wie ein Netz auf: Man kommuniziert mit jemandem, der wiederum mit
anderen kommuniziert. Aus den Sozialwissenschafen gibt es mit der sozialen Netzwerk-
analyse ein Verfahren, das die Vernetzung berechnen und darstellen lässt. Es kann also
auch Nähe berechnet werden. Nun steckt hinter der Verwendung der sozialen Netz-
werkanalyse in Empfehlungssystemen die Absicht, ein alternatves Instrument zur Be-
rechnung von „Nähe“ zu erproben. Es gibt dazu erste Untersuchungen, die dermaßen
generierte Empfehlungen mit herkömmlich generierten Empfehlungen vergleichen und
mit beiden Verfahren ähnliche Ergebnisse erzielen (Kamper, Meyer & Reichart, 2008).
2.7 Ähnlichkeit und weitere Kriterien
Häufg wird das Kriterium der Ähnlichkeit als Grundlage für Empfehlungen gewählt. So
werden beispielsweise in Online-Shops Bücher mit ähnlichen Inhalten angeboten, weil
man davon ausgeht, dass diese für den potenziellen Käufer interessant sind. Es wird da-
von ausgegangen, dass Nutzer mit ähnlichem Profl auch ähnliche Interessen und Ge-
schmack haben, so dass darauf aufauend nützliche Empfehlungen entstehen können.
Allerdings ist das Kriterium der Ähnlichkeit nicht immer hilfreich. So kann es sein, dass
bei der Suche nach einem portugiesischen Restaurant auch andere Restaurants empfoh-
len werden, die ähnlich sind: Wenn diese jedoch in einem weit enternten Ort liegen,
am gesuchten Tag geschlossen haben usw., ist die Ähnlichkeit kein nützliches Kriterium.
Was also „nützlich“ erscheint, muss nicht zwangsläufg „ähnlich“ zu einem bestmmten
Element sein oder auf Ähnlichkeiten mit anderen Benutzern beruhen. Weitere Kriterien
können sein: Räumliche Nähe, Aktualität, Bewertungen, Komplementarität oder auch
Vollständigkeit (siehe auch Abschnit 4.6, S. 71f).
2.8 Nachteile und Herausforderungen der Ansätze
Die beiden vorgestellten Ansätze haben Vorteile, auf die im wesentlichen bereits einge-
gangen wurde. Im folgenden werden kurz Einschränkungen und Herausforderungen der
Verfahren beschrieben.
Einschränkungen und Herausforderungen inhaltsbasierten Filterns
Beim (reinen) inhaltsbasierten Filtern liegen folgende Einschränkungen und Herausfor-
derungen für den Einsatz vor:
| Es müssen bereits zahlreiche Daten über die zu empfehlenden Elemente vorliegen (z.
B. in Form von Metadaten), durch Experten erstellt werden oder automatsch gene-
riert werden. Während letzteres bei Texten, wie dargestellt, noch vergleichsweise
einfach ist, ist es für textarme Materialien wie Videos, Musik und Fotos deutlich
schwerer und stark eingeschränkt.
| Das inhaltsbasierte Filtern vertraut nur auf die Inhalte der Objekte selbst und lässt
Empfehlungen oder Erfahrungen von anderen (ähnlichen) Nutzern ausser Acht.
28
29. | Die Gewichtung der Eigenschafen von Empfehlungselementen, die bevorzugt bei
Empfehlungen zum Tragen kommen sollen, ist sorgfältg vorzunehmen. So ist es beim
Einkaufen im Online-Modeshop eher sinnvoll, ergänzende und passende Kleidung in
der gleichen Konfektonsgröße empfohlen zu bekommen.
Ein wesentlicher Vorteil der Nutzung vorhandener Daten ist beim inhaltsbasierten Fil-
tern, dass solche Systeme von Anfang an „laufen“ und sinnvolle Empfehlungen geben
können.
Herausforderungen kollaboratven Filterns
Beim inhaltsbasierten Filtern werden folgende Probleme gesehen (s. Klahold, 2009, 66f;
sofern keine andere Quelle genannt):
| Es gibt ein sogenanntes „Kaltstart-Problem“: Wenn eine gewisse kritsche Masse an
Daten nicht vorhanden ist, können keine (sinnvollen) Empfehlungen gegeben wer-
den. Voraussetzung eines solchen Systems ist also, dass es bereits eine aktve Com-
munity und Nutzer bzw. generierte Daten gibt. Daher gibt es Ansätze, wie solche feh-
lenden Daten, beispielsweise für neue Elemente (Neuerscheinungen) vorhergesagt
werden können (s. Givon & Lavrenko, 2009).
| Diese Abhängigkeit von den Aktvitäten der Nutzer ergibt auch die Herausforderung
der „Spärlichkeit“: Benutzerbasierte Metadaten, die von den Benutzern selbst aktv
vergeben wurden (Bewertung, Präferenzen, Empfehlungen), sind of nur spärlich vor-
handen.
| Das Problem der „grauen Schafe“ liegt vor, „wenn ein Benutzer bezüglich seiner Be-
wertungen zwar Profl-Überdeckungen mit anderen Benutzern hat, diese aber in Sa-
chen Bewertung so stark variieren, dass keine 'verwandten' Benutzer selektert wer-
den können“ (Klahold, 2009, 150)
Weitere Herausforderungen beziehen sich weniger auf die Datenlücken als auf die Be-
sonderheiten kollaboratver Empfehlungen:
| Der „Lemming-Efekt“ bezieht sich auf das Phänomen, dass Empfehlungen zu Selbst-
läufern werden. Empfohlene Elemente werden häufg betrachtet oder gekauf. Da-
durch wird die Relevanz „künstlich“ erhöht. Potenzielle Bestseller bei Amazon, bei-
spielsweise von populären Krimiautoren, tauchen auf einmal in vielen Einkaufslisten
auf; werden folglich in vielen Buchbeschreibungen als Kaufempfehlung gelistet, ob-
wohl sachlich kein Zusammenhang besteht und sie bekommen dadurch eine erhöhte
Aufmerksamkeit. Sprichwörtlich „wie die Lemminge“ kaufen Amazonkunden dann
auf einmal ein Buch, nach dem sie ursprünglich gar nicht gesucht haben.
| Wenn sich ein System nur auf die Nutzergemeinschaf „verlässt“ kann dies auch dazu
führen, dass andere relevante, bzw. neue Empfehlungselemente nur schwer aufge-
nommen werden, da alle mit den bereits vorhandenen Empfehlungen „eingedeckt
sind“. Hier läuf das System bzw. ihre Nutzer in die Gefahr eines Tunnelblicks (Kla-
hold, 2009, 118). Um solche Efekte vorzubeugen, empfehlt es sich zufällige „Emp-
fehlungen“ zu geben.
Aus Nutzersicht können sich weitere Schwächen ergeben. So kann es sein, dass bei-
spielsweise Nutzerprofle relatv früh (bei der Registrierung) festgelegt werden und Ver-
änderungen im Profl nicht unbedingt wahrgenommen werden müssen.
29
30. 2.9 Hybride Lösungen
Eine Lösung, mit den Vor- und Nachteilen der beiden Ansätze des kollaboratven sowie
des inhaltsbasierten Filterns umzugehen, ist die Kombinaton beider Verfahren. Tatsäch-
lich wird dies inzwischen auch in vielen, wenn nicht sogar den meisten Empfehlungssys-
temen im Web in dieser Weise realisiert. Bei einigen Systeme können sich Nutzer gegen-
seitg „persönliche Empfehlungen“ schicken.
Pfadbasierte Empfehlungen
Ausgehend von der Erfahrung, dass viele die gleichen Wege nutzen um durch das Web
zu navigieren, wurde das sogenannte pfadbasierte Verfahren (Engl. trail based) für Emp-
fehlungen entwickelt (u.a. Gams & Reich, 2004). Dazu wurde ein Konzept entwickelt, wie
solche Pfade im Web beschrieben werden können, wie Ähnlichkeiten der Pfade berech-
net werden können und wie Benutzer mit ähnlichen Spuren gefunden werden können
(Gams, 2005). Auf Grundlage dieser Fußspuren von Gleichgesinnten und -interessierten
sollen dann Empfehlungen für die weitere Navigaton gegeben werden. Der Ansatz wur-
de also für die Informatonsrecherche im Web vorgeschlagen und entwickelt. Bei Gams
(2005) wurden im Experiment drei Szenarien durchgespielt und zwar jeweils mit und
ohne Unterstützung durch den Empfehlungsservice. Dabei galt es vier Rechercheaufga-
ben zu erledigen, u.a. mussten Projektpläne von vier Projekten gefunden werden, die
mit Miteln der Europäischen Kommission ko-fnanziert wurden. Das System erhielt hier
erwartungsgemäß positve Werte.
Tabelle 7, 8: Durchschnitliche Zahl der Schrite und Zeiten für die Erledigung von 4 Aufgaben
mit und ohne pfadbasierten Empfehlungen (n=14)
Quelle: Gams, 2005, Tabellen 7.4 und 7.5, 152
Ontologiebasierte Ansätze
Ontologiebasierte Ansätze verwendet weder inhaltsbasiertes noch kollaboratves Filtern
wie oben beschrieben. Dieser Ansatz beruht im wesentlichen darauf, dass Ontologien
verwendet werden. Mit ihrer Hilfe werden in diesem Fall auf fehlende Informatonen zu
dem Nutzer geschlossen. Dadurch wird vermieden, dass die Nutzer z. B. fehlende Anga-
ben in Fragebögen ergänzen müssen bzw. trotz lückenhafer Profle Empfehlungen gege-
ben werden können. Ontologien sind eine Technologie, welche es erlaubt, reichhaltge
Beziehungen auch für Computer berechenbar zu defnieren. Ontologien sind also kom-
plexe Systeme der Datenbeschreibung, die von Experten entwickelt werden und Wis-
sensbestände beschreiben. Mit ihnen lassen sich hierarchische Gliederungssysteme von
Wissen (Taxonomien, z. B. Artenbeschreibungen in der Biologie), aber auch komplexe
Angaben über die Relatonen von Wissen in einer Form darstellen, dass auch Computer
diese verarbeiten können (vgl. Schafert u.a., 2009).
30
31. Schickel-Zuber (2007, 12) schließt bei den Einsatzmöglichkeiten die Finanzbranche, den
Gaming- und den Gesundheitssektor aus. Dort würde er eher regelbasierte Ansätze ver-
wenden. Für die von ihm untersuchten Anwendungsbereiche des Online-Handels mit
umfangreichen Produktkatalogen hat er seinen Ansatz mit anderen Verfahren verglichen
und gute Ergebnisse erhalten. Dabei zeigt sich u.a., dass der ontologiebasierte Ansatz
v.a. im Bezug auf die Neuartgkeit der Empfehlungen sehr gute Werte erhält (S. 130). Die
Ausarbeitungen von Schickel-Zuber (2007) wurden patentert und werden unter der Be-
zeichnung „Prediggo Technologie“2 stark beworben.
Tag-basierte Empfehlungen
In traditonellen Medienarchiven werden Materialien zu Kategorien und Unterkategori-
en zugeordnet, welche häufg auch zusätzliche Kurzbeschreibungen und Schlagworte
beinhalten. Im Web hat sich ein Verfahren etabliert, das Nutzern ermöglicht, Webseiten
oder andere Ressourcen (Bilder, Videos, Musikstücke) mit eigenen Schlagworten zu mar-
kieren, sie zu „taggen“ (von Engl. „tag“: Etket). Mit Hilfe der Tags können andere ent-
sprechende Ressourcen recherchieren; schnell haben sich populäre Webdienste entwi-
ckelt (vgl. Schafert, Hilzensauer & Wieden-Bischof, 2009). Während die Erzeugung von
traditonellen Metadaten eher einem ausgewählten Benutzerkreis vorbehalten ist, sind
beim Social Tagging potenziell alle Benutzer beteiligt (Derntl et al., 2009). Es ist also
„eine ofene, efziente Möglichkeit der Klassifkaton von Dokumenten“, weil „eine brei-
te Palete von unterschiedlichen Termen für die Beschreibung eines Dokuments bereit-
gestellt wird“ (Güntner, Sint & Westenthaler, 2009, 192).
Tags werden als gute Datenbasis für Empfehlungen gesehen, da anzunehmen ist, dass
Beiträge und Objekte ähnlich sind, wenn sie mit den identschen Tags versehen werden.
Beispielsweise wird dieser Ansatz bei Librarything.com (2006) eingesetzt.
Im Forschungsprojekt KiWi3 wird mit diesem Ansatz versucht, die Vorschläge für andere
Wiki-Inhalte zu verbessern und auch semantsche Empfehlungen einzubauen, die auf
den Tags der Nutzer des semantschen Wikis basieren (vgl. Dolog, 2009). Wir haben
dazu Peter Dolog als zuständigen Experten Fragen gestellt.
2
htp://www.prediggo.com, Stand 12/2009
3
htp://www.kiwi-project.eu, Stand 02/2010
31
32. Interview mit Peter Dolog zu tagbasierten Empfehlungen
? Social Tagging ist sehr populär. Warum ist es aus Ihrer Sicht hilfreich, auf Grundlage
von nutzergenierten Schlagworten Empfehlungen zu geben?
! Da gibt es zwei Aspekte des Social Tagging: den persönlichen Aspekt (eigene Tags)
sowie den sozialen Aspekt, nämlich Tags von Personen in der Community, mit denen
man in Beziehung steht. In beiden Fällen repräsenteren Tags Interesse, persönlicher
oder gemeinschaflicher Art. Wenn daher die Tags gut kombiniert werden, kann das
helfen, neue Entwicklungen, Informatonen, Diskussionen und so weiter zu fnden und aufzuzeigen.
? Tags sind manchmal nur persönliche Aufgabenbeschreibungen wie "erledigen". Wie gehen Sie mit sol-
chen Tags um, die ofensichtlich für andere keinen Sinn machen?
! Es gibt immer einen Weg der Normalisierung. Einige Tags können einfach bei der Berechnung von
Empfehlungen ausgeschlossen werden, wenn sie keinen Sinn machen. Das ist jedoch domänenabhängig
und benötgt Konfguratonen. Aber auch "Erledigen"-Tags sind wichtg, weil sie aktuelle Aufgaben re-
präsenteren, die von anderen genutzt werden können, weil sie Hinweise darauf geben, für was die Res-
source nützlich sein könnte. Auch diese Tags könnten also hilfreich sein, um Ressourcen zu empfehlen,
aber dies hängt vom Kontext ab.
? Was empfehlen Sie Entwicklern, die über ein tag-basiertes Empfehlungssystem nachdenken?
! Sie sollten die Tags mit zusätzlichen Informatonen verknüpfen, um sie für Empfehlungen nützlich zu
machen.
Dr. Peter Dolog ist Professor für „Intelligent Web and Informaton Systems“ am Computer Science De-
partment der Universität Aalborg in Dänemark. Er forscht dort zu tag-basierten Empfehlungssystemen.
Ein vollständiges Profl fndet sich auf seiner Homepage htp://www.cs.aau.dk/~dolog/ (12/2010)
32
33. Beispiele für hybride Empfehlungssysteme
Eine Übersicht über Beispiele für solche hybriden Lösungen fndet sich in Klahold (2009):
Name Emp.- Kurzbeschrei- Eigenschafsanalyse Proflbildung Distanzmaß Literatur
ele- bung
ment
Fab Web- Einzelne Analyse TF-IDF-Derivat Erstellung und Vergleich von Cosinus-Ähnlich- Balabano-
seiten zwischen Doku- Benutzerproflen (Verhalten keitsmaß, Nearest vic u.a.
menten und Be- und Bewertungen) Neighbours Verfah- (1997)
nutzern Empfehlungen auf Basis der ren
Ähnlichkeit von Benutzern
PHOAKS Web- Nach News- Manuelle Metadaten, Manuelle Erstellung des Pro- Cosinus-Ähnlich- Terveen,
(People Help seiten groups gruppier- Heuristk, TF-IDF-Deri- fls durch Auswahl der News- keitsmaß, Nearest Hill, Amen-
One another te Empfehlungen vat group Neighbours Verfah- to, Mc Do-
Know Stuf) relevanter Web- ren nald & Cre-
seiten ter (1997)
Let's Browse Web- Webseiten (Sub- TF-IDF-Derivat Analyse einer „Start-Websei- Cosinus-Ähnlich- Lieberman,
seiten seiten, Links) te“ (einfaches explizites keitsmaß Van Dyke &
werden empfoh- Strukturprofl) sowie Verfol- Vivacqua
len gung der Links (1999)
CASMIR Doku- Empfehlung von TF-IDF-Derivat Erstellung eines Profls durch Cosinus-Ähnlich- Klahold
mente Dokumenten die Gewichtung von Wort- keitsmaß (2009)
nach Relevanz vektoren (Interesse)
LaboUr Web- Auf Basis des TF-IDF-Derivat Generierung eines Benutzer- Naiven Bayes Klas- Pohl & Nick
(Learning seiten Profls werden profls aus dem impliziten sifkator (NBK), (1999)
about the verwandte Be- Verhalten Pearson Korrelat-
User) nutzer gesucht onskoefzienten
(PC)
Tango Artkel Noch nicht gele- Manuelle Metadaten, Manuelle Pfege (Kategorien, Overlap Koefzient Claypool
sene Artkel wer- TF-IDF-Derivat, Schlüsselworte) (OK), Pearson Kor- u.a. (1999)
den empfohlen Bewertung von Artkel relatonskoefzein-
auf einer Skala von 1- ten (PC)
10
Nakif Filme Filme werden TF-IDF-Derivat Manuelle Pfege: Benutzer Heuristk Klahold
empfohlen sowie die Empfehlungsele- (2009)
mente (z. B. Filme) haben ei-
gene Profle; Kombinaton
von Wertungsspalten
MovieLens Filme Filme werden DoppelgaengerBots Bewertung von Filmen auf ei- Heuristk, Pearson Good,
empfohlen (TF-IDF-Derivat) ana- ner Skala von 1-5 Korrelatonskoef- Schafer,
lysieren die Filmbe- zienten (PC), Cosi- Konstan &
schreibung nus-Ähnlichkeits- Borchers
RipperBots – iterat- maß (1999)
ven Regelerzeugung
GenreBots bewerten
Filme in Abhängigkeit
des Genres
Tabelle 9: Übersicht über ausgewählte hybride Empfehlungssysteme
Quelle: Klahold, 2009, 144f
33
35. 3 EMPFEHLUNGSSYSTEME: AUSGEWÄHLTE EINSATZGEBIETE
Überall dort, wo mit pffgen Ideen und guten Lösungen Geld verdient werden kann, ist
es schwierig, konkrete Aussagen über technologische Lösungen zu bekommen. Dies
trift nach unseren Erfahrungen insbesondere auf Empfehlungssysteme zu: Gute Lösun-
gen für Empfehlungssysteme lassen sich in der Regel mit geringen Adaptonen an meh-
rere Kunden aus unterschiedlichen Branchen verkaufen. Dabei gibt es jedoch keine Ver-
lautbarungen dazu, welche Systeme, die zum Teil in der wissenschaflichen Literatur be-
schrieben werden, bei Firmen eingesetzt werden. Hinzu kommt wohl auch, dass die ex-
akten Vorgänge und Algorithmen of schwer zu beschreiben sind.
Abbildung 7: Ausschnit aus der SonntagsZeitung zu einem Artkel über Gavin Poter,
Entwickler eines Empfehlungssystem
Quelle: SonntagsZeitung, 13. Juli 2008, 81
Auf alle Fälle haten wir bei den folgenden Beschreibungen von Realisierungen der Emp-
fehlungssysteme das Problem, dass es in der Regel nur unzureichende Beschreibungen
der konkreten Lösung frei verfügbar gibt. Was da genau passiert, wird of mit einem
Halbsatz abgehandelt, nach dem Moto „and the magic occurs“, oder es werden andere
esoterische Bezüge gegeben (siehe Auszug der SonntagsZeitung in Abbildung 7).
3.1 Überblick über fünf ausgewählte Einsatzgebiete
Im Folgenden haben wir uns fünf Einsatzgebiete, in denen Reputatonssysteme zur Erfül-
lung von unterschiedlichen Zwecken eingesetzt werden können, genauer angeschaut.
Die Einsatzgebiete wurde gezielt so ausgewählt, dass eine möglichst weite Spanne abge-
deckt und viele verschiedene Varianten vorgestellt werden können.
35
36. Einsatzgebiet Experten- und Ar- Partnersuche Produkte und Web-Materialien Prozess-
beitsplatzsuche Dienstleistungen empfehlungen
Absicht Arbeitsstellen bzw. Finden von Lebens- Unterstützung bei Empfehlungen für diverse (u.a. Arznei-
Experten mit größt- partnern der Entscheidung für kostenlos zugängli- verschreibung, Unter-
möglicher Passung Produkte und che Materialien stützung Lernender,
zu fnden Dienstleistungen Fernsehprodukton)
Verfahren Suchanfragen und Eingangsbefragung, Alle bekannten Emp- of tagbasierte Emp- Inhaltsbasierte und
Ergebnisse aufgrund Partnervorschläge fehlungsverfahren fehlungen und kolla- kollaboratve Ansätze
eigenschafsbasier- aufgrund paarpsy- sind im Einsatz boratves Filtern
ter Verfahren; aber chologischer Er-
auch Inhalts- und kenntnisse, eigen-
Netzwerkanalysen schafsbasierte, teils
fallbasierte Verfah-
ren
Visualisierung Ranglisten (v.a. Su- Ranglisten mit Fo- u.a. Treferlisten für Markierung im Text, Treferlisten, Vor-
chergebnisse) tos, teils inkl. „Mat- Empfehlungen am Ranglisten schläge, auch Signal-
ching-Punkte“, auch Seitenrand, Ranglis- ton (Alarm!)
Benachrichtung per ten, E-Mail-Benach-
E-Mail richtgung
Anmerkung Gewichtung der Ei- Partnervorschläge Online-Händler für - Einige der Beispiele
genschafen (z. B. nach Passung der Ei- Bestseller verwen- sind nicht webbasiert
räumliche Nähe) z. T. genschafen, auf- den eher kollabort-
notwendig grund persönlich- ves Filtern, Nischen-
keitspsychologischer händler und Spezia-
Untersuchungen listen eher inhalts-
basiertes Filtern
Beispiele Virtueller Arbeits- Parship, Friens- Amazon, Zappas, Photoree, fwd, Re- ALOE, LIVE u.a.
markt, Manager cout24, Elitepartner Last.fm, Library- Mashed u.a.
Lounge, Biomedex- Things, Preiser Re-
perts cords, Pandora, Mo-
vielens u.a.
Tabelle 10: Charakteristk der Empfehlungssysteme in ausgewählten Einsatzgebieten
Im folgenden stellen wir die einzelnen Bereiche und Beispiele vor, soweit wir dazu Infor-
matonen gefunden haben.
3.2 Experten- und Arbeitsplatzsuche im Web
Während es nicht weiter schlimm ist, mal eine Filmempfehlungen zu erhalten, die nicht
ganz den eigenen Geschmack trift, sind Fehlgrife bei der Personalauswahl deutlich ver-
heerender. Nicht zuletzt daher wird hier versucht, „fehlerhafe“ Empfehlungen weitest-
gehend zu vermeiden. Ofensichtliche Vorteile bieten Online-Jobbörsen, Business-Clubs
und Karriere- oder Expertenplatormen daher nicht nur für Unternehmen, sondern
auch für Arbeitssuchende selbst.
Im folgenden stellen wir Empfehlungssysteme für die Arbeitsplatz- und Expertensuche
vor. Wie sich zeigt, arbeiten diese, soweit wir dies von aussen beurteilen können, fast
alle mit einem eigenschafsbasierten Ansatz, d.h. Empfehlungen werden aufgrund des
Nutzerprofls bzw. der Sucheingaben gegeben. Bei der vorgestellten Expertensuche im
biomedizinischen Bereich wird neben semantsch unterstützten Auswertungen der Ver-
öfentlichungen als Grundlage eine soziale Netzwerksanalyse verwendet. Schließlich
stellen wir kurz das Modell eines Empfehlungsservices für Arbeitnehmer vor, der auf kol-
laboratvem Filtern, nämlich Angaben von Arbeitgebern, beruhen soll.
36
37. Virtueller Arbeitsmarkt der deutschen Arbeitsagenturen
Am „Virtuellen Arbeitsmarkt“, der Stellen- und Bewerberbörse der deutschen Bundesan-
stalt für Arbeit, werden Arbeitssuchenden Stellenvorschläge gemacht. Als Arbeitssu-
chender kann man in der Detailsuche bis zu 15 Kriterien angeben, beispielsweise Regi-
on, PLZ, Mindestgehalt. Im System können sich auch Arbeitgeber Stellensuchende vor-
schlagen lassen, dabei sind u.a. auch persönliche und soziale Fähigkeiten auswählbar.
Diese Informatonen beruhen auf den Selbstauskünfen der Stellensuchenden.
Zwar unterliegen die genauen verwendeten Empfehlungsverfahren der Geheimhaltung,
es ist aber bekannt, dass die Sofware ELISE 5.0 von der Firma WCC eingesetzt wird, die
auch beim englischen Arbeitsmarktservice, dem „Job Center Plus“ verwendet wird (vgl.
Heymann, 2004, 14). Daher werden wird uns im folgenden darauf beschränken müssen,
die Funktonalitäten zu beschreiben. Ofensichtlich wird im System jedoch kein kollabo-
ratves Filtern eingesetzt, weil keine entsprechenden Daten erfragt werden (z. B. Bewer-
tungen von Arbeitgebern oder Arbeitssuchenden).
In einer Seminararbeit weisst Heymann darauf hin, dass das System Schwierigkeiten hat,
die korrekte Semantk zu erkennen: „So erhält man bei der Suche nach einem „Astro-
nom“ eine 100%ige Trefergenauigkeit für einen „Gastronom“. Gibt man die im Arbeits-
leben synonymen Begrife „Logopäde“, „Sprachtherapeut“ und „Sprachheilpädagoge“ an
(…), so werden nur Trefer mit der exakten Berufsbezeichnung geliefert“ (Heymann,
2004, 15). Ein Test hat ergeben, dass auch heute bei der Suche nach dem Beruf „Astro-
nom“ auch diverse Gastronomie-Berufe vorgeschlagen werden und Stellensuchende un-
bedingt alle synonym verwendeten Berufsbezeichnungen verwenden sollten, um alle
Stellenanzeigen zu sehen: Weiterhin erhält man bei der Suche nach „Logopäde“ nicht
auch automatsch alle Anzeigen für „Sprachtherapeut“ oder „Sprachheilpädagoge“4. Da
im Formular angekreuzt werden kann „Keine Stellenangebote mit ähnlichen Berufen an-
zeigen“ geht ein Stellensucher höchstwahrscheinlich (und irrtümlich) davon aus, ver-
wandte Stellen angezeigt zu bekommen. Heymann (2004) fasst zusammen, und auf-
grund des von uns gewonnen Eindruck bestätgen wir diesen Eindruck, „dass das Ge-
samtsystem derzeit noch nicht die Leistung bietet, die a) von der Bundesagentur ange-
strebt wird und b) den Anwendern des Systems den Eindruck vermitelt, ein kompe-
tentes Empfehlungssystem zu sein“ (S. 16).
Die Jobbörse Manager-Lounge
Manager-Lounge5 ist eine internetbasierte Jobbörse, die sich auf die Vermitlung von
Top-Management-Positonen ab einem Jahresgehalt von 100.000 Euro spezialisiert hat
und dabei wie ein Businessclub agiert. Die streng defnierten Aufnahmebedingungen (z.
B. mehrjährige Personal-, Budget- und Führungsverantwortung) sollen Exklusivität ga-
ranteren. Derzeit gibt es einen geschlossenen Mitgliederkreis von über 2.200 Personen,
die sich auch auf regelmäßig statindenden lokalen Versammlungen trefen. Erst nach
einer erfolgreichen Testphase (z. B. Coaching- und Aufnahme-Telefonat, Einhaltung der
Clubregeln, Engagement) wird das Mitglied in den kostenpfichtgen Club aufgenommen.
Die Daten für das Profl des Bewerbers werden nach und nach manuell von Manager-
Lounge selbst in den sogenannten MatchManager übertragen und stellen die Basis für
den Vermitlungsprozess dar. Die Erhebung der Daten erfolgt dabei durch ein elektroni-
sches oder schrifliches Antragsformular, das von dem Bewerber mit den wichtgsten
4
Diese Überprüfung wurde am 23.1.2010 vorgenommen.
5
htps://manager-lounge.manager-magazin.de, Stand 02/2010
37
38. Daten (z. B. Kontakt, Alter, derzeitge Stelle) ausgefüllt werden muss, sowie ein telefoni-
sches Coaching- und Aufnahmegespräch, in dem die Angaben des Antragstellers über-
prüf sowie ein Lebenslauf und Fähigkeitenprofl erstellt werden.
Unternehmen, die nach Bewerbern in der Manager-Lounge suchen, geben ein Suchpro-
fl in den sogenannten Match-Manager ein. Dieses wird mit den in der Datenbank vor-
handenen Proflen abgeglichen. Als Abfragekriterium sind auch Und- und Oder-Verknüp-
fungen möglich. Das Suchprofl umfasst sieben Kategorien, wie beispielsweise Positon,
Funkton, Branche und Alter. Als Ergebnis werden anonymisierte Mitglieder angezeigt,
die den Auswahlkriterien entsprechen. Hat das Unternehmen Interesse an einem be-
stmmten Person gefunden, dann kann es mit dem Kandidaten in Kontakt treten. Dem
Angeschriebenen steht es dann auch frei, seine Anonymität aufzuheben und seinen Le-
benslauf zur Ansicht freizugeben (Heymann, 2004, 17f).
Biomedexperts
Strukturiertes Wissen und ein vielseitges Netzwerk sind wichtge Voraussetzungen für
die wissenschafliche Zusammenarbeit. Biomedexperts6 ist ein soziales Netzwerk, das
Forscher und Experten im Anwendungsfeld der Biowissenschafen sowie Mediziner und
Fachjournalisten zusammenbringt, um einen länderübergreifenden wissenschaflichen
Austausch sowie ein gemeinsames Arbeiten zu ermöglichen und zu verbessern. Die für
Mitglieder kostenlose Platorm wurde 2008 von Collexis7 ins Leben gerufen. Seitdem
sind über 270.000 Biowissenschafler dem Netzwerk beigetreten. Nachdem sich der
Nutzer angemeldet hat und sein Fachgebiet angegeben hat, liefert ihm das System Ex-
perten aus dem Sachgebiet auf der Basis der Häufgkeit von wissenschaflichen Publika-
tonen. Biomedexpert wertet dazu kontnuierlich Publikatonen aus dem Fachgebiet aus
und generiert und ergänzt so automatsch Profle der Mitglieder. Biomedexperts schaft
es auf diesem Weg weltweit fast alle Forscher im Bereich der Biowissenschafen, die in
den letzten zehn Jahren publiziert haben, in das Netzwerk einzubeziehen, sämtliche re-
levanten professionellen Verbindungen innerhalb des Netzwerks zu analysieren und
neue mögliche Forschungspartner, Mitautoren, usw. ausfndig zu machen. Mitglieder
können im System nach Name, Land oder Schlüsselwörter (z. B. Krankheiten, Sympto-
me) suchen und so ihr eigenes Netzwerk aufauen, welches auch die Koautoren von Ko-
autoren umfasst. Wie bei sozialen Netzwerken üblich, können neue Kollegen eingeladen
werden und Mitglieder dem eigenen Netzwerk hinzufügen. Auch ist ein detailliertes wis-
senschafliches Profl mit den Publikatonen des Mitglieds, deren Relevanz sowie der Pu-
blikatonshäufgkeit im Verlauf der Jahre einzusehen. Eine geographische Darstellung
zeigt in welchen Ländern der jeweilige Experte vernetzt ist (Herzog & Dix, 2009).
Durch die sogenannte „Fingerprint-Technologie“ (Engl. für „Fingerabdruck“), die hinter
dem System von Biomedexperts steckt, werden mehrdeutge oder irrelevante Ergebnis-
se automatsch eliminiert. Dies ist durch eine semantsche Analyse von Textdokumen-
ten, durch die interne und externe Dokumente analysiert, aggregiert und semantsch
verknüpf werden können, möglich. „Die semantsche Analyse erfolgt auf der Basis eines
oder mehrerer Thesauri. Bei der Indexierung eines Textes wird jeder Begrif des Doku-
mentes mit den eingebundenen Fachthesauri verglichen. Taucht ein Begrif sowohl im
Text als auch im Thesaurus auf, wird er in dem sogenannten Fingerprint des Dokuments
gespeichert. Für jeden Begrif des Fingerprints wird nun mitels komplexer Algorithmen
die Relevanz im Kontext des verarbeitenden Textes ermitelt. So wird eine gewichtete In-
6
htp://www.biomedexperts.com, Stand 02/2009
7
htp://www.collexis.com, Stand 02/2010
38