3. Duizenden Europese documenten
Handmatig geclassificeerd
met 6797 EuroVoc termen
Pagina/document van
http://eur-lex.europa.eu/LexUriServ/LexUriServ.do?uri=CELEX:32011R0181:NL:NOT
4. Document representatie
● Bekende methode:
– tf-idf
● Methoden gebaseerd op kansen:
– Language models (lijkt op tf)
– Parsimonious language models (lijkt op tf-idf)
5. Modellen (1)
tf-idf: gewichten Language models:
kansen
Tabel van www.cs.wright.edu/~tkprasad/courses/cs707/L08VSM-tfidf.ppt
Figuur van http://nlp.stanford.edu/IR-book/html/htmledition/finite-automata-and-language-models-1.html
6. Modellen (2)
Parsimonious language models (PLM)
● Een PLM van een document geeft grote
kansen aan woorden die representatief zijn
voor dat document t.o.v. alle andere
documenten
● Resultaat:
– Onbelangrijke (stop)woorden krijgen lage kansen
– Belangrijke woorden krijgen hoge kansen
7. Classificatie
●
Trainen:
– Maak één groot document met alle teksten
gelabeld met hetzelfde trefwoord (de train set)
– Maak PLMs voor de train set → Doc. models
●
Classificeren:
– Maak PLM van de query (= nieuw
ongeclassificeerd document) → Query model
– Vergelijk het Query model met alle Doc. Models
en rank de trefwoorden op basis van de
uitkomsten → (c)
Figuur van http://nlp.stanford.edu/IR-book/html/htmledition/extended-language-modeling-approaches-1.html