SlideShare uma empresa Scribd logo
1 de 13
Baixar para ler offline
Zoeken & Classificeren



       05/10/2012

      Sicco van Sas
Onderzoek

multi-label document
     classificatie
Duizenden Europese documenten




                                      Handmatig geclassificeerd
                                      met 6797 EuroVoc termen




                                Pagina/document van
                                http://eur-lex.europa.eu/LexUriServ/LexUriServ.do?uri=CELEX:32011R0181:NL:NOT
Document representatie
●   Bekende methode:
    –   tf-idf

●   Methoden gebaseerd op kansen:
    –   Language models (lijkt op tf)
    –   Parsimonious language models (lijkt op tf-idf)
Modellen (1)

               tf-idf: gewichten                                                             Language models:
               kansen




Tabel van www.cs.wright.edu/~tkprasad/courses/cs707/L08VSM-tfidf.ppt
Figuur van http://nlp.stanford.edu/IR-book/html/htmledition/finite-automata-and-language-models-1.html
Modellen (2)
    Parsimonious language models (PLM)

●   Een PLM van een document geeft grote
    kansen aan woorden die representatief zijn
    voor dat document t.o.v. alle andere
    documenten
●   Resultaat:
    –   Onbelangrijke (stop)woorden krijgen lage kansen
    –   Belangrijke woorden krijgen hoge kansen
Classificatie
●
     Trainen:
      –    Maak één groot document met alle teksten
           gelabeld met hetzelfde trefwoord (de train set)
      –    Maak PLMs voor de train set → Doc. models
●
     Classificeren:
      –    Maak PLM van de query (= nieuw
           ongeclassificeerd document) → Query model
      –    Vergelijk het Query model met alle Doc. Models
           en rank de trefwoorden op basis van de
           uitkomsten → (c)




    Figuur van http://nlp.stanford.edu/IR-book/html/htmledition/extended-language-modeling-approaches-1.html
Hoe vergelijk je 'document models'?
●   tf-idf: cosine similarity (voor vectoren)



●   Parsimonious language model: Kullback-
    Leibler divergence (voor kansverdelingen)
Resultaten (1)
                           1    veterinairrechtelijke      0.0255717
                           2    pluimvee                   0.0207526
●   PLM document model     3    paardachtigen              0.0169556

    van trefwoord:         4
                           5
                                varkens
                                vers
                                                           0.0155939
                                                           0.0145746
    Gezondheidsinspectie   6    gezondheidsvoorschriften   0.0140261
                           7    aviaire                    0.012024
                           8    tweekleppige               0.0118974
                           9    influenza                  0.011844
                           10   weekdieren                 0.0107946
                           11   gezondheidscertificaat     0.0106238
                           12   varkenspest                0.0100314
                           13   sperma                     0.00935072
                           14   vhs                        0.00913481
                           15   bijproducten               0.00903562
                           16   inrichtingen               0.00898603
                           17   tse                        0.00814386
                           18   ihn                        0.00758783
                           19   dierenarts                 0.00742968
                           20   uitbraak                   0.00684976
Resultaten (2)
                                               1    onderzoeksorganisme          -7.68776547255
                                               2    gezondheid van dieren        -7.68776547255
                                               3    voederen van dieren          -9.04806562605
                                               4    financiële hulp              -9.19973589586
                                               5    ongeslacht dier              -9.25318528525
                                               6    dierenziekte                 -9.33555641504
                                               7    Keuringsdienst van waren     -9.37130385138
                                               8    institutionele bevoegdheid   -9.47657512926
                                               9    diergeneeskunde              -9.52245856492
                                               10   hondsdolheid                 -9.60911754795
                                               11   vaccin                       -9.65839296249
                                               12   proef                        -9.67811120989
                                               13   gezondheidsinspectie         -9.71556344516
                                               ..   ..                           ..
●   Doc. geclassificeerd met 8 trefwoorden     18   veterinaire inspectie        -9.88886184799
                                               ..   ..                           ..
    ●   Mean Average Precision (MAP): 0.6342   39   welzijn van dieren           -11.0388821786
    ●   R-precision: 0.5000
Resultaten (3)
●   4166 trefwoord-document models getraind op 37.736
    documenten
●   Evaluatie op 4193 documenten:
Conclusie
●   Information retrieval
    methoden/zoektechnieken zijn bruikbaar voor
    hulp bij classificatie
Vragen?

Mais conteúdo relacionado

Mais de maartenmarx

Women in Dutch parliament: what they did
Women in Dutch parliament: what they didWomen in Dutch parliament: what they did
Women in Dutch parliament: what they didmaartenmarx
 
Keynote Exploring and Exploiting Official Publications
Keynote Exploring and Exploiting Official PublicationsKeynote Exploring and Exploiting Official Publications
Keynote Exploring and Exploiting Official Publicationsmaartenmarx
 
Namescape 2012 03 06
Namescape 2012 03 06Namescape 2012 03 06
Namescape 2012 03 06maartenmarx
 
voting advice slides
 voting advice slides voting advice slides
voting advice slidesmaartenmarx
 
Groningen nl pgroep
Groningen nl pgroepGroningen nl pgroep
Groningen nl pgroepmaartenmarx
 
networks inparliament-ccct
 networks inparliament-ccct networks inparliament-ccct
networks inparliament-ccctmaartenmarx
 
Screen biographischportaal2010 12-10
Screen biographischportaal2010 12-10Screen biographischportaal2010 12-10
Screen biographischportaal2010 12-10maartenmarx
 

Mais de maartenmarx (7)

Women in Dutch parliament: what they did
Women in Dutch parliament: what they didWomen in Dutch parliament: what they did
Women in Dutch parliament: what they did
 
Keynote Exploring and Exploiting Official Publications
Keynote Exploring and Exploiting Official PublicationsKeynote Exploring and Exploiting Official Publications
Keynote Exploring and Exploiting Official Publications
 
Namescape 2012 03 06
Namescape 2012 03 06Namescape 2012 03 06
Namescape 2012 03 06
 
voting advice slides
 voting advice slides voting advice slides
voting advice slides
 
Groningen nl pgroep
Groningen nl pgroepGroningen nl pgroep
Groningen nl pgroep
 
networks inparliament-ccct
 networks inparliament-ccct networks inparliament-ccct
networks inparliament-ccct
 
Screen biographischportaal2010 12-10
Screen biographischportaal2010 12-10Screen biographischportaal2010 12-10
Screen biographischportaal2010 12-10
 

College sicco van-sas-2012_10_08

  • 1. Zoeken & Classificeren 05/10/2012 Sicco van Sas
  • 3. Duizenden Europese documenten Handmatig geclassificeerd met 6797 EuroVoc termen Pagina/document van http://eur-lex.europa.eu/LexUriServ/LexUriServ.do?uri=CELEX:32011R0181:NL:NOT
  • 4. Document representatie ● Bekende methode: – tf-idf ● Methoden gebaseerd op kansen: – Language models (lijkt op tf) – Parsimonious language models (lijkt op tf-idf)
  • 5. Modellen (1) tf-idf: gewichten Language models: kansen Tabel van www.cs.wright.edu/~tkprasad/courses/cs707/L08VSM-tfidf.ppt Figuur van http://nlp.stanford.edu/IR-book/html/htmledition/finite-automata-and-language-models-1.html
  • 6. Modellen (2) Parsimonious language models (PLM) ● Een PLM van een document geeft grote kansen aan woorden die representatief zijn voor dat document t.o.v. alle andere documenten ● Resultaat: – Onbelangrijke (stop)woorden krijgen lage kansen – Belangrijke woorden krijgen hoge kansen
  • 7. Classificatie ● Trainen: – Maak één groot document met alle teksten gelabeld met hetzelfde trefwoord (de train set) – Maak PLMs voor de train set → Doc. models ● Classificeren: – Maak PLM van de query (= nieuw ongeclassificeerd document) → Query model – Vergelijk het Query model met alle Doc. Models en rank de trefwoorden op basis van de uitkomsten → (c) Figuur van http://nlp.stanford.edu/IR-book/html/htmledition/extended-language-modeling-approaches-1.html
  • 8. Hoe vergelijk je 'document models'? ● tf-idf: cosine similarity (voor vectoren) ● Parsimonious language model: Kullback- Leibler divergence (voor kansverdelingen)
  • 9. Resultaten (1) 1 veterinairrechtelijke 0.0255717 2 pluimvee 0.0207526 ● PLM document model 3 paardachtigen 0.0169556 van trefwoord: 4 5 varkens vers 0.0155939 0.0145746 Gezondheidsinspectie 6 gezondheidsvoorschriften 0.0140261 7 aviaire 0.012024 8 tweekleppige 0.0118974 9 influenza 0.011844 10 weekdieren 0.0107946 11 gezondheidscertificaat 0.0106238 12 varkenspest 0.0100314 13 sperma 0.00935072 14 vhs 0.00913481 15 bijproducten 0.00903562 16 inrichtingen 0.00898603 17 tse 0.00814386 18 ihn 0.00758783 19 dierenarts 0.00742968 20 uitbraak 0.00684976
  • 10. Resultaten (2) 1 onderzoeksorganisme -7.68776547255 2 gezondheid van dieren -7.68776547255 3 voederen van dieren -9.04806562605 4 financiële hulp -9.19973589586 5 ongeslacht dier -9.25318528525 6 dierenziekte -9.33555641504 7 Keuringsdienst van waren -9.37130385138 8 institutionele bevoegdheid -9.47657512926 9 diergeneeskunde -9.52245856492 10 hondsdolheid -9.60911754795 11 vaccin -9.65839296249 12 proef -9.67811120989 13 gezondheidsinspectie -9.71556344516 .. .. .. ● Doc. geclassificeerd met 8 trefwoorden 18 veterinaire inspectie -9.88886184799 .. .. .. ● Mean Average Precision (MAP): 0.6342 39 welzijn van dieren -11.0388821786 ● R-precision: 0.5000
  • 11. Resultaten (3) ● 4166 trefwoord-document models getraind op 37.736 documenten ● Evaluatie op 4193 documenten:
  • 12. Conclusie ● Information retrieval methoden/zoektechnieken zijn bruikbaar voor hulp bij classificatie