SlideShare a Scribd company logo
1 of 25
Download to read offline
Евалуација програма за
      етикетирање
текста на српском језику

          Поповић Зоран
   Математички факултет
  Универзитет у Београду
Обрада природног језика 
(NLP) и етикетирање
Основни појмови

        ●   Корпус (дужина, број лексема/токена и лема)
        ●   Морфо-синтаксна обележја (етикете) и
            класе етикета (отворене, затворене)
        ●   Етикетирање граматичких делова реченице
            (PoS, Part-of-Speech Tagging):
• Vinston/Npmsn--y je/Va-p3s-an-y---p
   Vinston/Npmsn--y je/Va-p3s-an-y---p
    •
• uveče/Rgp imao/Vmps-sman-n---p
 • uveče/Rgp imao/Vmps-sman-n---p
• više/Rgp posla/Ncmsg--n nego/C-s
 • više/Rgp posla/Ncmsg--n nego/C-s
• ikad/Rgp ./SENT
 • ikad/Rgp ./SENT
Основни појмови
●   Лексикон (величина тј. број лексема), речник
●   N-грами, правила доделе и трансформација
    етикета
●   Језички модел:
    –   ,,традиционалан”, формално описан, по угледу на
        формалне граматике Ноама Чомског (типови)
    –   и статистички, Шенонов (Шенонове игре;
        Колмогоров, Чаитин, алгоритамска комплексност,
        статистичка теорија индукције Р. Соломонова,
        Голдова идентификација језика)
    –   као и нека врста везе између ова два (нпр.
        стохастичке контекстно-слободне граматике)
●   CES (http://www.cs.vassar.edu/CES),
    TEI (Text Encoding Initiative, www.tei-c.org)
TEI
<TEI.2 id="Osr" lang="sr">                                ...
  <teiHeader creator="CK" status="update" ...                       <w lemma="hladan" ana="Afpmsnn">hladan</w>
id="Osr.teiHeader">                                                 <w lemma="aprilski" ana="Aopmpn">aprilski</w>
    <fileDesc>                                                      <w lemma="dan" ana="Ncmsn­­n">dan</w>
        <titleStmt>                                                 <c>;</c>
...                                                                 <w lemma="na" ana="Spsa">na</w>
    </fileDesc>                                                     <w lemma="&#x10D;asovnik"
    <encodingDesc>                                                       ana="Ncmsa­­n">&#x10D;asovnicima</w>
        <projectDesc>                                               <w lemma="jesam" ana="Va­p3s­an­y­­­p">je</w>
...                                                                 <w lemma="izbijati" ana="Vmps­snan­n­­­e">izbijalo</w>
    </encodingDesc>                                                 <w lemma="trinaest" ana="Mc­­­l">trinaest</w>
    <revisionDesc>                                                  <c>.</c>
...                                                               </s>
    </revisionDesc>                                               <s id="Osr.1.2.2.2">
</teiHeader>                                                        <w lemma="Vinston" ana="Npmsn­­y">Vinston</w>
<text lang="sr" id="Osr.">                                          <w lemma="Smit" ana="Npmsn­­y">Smit</w>
  <body>                                                            <c>,</c>
    <div id="Osr.1" type="part" n="1">                    ...
    <div id="Osr.1.2" type="chapter" n="1">               <!­­ pb n=283 ­­>
      <p id="Osr.1.2.2">                                  </p>
        <s id="Osr.1.2.2.1">                              </div>
          <w lemma="biti" ana="Vmps­sman­n­­­p">Bio</w>   </body>
          <w lemma="jesam" ana="Va­p3s­an­y­­­p">je</w>   </text>
          <w lemma="vedar" ana="Afpmsnn">vedar</w>        </TEI.2>
          <w lemma="i" ana="C­s">i</w>
...
Примери корпуса
 ●   Неколико познатих корпуса са особинама у
     поређењу са корпусима употребљеним у раду:
Корпус           BNC      CLEF Wortschatz Корпус 1 Корпус 2 Корпус 3
Језик        енглески холандски  немачки    српски   српски   српски
Дужина          100М       70М      755М      7.5К      75К     105К
Број етикета      344       418       511       79      129      908
Број лексема   25706      21863     74398     2.5К      11К      18К


●    Класе етикета: Penn TreeBank (PTB) Tagset, ICE

●    MSD (TEI):
     Ncfsg: Noun common feminine singular genitive
Корпуси коришћени у раду
      <Annotation type="morpho">
      <body>
        <div>
         <head>
          <mw id="mw__1 " lex="ZAKLJUCAK" lemma="ZAKLJUCAK" tag="?"/>
         </head>
         <p>
         <seg id="n1">
          <mw id="mw_1_1 " lex="Na" lemma="na" tag="PREP+p4"/>
          <mw id="mw_1_2 " lex="meunarodnom" lemma="meunarodni" tag="A"/>
          <mw id="mw_1_3 " lex="planu" lemma="plan" tag="N"/>
          <mw id="mw_1_4 " lex="poslednjih" lemma="poslednji" tag="A"/>
          <mw id="mw_1_5 " lex="decenija" lemma="decenija" tag="N"/>
          <mw id="mw_1_6 " lex="preduzeti" lemma="preduzeti" tag="V+Perf+Tr"/>
          <mw id="mw_1_7 " lex="su" lemma="jesam" tag="V+Imperf+It+Iref"/>
          <mw id="mw_1_8 " lex="znacajni" lemma="znacajan" tag="A"/>
    ...
         </seg>
         <seg id="n2">
    ...
●   корпус 1 је настао од датотека које представљају део документа
    ,,Хелсиншке свеске бр. 15, националне мањине и право”
    (ISBN 86-7208-065-3 http://www.helsinki.org.yu/serbian/doc/sveske15.zip)
●   корпус 2 је настао конкатенацијом датотека претходног корпуса и датотека
    које садрже српски Закон о радиодифузији и материјале са УНДП
    радионице (http://www.anem.org.yu/download/ZAKON-O-RADIODIFUZIJI.pdf)
Корпуси коришћени у раду
●   Корпус 3 (,,1984”):
    <TEI.2 id="Osr" lang="sr">
      <teiHeader creator="CK" status="update" ... id="Osr.teiHeader">
        <fileDesc>
          <titleStmt>
    ...
    </teiHeader>
    <text lang="sr" id="Osr.">
      <body>
        <div id="Osr.1" type="part" n="1">
        <div id="Osr.1.2" type="chapter" n="1">
         <p id="Osr.1.2.2">
          <s id="Osr.1.2.2.1">
            <w lemma="biti" ana="Vmps-sman-n---p">Bio</w>
            <w lemma="jesam" ana="Va-p3s-an-y---p">je</w>
            <w lemma="vedar" ana="Afpmsnn">vedar</w>
            <w lemma="i" ana="C-s">i</w>
            <w lemma="hladan" ana="Afpmsnn">hladan</w>
            <w lemma="aprilski" ana="Aopmpn">aprilski</w>
            <w lemma="dan" ana="Ncmsn--n">dan</w>
            <c>;</c>
    ...

●   У складу са TEI нормом, другачија MSD
    структура, знатно већи лексикон и већи број
    етикета
    (Orwell http://nl.ijs.si/ME/bib/mte-nlprs01.pdf)
Неке примене у областима
обраде природног језика
●   Сегментација (речи и реченица)
●   Лематизација (stemming)
●   Word Sense Disambiguation
●   Прикључење израза с предлогом (Prepositional
    Phraze Attachment)
●   Синтаксна и семантичка анализа (парсирање)
    ... colourless green ideas furiously sleep.
●   Аутоматско превођење (добар пример тежине
    ове класе проблема: ,,Out of sight, out of mind”)
●   Претраживање информација (Information
    Retrieval)
●   Препознавање и синтеза говора
Различтити програми за етикетирање 
и методе машинског учења
Перформансе програма за
етикетирање
●   Грешка етикетирања:
    број погрешно етикетираних речи у односу на
    укупан број речи тест корпуса (као дати низ
    реченица и речи)

●   Десетострука унакрсна валидација
    (10-fold cross-validation) као тест:

     9/10 + 1/10 (корпуси за обучавање + тест)

●   Тестирање се ради аутоматизовано
Машинско учење

●   Методе машинског учења:

    –   надгледане (скупу обучавања одговара
        етикетирани корпус)

    –   ненадгледане (примери интегрисаних система где
        семантика етикета није битна, аутоматска
        лематизација и учење)

●   Проблем презасићења (overfitting) учења и
    способности генерализације, Окамова оштрица
Примери програма за етикетирање
                     SVM-based, t agg er          G iménez and
     SVMTool         g enerat o r                 Márquez (200 4 ) 97.16%
                     learning wit h cyclic        T o ut anova et al.
     Stanford Tagger dependency net wo rk         (200 3)             97.24 %
                     bidirect ional percept ron   Shen et al.
     POS tagger      learning                     (200 7)             97.33%
●   State-of-the-Art (WSJ 0-18/22-24):
●   CLAWS, R. Garside, G. Leech, G.Sampson (1987), HMM
●   MBT (Memory Based Tagger), TiMBL, Daelemans
    (1999), kNN + CBR
●   MXPOST, Adwait Ratnaparkhi (1998), MEP
●   Rule Based Tagger, Eric Brill (1992/93): 97.2% WSJ
●   TnT – Thorsten Brants (2000), HMM: 96.7% PTB
●   Tree Tagger, Helmut Schmid (1994),
    Decision Tree: 96.36% PTB
Методе машинског учења
●   Бајесове мреже
●   статистички модели:
    –   MLE (Maximum Likelihood Estimation),
    –   MAP (Maximum a posteriori),
    –   MEP (Maximum Enthropy Principle)
●   HMM (скривени ланци Маркова као уопштење
    регуларних граматика; Баум-Велч, Витерби)
●   методе класификације: SVM (Support Vector
    Machine), наивни Бајесов / Гибсов класификатор
●   Учење инстанцама: kNN, RBF, CBR
●   Учење дрветом одлуке (ID3, C4.5)
●   Неуронске мреже
Одабрана решења и програми
Tree Tagger
●   Учење дрветом одлуке
●   Релативно једноставан за употребу, једини
    подразумева лематизацију међу одабраним
    програмима, али нема алат за генерисање
    лексикона
●   Корпус се задаје у вертикалном формату (једна
    лексема по линији, раздвојена белим размаком
    од етикете – и опционо, леме)
●   Синтакса команде за етикетирање:
    tree-tagger {-options-} <parameter file> 
      {<input file> {<output file>}}
TnT - Trigrams'n'Tags
●   Учење: СЛМ (HMM, Витерби и варијанте)
●   Веома једноставан за употребу, најбрже учење
    и етикетирање међу свим одабраним
    програмима,
●   Корпус се задаје такође у вертикалном формату
●   Синтакса команди за учење и етикетирање:
    tnt-para [opcije] korpus.tt
    tnt [opcije] model korpus.tt > korpus.tts
Brill - Rule Based Tagger
●   Учење правила трансформације вођено
    минимализацијом грешке (лексичка правила за
    почетно одређивање етикете, контекстна
    правила трансформације етикета ради
    повећања тачности)
●   Прилично сложен и доста спор постпупак
    учења са припремним међукорацима
●   Корпус се задаје хоризонталном формату
    (традицоиналан PTB формат: реченица по
    линији, лексема и етикета раздвојене са ,,/”)
SVMTool
●   Учење: SVM класификација
●   Изузетно спор постпупак учења, али зато
    најбогатији опцијама и могућностима
    прилагођавања алгоритма учења од свих
    одабраних програма
●   Корпус се задаје вертикалном формату
●   Синтакса команди за учење и етикетирање:
    SVMTlearn [opcije] bin/config.short.svmt
    SVMTagger [opcije] model
MXPOST
●   Учење: принцип максимума ентропије, алат
    још увек користи пробни поступак (фиксно 100
    итерaција)
●   Донекле спор постпупак учења
●   Корпус се задаје хоризонталном формату
    (реченица по линији, лексема и етикета
    раздвојене са ,,_”)
●   Синтакса команди за учење и етикетирање:
    trainmxpost projectdir traindata
    mxpost projectdir < wordfile
Резултати и закључак
 познате                    непознате
  Резултати                                                     ИСПРАВНО
                                          9/10                         1/10
                                                            НЕИСПРАВНО

Корпус:               Корпус 1              Корпус 2               Корпус 3
Дужина:               7.5K                  75K                    105K
Број лексема:         2.5K                  11K                    18K
Број лема:            1.6K                  5K                     7.6K
                                                                              непоз.*
Број етикета:         79                    129                    908
Трајање теста:        22 мин.               9 ч. : 50 мин.         5 дана, 1 ч., 29 мин.
min/max/avg ∗         2290 / 2335 / 2378    9766 / 10368 / 10952   16550 / 16919 / 17372
min/max/avg ∗∗        73 / 77 / 79          120 / 126 / 129        840 / 884 / 897
TT – avg/непоз. *:    85.44% / 64.93%       94.39% / 33.30%        79.65% / 35.05%
   девијација:         3.90% / 3.87%         1.86% / 20.25%         1.92% / 1.85%
SVM – avg/непоз. *:   84.93% / 64.70%       94.27% / 38.02%        85.24% / 34.67%
   девијација:         3.60% / 5.51%         1.72% / 22.61%         1.87% / 2.27%
TNT – avg/непоз. *:   86.18% / 67.65%       94.11% / 37.42%        85.47% / 32.26%
   девијација:         3.60% / 4.33%         1.65% / 21.85%         1.75% / 2.19%
MX – avg/непоз. *:    82.69% / 54.01%       92.78% / 29.43%        82.07% / 28.62%
   девијација:         3.84% / 2.49%         1.79% / 16.93%         1.69% / 2.25%
RBT – avg/непоз. *:   84.96% / 82.15%       93.14% / 47.24%        85.20% / 37.96%
   девијација:         4.34% / 4.32%         3.21% / 26.29%         1.95% / 1.97%

* - број лексема у корпусу за обучавање     ** - број етикета у корпусу за обучавање
 познате               непознате
 Резултати –                                        ИСПРАВНО
                                 9/10                      1/10
 наставак                                        НЕИСПРАВНО


                                                                  неп.**
 Програм Корпус 1: поз/неп.** Корпус 2: поз/неп.** Корпус 3: поз/неп.**
 TT       98.37% / 56.71%      97.53% / 71.49%     91.78% / 36.79%
 SVM      98.29% / 55.18%      97.69% / 67.17%     93.98% / 54.60%
 TnT      98.54% / 57.50%      97.57% / 67.17%     93.86% / 58.36%
 MX       97.43% / 57.01%      96.48% / 69.09%     92.06% / 54.26%
 RBT      99.10% / 43.96%      97.97% / 48.17%     94.24% / 50.33%


Успешност препознавања познатих и непознатих речи у тест корпусу

   (веома слични резултати за TnT су добијени и у MULTEXT­East пројекту)
Закључци
●   Tree Tagger се понаша нешто боље од других с
    мањим бројем етикета (корпус 2), али са већим
    бројем етикета (корпус 3) TnТ је очигледно
    успешнији. Такође, TnТ је и најбржи (учење,
    етикетирање) и најједноставнији за употребу
●   Корпус веће дужине може дати само незнатно боље резултате

●   Крајњи домети ових програма нису испитани -
    SVMTool је близак у резултатима, и нуди много
    веће могућности додатног прилагођавања
    програма у односу на остале
Питања




         ?

More Related Content

Featured

2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by HubspotMarius Sescu
 
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTExpeed Software
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsPixeldarts
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthThinkNow
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfmarketingartwork
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024Neil Kimberley
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)contently
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024Albert Qian
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsKurio // The Social Media Age(ncy)
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Search Engine Journal
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summarySpeakerHub
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next Tessa Mero
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentLily Ray
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best PracticesVit Horky
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project managementMindGenius
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...RachelPearson36
 

Featured (20)

2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot
 
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPT
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage Engineerings
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 

Tag

  • 1. Евалуација програма за етикетирање текста на српском језику Поповић Зоран Математички факултет Универзитет у Београду
  • 3. Основни појмови ● Корпус (дужина, број лексема/токена и лема) ● Морфо-синтаксна обележја (етикете) и класе етикета (отворене, затворене) ● Етикетирање граматичких делова реченице (PoS, Part-of-Speech Tagging): • Vinston/Npmsn--y je/Va-p3s-an-y---p Vinston/Npmsn--y je/Va-p3s-an-y---p • • uveče/Rgp imao/Vmps-sman-n---p • uveče/Rgp imao/Vmps-sman-n---p • više/Rgp posla/Ncmsg--n nego/C-s • više/Rgp posla/Ncmsg--n nego/C-s • ikad/Rgp ./SENT • ikad/Rgp ./SENT
  • 4. Основни појмови ● Лексикон (величина тј. број лексема), речник ● N-грами, правила доделе и трансформација етикета ● Језички модел: – ,,традиционалан”, формално описан, по угледу на формалне граматике Ноама Чомског (типови) – и статистички, Шенонов (Шенонове игре; Колмогоров, Чаитин, алгоритамска комплексност, статистичка теорија индукције Р. Соломонова, Голдова идентификација језика) – као и нека врста везе између ова два (нпр. стохастичке контекстно-слободне граматике) ● CES (http://www.cs.vassar.edu/CES), TEI (Text Encoding Initiative, www.tei-c.org)
  • 5. TEI <TEI.2 id="Osr" lang="sr"> ...   <teiHeader creator="CK" status="update" ...            <w lemma="hladan" ana="Afpmsnn">hladan</w> id="Osr.teiHeader">           <w lemma="aprilski" ana="Aopmpn">aprilski</w>     <fileDesc>           <w lemma="dan" ana="Ncmsn­­n">dan</w>         <titleStmt>           <c>;</c> ...           <w lemma="na" ana="Spsa">na</w>     </fileDesc>           <w lemma="&#x10D;asovnik"     <encodingDesc>                ana="Ncmsa­­n">&#x10D;asovnicima</w>         <projectDesc>           <w lemma="jesam" ana="Va­p3s­an­y­­­p">je</w> ...           <w lemma="izbijati" ana="Vmps­snan­n­­­e">izbijalo</w>     </encodingDesc>           <w lemma="trinaest" ana="Mc­­­l">trinaest</w>     <revisionDesc>           <c>.</c> ...         </s>     </revisionDesc>         <s id="Osr.1.2.2.2"> </teiHeader>           <w lemma="Vinston" ana="Npmsn­­y">Vinston</w> <text lang="sr" id="Osr.">           <w lemma="Smit" ana="Npmsn­­y">Smit</w>   <body>           <c>,</c>     <div id="Osr.1" type="part" n="1"> ...     <div id="Osr.1.2" type="chapter" n="1"> <!­­ pb n=283 ­­>       <p id="Osr.1.2.2"> </p>         <s id="Osr.1.2.2.1"> </div>           <w lemma="biti" ana="Vmps­sman­n­­­p">Bio</w> </body>           <w lemma="jesam" ana="Va­p3s­an­y­­­p">je</w> </text>           <w lemma="vedar" ana="Afpmsnn">vedar</w> </TEI.2>           <w lemma="i" ana="C­s">i</w> ...
  • 6. Примери корпуса ● Неколико познатих корпуса са особинама у поређењу са корпусима употребљеним у раду: Корпус BNC CLEF Wortschatz Корпус 1 Корпус 2 Корпус 3 Језик енглески холандски немачки српски српски српски Дужина 100М 70М 755М 7.5К 75К 105К Број етикета 344 418 511 79 129 908 Број лексема 25706 21863 74398 2.5К 11К 18К ● Класе етикета: Penn TreeBank (PTB) Tagset, ICE ● MSD (TEI): Ncfsg: Noun common feminine singular genitive
  • 7. Корпуси коришћени у раду <Annotation type="morpho"> <body> <div> <head> <mw id="mw__1 " lex="ZAKLJUCAK" lemma="ZAKLJUCAK" tag="?"/> </head> <p> <seg id="n1"> <mw id="mw_1_1 " lex="Na" lemma="na" tag="PREP+p4"/> <mw id="mw_1_2 " lex="meunarodnom" lemma="meunarodni" tag="A"/> <mw id="mw_1_3 " lex="planu" lemma="plan" tag="N"/> <mw id="mw_1_4 " lex="poslednjih" lemma="poslednji" tag="A"/> <mw id="mw_1_5 " lex="decenija" lemma="decenija" tag="N"/> <mw id="mw_1_6 " lex="preduzeti" lemma="preduzeti" tag="V+Perf+Tr"/> <mw id="mw_1_7 " lex="su" lemma="jesam" tag="V+Imperf+It+Iref"/> <mw id="mw_1_8 " lex="znacajni" lemma="znacajan" tag="A"/> ... </seg> <seg id="n2"> ... ● корпус 1 је настао од датотека које представљају део документа ,,Хелсиншке свеске бр. 15, националне мањине и право” (ISBN 86-7208-065-3 http://www.helsinki.org.yu/serbian/doc/sveske15.zip) ● корпус 2 је настао конкатенацијом датотека претходног корпуса и датотека које садрже српски Закон о радиодифузији и материјале са УНДП радионице (http://www.anem.org.yu/download/ZAKON-O-RADIODIFUZIJI.pdf)
  • 8. Корпуси коришћени у раду ● Корпус 3 (,,1984”): <TEI.2 id="Osr" lang="sr"> <teiHeader creator="CK" status="update" ... id="Osr.teiHeader"> <fileDesc> <titleStmt> ... </teiHeader> <text lang="sr" id="Osr."> <body> <div id="Osr.1" type="part" n="1"> <div id="Osr.1.2" type="chapter" n="1"> <p id="Osr.1.2.2"> <s id="Osr.1.2.2.1"> <w lemma="biti" ana="Vmps-sman-n---p">Bio</w> <w lemma="jesam" ana="Va-p3s-an-y---p">je</w> <w lemma="vedar" ana="Afpmsnn">vedar</w> <w lemma="i" ana="C-s">i</w> <w lemma="hladan" ana="Afpmsnn">hladan</w> <w lemma="aprilski" ana="Aopmpn">aprilski</w> <w lemma="dan" ana="Ncmsn--n">dan</w> <c>;</c> ... ● У складу са TEI нормом, другачија MSD структура, знатно већи лексикон и већи број етикета (Orwell http://nl.ijs.si/ME/bib/mte-nlprs01.pdf)
  • 9. Неке примене у областима обраде природног језика ● Сегментација (речи и реченица) ● Лематизација (stemming) ● Word Sense Disambiguation ● Прикључење израза с предлогом (Prepositional Phraze Attachment) ● Синтаксна и семантичка анализа (парсирање) ... colourless green ideas furiously sleep. ● Аутоматско превођење (добар пример тежине ове класе проблема: ,,Out of sight, out of mind”) ● Претраживање информација (Information Retrieval) ● Препознавање и синтеза говора
  • 11. Перформансе програма за етикетирање ● Грешка етикетирања: број погрешно етикетираних речи у односу на укупан број речи тест корпуса (као дати низ реченица и речи) ● Десетострука унакрсна валидација (10-fold cross-validation) као тест: 9/10 + 1/10 (корпуси за обучавање + тест) ● Тестирање се ради аутоматизовано
  • 12. Машинско учење ● Методе машинског учења: – надгледане (скупу обучавања одговара етикетирани корпус) – ненадгледане (примери интегрисаних система где семантика етикета није битна, аутоматска лематизација и учење) ● Проблем презасићења (overfitting) учења и способности генерализације, Окамова оштрица
  • 13. Примери програма за етикетирање SVM-based, t agg er G iménez and SVMTool g enerat o r Márquez (200 4 ) 97.16% learning wit h cyclic T o ut anova et al. Stanford Tagger dependency net wo rk (200 3) 97.24 % bidirect ional percept ron Shen et al. POS tagger learning (200 7) 97.33% ● State-of-the-Art (WSJ 0-18/22-24): ● CLAWS, R. Garside, G. Leech, G.Sampson (1987), HMM ● MBT (Memory Based Tagger), TiMBL, Daelemans (1999), kNN + CBR ● MXPOST, Adwait Ratnaparkhi (1998), MEP ● Rule Based Tagger, Eric Brill (1992/93): 97.2% WSJ ● TnT – Thorsten Brants (2000), HMM: 96.7% PTB ● Tree Tagger, Helmut Schmid (1994), Decision Tree: 96.36% PTB
  • 14. Методе машинског учења ● Бајесове мреже ● статистички модели: – MLE (Maximum Likelihood Estimation), – MAP (Maximum a posteriori), – MEP (Maximum Enthropy Principle) ● HMM (скривени ланци Маркова као уопштење регуларних граматика; Баум-Велч, Витерби) ● методе класификације: SVM (Support Vector Machine), наивни Бајесов / Гибсов класификатор ● Учење инстанцама: kNN, RBF, CBR ● Учење дрветом одлуке (ID3, C4.5) ● Неуронске мреже
  • 16. Tree Tagger ● Учење дрветом одлуке ● Релативно једноставан за употребу, једини подразумева лематизацију међу одабраним програмима, али нема алат за генерисање лексикона ● Корпус се задаје у вертикалном формату (једна лексема по линији, раздвојена белим размаком од етикете – и опционо, леме) ● Синтакса команде за етикетирање: tree-tagger {-options-} <parameter file> {<input file> {<output file>}}
  • 17. TnT - Trigrams'n'Tags ● Учење: СЛМ (HMM, Витерби и варијанте) ● Веома једноставан за употребу, најбрже учење и етикетирање међу свим одабраним програмима, ● Корпус се задаје такође у вертикалном формату ● Синтакса команди за учење и етикетирање: tnt-para [opcije] korpus.tt tnt [opcije] model korpus.tt > korpus.tts
  • 18. Brill - Rule Based Tagger ● Учење правила трансформације вођено минимализацијом грешке (лексичка правила за почетно одређивање етикете, контекстна правила трансформације етикета ради повећања тачности) ● Прилично сложен и доста спор постпупак учења са припремним међукорацима ● Корпус се задаје хоризонталном формату (традицоиналан PTB формат: реченица по линији, лексема и етикета раздвојене са ,,/”)
  • 19. SVMTool ● Учење: SVM класификација ● Изузетно спор постпупак учења, али зато најбогатији опцијама и могућностима прилагођавања алгоритма учења од свих одабраних програма ● Корпус се задаје вертикалном формату ● Синтакса команди за учење и етикетирање: SVMTlearn [opcije] bin/config.short.svmt SVMTagger [opcije] model
  • 20. MXPOST ● Учење: принцип максимума ентропије, алат још увек користи пробни поступак (фиксно 100 итерaција) ● Донекле спор постпупак учења ● Корпус се задаје хоризонталном формату (реченица по линији, лексема и етикета раздвојене са ,,_”) ● Синтакса команди за учење и етикетирање: trainmxpost projectdir traindata mxpost projectdir < wordfile
  • 22.  познате  непознате Резултати ИСПРАВНО 9/10 1/10 НЕИСПРАВНО Корпус: Корпус 1 Корпус 2 Корпус 3 Дужина: 7.5K 75K 105K Број лексема: 2.5K 11K 18K Број лема: 1.6K 5K 7.6K непоз.* Број етикета: 79 129 908 Трајање теста: 22 мин. 9 ч. : 50 мин. 5 дана, 1 ч., 29 мин. min/max/avg ∗ 2290 / 2335 / 2378 9766 / 10368 / 10952 16550 / 16919 / 17372 min/max/avg ∗∗ 73 / 77 / 79 120 / 126 / 129 840 / 884 / 897 TT – avg/непоз. *: 85.44% / 64.93% 94.39% / 33.30% 79.65% / 35.05% девијација: 3.90% / 3.87% 1.86% / 20.25% 1.92% / 1.85% SVM – avg/непоз. *: 84.93% / 64.70% 94.27% / 38.02% 85.24% / 34.67% девијација: 3.60% / 5.51% 1.72% / 22.61% 1.87% / 2.27% TNT – avg/непоз. *: 86.18% / 67.65% 94.11% / 37.42% 85.47% / 32.26% девијација: 3.60% / 4.33% 1.65% / 21.85% 1.75% / 2.19% MX – avg/непоз. *: 82.69% / 54.01% 92.78% / 29.43% 82.07% / 28.62% девијација: 3.84% / 2.49% 1.79% / 16.93% 1.69% / 2.25% RBT – avg/непоз. *: 84.96% / 82.15% 93.14% / 47.24% 85.20% / 37.96% девијација: 4.34% / 4.32% 3.21% / 26.29% 1.95% / 1.97% * - број лексема у корпусу за обучавање ** - број етикета у корпусу за обучавање
  • 23.  познате  непознате Резултати – ИСПРАВНО 9/10 1/10 наставак НЕИСПРАВНО неп.** Програм Корпус 1: поз/неп.** Корпус 2: поз/неп.** Корпус 3: поз/неп.** TT 98.37% / 56.71% 97.53% / 71.49% 91.78% / 36.79% SVM 98.29% / 55.18% 97.69% / 67.17% 93.98% / 54.60% TnT 98.54% / 57.50% 97.57% / 67.17% 93.86% / 58.36% MX 97.43% / 57.01% 96.48% / 69.09% 92.06% / 54.26% RBT 99.10% / 43.96% 97.97% / 48.17% 94.24% / 50.33% Успешност препознавања познатих и непознатих речи у тест корпусу (веома слични резултати за TnT су добијени и у MULTEXT­East пројекту)
  • 24. Закључци ● Tree Tagger се понаша нешто боље од других с мањим бројем етикета (корпус 2), али са већим бројем етикета (корпус 3) TnТ је очигледно успешнији. Такође, TnТ је и најбржи (учење, етикетирање) и најједноставнији за употребу ● Корпус веће дужине може дати само незнатно боље резултате ● Крајњи домети ових програма нису испитани - SVMTool је близак у резултатима, и нуди много веће могућности додатног прилагођавања програма у односу на остале