SlideShare a Scribd company logo
1 of 9
A HG-1 TREEBANK
•   Bevezetés
•   A HG-1 elkészítésének folyamata
•   HG-1 adatok az INESS adatbázisban
Bevezetés: a „korpusz” fogalma
A korpusz szövegek tervezett, szerkesztett gyűjteménye (corpus
(lat.) = test, itt: szövegtest), melyet általában nyelvészeti célra
használunk         fel  helyesírásunk      ellenőrzésétől  kezdve
szabályszerűségek szakértői vagy automatizált feltárásáig.

Az általános célú korpuszokat úgy tervezik meg, hogy többféle
célra (pl. általános nyelvtani tanulmányok, lexikográfia,
nyelvtanulás) felhasználhatók legyenek. Ennek érdekében több
(száz)millió szavas, műfajilag lehetőleg univerzális és
reprezentatív     gyűjteményeket     készítenek,    általában
kereskedelmi célra.

A speciális célú korpuszok szerkesztésmódjuk és/vagy a
hozzáadott nyelvi információk (címkék) révén bizonyos
nyelvészeti területekre és célokra szakosodnak.
Bevezetés: a „treebank” fogalma

A treebank mondattani információt tartalmazó korpusz. A
mondattani információ tartalmazza a mondat összetevős
szerkezetét (melynek hierarchikus, fákkal ábrázolható
jellege adja ennek a korpuszfajtának a treebank nevet), és
a szavakra és az összetevőkre vonatkozó nyelvtani
információkat.

A HunGram-1 korpusz (HG-1) a Debreceni Egyetem Angol
Nyelvészeti Tanszékén működő LFGRG munkacsoport
treebank fejlesztése.
A HG-1 korpusz alapadatok
HunGram-1 (HG-1): 1,5 millió szavas magyar írott nyelvi korpusz.

Teljes gépi morfológiai és mondattani (összetevős szerkezet)
annotáció, morfológiailag egyértelműsített, mondattanilag többértelmű.
Kijelölt alkorpusz kézi egyértelműsítése.

Elméleti nyelvészeti társprojekt: a magyar nyelv LFG nyelvtanának
megalkotása (http://hungram.unideb.hu)

Korpusznyelvészeti alprojektek: nyers korpusz beszerzése és gyűjtése
(lásd következő dia), annotáció előkészítése; kézi egyértelműsítés

IT infrastruktúra alprojekt: mondatokra bontás, elemzések elkészítése
(XLE         és        korpuszolvasó         segédeszközök),        INESS
(http://iness.uib.no/iness/): vizualizáció és on-line annotációs/lekérdező
felület
A HG-1 „nyers” forrásai

• Hunglish korpusz: nyers (=annotáció nélküli) magyar-angol
 párhuzamos korpusz
 Varga, D., Németh, L., Halácsy, P., Kornai, A., Trón, V., Nagy, V. (2005).
 Parallel corpora for medium density languages. In: Proceedings of the RANLP 2005, pp. 590-596.

• Szeged Treebank 2.0: 1,2 millió szavas treebank
 (korpuszannotációját nem használjuk)
 Csendes D., Alexin Z., Csirik J., Kocsor A. (2005). A Szeged Korpusz és Treebank verzióinak
 története. In: III. Magyar Számítógépes Nyelvészeti Konferencia (MSZNY 2005) kiadványa, Szeged,
 pp. 409-412.

• Magyar Webkorpusz: 1,5 milliárd szavas (szűrés után 600 millió szavas),
 .hu domainről gyűjtött, nyelvi annotáció nélküli webkorpusz részletei
 Kornai, A, Halácsy, P, Nagy, V, Oravecz, Cs, Trón, V, and Varga, D (2006). Web-based
 frequency dictionaries for medium density languages In: Proceedings of the 2nd International
 Workshop on Web as Corpus, edited by Adam Kilgarriff, Marco Baroni ACL-06, pp. 1-9.
A korpuszépítés lépései
1.   A korpuszforrásokból
     kinyert mondatok
     elemzeztetése a HunGram
     nyelvtannal az XLE
     parserben
2.   Sikeres elemzések
     tárolása PROLOG
     fájlokban (sikertelen
     elemzés a nyelvtanírás
     számára visszacsatolás)
3.   Az elemzés feltöltése az
     INESS renszerbe
4.   Kézi egyértelműsítés ill. az
     eredmény on-line
     böngészése INESS-ben
INESS: treebank kiválasztása
INESS: mondat kiválasztása
INESS: mondatelemzés vizualizációja

                                            F-STRUCTURE
                                            Attributum-érték
                                                 párok a
                                              predikátum-
                                              argumentum
                                            relációk ás más
                                                nyelvtani
                                              infrormációk
                                             (szám, igeidő,
                                                  eset)
                                              ábrázolására




C-STRUCTURE
  Környezetfüg-
      getlen
 frázisstruktúra-
    ágrajz az
   összetevős-
 szerkezet és a
lineáris szórend
  ábrázolására

More Related Content

Viewers also liked

Victor-Kimura-Web-Developer-Linkedin
Victor-Kimura-Web-Developer-LinkedinVictor-Kimura-Web-Developer-Linkedin
Victor-Kimura-Web-Developer-Linkedin
UltraTrust.com
 
The usa politic
The usa politicThe usa politic
The usa politic
fozy770
 
Icd 10 bahasa ind dan 10 penyakit sering pakai
Icd 10 bahasa ind dan 10 penyakit sering pakaiIcd 10 bahasa ind dan 10 penyakit sering pakai
Icd 10 bahasa ind dan 10 penyakit sering pakai
linaagus
 

Viewers also liked (14)

Linkedin_facebook_weblog_roceindhoven 25 mei 2012
Linkedin_facebook_weblog_roceindhoven 25 mei 2012Linkedin_facebook_weblog_roceindhoven 25 mei 2012
Linkedin_facebook_weblog_roceindhoven 25 mei 2012
 
Victor-Kimura-Web-Developer-Linkedin
Victor-Kimura-Web-Developer-LinkedinVictor-Kimura-Web-Developer-Linkedin
Victor-Kimura-Web-Developer-Linkedin
 
The usa politic
The usa politicThe usa politic
The usa politic
 
Si energia
Si  energia  Si  energia
Si energia
 
Presentatie Sambo Ict 20100211 Definitief 2003 Versie
Presentatie Sambo Ict 20100211 Definitief  2003 VersiePresentatie Sambo Ict 20100211 Definitief  2003 Versie
Presentatie Sambo Ict 20100211 Definitief 2003 Versie
 
Stability Hegemonic
Stability HegemonicStability Hegemonic
Stability Hegemonic
 
2014_12_Sierra
2014_12_Sierra2014_12_Sierra
2014_12_Sierra
 
00gate il Data Center ad Emissioni Zero - Introduzione a: Hosting, Housing, V...
00gate il Data Center ad Emissioni Zero - Introduzione a: Hosting, Housing, V...00gate il Data Center ad Emissioni Zero - Introduzione a: Hosting, Housing, V...
00gate il Data Center ad Emissioni Zero - Introduzione a: Hosting, Housing, V...
 
Jadwal pelajaran semeter gasal 2016 2017
Jadwal pelajaran semeter gasal 2016 2017Jadwal pelajaran semeter gasal 2016 2017
Jadwal pelajaran semeter gasal 2016 2017
 
Mitos y Realidades de UEFI vs Linux
Mitos y Realidades de UEFI vs LinuxMitos y Realidades de UEFI vs Linux
Mitos y Realidades de UEFI vs Linux
 
Presentasi teori kebutuhan
Presentasi teori kebutuhanPresentasi teori kebutuhan
Presentasi teori kebutuhan
 
Icd 10 bahasa ind dan 10 penyakit sering pakai
Icd 10 bahasa ind dan 10 penyakit sering pakaiIcd 10 bahasa ind dan 10 penyakit sering pakai
Icd 10 bahasa ind dan 10 penyakit sering pakai
 
Data mining
Data miningData mining
Data mining
 
7 instrumen-standar-pembiayaan
7 instrumen-standar-pembiayaan7 instrumen-standar-pembiayaan
7 instrumen-standar-pembiayaan
 

HG-1 treebank demo bevezetés PDF

  • 1. A HG-1 TREEBANK • Bevezetés • A HG-1 elkészítésének folyamata • HG-1 adatok az INESS adatbázisban
  • 2. Bevezetés: a „korpusz” fogalma A korpusz szövegek tervezett, szerkesztett gyűjteménye (corpus (lat.) = test, itt: szövegtest), melyet általában nyelvészeti célra használunk fel helyesírásunk ellenőrzésétől kezdve szabályszerűségek szakértői vagy automatizált feltárásáig. Az általános célú korpuszokat úgy tervezik meg, hogy többféle célra (pl. általános nyelvtani tanulmányok, lexikográfia, nyelvtanulás) felhasználhatók legyenek. Ennek érdekében több (száz)millió szavas, műfajilag lehetőleg univerzális és reprezentatív gyűjteményeket készítenek, általában kereskedelmi célra. A speciális célú korpuszok szerkesztésmódjuk és/vagy a hozzáadott nyelvi információk (címkék) révén bizonyos nyelvészeti területekre és célokra szakosodnak.
  • 3. Bevezetés: a „treebank” fogalma A treebank mondattani információt tartalmazó korpusz. A mondattani információ tartalmazza a mondat összetevős szerkezetét (melynek hierarchikus, fákkal ábrázolható jellege adja ennek a korpuszfajtának a treebank nevet), és a szavakra és az összetevőkre vonatkozó nyelvtani információkat. A HunGram-1 korpusz (HG-1) a Debreceni Egyetem Angol Nyelvészeti Tanszékén működő LFGRG munkacsoport treebank fejlesztése.
  • 4. A HG-1 korpusz alapadatok HunGram-1 (HG-1): 1,5 millió szavas magyar írott nyelvi korpusz. Teljes gépi morfológiai és mondattani (összetevős szerkezet) annotáció, morfológiailag egyértelműsített, mondattanilag többértelmű. Kijelölt alkorpusz kézi egyértelműsítése. Elméleti nyelvészeti társprojekt: a magyar nyelv LFG nyelvtanának megalkotása (http://hungram.unideb.hu) Korpusznyelvészeti alprojektek: nyers korpusz beszerzése és gyűjtése (lásd következő dia), annotáció előkészítése; kézi egyértelműsítés IT infrastruktúra alprojekt: mondatokra bontás, elemzések elkészítése (XLE és korpuszolvasó segédeszközök), INESS (http://iness.uib.no/iness/): vizualizáció és on-line annotációs/lekérdező felület
  • 5. A HG-1 „nyers” forrásai • Hunglish korpusz: nyers (=annotáció nélküli) magyar-angol párhuzamos korpusz Varga, D., Németh, L., Halácsy, P., Kornai, A., Trón, V., Nagy, V. (2005). Parallel corpora for medium density languages. In: Proceedings of the RANLP 2005, pp. 590-596. • Szeged Treebank 2.0: 1,2 millió szavas treebank (korpuszannotációját nem használjuk) Csendes D., Alexin Z., Csirik J., Kocsor A. (2005). A Szeged Korpusz és Treebank verzióinak története. In: III. Magyar Számítógépes Nyelvészeti Konferencia (MSZNY 2005) kiadványa, Szeged, pp. 409-412. • Magyar Webkorpusz: 1,5 milliárd szavas (szűrés után 600 millió szavas), .hu domainről gyűjtött, nyelvi annotáció nélküli webkorpusz részletei Kornai, A, Halácsy, P, Nagy, V, Oravecz, Cs, Trón, V, and Varga, D (2006). Web-based frequency dictionaries for medium density languages In: Proceedings of the 2nd International Workshop on Web as Corpus, edited by Adam Kilgarriff, Marco Baroni ACL-06, pp. 1-9.
  • 6. A korpuszépítés lépései 1. A korpuszforrásokból kinyert mondatok elemzeztetése a HunGram nyelvtannal az XLE parserben 2. Sikeres elemzések tárolása PROLOG fájlokban (sikertelen elemzés a nyelvtanírás számára visszacsatolás) 3. Az elemzés feltöltése az INESS renszerbe 4. Kézi egyértelműsítés ill. az eredmény on-line böngészése INESS-ben
  • 9. INESS: mondatelemzés vizualizációja F-STRUCTURE Attributum-érték párok a predikátum- argumentum relációk ás más nyelvtani infrormációk (szám, igeidő, eset) ábrázolására C-STRUCTURE Környezetfüg- getlen frázisstruktúra- ágrajz az összetevős- szerkezet és a lineáris szórend ábrázolására