1. A HG-1 TREEBANK
• Bevezetés
• A HG-1 elkészítésének folyamata
• HG-1 adatok az INESS adatbázisban
2. Bevezetés: a „korpusz” fogalma
A korpusz szövegek tervezett, szerkesztett gyűjteménye (corpus
(lat.) = test, itt: szövegtest), melyet általában nyelvészeti célra
használunk fel helyesírásunk ellenőrzésétől kezdve
szabályszerűségek szakértői vagy automatizált feltárásáig.
Az általános célú korpuszokat úgy tervezik meg, hogy többféle
célra (pl. általános nyelvtani tanulmányok, lexikográfia,
nyelvtanulás) felhasználhatók legyenek. Ennek érdekében több
(száz)millió szavas, műfajilag lehetőleg univerzális és
reprezentatív gyűjteményeket készítenek, általában
kereskedelmi célra.
A speciális célú korpuszok szerkesztésmódjuk és/vagy a
hozzáadott nyelvi információk (címkék) révén bizonyos
nyelvészeti területekre és célokra szakosodnak.
3. Bevezetés: a „treebank” fogalma
A treebank mondattani információt tartalmazó korpusz. A
mondattani információ tartalmazza a mondat összetevős
szerkezetét (melynek hierarchikus, fákkal ábrázolható
jellege adja ennek a korpuszfajtának a treebank nevet), és
a szavakra és az összetevőkre vonatkozó nyelvtani
információkat.
A HunGram-1 korpusz (HG-1) a Debreceni Egyetem Angol
Nyelvészeti Tanszékén működő LFGRG munkacsoport
treebank fejlesztése.
4. A HG-1 korpusz alapadatok
HunGram-1 (HG-1): 1,5 millió szavas magyar írott nyelvi korpusz.
Teljes gépi morfológiai és mondattani (összetevős szerkezet)
annotáció, morfológiailag egyértelműsített, mondattanilag többértelmű.
Kijelölt alkorpusz kézi egyértelműsítése.
Elméleti nyelvészeti társprojekt: a magyar nyelv LFG nyelvtanának
megalkotása (http://hungram.unideb.hu)
Korpusznyelvészeti alprojektek: nyers korpusz beszerzése és gyűjtése
(lásd következő dia), annotáció előkészítése; kézi egyértelműsítés
IT infrastruktúra alprojekt: mondatokra bontás, elemzések elkészítése
(XLE és korpuszolvasó segédeszközök), INESS
(http://iness.uib.no/iness/): vizualizáció és on-line annotációs/lekérdező
felület
5. A HG-1 „nyers” forrásai
• Hunglish korpusz: nyers (=annotáció nélküli) magyar-angol
párhuzamos korpusz
Varga, D., Németh, L., Halácsy, P., Kornai, A., Trón, V., Nagy, V. (2005).
Parallel corpora for medium density languages. In: Proceedings of the RANLP 2005, pp. 590-596.
• Szeged Treebank 2.0: 1,2 millió szavas treebank
(korpuszannotációját nem használjuk)
Csendes D., Alexin Z., Csirik J., Kocsor A. (2005). A Szeged Korpusz és Treebank verzióinak
története. In: III. Magyar Számítógépes Nyelvészeti Konferencia (MSZNY 2005) kiadványa, Szeged,
pp. 409-412.
• Magyar Webkorpusz: 1,5 milliárd szavas (szűrés után 600 millió szavas),
.hu domainről gyűjtött, nyelvi annotáció nélküli webkorpusz részletei
Kornai, A, Halácsy, P, Nagy, V, Oravecz, Cs, Trón, V, and Varga, D (2006). Web-based
frequency dictionaries for medium density languages In: Proceedings of the 2nd International
Workshop on Web as Corpus, edited by Adam Kilgarriff, Marco Baroni ACL-06, pp. 1-9.
6. A korpuszépítés lépései
1. A korpuszforrásokból
kinyert mondatok
elemzeztetése a HunGram
nyelvtannal az XLE
parserben
2. Sikeres elemzések
tárolása PROLOG
fájlokban (sikertelen
elemzés a nyelvtanírás
számára visszacsatolás)
3. Az elemzés feltöltése az
INESS renszerbe
4. Kézi egyértelműsítés ill. az
eredmény on-line
böngészése INESS-ben