Szövegbányászat

•

1 gostou•3,076 visualizações

Zoltan Varju

Kürt Akadémia

Tecnologia

Szövegbányászat
Balogh Kitti - Varjú Zoltán
kbalogh@precognox.com - zvarju@precognox.com

Minek nevezzelek?
Szövegbányászat
Számítógépes nyelvészet
Természetes nyelvfeldolgozás
Nyelvtechnológia
Text Mining
Computational Linguistics
Natural Language Processing
Language Technology

És még hol találkozhatunk vele?
Mesterséges intelligencia
Gépi tanulás
Nyelvészet
Kognitív tudomány
Statisztika
Keresés
Információkinyerés

Hogyan művelik?
Szabály-alapú Statisztikai Gráf-alapú

Mi ma a statisztikai megközelítéssel ismerkedünk!
- viszonylag egyszerűek az alapok
- az iparban is elterjedt
- megértéséhez nem kell nyelvésznek lenni, vagy mélyebben belemenni a
statisztikába
A továbbiakban a szövegbányászat megnevezést erre a megközelítésre
alkalmazzuk!

A szövegbányászat forrásai
Tartalomelemzés
Korpusznyelvészet
Információelmélet

Bővebben
Jurafsky-Martin: Speech and Language Processing
Manning-Schütze: Foundations of Statistical Natural Language Processing
NLTK book: http://www.nltk.org/book/

A bányában
Adatgyűjtés Szövegek
előkészítése
Szövegbányászati
módszerek
bevetése
Kiértékelés
Alkalmazás

Ha nincs adatunk
Web crawling == adott lista szisztematikus bejárása a linkek mentén n
mélységben
Scraping == szövegek esetében ez valamilyen extra formázást tartalmazó
formátumból való kiszabadítást jelent (pl. word vagy pdf dokumentumokból a
szöveges információ kinyerése)
...és felügyelt módszert szeretnénk használni
Annotálás == adatok felcímkézése különböző szempontok szerint

Annotált korpuszok
Felügyelt módszerekhez betanításra sokszor elérhetőek annotált korpuszok

Tisztítás
A bag-of-words módszerekhez általában plain text-re van szükségünk, azaz
- minden formázástól mentes
- utf-8 (vagy más szabványú) karakterkódolású szövegekre

Előfeldolgozás
Plain text => csak karakterek (betűk, esetleg számok, emojik)
Nyelvi feldolgozás
- tokenizálás (tokenekre bontás)
- kisbetűsre alakítás, írásjelek törlése
- stemmelés (tövezés), lemmatizálás (szótári tő)
- POS tagging (szófaj meghatározása)
Szűrés
- stopszavak kiszűrése (lista alapján)
- szófajok szerinti szűrés
- egyedi szempontok alapján további szűrés

Bővebben
Pustejovski - Stubbs: Natural Language Annotation for Machine Learning
Mitchell: Web Scraping with Python

A korpusz
600 magyar Twitter-felhasználó több mint 30 ezer csiripjét gyűjtöttük le a Twitter
API-n keresztül
4000 tweetet véletlenszerűen kiválasztottuk és polaritásra annotáltuk
A szövegeket magyarlánc használatával dolgoztuk fel (lemmatálás, szófaji szűrés)

Eszközök
Szentimentszótár: pozitív és negatív szavak listája. Saját gyűjtés, kutatási célra
szabadon használható
Emojiszótár: a magyar tweetekben előforduló emojikat kezelő szótár, a könnyebb
kezelhetőség érdekében mindegyiket átváltja egy karaktersorra pl. :)) és :)))))))
“sokMosoly” lesz

Ha érdekel a dolog
Kereső Világ
http://kereses.blog.hu/
NLP meetup
http://www.meetup.com/Hungarian-nlp/

Mais conteúdo relacionado

Mais de Zoltan Varju

Balogh Kitti - Szűcs Krisztina - Varjú Zoltán: TechTea: Szövegvizualizációk a...

Zoltan Varju

Kisvilágunk, a nyelv

Zoltan Varju

Balogh Kitti - Szűcs Krisztina: Képes beszéd

Zoltan Varju

Balogh Kitti: Politika a sorok között - Politikai témájú szövegelemzések

Zoltan Varju

Érzelmek hálójában – hálózat- és tartalomelemzés

Zoltan Varju

Szabó - Varjú: Automatikus értékelés- és érzelemelemzés magyar nyelvű szöveg...

Zoltan Varju

Mókus (Koncsik Anita, Varjú Zoltán)

Zoltan Varju

Születésház - Adatozz okosan hackathon (Schmidt Erika, Balogh Kitti, Hudy Rób...

Zoltan Varju

Sorok között olvasni

Zoltan Varju

Danics Szabina Lívia: A magyar és az orosz melléknévi igenevek a megfelelteté...

Zoltan Varju

Rasztik Zita: A стартовать jövevényszó fejlődési útja

Zoltan Varju

Kontextus és a hivatkozások ereje

Zoltan Varju

A felügyelt gépi tanulási módszerek alkalmazásához nagyméretű annotált korpuszokra van szükség, amelyek előállítása rendkívül emberierőforrás-igényes. Több lehetőség van az annotációs költségek csökkentésére, ezek közül az egyik az automatikus annotálás. Az előadásban egy olyan nyelvfüggetlen módszert mutatunk be, mellyel bármely Wikipédiával rendelkező nyelvre előállítható tulajdonnévi címkéket tartalmazó korpusz. Az automatikus annotálás során a DBpedia ontológiai kategóriáit képeztük le CoNLL-névosztályokra. Az így előállított magyar és angol nyelvű korpuszok ugyan silver standard korpuszok, de a kiértékelésünk alapján hasonlóan jól használhatók felügyelt névfelismerő rendszerek tanításához és kiértékeléséhez, mint a gold standard korpuszok.

Simon Eszter: Silver standard korpuszok tulajdonnév-felismeréshez

Zoltan Varju

A szövegekben található információk hatékony kinyeréséhez számos nyelvi jelenséget tudnunk kell kezelni, mint például tulajdonnevek és névelemek, többszavas kifejezések, nyelvi bizonytalanság és szubjektivitás. Az előadásban bemutatjuk azokat a Szegeden készült korpuszokat, amelyek különböző doménekből és nyelvekből származó szövegeket tartalmaznak, és bennük nyelvész szakértők kézzel megjelölték az előbb említett jelenségeket, így tanító és tesztadatbázisként szolgálhatnak az információkinyerő rendszerek különböző moduljaihoz.

Vincze Veronika: Korpuszok az információkinyerésben

Zoltan Varju

Felhívás

Zoltan Varju

A Magyar WordNet (HuWN) a Princeton WordNet elveit követve a nyelvi fogalmakat szinonimahalmazokkal (synsetekkel) reprezentálja és közöttük szemantikai viszonyokat definiálva (pl. hipernima (is-a), meronima (rész-egész), antonima stb.) hoz létre egy lexikális fogalmi hálózatot. Noha a wordnetekben a nyelvi fogalmak közötti taxonómia nem felel meg egy szigorú formális ontológia követelményeinek, az NLP különböző alkalmazásaiban mégis gyakran használják őket világismereti reprezentáció forrásaként. A Magyar WordNet 42 ezer synsetet tartalmaz, és össze van kapcsolva az angol (Princeton) WordNet 2.0-ás és 3.0-s verzióival, ami átjárást biztosít több mint 20 egyéb nyelv wordnetjeihez, illetve az angol wordnethez illeszkedő egyéb adatbázisokhoz (Yago, DBPedia, BabelNet stb.). A HuWN szabadon hozzáférhető.

Miháltz Márton: Magyar wordnet

Zoltan Varju

A kétnyelvű szótárak fontos építőelemei számos NLP alkalmazásnak, azonban előállításuk rendkívül idő- és pénzigényes, ezért az automatikus szótárépítés egyre nagyobb szerepet kap. Bemutatunk egy nyelvfüggetlen módszert, amelynek segítségével a Wiktionaryből kiindulva 53 nyelven összesen 1378 szótárat készült, köztük valószínüleg az első, gép által is olvasható magyar-vietnámi szótár.

Ács Judit: Online soknyelvű szótárak

Zoltan Varju

Mondataink jelentős része úgy épül fel, hogy egy központi ige körül rendeződnek el az ige különféle bővítményei. Pl.: elrendeződik + mi? bővítmény + mi körül? ige körül. Az ilyen „mondatvázakat'' nevezzük igei szerkezeteknek, tartalmazzanak vonzatot (hisz vmiben), konkrét szókapcsolatot (döntés születik) vagy akár a kettő kombinációját (igényt tart vmire). Az előadás egy nyelvi erőforrást mutat be: magyar igei szerkezetek korpuszból automatikusan kinyert igen jelentős méretű gyűjteményét. Ez a gyűjtemény információt ad az igék és a bővítmények szokásos viselkedéséről, tulajdonságairól, a szelekciós preferenciákról, így hasznos lehet magyar nyelvű szöveg tartalmi, szemantikai feldolgozása során. A fentit egészíti ki egy másik erőforrás: a 28 millió sekély elemzéssel ellátott tagmondatból álló korpusz, melyből az igei szerkezetek származnak. Kutatási célra szabadon, üzleti célra egyedi megállapodás keretében férhetők hozzá.

Sass Bálint: 28 millió szintaktikailag elemzett mondat és 500000 igei szerkezet

Zoltan Varju

Vincze Veronika: Korpuszok az információkinyerésben

Zoltan Varju

Az előadásban bemutatjuk a Szeged Korpusz és Treebank nevű adatbázist, mely a maga 1,2 millió szavával a legnagyobb, teljes egészében kézzel annotált, magyar nyelvű szövegkorpusz. A korpusz hét különböző doménből származó szövegeket foglal magában, ezek számos annotációs réteggel rendelkeznek: megtalálható bennük az egyes szövegszavak összes lehetséges, illetve a kontextusnak megfelelő morfológiai kódja, minden egyes mondathoz hozzá van rendelve annak szintaktikai szerkezete kétféle elméleti keret szerint is, továbbá szemantikai jellegű annotációk is találhatók egyes részkorpuszokban.

Vincze Veronika: A Szeged Korpusz és Treebank

Zoltan Varju

Mais de Zoltan Varju (20)

Balogh Kitti - Szűcs Krisztina - Varjú Zoltán: TechTea: Szövegvizualizációk a...

Kisvilágunk, a nyelv

Balogh Kitti - Szűcs Krisztina: Képes beszéd

Balogh Kitti: Politika a sorok között - Politikai témájú szövegelemzések

Érzelmek hálójában – hálózat- és tartalomelemzés

Szabó - Varjú: Automatikus értékelés- és érzelemelemzés magyar nyelvű szöveg...

Mókus (Koncsik Anita, Varjú Zoltán)

Születésház - Adatozz okosan hackathon (Schmidt Erika, Balogh Kitti, Hudy Rób...

Sorok között olvasni

Danics Szabina Lívia: A magyar és az orosz melléknévi igenevek a megfelelteté...

Rasztik Zita: A стартовать jövevényszó fejlődési útja

Kontextus és a hivatkozások ereje

Simon Eszter: Silver standard korpuszok tulajdonnév-felismeréshez

Vincze Veronika: Korpuszok az információkinyerésben

Felhívás

Miháltz Márton: Magyar wordnet

Ács Judit: Online soknyelvű szótárak

Sass Bálint: 28 millió szintaktikailag elemzett mondat és 500000 igei szerkezet

Vincze Veronika: Korpuszok az információkinyerésben

Vincze Veronika: A Szeged Korpusz és Treebank

Szövegbányászat

1. Szövegbányászat Balogh Kitti - Varjú Zoltán kbalogh@precognox.com - zvarju@precognox.com

2. Mi is ez?

3. Minek nevezzelek? Szövegbányászat Számítógépes nyelvészet Természetes nyelvfeldolgozás Nyelvtechnológia Text Mining Computational Linguistics Natural Language Processing Language Technology

4. És még hol találkozhatunk vele? Mesterséges intelligencia Gépi tanulás Nyelvészet Kognitív tudomány Statisztika Keresés Információkinyerés

5. Hogyan művelik? Szabály-alapú Statisztikai Gráf-alapú

6. Mi ma a statisztikai megközelítéssel ismerkedünk! - viszonylag egyszerűek az alapok - az iparban is elterjedt - megértéséhez nem kell nyelvésznek lenni, vagy mélyebben belemenni a statisztikába A továbbiakban a szövegbányászat megnevezést erre a megközelítésre alkalmazzuk!

7. A szövegbányászat forrásai Tartalomelemzés Korpusznyelvészet Információelmélet

8. Bővebben Jurafsky-Martin: Speech and Language Processing Manning-Schütze: Foundations of Statistical Natural Language Processing NLTK book: http://www.nltk.org/book/

9. A bányában Adatgyűjtés Szövegek előkészítése Szövegbányászati módszerek bevetése Kiértékelés Alkalmazás

10. Adatok (beszerzés, előkészítés)

11. Ha nincs adatunk Web crawling == adott lista szisztematikus bejárása a linkek mentén n mélységben Scraping == szövegek esetében ez valamilyen extra formázást tartalmazó formátumból való kiszabadítást jelent (pl. word vagy pdf dokumentumokból a szöveges információ kinyerése) ...és felügyelt módszert szeretnénk használni Annotálás == adatok felcímkézése különböző szempontok szerint

12. Annotált korpuszok Felügyelt módszerekhez betanításra sokszor elérhetőek annotált korpuszok

13. Tisztítás A bag-of-words módszerekhez általában plain text-re van szükségünk, azaz - minden formázástól mentes - utf-8 (vagy más szabványú) karakterkódolású szövegekre

14. Előfeldolgozás Plain text => csak karakterek (betűk, esetleg számok, emojik) Nyelvi feldolgozás - tokenizálás (tokenekre bontás) - kisbetűsre alakítás, írásjelek törlése - stemmelés (tövezés), lemmatizálás (szótári tő) - POS tagging (szófaj meghatározása) Szűrés - stopszavak kiszűrése (lista alapján) - szófajok szerinti szűrés - egyedi szempontok alapján további szűrés

15. Bővebben Pustejovski - Stubbs: Natural Language Annotation for Machine Learning Mitchell: Web Scraping with Python

16. Mielőtt kódolni kezdünk

17. A korpusz 600 magyar Twitter-felhasználó több mint 30 ezer csiripjét gyűjtöttük le a Twitter API-n keresztül 4000 tweetet véletlenszerűen kiválasztottuk és polaritásra annotáltuk A szövegeket magyarlánc használatával dolgoztuk fel (lemmatálás, szófaji szűrés)

18. Eszközök Szentimentszótár: pozitív és negatív szavak listája. Saját gyűjtés, kutatási célra szabadon használható Emojiszótár: a magyar tweetekben előforduló emojikat kezelő szótár, a könnyebb kezelhetőség érdekében mindegyiket átváltja egy karaktersorra pl. :)) és :))))))) “sokMosoly” lesz

19. Ha érdekel a dolog Kereső Világ http://kereses.blog.hu/ NLP meetup http://www.meetup.com/Hungarian-nlp/

20. Happy hacking!

Szövegbányászat

Recomendados

Recomendados

Mais conteúdo relacionado

Mais de Zoltan Varju

Mais de Zoltan Varju (20)

Szövegbányászat