1. A szemantikus web könyvtári
ígérete
Hubay Miklós
SZE Egyetemi Könyvtár
2016.03.22.
2. • Az 1992 óta létező World Wide Web alapjaiban változtatta meg információkeresési
szokásainkat
• Már 1996-ban hangoztatták, hogy a Gutenberg-galaxis véget ér, a könyvtárak fizikai
formájukban teljesen meg fognak szűnni
• A közgyűjteményeknek a hálózati világban is meg kell őrizniük a minőségi
információszolgáltató évszázadok alatt kivívott pozícióját
Olyan lépés megtételére kell elszánnunk magunkat,
amely alapjaiban rengeti meg a jelenlegi
katalógusépítési gyakorlatot, cserébe a használói kör
soha nem látott mértékű bővülését ígéri számunkra.
Alapvetés
3. Keresőoptimalizálás (SEO)
A könyvtárak adatainak még hatékonyabb, még használhatóbb, a jelenleginél
könnyebben kereshető formában történő elhelyezése a weben
4. MARC-szizmus
• MAchine-Readable Cataloging: géppel olvasható katalogizálás
• 1966-ban fejlesztette ki Henriette Avram a Library of Congress
felkérésére (MARC-I)
• 1968: MARC-II, majd 1998-tól MARC-21
• Nem feldolgozási szabályzat, csupán hordozó (ISBD, AACR2, RDA
korlátozottan, akár Dublin Core, stb.)
• 2002: MARC Must Die: túlélte önnön használhatóságát
5. MARC-szizmus
• Cédula-sokszorosításra és adattovábbításra találták ki, ma mégis számítógépes
információ-visszakereső rendszerek alapjául szolgál
• Könyvtárakon és (részben) múzeumokon kívül nem használja más, a külső partnerek
felé történő adatszolgáltatáshoz fáradságos konverziós folyamatra van szükség
• Kevés szoftver kezeli (IKR-ek többnyire)
• Az eltérő helyi sajátosságok miatt az intézmények integrációja vagy IKR-váltás esetén
ugyancsak konverzióra van szükség, továbbá a közös katalógusok építése sem
egyszerű
• Inkompatibilis a feldolgozás új fogalmi modelljével, az FRBR-rel
7. De a legfőbb probléma…
• A könyvtári adatok az ún. mély web
részei, keresőszolgáltatásokkal (pl.
Google) nem megtalálhatók
• A könyvtári adatok gyakorlatilag
hatalmas adatsilókban senyvednek
• „Nem beszélünk olyan nyelvet,
amelyet a Web megért”
• Következésképp: számos használót,
aki nem ismeri az OPAC-okat, nem
érünk el
8. Mi lehet a megoldás?
A Linked Data (kapcsolt adatok) technológiája,
amellyel létrejön a Web of Data (az adatok
hálózata), amely a szemantikus web jelenlegi
megvalósulási formája
11. A kérdés tehát: hogyan adhatunk az elemek kapcsolatainak jelentést
(szemantikát)?
• Használjunk URI-kat a dolgok (sőt:
viszonyok) leírására!
• Ezek HTTP-alapú URI-k legyenek!
• Biztosítsunk hasznos információkat a
gépi és emberi ágensek számára is,
amikor egy ilyen URI-t felkeresnek!
• Kapcsoljuk adatainkat más adatokhoz!
13. Mire jó ez a könyvtárnak?
• Az adatok valóban a web részét képezik, a silók falai leomlanak
• Nem speciális könyvtári, hanem általános, webes szabványok
szerint tárolódnak az adataink, ami kiszélesíti a felhasználási
lehetőségeket
• Az egyedi azonosítók segítségével kiküszöbölhetők a szinonimák
és homonimák okozta problémák
16. Egy kis technikai háttér
• Az adatok összekapcsolásának és jelentéssel való felruházásának eszköze: az
RDF
• Resource Description Framework (erőforrás-leíró keretrendszer), 1999-től
létezik
• Segítségével háromelemű (alany, állítmány, tárgy) állításokat tehetünk az
erőforrásokról – amelyeket URI-val vagy szöveges értékkel jelölünk meg
17. Eredmények
• Ha két állításban ugyanazon URI szerepel, akkor a
számítógépes feldolgozás számára (is) egyértelmű, hogy a
két állítás ugyanarról szól, még akkor is, ha a világ két
teljesen különböző pontján hozták létre őket
• A „hivatalos” könyvtári leírások kibővíthetők akár a „színre-
szagra” paramétereivel
• Munkát spórolunk meg, ha már létező relációkat, URI-kat
használunk fel újra
18.
19. Honnan származnak a relációk?
• Ún. névterekből/szókészletekből/szótárakból/ontológiákból
• Egy fogalmi terület (pl. a könyvtári feldolgozás) legfontosabb
tulajdonságainak, osztályainak, relációinak meghatározása
• Fontos tudni, hogy egy relációt milyen szótár szerint
határozunk meg
20. A BIBFRAME
A BIBFRAME
a Linked Data-alapelveket követő,
könyvtári felhasználásra fejlesztett szókészlet,
amely a
funkcionális megközelítést (FRBR) alkalmazó bibliográfiai
leírások készítéséhez szükséges
legfontosabb dokumentum-tulajdonságokat és relációkat
tartalmazza.
ÉS A JÖVŐBEN TELJESEN LEVÁLTJA MAJD A MARC-OT!
21. A szótár elemei
• 53 osztály (az állítások alanya és tárgya lehet)
• Közülük ún. magosztály: WORK, INSTANCE, ANNOTATION,
AUTHORITY
• ~270 tulajdonság, jellemző (az állítások állítmánya lehet)
Az egyedi erőforrások osztályokba sorolása, valamint a tulajdonságok csoportosítása
révén a számítógép alapszintű következtetések elvégzésére válik képessé!
23. További segédeszközök az ismerkedéshez
• Profilszerkesztő (űrlapok összeállítása különféle
dokumentumtípusokhoz)
• MARC-konverter és összehasonlító (HUNMARC-kal is
működik, de nem tökéletesen)
24. Hogyan lesz visszakereshető?
A jövőben: keresőmotorok segítségével
Ma: az adathalmazok ún. SPARQL-végpontjain, összetett lekérdező
nyelv segítségével. A sikeres visszakereséshez a nyelv alapelveit és
az adathalmazban használt szótárakat is ismerni kell
prefix dcterms: <http://purl.org/dc/terms/>
select ?title ?author
where {
?book_uri dc:title ?title ;
dc:creator ?author ;
dc:publisher "Forum" ;
dc:date ?year .
filter (?year > "2008")
25. Legyünk őszinték…
• Nem kizárólag a BIBFRAME szótára segítségével írhatunk le
könyvtári dokumentumokat (BIBO, FaBiO, CitO, RDA-ontológia,
ISBD-ontológia, MarcOnt, stb.) – sőt többet is használhatunk
egyszerre
• A BIBFRAME szókészlete a többivel bizonyos szempontok szerint
összevetve még dobogós helyen sem áll, sőt, bizonyos pontjain
egyenesen ellentmond a Linked Data alapelveinek
• A remek reklám (és a LoC neve) miatt az amerikai könyvtári
közélet felpezsgett. Európában is tesztelik, de kevesebben (GNB,
Alexandriai Könyvtár)
26. A jövő
• Linked Data-alapú feldolgozást támogató integrált
könyvtári rendszerek elterjedése
• Ki melyik szótár használatát támogatja (konverzió?)
• Nincs új a nap alatt (várhatóan ismétlődő problémák)
27. Amire büszkék lehetünk…
Magyarország (az OSzK) a világon másodikként, még a Library of Congresst is
megelőzve publikálta adatait Linked Dataként a világhálón.
Az ALIADA-projektnek, amely segítséget nyújt a világ könyvtárainak a
szemantikus weben történő megjelenéshez, magyar résztvevője is van.