SlideShare a Scribd company logo
1 of 30
Download to read offline
Petr Kadlec <petr.kadlec@gmail.com>
        Searching Session NTK 2010
                     NTK, 5. 10. 2010
Obsah
 Projekty Wikimedia Foundation
 (Meta)data ve Wikipedii
 Jak je dostat z Wikipedie
 Konkrétní projekty a nástroje
 Jak dostat (meta)data do Wikipedie




              (Meta)data ve Wikipedii a jak je dostat dovnitř a ven
                  Petr Kadlec, Searching Session NTK 2010             2
Projekty nadace Wikimedia
 Wikipedie – encyklopedie (2001)
 Wikislovník – slovník (2002)
 Wikicitáty – sbírka citátů (2003)
 Wikiknihy – manuály apod. (2003)
 Wikizdroje – původní texty (2003)
 Wikimedia Commons – soubory (2004)
 Wikizprávy – zpravodajství (2004)
 Wikiverzita – výukové materiály (2006)

              (Meta)data ve Wikipedii a jak je dostat dovnitř a ven
                  Petr Kadlec, Searching Session NTK 2010             3
MediaWiki
 Všechny projekty běží na MediaWiki
 „wiki-engine“ v PHP, MySQL
 Všechno open-source
     http://www.mediawiki.org/wiki/MediaWiki/cs
   „Wikisyntaxe“ –formátovací jazyk
     '''Tučné''', [http://example.cz Link], [[Odkaz]]
   Technika vespod ovlivňuje, co a jak
    snadno se dá z Wikipedie dostat

                    (Meta)data ve Wikipedii a jak je dostat dovnitř a ven
                        Petr Kadlec, Searching Session NTK 2010             4
Autorskoprávní vložka
 Chcete využívat data z Wikipedie?
 Můžete!
     Veškerý textový obsah pod CC-BY-SA 3.0
 Jen uvádějte odkaz na původní článek
  na Wikipedii a zachovejte licenci.
 Obrázky můžete šířit taky, konkrétní
  svobodná licence uvedena na stránce
  obrázku.

                 (Meta)data ve Wikipedii a jak je dostat dovnitř a ven
                     Petr Kadlec, Searching Session NTK 2010             5
(Meta)data ve Wikipedii
   Jak všichni víme, ve Wikipedii je
    spousta potenciálně zajímavých věcí




                (Meta)data ve Wikipedii a jak je dostat dovnitř a ven
                    Petr Kadlec, Searching Session NTK 2010             6
(Meta)data ve Wikipedii a jak je dostat dovnitř a ven
    Petr Kadlec, Searching Session NTK 2010             7
(Meta)data ve Wikipedii
 Encyklopedický text
 „Infoboxy“ – přehledové tabulky se
  základními údaji
 Zeměpisné souřadnice
 Bibliografické citace
 Odkazy na cizojazyčné ekvivalenty
 Atd. atd.



              (Meta)data ve Wikipedii a jak je dostat dovnitř a ven
                  Petr Kadlec, Searching Session NTK 2010             8
Jak je dostat z Wikipedie
 Některá lépe, některá hůře.
 Základ wiki tvoří nestrukturovaný chaos.
 Možnosti však jsou…


   Dvě otázky:
     Přístup k datům
     Formát dat



                   (Meta)data ve Wikipedii a jak je dostat dovnitř a ven
                       Petr Kadlec, Searching Session NTK 2010             9
Přístup k datům
   Toolserver
     Replikovaná SQL databáze
   XML dumpy
     Stažitelný mirror Wikipedie
   SQL dumpy
     Některé zajímavé tabulky
 MW API
 … a HTML screenscraping


                  (Meta)data ve Wikipedii a jak je dostat dovnitř a ven
                      Petr Kadlec, Searching Session NTK 2010             10
Toolserver
   Serverová farma provozovaná WM DE
     Přístup víceméně komukoli na žádost
 MySQL s replikovanými daty WM
 Tudíž přímý SQL přístup
 Ideální pro agregační dotazy, statistiky,
  při potřebě co nejaktuálnějších dat
   https://wiki.toolserver.org/view/Hlavní_strana




                   (Meta)data ve Wikipedii a jak je dostat dovnitř a ven
                       Petr Kadlec, Searching Session NTK 2010             11
XML dumpy
 Projekty WMF jsou pod svobodnou
  licencí, právo na fork ⇒ data k dispozici
 Úplné XML dumpy obsahu lze stáhnout
 XML soubory obsahující texty článků
 Stále ve wikisyntaxi, bez vazeb atd.
 Celý dump včetně historie je gigantický
     cswiki ~0,5 GB@7z, dewiki ~7,7 GB@7z
     (bez obrázků)


                 (Meta)data ve Wikipedii a jak je dostat dovnitř a ven
                     Petr Kadlec, Searching Session NTK 2010             12
XML dumpy (2)
 Ideální, pokud chcete spustit mirror
 Analýza je nad tím trochu složitější
     Jediným parserem wikitextu je MediaWiki
   Ale je to kompletní Wikipedie včetně
    celé historie
     Kromě smazaných článků a soukromých dat
 Ideální pro zkoumání vývoje v čase
 http://download.wikimedia.org


                 (Meta)data ve Wikipedii a jak je dostat dovnitř a ven
                     Petr Kadlec, Searching Session NTK 2010             13
SQL dumpy
 Doplněk k XML dumpům
 V podstatě historický pozůstatek
 Zjednodušuje některou práci
 Metadata z databázových tabulek
     Odkazy, kategorizace atp.
 Struktura vázána na MediaWiki
 http://download.wikimedia.org



                  (Meta)data ve Wikipedii a jak je dostat dovnitř a ven
                      Petr Kadlec, Searching Session NTK 2010             14
MediaWiki API
 REST (HTTP)
 Různé formáty (JSON, XML, …)
 Dotazy na metadata
 Zajímavá schopnost: render
 Výkon? Přetěžování serverů WMF?
   http://cs.wikipedia.org/w/api.php




               (Meta)data ve Wikipedii a jak je dostat dovnitř a ven
                   Petr Kadlec, Searching Session NTK 2010             15
HTML screenscraping
 Fůůůj…
 Nespolehlivé, nikdo nezaručí stabilitu
 Pro spoustu věcí jediná možnost


   Alespoň mikroformáty?
     …ještě se k tomu vrátíme




                 (Meta)data ve Wikipedii a jak je dostat dovnitř a ven
                     Petr Kadlec, Searching Session NTK 2010             16
Konkrétní příklady
   Základní biografická data
     Řekněme… data narození a úmrtí




                (Meta)data ve Wikipedii a jak je dostat dovnitř a ven
                    Petr Kadlec, Searching Session NTK 2010             17
(Meta)data ve Wikipedii a jak je dostat dovnitř a ven
    Petr Kadlec, Searching Session NTK 2010             18
Data narození a úmrtí
 PHP skript na toolserveru
 Data zjišťuje pomocí kategorií
     Kategorie:Narození 1234
     Kategorie:Úmrtí 1234


   Co kdybychom chtěli dny v roce?
     …bylo by to těžší.




                  (Meta)data ve Wikipedii a jak je dostat dovnitř a ven
                      Petr Kadlec, Searching Session NTK 2010             19
Externí odkazy
   Tabulka externích odkazů
     Dostupná na toolserveru
     Dostupná přes API
     Dostupná v SQL dumpech
   http://wpcz.org/Special:Linksearch/*.techlib.cz
   http://cs.wikipedia.org/w/api.php?action=query&
    list=exturlusage&euquery=*.techlib.cz




                   (Meta)data ve Wikipedii a jak je dostat dovnitř a ven
                       Petr Kadlec, Searching Session NTK 2010             20
Mezijazykové odkazy
   Použití jako slovník?
     Základ slovníku? → Wikislovník!
   Opět: tabulka v MediaWiki
     Dostupné přes API, na toolserveru, z dumpů
   http://cs.wikipedia.org/w/api.php?action=query&
    prop=langlinks&titles=Pes&lllimit=200&redirects




                   (Meta)data ve Wikipedii a jak je dostat dovnitř a ven
                       Petr Kadlec, Searching Session NTK 2010             21
A co infoboxy?
 Nejzajímavější, nejtěžší.
 Momentálně dvě možnosti:
     Parsovat wikitext.
     Parsovat HTML.
   Wikitext
     Sice šablony, ale syntaxe stejně neexistuje
   HTML
     Nestrukturovaný binec


                  (Meta)data ve Wikipedii a jak je dostat dovnitř a ven
                      Petr Kadlec, Searching Session NTK 2010             22
Je potřeba cílené úsilí
 Díky šablonám občas jde nějaká
  užitečná data připravit ve strojově
  čitelném formátu
 Buď nějak využít datového modelu
  MediaWiki
     Kategorie, externí odkazy, …
   Nebo do výstupního HTML
     Mikroformáty


                  (Meta)data ve Wikipedii a jak je dostat dovnitř a ven
                      Petr Kadlec, Searching Session NTK 2010             23
Cílené úsilí
 Autority NK ČR
 Vkládání identifikátoru autoritního
  záznamu do článků




               (Meta)data ve Wikipedii a jak je dostat dovnitř a ven
                   Petr Kadlec, Searching Session NTK 2010             24
aut.nkp.cz




cs.wikipedia.org




                   (Meta)data ve Wikipedii a jak je dostat dovnitř a ven
                       Petr Kadlec, Searching Session NTK 2010             25
Vazby na autority NK ČR
 Šablona vkládaná (ručně) do článků
 Skrytá kategorie
 Dotaz přes MediaWiki API
 Vlepeno JavaScriptem do Alephu
     (Chcete taky?)


   Momentálně svázáno přes 6 700 článků


                  (Meta)data ve Wikipedii a jak je dostat dovnitř a ven
                      Petr Kadlec, Searching Session NTK 2010             26
Cílené úsilí (2)
 Zeměpisné souřadnice
 Do článků patří tak jako tak
 Dají se z nich nějak dostat?
 Momentálně těžko, ale jde to
     Na anglické Wikipedii mikroformáty, u nás
      momentálně ne
   http://maps.google.com/maps?lci=org.wikipedia.cs




                   (Meta)data ve Wikipedii a jak je dostat dovnitř a ven
                       Petr Kadlec, Searching Session NTK 2010             27
Cílené úsilí (3)
 Bibliografické citace
 Vložení COinS
 Úprava citačních šablon




              (Meta)data ve Wikipedii a jak je dostat dovnitř a ven
                  Petr Kadlec, Searching Session NTK 2010             28
Cílené úsilí – a co vy?
 Máte nějaká data?
 Chcete nějaká data?
 Nápady na užitečné mikroformáty?
 Pokud to bude možné a užitečné, dá se
  to zařídit!

   Ozvěte se!


                 (Meta)data ve Wikipedii a jak je dostat dovnitř a ven
                     Petr Kadlec, Searching Session NTK 2010             29
Díky za pozornost!
   petr.kadlec@gmail.com
   http://cs.wikipedia.org/wiki/User:Mormegil
   http://wikimedia.cz/




                    (Meta)data ve Wikipedii a jak je dostat dovnitř a ven
                        Petr Kadlec, Searching Session NTK 2010             30

More Related Content

Viewers also liked

Edelman Trust Barometer 2007
Edelman Trust Barometer 2007Edelman Trust Barometer 2007
Edelman Trust Barometer 2007edelman.milan
 
Basic neurochemistry
Basic neurochemistryBasic neurochemistry
Basic neurochemistryamitgajjar85
 
2 Custom Furniture Promotion
2 Custom Furniture Promotion2 Custom Furniture Promotion
2 Custom Furniture PromotionNicole_Nott
 
Alterian - Changing Customer Expectations - Customer Centricity Conference, S...
Alterian - Changing Customer Expectations - Customer Centricity Conference, S...Alterian - Changing Customer Expectations - Customer Centricity Conference, S...
Alterian - Changing Customer Expectations - Customer Centricity Conference, S...Alterian
 
How to create a customer service culture change
How to create a customer service culture change How to create a customer service culture change
How to create a customer service culture change Dennis Price
 
Customer experience for growing companies
Customer experience for growing companiesCustomer experience for growing companies
Customer experience for growing companiesJeannie Walters, CCXP
 
INI Enhancing Customer Experience.
INI Enhancing Customer Experience.INI Enhancing Customer Experience.
INI Enhancing Customer Experience.John Mark Logan
 
Clearworks - Customer Experience and Usability
Clearworks - Customer Experience and UsabilityClearworks - Customer Experience and Usability
Clearworks - Customer Experience and UsabilityInnovation Excellence
 
Social Media for Competitive Intelligence
Social Media for Competitive IntelligenceSocial Media for Competitive Intelligence
Social Media for Competitive IntelligenceTris Hussey
 
How to Elevate Recruiting Performance with Competitive Intelligence
How to Elevate Recruiting Performance with Competitive IntelligenceHow to Elevate Recruiting Performance with Competitive Intelligence
How to Elevate Recruiting Performance with Competitive IntelligenceIntelCollab.com
 
Business plan hitechdeco
Business plan hitechdeco Business plan hitechdeco
Business plan hitechdeco sylvain revuz
 
How Internal Human Intelligence Networks (HUMINT) Develop External Primary So...
How Internal Human Intelligence Networks (HUMINT) Develop External Primary So...How Internal Human Intelligence Networks (HUMINT) Develop External Primary So...
How Internal Human Intelligence Networks (HUMINT) Develop External Primary So...IntelCollab.com
 
Aurora WDC Jim Mathews Award 2015 - Instructions and Application
Aurora WDC Jim Mathews Award 2015 - Instructions and ApplicationAurora WDC Jim Mathews Award 2015 - Instructions and Application
Aurora WDC Jim Mathews Award 2015 - Instructions and ApplicationIntelCollab.com
 
The True Value Of Customer Service
The True Value Of Customer ServiceThe True Value Of Customer Service
The True Value Of Customer Service1001tech IPvox
 

Viewers also liked (14)

Edelman Trust Barometer 2007
Edelman Trust Barometer 2007Edelman Trust Barometer 2007
Edelman Trust Barometer 2007
 
Basic neurochemistry
Basic neurochemistryBasic neurochemistry
Basic neurochemistry
 
2 Custom Furniture Promotion
2 Custom Furniture Promotion2 Custom Furniture Promotion
2 Custom Furniture Promotion
 
Alterian - Changing Customer Expectations - Customer Centricity Conference, S...
Alterian - Changing Customer Expectations - Customer Centricity Conference, S...Alterian - Changing Customer Expectations - Customer Centricity Conference, S...
Alterian - Changing Customer Expectations - Customer Centricity Conference, S...
 
How to create a customer service culture change
How to create a customer service culture change How to create a customer service culture change
How to create a customer service culture change
 
Customer experience for growing companies
Customer experience for growing companiesCustomer experience for growing companies
Customer experience for growing companies
 
INI Enhancing Customer Experience.
INI Enhancing Customer Experience.INI Enhancing Customer Experience.
INI Enhancing Customer Experience.
 
Clearworks - Customer Experience and Usability
Clearworks - Customer Experience and UsabilityClearworks - Customer Experience and Usability
Clearworks - Customer Experience and Usability
 
Social Media for Competitive Intelligence
Social Media for Competitive IntelligenceSocial Media for Competitive Intelligence
Social Media for Competitive Intelligence
 
How to Elevate Recruiting Performance with Competitive Intelligence
How to Elevate Recruiting Performance with Competitive IntelligenceHow to Elevate Recruiting Performance with Competitive Intelligence
How to Elevate Recruiting Performance with Competitive Intelligence
 
Business plan hitechdeco
Business plan hitechdeco Business plan hitechdeco
Business plan hitechdeco
 
How Internal Human Intelligence Networks (HUMINT) Develop External Primary So...
How Internal Human Intelligence Networks (HUMINT) Develop External Primary So...How Internal Human Intelligence Networks (HUMINT) Develop External Primary So...
How Internal Human Intelligence Networks (HUMINT) Develop External Primary So...
 
Aurora WDC Jim Mathews Award 2015 - Instructions and Application
Aurora WDC Jim Mathews Award 2015 - Instructions and ApplicationAurora WDC Jim Mathews Award 2015 - Instructions and Application
Aurora WDC Jim Mathews Award 2015 - Instructions and Application
 
The True Value Of Customer Service
The True Value Of Customer ServiceThe True Value Of Customer Service
The True Value Of Customer Service
 

Similar to (Meta)data ve wikipedii a jak je dostat dovnitř a ven (Petr Kadlec)

Marie Balíková: Databáze věcných autorit
Marie Balíková: Databáze věcných autoritMarie Balíková: Databáze věcných autorit
Marie Balíková: Databáze věcných autoritÚISK FF UK
 
Linked data (nejen) v knihovnách
Linked data (nejen) v knihovnáchLinked data (nejen) v knihovnách
Linked data (nejen) v knihovnáchMilan Janíček
 
Linda Skolková: Citování on-line informačních zdrojů v praxi
Linda Skolková: Citování on-line informačních zdrojů v praxi Linda Skolková: Citování on-line informačních zdrojů v praxi
Linda Skolková: Citování on-line informačních zdrojů v praxi ÚISK FF UK
 
Chrome & Opera Extensions - GUG SPŠ Tábor
Chrome & Opera Extensions - GUG SPŠ TáborChrome & Opera Extensions - GUG SPŠ Tábor
Chrome & Opera Extensions - GUG SPŠ TáborRadek Simko
 
Ceska digitalni knihovna
Ceska digitalni knihovnaCeska digitalni knihovna
Ceska digitalni knihovnamartinlhotak
 
5. 3. O Digitalizace A Vedecke Digitalni Knihovny Martin Lhotak
5. 3. O Digitalizace A  Vedecke  Digitalni Knihovny  Martin Lhotak5. 3. O Digitalizace A  Vedecke  Digitalni Knihovny  Martin Lhotak
5. 3. O Digitalizace A Vedecke Digitalni Knihovny Martin LhotakKISK FF MU
 
Jiří Šilha - OPAC 2.0 v českých podmínkách
Jiří Šilha - OPAC 2.0 v českých podmínkáchJiří Šilha - OPAC 2.0 v českých podmínkách
Jiří Šilha - OPAC 2.0 v českých podmínkáchKISK FF MU
 

Similar to (Meta)data ve wikipedii a jak je dostat dovnitř a ven (Petr Kadlec) (12)

Web 2.0 - Beta
Web 2.0 - BetaWeb 2.0 - Beta
Web 2.0 - Beta
 
CDS Invenio v NTK (Jindřich Dolanský)
CDS Invenio v NTK (Jindřich Dolanský)CDS Invenio v NTK (Jindřich Dolanský)
CDS Invenio v NTK (Jindřich Dolanský)
 
Marie Balíková: Databáze věcných autorit
Marie Balíková: Databáze věcných autoritMarie Balíková: Databáze věcných autorit
Marie Balíková: Databáze věcných autorit
 
Linked data (nejen) v knihovnách
Linked data (nejen) v knihovnáchLinked data (nejen) v knihovnách
Linked data (nejen) v knihovnách
 
Linda Skolková: Citování on-line informačních zdrojů v praxi
Linda Skolková: Citování on-line informačních zdrojů v praxi Linda Skolková: Citování on-line informačních zdrojů v praxi
Linda Skolková: Citování on-line informačních zdrojů v praxi
 
COinS
COinS COinS
COinS
 
Chrome & Opera Extensions - GUG SPŠ Tábor
Chrome & Opera Extensions - GUG SPŠ TáborChrome & Opera Extensions - GUG SPŠ Tábor
Chrome & Opera Extensions - GUG SPŠ Tábor
 
Ceska digitalni knihovna
Ceska digitalni knihovnaCeska digitalni knihovna
Ceska digitalni knihovna
 
5. 3. O Digitalizace A Vedecke Digitalni Knihovny Martin Lhotak
5. 3. O Digitalizace A  Vedecke  Digitalni Knihovny  Martin Lhotak5. 3. O Digitalizace A  Vedecke  Digitalni Knihovny  Martin Lhotak
5. 3. O Digitalizace A Vedecke Digitalni Knihovny Martin Lhotak
 
Jiří Šilha - OPAC 2.0 v českých podmínkách
Jiří Šilha - OPAC 2.0 v českých podmínkáchJiří Šilha - OPAC 2.0 v českých podmínkách
Jiří Šilha - OPAC 2.0 v českých podmínkách
 
SAR System CZ
SAR System CZSAR System CZ
SAR System CZ
 
Miroslav Bartošek: Česká digitální matematická knihovna (Nominované projekty ...
Miroslav Bartošek: Česká digitální matematická knihovna (Nominované projekty ...Miroslav Bartošek: Česká digitální matematická knihovna (Nominované projekty ...
Miroslav Bartošek: Česká digitální matematická knihovna (Nominované projekty ...
 

More from Národní technická knihovna (NTK)

Overlooked Principles of Strategic Management of Research at a National Level...
Overlooked Principles of Strategic Management of Research at a National Level...Overlooked Principles of Strategic Management of Research at a National Level...
Overlooked Principles of Strategic Management of Research at a National Level...Národní technická knihovna (NTK)
 
Využití bibliometrických ukazatelů v řízení výzkumné instituce (Daniel Münich...
Využití bibliometrických ukazatelů v řízení výzkumné instituce (Daniel Münich...Využití bibliometrických ukazatelů v řízení výzkumné instituce (Daniel Münich...
Využití bibliometrických ukazatelů v řízení výzkumné instituce (Daniel Münich...Národní technická knihovna (NTK)
 
InCites: Practical Aspects and Effective Use (Evangelia A. E. C. Lipitakis, ...
InCites: Practical Aspects and Effective Use  (Evangelia A. E. C. Lipitakis, ...InCites: Practical Aspects and Effective Use  (Evangelia A. E. C. Lipitakis, ...
InCites: Practical Aspects and Effective Use (Evangelia A. E. C. Lipitakis, ...Národní technická knihovna (NTK)
 
Bibliometrie v Národní technické knihovně: metody, zkušenosti, mise a vize (J...
Bibliometrie v Národní technické knihovně: metody, zkušenosti, mise a vize (J...Bibliometrie v Národní technické knihovně: metody, zkušenosti, mise a vize (J...
Bibliometrie v Národní technické knihovně: metody, zkušenosti, mise a vize (J...Národní technická knihovna (NTK)
 
Význam indikátorů v institucionálním hodnocení a financování (Jitka Moravcová...
Význam indikátorů v institucionálním hodnocení a financování (Jitka Moravcová...Význam indikátorů v institucionálním hodnocení a financování (Jitka Moravcová...
Význam indikátorů v institucionálním hodnocení a financování (Jitka Moravcová...Národní technická knihovna (NTK)
 
Rešeršní služby v komerčním sektoru (Martin Mlčoch, nezávislý konzultant)
Rešeršní služby v komerčním sektoru (Martin Mlčoch, nezávislý konzultant)Rešeršní služby v komerčním sektoru (Martin Mlčoch, nezávislý konzultant)
Rešeršní služby v komerčním sektoru (Martin Mlčoch, nezávislý konzultant)Národní technická knihovna (NTK)
 
Speciální informační služby pro zdravotníky v Národní lékařské knihovně (Mgr....
Speciální informační služby pro zdravotníky v Národní lékařské knihovně (Mgr....Speciální informační služby pro zdravotníky v Národní lékařské knihovně (Mgr....
Speciální informační služby pro zdravotníky v Národní lékařské knihovně (Mgr....Národní technická knihovna (NTK)
 
Rešeršní služby v NK ČR (Mgr. Karolína Košťálová, NK ČR)
 Rešeršní služby v NK ČR (Mgr. Karolína Košťálová, NK ČR)  Rešeršní služby v NK ČR (Mgr. Karolína Košťálová, NK ČR)
Rešeršní služby v NK ČR (Mgr. Karolína Košťálová, NK ČR) Národní technická knihovna (NTK)
 
Model rešeršních služeb v NTK (Bc. Drahomíra Dvořáková, NTK)
 Model rešeršních služeb v NTK (Bc. Drahomíra Dvořáková, NTK)  Model rešeršních služeb v NTK (Bc. Drahomíra Dvořáková, NTK)
Model rešeršních služeb v NTK (Bc. Drahomíra Dvořáková, NTK) Národní technická knihovna (NTK)
 
Rešeršní služby Bibliografie dějin Českých zemí v Historickém ústavu AV ČR (M...
Rešeršní služby Bibliografie dějin Českých zemí v Historickém ústavu AV ČR (M...Rešeršní služby Bibliografie dějin Českých zemí v Historickém ústavu AV ČR (M...
Rešeršní služby Bibliografie dějin Českých zemí v Historickém ústavu AV ČR (M...Národní technická knihovna (NTK)
 
Co znamená, že Google o nás ví víc než my sami; aneb zaprodáme duši vyhledáva...
Co znamená, že Google o nás ví víc než my sami; aneb zaprodáme duši vyhledáva...Co znamená, že Google o nás ví víc než my sami; aneb zaprodáme duši vyhledáva...
Co znamená, že Google o nás ví víc než my sami; aneb zaprodáme duši vyhledáva...Národní technická knihovna (NTK)
 
Co se skrývá za vyhledáváním v katalogu NTK (Kristýna Busch, Eliška Veselá)
Co se skrývá za vyhledáváním v katalogu NTK (Kristýna Busch, Eliška Veselá)Co se skrývá za vyhledáváním v katalogu NTK (Kristýna Busch, Eliška Veselá)
Co se skrývá za vyhledáváním v katalogu NTK (Kristýna Busch, Eliška Veselá)Národní technická knihovna (NTK)
 

More from Národní technická knihovna (NTK) (20)

Overlooked Principles of Strategic Management of Research at a National Level...
Overlooked Principles of Strategic Management of Research at a National Level...Overlooked Principles of Strategic Management of Research at a National Level...
Overlooked Principles of Strategic Management of Research at a National Level...
 
Využití bibliometrických ukazatelů v řízení výzkumné instituce (Daniel Münich...
Využití bibliometrických ukazatelů v řízení výzkumné instituce (Daniel Münich...Využití bibliometrických ukazatelů v řízení výzkumné instituce (Daniel Münich...
Využití bibliometrických ukazatelů v řízení výzkumné instituce (Daniel Münich...
 
InCites: Practical Aspects and Effective Use (Evangelia A. E. C. Lipitakis, ...
InCites: Practical Aspects and Effective Use  (Evangelia A. E. C. Lipitakis, ...InCites: Practical Aspects and Effective Use  (Evangelia A. E. C. Lipitakis, ...
InCites: Practical Aspects and Effective Use (Evangelia A. E. C. Lipitakis, ...
 
Zkušenosti Knihovny Akademie věd ČR (Pavel Míka, AV ČR)
Zkušenosti Knihovny Akademie věd ČR (Pavel Míka, AV ČR)Zkušenosti Knihovny Akademie věd ČR (Pavel Míka, AV ČR)
Zkušenosti Knihovny Akademie věd ČR (Pavel Míka, AV ČR)
 
Bibliometrie v Národní technické knihovně: metody, zkušenosti, mise a vize (J...
Bibliometrie v Národní technické knihovně: metody, zkušenosti, mise a vize (J...Bibliometrie v Národní technické knihovně: metody, zkušenosti, mise a vize (J...
Bibliometrie v Národní technické knihovně: metody, zkušenosti, mise a vize (J...
 
Bibliometrie: přínosy, úskalí (Jiří Jirát, VŠCHT)
Bibliometrie: přínosy, úskalí (Jiří Jirát, VŠCHT)Bibliometrie: přínosy, úskalí (Jiří Jirát, VŠCHT)
Bibliometrie: přínosy, úskalí (Jiří Jirát, VŠCHT)
 
Význam indikátorů v institucionálním hodnocení a financování (Jitka Moravcová...
Význam indikátorů v institucionálním hodnocení a financování (Jitka Moravcová...Význam indikátorů v institucionálním hodnocení a financování (Jitka Moravcová...
Význam indikátorů v institucionálním hodnocení a financování (Jitka Moravcová...
 
Rozhraní VPK
Rozhraní VPKRozhraní VPK
Rozhraní VPK
 
Šmankote, co je to NUŠL? (aktualizovaná verze 2014)
Šmankote, co je to NUŠL? (aktualizovaná verze 2014)Šmankote, co je to NUŠL? (aktualizovaná verze 2014)
Šmankote, co je to NUŠL? (aktualizovaná verze 2014)
 
Rešeršní služby v komerčním sektoru (Martin Mlčoch, nezávislý konzultant)
Rešeršní služby v komerčním sektoru (Martin Mlčoch, nezávislý konzultant)Rešeršní služby v komerčním sektoru (Martin Mlčoch, nezávislý konzultant)
Rešeršní služby v komerčním sektoru (Martin Mlčoch, nezávislý konzultant)
 
Speciální informační služby pro zdravotníky v Národní lékařské knihovně (Mgr....
Speciální informační služby pro zdravotníky v Národní lékařské knihovně (Mgr....Speciální informační služby pro zdravotníky v Národní lékařské knihovně (Mgr....
Speciální informační služby pro zdravotníky v Národní lékařské knihovně (Mgr....
 
Rešeršní služby v NK ČR (Mgr. Karolína Košťálová, NK ČR)
 Rešeršní služby v NK ČR (Mgr. Karolína Košťálová, NK ČR)  Rešeršní služby v NK ČR (Mgr. Karolína Košťálová, NK ČR)
Rešeršní služby v NK ČR (Mgr. Karolína Košťálová, NK ČR)
 
Legislativní rámec rešerší (Mgr. Alena Pavelová, NTK)
Legislativní rámec rešerší (Mgr. Alena Pavelová, NTK) Legislativní rámec rešerší (Mgr. Alena Pavelová, NTK)
Legislativní rámec rešerší (Mgr. Alena Pavelová, NTK)
 
Model rešeršních služeb v NTK (Bc. Drahomíra Dvořáková, NTK)
 Model rešeršních služeb v NTK (Bc. Drahomíra Dvořáková, NTK)  Model rešeršních služeb v NTK (Bc. Drahomíra Dvořáková, NTK)
Model rešeršních služeb v NTK (Bc. Drahomíra Dvořáková, NTK)
 
Rešeršní služby Bibliografie dějin Českých zemí v Historickém ústavu AV ČR (M...
Rešeršní služby Bibliografie dějin Českých zemí v Historickém ústavu AV ČR (M...Rešeršní služby Bibliografie dějin Českých zemí v Historickém ústavu AV ČR (M...
Rešeršní služby Bibliografie dějin Českých zemí v Historickém ústavu AV ČR (M...
 
Novinky ve vyhledávání Seznam .cz (Otakar Smrž)
Novinky ve vyhledávání Seznam .cz (Otakar Smrž)Novinky ve vyhledávání Seznam .cz (Otakar Smrž)
Novinky ve vyhledávání Seznam .cz (Otakar Smrž)
 
Co znamená, že Google o nás ví víc než my sami; aneb zaprodáme duši vyhledáva...
Co znamená, že Google o nás ví víc než my sami; aneb zaprodáme duši vyhledáva...Co znamená, že Google o nás ví víc než my sami; aneb zaprodáme duši vyhledáva...
Co znamená, že Google o nás ví víc než my sami; aneb zaprodáme duši vyhledáva...
 
Vyhledávání hudbou: YouTube trochu jinak (Ondřej Voců)
Vyhledávání hudbou: YouTube trochu jinak (Ondřej Voců)Vyhledávání hudbou: YouTube trochu jinak (Ondřej Voců)
Vyhledávání hudbou: YouTube trochu jinak (Ondřej Voců)
 
Co se skrývá za vyhledáváním v katalogu NTK (Kristýna Busch, Eliška Veselá)
Co se skrývá za vyhledáváním v katalogu NTK (Kristýna Busch, Eliška Veselá)Co se skrývá za vyhledáváním v katalogu NTK (Kristýna Busch, Eliška Veselá)
Co se skrývá za vyhledáváním v katalogu NTK (Kristýna Busch, Eliška Veselá)
 
Kouzlo muzejní noci
Kouzlo muzejní nociKouzlo muzejní noci
Kouzlo muzejní noci
 

(Meta)data ve wikipedii a jak je dostat dovnitř a ven (Petr Kadlec)

  • 1. Petr Kadlec <petr.kadlec@gmail.com> Searching Session NTK 2010 NTK, 5. 10. 2010
  • 2. Obsah  Projekty Wikimedia Foundation  (Meta)data ve Wikipedii  Jak je dostat z Wikipedie  Konkrétní projekty a nástroje  Jak dostat (meta)data do Wikipedie (Meta)data ve Wikipedii a jak je dostat dovnitř a ven Petr Kadlec, Searching Session NTK 2010 2
  • 3. Projekty nadace Wikimedia  Wikipedie – encyklopedie (2001)  Wikislovník – slovník (2002)  Wikicitáty – sbírka citátů (2003)  Wikiknihy – manuály apod. (2003)  Wikizdroje – původní texty (2003)  Wikimedia Commons – soubory (2004)  Wikizprávy – zpravodajství (2004)  Wikiverzita – výukové materiály (2006) (Meta)data ve Wikipedii a jak je dostat dovnitř a ven Petr Kadlec, Searching Session NTK 2010 3
  • 4. MediaWiki  Všechny projekty běží na MediaWiki  „wiki-engine“ v PHP, MySQL  Všechno open-source  http://www.mediawiki.org/wiki/MediaWiki/cs  „Wikisyntaxe“ –formátovací jazyk  '''Tučné''', [http://example.cz Link], [[Odkaz]]  Technika vespod ovlivňuje, co a jak snadno se dá z Wikipedie dostat (Meta)data ve Wikipedii a jak je dostat dovnitř a ven Petr Kadlec, Searching Session NTK 2010 4
  • 5. Autorskoprávní vložka  Chcete využívat data z Wikipedie?  Můžete!  Veškerý textový obsah pod CC-BY-SA 3.0  Jen uvádějte odkaz na původní článek na Wikipedii a zachovejte licenci.  Obrázky můžete šířit taky, konkrétní svobodná licence uvedena na stránce obrázku. (Meta)data ve Wikipedii a jak je dostat dovnitř a ven Petr Kadlec, Searching Session NTK 2010 5
  • 6. (Meta)data ve Wikipedii  Jak všichni víme, ve Wikipedii je spousta potenciálně zajímavých věcí (Meta)data ve Wikipedii a jak je dostat dovnitř a ven Petr Kadlec, Searching Session NTK 2010 6
  • 7. (Meta)data ve Wikipedii a jak je dostat dovnitř a ven Petr Kadlec, Searching Session NTK 2010 7
  • 8. (Meta)data ve Wikipedii  Encyklopedický text  „Infoboxy“ – přehledové tabulky se základními údaji  Zeměpisné souřadnice  Bibliografické citace  Odkazy na cizojazyčné ekvivalenty  Atd. atd. (Meta)data ve Wikipedii a jak je dostat dovnitř a ven Petr Kadlec, Searching Session NTK 2010 8
  • 9. Jak je dostat z Wikipedie  Některá lépe, některá hůře.  Základ wiki tvoří nestrukturovaný chaos.  Možnosti však jsou…  Dvě otázky:  Přístup k datům  Formát dat (Meta)data ve Wikipedii a jak je dostat dovnitř a ven Petr Kadlec, Searching Session NTK 2010 9
  • 10. Přístup k datům  Toolserver  Replikovaná SQL databáze  XML dumpy  Stažitelný mirror Wikipedie  SQL dumpy  Některé zajímavé tabulky  MW API  … a HTML screenscraping (Meta)data ve Wikipedii a jak je dostat dovnitř a ven Petr Kadlec, Searching Session NTK 2010 10
  • 11. Toolserver  Serverová farma provozovaná WM DE  Přístup víceméně komukoli na žádost  MySQL s replikovanými daty WM  Tudíž přímý SQL přístup  Ideální pro agregační dotazy, statistiky, při potřebě co nejaktuálnějších dat  https://wiki.toolserver.org/view/Hlavní_strana (Meta)data ve Wikipedii a jak je dostat dovnitř a ven Petr Kadlec, Searching Session NTK 2010 11
  • 12. XML dumpy  Projekty WMF jsou pod svobodnou licencí, právo na fork ⇒ data k dispozici  Úplné XML dumpy obsahu lze stáhnout  XML soubory obsahující texty článků  Stále ve wikisyntaxi, bez vazeb atd.  Celý dump včetně historie je gigantický  cswiki ~0,5 GB@7z, dewiki ~7,7 GB@7z  (bez obrázků) (Meta)data ve Wikipedii a jak je dostat dovnitř a ven Petr Kadlec, Searching Session NTK 2010 12
  • 13. XML dumpy (2)  Ideální, pokud chcete spustit mirror  Analýza je nad tím trochu složitější  Jediným parserem wikitextu je MediaWiki  Ale je to kompletní Wikipedie včetně celé historie  Kromě smazaných článků a soukromých dat  Ideální pro zkoumání vývoje v čase  http://download.wikimedia.org (Meta)data ve Wikipedii a jak je dostat dovnitř a ven Petr Kadlec, Searching Session NTK 2010 13
  • 14. SQL dumpy  Doplněk k XML dumpům  V podstatě historický pozůstatek  Zjednodušuje některou práci  Metadata z databázových tabulek  Odkazy, kategorizace atp.  Struktura vázána na MediaWiki  http://download.wikimedia.org (Meta)data ve Wikipedii a jak je dostat dovnitř a ven Petr Kadlec, Searching Session NTK 2010 14
  • 15. MediaWiki API  REST (HTTP)  Různé formáty (JSON, XML, …)  Dotazy na metadata  Zajímavá schopnost: render  Výkon? Přetěžování serverů WMF?  http://cs.wikipedia.org/w/api.php (Meta)data ve Wikipedii a jak je dostat dovnitř a ven Petr Kadlec, Searching Session NTK 2010 15
  • 16. HTML screenscraping  Fůůůj…  Nespolehlivé, nikdo nezaručí stabilitu  Pro spoustu věcí jediná možnost  Alespoň mikroformáty?  …ještě se k tomu vrátíme (Meta)data ve Wikipedii a jak je dostat dovnitř a ven Petr Kadlec, Searching Session NTK 2010 16
  • 17. Konkrétní příklady  Základní biografická data  Řekněme… data narození a úmrtí (Meta)data ve Wikipedii a jak je dostat dovnitř a ven Petr Kadlec, Searching Session NTK 2010 17
  • 18. (Meta)data ve Wikipedii a jak je dostat dovnitř a ven Petr Kadlec, Searching Session NTK 2010 18
  • 19. Data narození a úmrtí  PHP skript na toolserveru  Data zjišťuje pomocí kategorií  Kategorie:Narození 1234  Kategorie:Úmrtí 1234  Co kdybychom chtěli dny v roce?  …bylo by to těžší. (Meta)data ve Wikipedii a jak je dostat dovnitř a ven Petr Kadlec, Searching Session NTK 2010 19
  • 20. Externí odkazy  Tabulka externích odkazů  Dostupná na toolserveru  Dostupná přes API  Dostupná v SQL dumpech  http://wpcz.org/Special:Linksearch/*.techlib.cz  http://cs.wikipedia.org/w/api.php?action=query& list=exturlusage&euquery=*.techlib.cz (Meta)data ve Wikipedii a jak je dostat dovnitř a ven Petr Kadlec, Searching Session NTK 2010 20
  • 21. Mezijazykové odkazy  Použití jako slovník?  Základ slovníku? → Wikislovník!  Opět: tabulka v MediaWiki  Dostupné přes API, na toolserveru, z dumpů  http://cs.wikipedia.org/w/api.php?action=query& prop=langlinks&titles=Pes&lllimit=200&redirects (Meta)data ve Wikipedii a jak je dostat dovnitř a ven Petr Kadlec, Searching Session NTK 2010 21
  • 22. A co infoboxy?  Nejzajímavější, nejtěžší.  Momentálně dvě možnosti:  Parsovat wikitext.  Parsovat HTML.  Wikitext  Sice šablony, ale syntaxe stejně neexistuje  HTML  Nestrukturovaný binec (Meta)data ve Wikipedii a jak je dostat dovnitř a ven Petr Kadlec, Searching Session NTK 2010 22
  • 23. Je potřeba cílené úsilí  Díky šablonám občas jde nějaká užitečná data připravit ve strojově čitelném formátu  Buď nějak využít datového modelu MediaWiki  Kategorie, externí odkazy, …  Nebo do výstupního HTML  Mikroformáty (Meta)data ve Wikipedii a jak je dostat dovnitř a ven Petr Kadlec, Searching Session NTK 2010 23
  • 24. Cílené úsilí  Autority NK ČR  Vkládání identifikátoru autoritního záznamu do článků (Meta)data ve Wikipedii a jak je dostat dovnitř a ven Petr Kadlec, Searching Session NTK 2010 24
  • 25. aut.nkp.cz cs.wikipedia.org (Meta)data ve Wikipedii a jak je dostat dovnitř a ven Petr Kadlec, Searching Session NTK 2010 25
  • 26. Vazby na autority NK ČR  Šablona vkládaná (ručně) do článků  Skrytá kategorie  Dotaz přes MediaWiki API  Vlepeno JavaScriptem do Alephu  (Chcete taky?)  Momentálně svázáno přes 6 700 článků (Meta)data ve Wikipedii a jak je dostat dovnitř a ven Petr Kadlec, Searching Session NTK 2010 26
  • 27. Cílené úsilí (2)  Zeměpisné souřadnice  Do článků patří tak jako tak  Dají se z nich nějak dostat?  Momentálně těžko, ale jde to  Na anglické Wikipedii mikroformáty, u nás momentálně ne  http://maps.google.com/maps?lci=org.wikipedia.cs (Meta)data ve Wikipedii a jak je dostat dovnitř a ven Petr Kadlec, Searching Session NTK 2010 27
  • 28. Cílené úsilí (3)  Bibliografické citace  Vložení COinS  Úprava citačních šablon (Meta)data ve Wikipedii a jak je dostat dovnitř a ven Petr Kadlec, Searching Session NTK 2010 28
  • 29. Cílené úsilí – a co vy?  Máte nějaká data?  Chcete nějaká data?  Nápady na užitečné mikroformáty?  Pokud to bude možné a užitečné, dá se to zařídit!  Ozvěte se! (Meta)data ve Wikipedii a jak je dostat dovnitř a ven Petr Kadlec, Searching Session NTK 2010 29
  • 30. Díky za pozornost!  petr.kadlec@gmail.com  http://cs.wikipedia.org/wiki/User:Mormegil  http://wikimedia.cz/ (Meta)data ve Wikipedii a jak je dostat dovnitř a ven Petr Kadlec, Searching Session NTK 2010 30