O slideshow foi denunciado.
Utilizamos seu perfil e dados de atividades no LinkedIn para personalizar e exibir anúncios mais relevantes. Altere suas preferências de anúncios quando desejar.

Webarchiv

Úvodní prezentace o českém webovém archivu

Livros relacionados

Gratuito durante 30 dias do Scribd

Ver tudo
  • Seja o primeiro a comentar

  • Seja a primeira pessoa a gostar disto

Webarchiv

  1. 1. Webarchiv Český webový archiv, více
  2. 2. Historie Webarchivu • 2000 - začátek (jako projekt NK ČR, MZK a MU ČR) • 2001 - první archivované webové stránky • 2005 - pravidelné sklízení obsahu • 2007 - vstup do IIPC
  3. 3. Profil archivu • stáří archivu: 3. 9. 2001 • ~ 350 TB • narůst: 30 - 50 TB / rok • hloubka sklízení: 5000 - 15 000 objektů/doména
  4. 4. Základní typologie akvizice celoplošné sklízení kvantita > kvalita výběrové sklízení kvalita > kvantita
  5. 5. Celoplošné sklízení Všechny webové stránky zveřejněné na .cz doméně • Semínka nevybírají kurátoři • Důraz na kvantitu -> co nejvíc, co nejrychleji a hlavně automatizovaně • smlouva s CZ.NIC • dvakrát za rok sklizeň celé .cz domény • menší hloubka, časově a objemově náročné
  6. 6. Výběrové sklízení Výběrová sklizeň pokrývá pouze vybrané zdroje, ale na rozdíl od celoplošných sklizní je kladen důraz na zachycení zdroje a jeho změn v celém rozsahu. • Semínka připravují kurátoři • Důraz na kvalitu: obsahovou, technickou (QA) • na základě tématu, události • katalogizace zdrojů se souhlasem
  7. 7. Tematické kolekce Tematické kolekce jsou sbírky archivovaných zdrojů vztahující se k určitému tématu nebo události. • Mohou být vytvářeny za účelem: • zachycení událostí, které mají širší ohlas v prostředí internetu • archivace konkrétního tématu, oboru nebo významné historické události • Něco mezi celoplošnou a výběrovou sklizní 

  8. 8. Social media • všichni chtějí, ale nikdo to pořádně neumí = problém • individuální nastavení pro každou službu • technicky náročné • podobná situace i pro digitální knihovny, databáze atd.
  9. 9. • robot.txt nerespektujeme • velké dilema pro webové archivy • rozhodnutí má zásadní dopady na profil archivu • “V současnosti standardně soubory robots.txt nezohledňujeme, jelikož věříme, že historie webu by se měla uchovat v takové podobě, v jaké ho vidí lidé a ne vyhledávače.”
  10. 10. Legislativa • “povinný výtisk” - zatím neexistuje pro webové zdroje • Autorský zákon - můžeme vytvářet kopie pro archivní účely na základě knihovní licence (ne zpřístupňovat) • online přístup - na základě smluv s vydavateli nebo Creative Commons licence
  11. 11. • méně než 1 % zdrojů zpřístupněných online • celý archiv dostupný pouze v NK ČR • Bude to lepší v budoucnu? Ne. • terminály v dalších knihovnách? • metadata
  12. 12. Designated community • koncový uživatelé, kteří by měli být schopni porozumět konkrétní množině informací (OAIS) • definice uživatelů určuje obsah i jeho formu 1. individuální uživatelé 2. institucionální uživatelé 3. výzkumníci a vědci
  13. 13. Badatelé • badatelé nevědí co chtějí • většinou chtějí přístup ke všemu • většinou nepotřebují přístup ke všemu badatelé nepotřebují velké datasety, ale flexibilní delivery service
  14. 14. w w w w w w Děkuji za pozornost! Mgr. Jaroslav Kvasnica jaroslav.kvasnica@nkp.cz www.webarchiv.cz facebook.com/webarchivcz

×