[1] O documento discute modelos e práticas de curadoria digital, disseminação e interpretação de acervos memoriais.
[2] Apresenta objetivos do curso como compartilhar informações sobre metodologias e tecnologias para facilitar acesso aos acervos.
[3] Discutem conceitos como humanidades digitais, digitalização, metadados e padrões para descrição de objetos digitais.
1. Curadoria Digital:
Modelos e prática de gestão,
disseminação e interpretação de
acervos memoriais
Aquiles Alencar Brayner
@aquilesbrayner
Email: abrayner@yahoo.com
Fundação Casa de Rui Barbosa
22 e 24 de novembro, 2017
3. www.bl.uk 3
Objetivos do curso
• Compartilhar informação sobre metodologias e tecnologias
para facilitar o acesso e re-uso dos nossos acervos
• Refletir, a partir de experiências e projetos de outras
instituições, do que pode ser adaptado ao nosso contexto
institucional
• Gerar idéias em torno da apresentação, disponibilização e
interpretação de conteúdos digitais
• Maximizar o conhecimento e interpretação dos nossos
acervos
• Repensar a nossa profissão e missão institucional no
panorama do mundo digital
5. www.bl.uk 5
A Revolução Digital
• “Quando as ideias são
separadas dos meios utilizados
para sua transmissão, elas
ficam também separadas das
circunstâncias históricas que as
moldam, tornando-se difícil
entender o contexto de
mudança em que estas ideias
devem ser entendidas“ (Elizabeth
Eisenstein, The Printing Press as an Agent
of Change. Cambridge: CUP, 1979)
6. www.bl.uk 6
Formato x informação
Homoliteratus.com
La grand danse macabre…[Mathias
Huss, Lyon, 1499]
Quipu - Inca
7. www.bl.uk 7
Humanidades Digitais: gênese
• 1949: A colaboração entre Thomas Watson,
fundador da IBM, e Padre Roberto Busa
inaugurou uma nova era de pesquisa em
humanidades. O resultado, o Índice Thomisticus,
está disponível on-line desde 2005.
• O projeto utilizou processos algorítmos para
análise linguística, a fim de produzir um índice de
9 milhões de palavras em latim medieval das
obras completas de São Tomás de Aquino.
• Na época, ninguém pensava que computadores
concebidos para cálculos numéricos pudessem
ser usados para o estudo de textos escritos e
concordâncias lingüísticas.
8. www.bl.uk 8
Humanidades Digitais: uma breve
introdução
• A produção, utilização e integração de
conteúdos, serviços e ferramentas
digitais para facilitar a pesquisa nas
areas das humanidades e ciências
sociais.
• Durante as últimas décadas, bibliotecas e
arquivos têm se dedicado à produção e
coleta de objetos digitais. A tecnologia
atual nos permite muito mais do que
apenas descobrir ou acessar esses
objetos nos possibilitando o uso de
novas ferramentas que nos leve a
novas descobertas a partir de uma
nova compreensão do material
analisado.
Anuario Americanista Europeo, 2014
9. www.bl.uk 9
Novos métodos de pesquisa
digital
Uso de APIs (Application Programming Interfaces) para integrar base
de dados, ex: metadados, imagens, etc.
Buscas baseadas em locação geográfica
Mineração de texto
Crowdsourcing /
Computação humana
Anotação
Processamento em
Linguagem Natural
(NLP)
Visualização de dados
Geo-referenciamento
10. www.bl.uk 10
Panorama das Humanidades Digitais hoje
• Número cada vez mais amplo de centros de pesquisa em
humanidades digitais, muitos operando como espaço de
laboratórios – principalmente na Europa e EUA
• Center.Net
• Aliança das Organizações em Humanidades Digitais
• América Latina:
México: Humanidades Digitales
Argentina: AADH
Brasil: CPDOC
HD.br
Mais informações: Anuario Americanista Europeo
13. www.bl.uk 13
Desafio: como selecionar, armazenar,
classificar e analisar as informações no
universo digital?
• Qual a quantidade de dados
gerados em 1 dia?
1. Twitter: 7 TB
2. Facebook: 10 TB
• Até 2020 teremos
aproximadamente 35 ZB (1.1
trilhão GB) de dados digitais
disponiveis
14. www.bl.uk 14
Missão das instituições de memória
cultural no século XXI
• Selecionar, capturar, descrever e preservar objetos digitais
oferecendo novos sistemas de busca e plataformas de
acesso a estes objetos
• Promover seus acervos entre diferentes tipos de usuários
• Proporcionar a integração de distintos formatos eletrônicos
e criação de ferramentas que facilitem o acesso e análise
de conteúdos digitais
• Participação ativa nos projetos de pesquisa digital
gerenciando as atividades e disseminação de resultados
obtidos
• Instituições como “laboratórios” de novas idéias e modelos
em pesquisa digital
• Atuar como centro de capacitação para pesquisadores e
profissionais envolvidos no manejamento de recursos e
dados eletrônicos
15. www.bl.uk 15
Curadoria Digital: as regras dos 10 “in"
1.Integridade: acesso ao objeto digital
na maneira em que ele foi criado
2.Integração: diferentes conteúdos e
formatos acessíveis apartir de uma
mesma plataforma
3.Interoperabilidade: compatibilidade
entre diferentes plataformas e
sistemas operacionais
4.Instantaneidade: acesso irrestrito e
imediato aos objetos eletrônicos
5.Interação: catálogos interativos
incorporando elementos de Web 2.0
(blogs, wikis, tags) e mídia social
6.Informação: planificação de
metadados para maior eficiencia e
confiabilidade nos resultados de
busca
7.Incorporação de conteúdos:
constante inclusão de objetos digitais
8. Interpretação: objeto digital
contextualizado em relação a outros
itens equivalentes em vários acervos
9. Inovação: apresentação do material em
plataformas inovativas
10.Acesso Indefinido: objetos digitais
preservados para futura gerações
16. www.bl.uk 16
Curadoria Digital (DCC)
• A Curadoria Digital involve a
manutenção, preservação e
agregação de valor aos objetos
digitais em toda sua vida útil.
http://www.dcc.ac.uk/digital-
curation/what-digital-curation
17. www.bl.uk 17
Curadoria Digital
Facilitar acesso
remoto ao acervo
Possibilitar a criação
de novos recursos e
reutilização de dados
digitais por usuários
Desenvolvimento de
novos modelos e
metodologias de trabalho
com pesquisadores
Programas de formação e
treinamento em novas
tecnologias e seu uso em
pesquisa
18. www.bl.uk 18
Pesquisa e curadoria digital
• Adoção de novas estratégias e modelos operacionais que facilitem a pesquisa
digital
• Desenvolvimento de projetos innovadores que explorem ouso dos conteúdos
digitais em instituições de memória cultural no contexto das novas tecnologias
• Formação e gestão profissional naárea de pesquisa digital para pesquisadores
e profissionais da informação
• Disseminação de serviços e acervos digitais para diferentes tipos de usuarios
• Gerenciamento de projetos na área de Humanidades Digitais
• Participacão em seminarios, conferencias e publicação de trabalhos
acadêmicos
• Programas de pós-graduação com universidades
21. www.bl.uk 21
Vantagens
• Ampliar acesso e uso de acervos em arquivos e bibliotecas para
pesquisadores, estudantes e público em geral
• Criar uma massa crítica de conteúdo digitalizado através da agregação de
coleções semelhantes espalhadas em instituições distintas
• Enriquecer a descrição dos acervos
• Facilitar a interpretação de acervos para novos usuários
• Fomentar novas áreas e modelos de pesquisa
• Estabelecer métodos inovadores de apoio para pesquisa, ensino e
aprendizagem
• Preservar documentos raros e frágeis através de sua reprodução digital,
protegendo documentos vulneráveis
23. www.bl.uk 23
Considerações
• Publico
• Orçamento
• Objetivos
• Como nos certificar que o
conteúdo digitalizado
represente proporcionalmente
objetos em outros formatos
nos nossos arcervos?
24. www.bl.uk 24
Modelo Ciclo de Vida Objetos digitais
Ações completas ou essenciais:
1. Descrição e representação da
informação
2. Plano de preservação
3. Observação e participação da
comunidade de usuários
Ações sequenciais:
1. Conceitualização
2. Criação ou coleta
3. Avaliação e seleção
4. Ingestão
5. Ação de preservação
6. Arquivo
7. Acesso, uso e reutilizaçào
8. Transformação
Ações ocasionais:
1. Descarte
2. Reavaliação
https://curadoriadigitalblog.wordpress.com/2015/11/13/ciclo-de-vida-da-curadoria-digital/
25. www.bl.uk 25
Modelo de referência OAIS
THOMAZ, Katia P.; SOARES, Antonio José. A preservação digital
e o modelo de referência Open Archival Information System
(OAIS).Datagramazero, v. 5, n. 1, fev. 2004. Disponível
em:<http://www.dgz.org.br/fe-v04/F_I_art.htm>. Acesso em: 10
jan. 2016.
Funções:
1. Inserção / Ingestão
2. Armazenamento
3. Gerenciamento de dados
4. Administração
5. Acesso
6. Planejamento da Preservação
Pacotes de submissão:
1. Pacote de Submissão de Informação
(PSI): Objeto digital + metadados
descritivos e técnicos
2. Pacote de Arquivamento da informação
(PAI): dados de conteúdo do objeto
(informação de referência +
proveniência + contexto + fixação:
check sum, integridade e autenticidade)
+ dados de preservação +
representação da informação)
3. Pacote de disseminação da informação
(PDI): dados de conteudo do objeto +
metadados de sistemas de suporte para
acesso e reutilização do objeto
26. www.bl.uk 26
Modelo British Library
From Originals
Black-and-white photographs 8-bit greyscale, resolution dependant on size of original likely
to be in the range 300 – 1200ppi. It may be appropriate to
capture as 24-bit RGB depending on image tone.
Colour photographs 24-bit RGB, resolution dependant on size of original likely to
be in the range 300 – 1200ppi.
Slides or small negatives 8-bit greyscale or 24-bit RGB, effective resolution of 300 ppi
relative to the size of the original
Printed texts 8-bit greyscale, 400 ppi
Printed texts with half-tone, and other black-
and-white illustrations
8-bit greyscale, 400 ppi, 24-bit RGB may be considered
depending on characteristic of material
Printed texts with colour illustrated 24-bit RGB, 400 ppi
Manuscripts, maps and other materials 300 ppi, 8-bit greyscale or 24-bit RGB. Spatial resolution can
be adjusted to 400 ppi and greater where significant
elements to be captured are less than 1.5mm
From Surrogates
Microfilm Effective resolution of 300 ppi, 8-bit greyscale, relative to the
size of the original and the reduction ratio used in the
microfilming.
28. www.bl.uk 28
Critérios na digitalização: exemplos
• Imagem Multispectral: Consiste em
imagens de um mesmo objeto, tomadas
com diferentes comprimentos de ondas
eletromagnéticas. Pode ser luz visível,
infravermelha, ultravioleta, raio-X ou
qualquer outra faixa do espectro.
Diários de David Livingstone:
http://bit.ly/2vM1env
• Digitalização Tridimensional:
http://bit.ly/2tFUcQ5
https://skfb.ly/KGNq
• Imagem de ressonância magnética
Pergaminhos herculanos
30. www.bl.uk 30
Alternativas experimentais
• Pesquisa levantada pela BL aponta
que maioria do material digitalizado
não é de interesse direto à pesquisa
individual
• Uso de aparelhos de reprodução
fotográfica nas salas de leitura
• Relatório OCLC
31. www.bl.uk 31
Considerações: exemplo
• Como utilizar tecnologias existentes para maximizar o
acesso e reuso dos nossos acervos eletrônicos entre
diferentes públicos?
• British Library:
– Pinterest: https://www.pinterest.co.uk/britishlibrary/
– Soundcloud: https://soundcloud.com/the-british-library/the-voice-of-
oscar-wilde-the-ballad-of-reading-gaol
– Wikimedia Commons:
https://commons.wikimedia.org/wiki/Category:British_Library
– Flickr: https://www.flickr.com/photos/britishlibrary/
32. www.bl.uk 32
Referências
• Impact: https://www.digitisation.eu/new-impact-website/
• Open Archival Information Stystem (OAIS):
http://www.oclc.org/research/publications/library/2000/lavoi
e-oais.html
• Digital Curation Centre (DCC): http://www.dcc.ac.uk/
• Tesseract (programa de OCRização de imagens com
texto): http://tesseract.projectnaptha.com/ e
http://bit.ly/2hbDExx
34. www.bl.uk 34
Metadados
• Objetos digitais não existem sem metadados.
• Metadados devem ser criados antes mesmo
do processo de digitalização para sabermos
o que temos, onde se encontra, como
apresentar os objetos, etc.
• Em um projeto de digitalização 50% do
tempo é dedicado à catalogação e criação de
metadados
• Padrões ou esquemas pré-estabelecidos de
metadados devem ser utilizados para
facilitar consistência, precisão, busca,
interoperabilidade e reutilização dos objetos
digitais
36. www.bl.uk 36
Padrões de Metadados
Objetos Visuais:
• Categorias para a Descrição de Obras de Arte (CDWA)
http://www.getty.edu/research/conducting_research/standards/cdwa/index.html
• Categorias do Núcleo VRA version 3.0
http://www.vraweb.org/vracore3.htm
Dados geoespaciais:
• Padrão de conteúdo para metadados Geoespaciais Digitais (CSDGM)
http://www.fgdc.gov/metadata/contstan.html
Educação:
• Learning Object Metadata (LOM) http://ltsc.ieee.org/wg12/index.html
Som e imagens:
• http://www.chiariglione.org/mpeg/standards/mpeg-7/mpeg-7.htm
37. www.bl.uk 37
OCR (Optical Caracter Recognition)
• Reconhecimento Óptico de Caracteres, ou OCR, é o
processo de extração eletrônica de textos a partir de
imagens, para várias finalidades como edição de
documentos, pesquisas de texto livre, mineração de textos,
extração de entidades, etc.
• Software mais comumente usado na extração de OCR:
Tesseract
38. www.bl.uk 38
Direitos
• Creative Commons:
Comunidade de atribuição de direitos
dentro da realidade do mundo digital
Atribuições:
1. Direitos autorais
2. Acesso e disseminação
3. Condições de uso e reutilização
39. www.bl.uk 39
Modelos de licenças e atribuições
• Creative Commons
• British Library (Manuscritos)
• British Library (Coleções)
• Europeana EDM
(http://bit.ly/2iokzWW)
41. www.bl.uk 41
Plataformas que facilitem o trabalho com
arquivos digitalizados
1. Codex Sinaiticus – Plataforma
colaborativa
2. Casebooks project – identificação de
informação em documentos
3. TITL (Text to Image Linking Tool)
– transcrição e identificação
automatizadas
4. The Archaeology of Reading –
identificação de marginália em textos
impressos
5. The Chymistry of Isaac Newton
42. www.bl.uk 42
Transcrição
• Transcriptorium Reconhecimento
automático de textos manuscritos – HTR
• Digipal Base de dados para paleógrafos
• Transcribing Bentham Projeto de
participação pública (crowdsourcing) para
transcrição de manuscritos
• The Book of Margery Kempe
Projeto de transcrição incluindo anotações
feitas no manuscrito original
43. www.bl.uk 43
Transcrição, reconstrução e visualização
de dados
• Escravidão, Abolição e Pós-Abolição
Transcrição e controle de qualidade de
dados
• Projeto Old Weather reconstrução de
dados sobre o tempo a partir de
relatórios de viagens, aventureiros,
etc. https://www.oldweather.org/
• Stanford Spatial History: vários
exemplos de análise e visualização de
dados históricos e literários
• Old Bailey: base de dados sentenças
judiciais na Inglaterra entre 1676 e
1772 https://www.oldbaileyonline.org/
44. www.bl.uk 44
Projetos de enfoques comunitários
(crowdsourcing) para a construção de acervos
• Projeto Quipu: coleta de depoimentos sobre
esterilização massiva, muitas vezes não
consensual, de peruanos no período do governo
Fujimori (anos 90) https://interactive.quipu-
project.com/#/en/quipu/intro
• Cantos Cautivos: experiências de presos
políticos na época de Pinochet refletidas através da
música
• Europeana 1914-18: participação pública na
digitalização de acervos pessoais, enriquecendo as
coleções institucionais sobre a Primeira Guerra
Mundial
• Plataforma abertas de crowdsourcing:
Zooniverse
46. www.bl.uk 46
Apresentação interpretativa
• Museu do Mundo (British Museum e
Google)
• História da Mente (Wellcome
Collection)
• Electronic Beowulf (Universidade de
Kentucky e BL)
49. www.bl.uk 49
Explorando as estantes
• Projeto parte do BL Lab com o objetivo de oferecer
métodos alternativos de acesso a coleções digitais para o
público em geral, permitindo aos usuários navegar
através de volumes na maneira em que estes se
encontram fisicamente organizados.
• http://ir.computing.edgehill.ac.uk/apps/explore-the-stacks
51. www.bl.uk 51
Realidade aumentada
• Mundo real perecebido
através de telas que
adicionam dados
complementares aos
objetos, pessoas, etc.
• Informação (dados,
imagens 3D, fotografias,
etc) é sobreposta àquilo que
se vê em tempo real.
52. www.bl.uk 52
Tags (marcadores)
• Utilização de palavras ou frases para
descrever e/ou classificar objetos
• Modelo de Folksonomia
• Por meio das tags, o usuário pode
então recuperar informações e
compartilhá-las. Pode visualizar as
tags de outros usuários, assim como
identificar o grau de popularidade de
cada tag no sistema, e acessar as
informações relacionadas a uma tag
específica.
Explore.bl.uk
53. www.bl.uk 53
Tagueamento
• BBC World Service Radio Archive (tag de audio)
• sift.pic (tag de fotografias - Estônia)
• Rijksmuseum – Acccurator (exemplo de tageamento para
artes visuais)
• Snapshot Serengeti https://www.snapshotserengeti.org/
(identificação de animais)
• The US National Archives ‘Citizen Archivist’ dashboard
https://www.archives.gov/citizen-archivist
54. www.bl.uk 54
Catálogos eletrônicos
• Comportamento informacional na era
eletrônica gerou novos modelos de
encontrar informação (ao invés de
simplesmente buscá-la)
• Catálogos em instituições de memória
cultura têm de adaptar a este novo
contexto
• Modelos das mídias sociais vêm sendo
utilizados para ampliar as possibilidades
de acesso à informação, ex:
http://westportlibrary.org/
55. www.bl.uk 55
Catalogação: uso do crowdsourcing
• Ficheiro de publicações chinesas
• Objetivo: retro-conversão de 48.000 titulos chineses
utilizando a plataforma Libcrowds com resgate de
metadados disponíveis na OCLC integrando-os ao
catálogo da BL: http://www.libcrowds.com/
59. www.bl.uk 59
Novos modelos de busca
• Busca de informação através de
imagens
ex: Google
Sugestões de lnformação
Ex: Amazon
Tecnologias de voz a texto ou
reconhecimento de áudio
Ex: Shazam, Google voice, etc.
60. www.bl.uk 60
Compartilhamentos de Metadados
• Facilitar descoberta de conteúdos
• Compartilhamento gerando maior visibilidade
de acervos
1. Europeana
https://www.europeana.eu/portal/pt
2. Biblioteca Digital da América
https://dp.la/
3. World Digital Library
4. WorldCat
Part of grant – sample images and lists within first three months of being awarded the grant. Guidelines on the EAP website on what to consider purchasing, guidelines copying, guidelines for Excel spreadsheet lists, and a Template.
Guidelines
Standards for digital images
General points
Preservation copies must not be enhanced or modified. This includes cropping or colour corrections.
Each page must be copied on its own.
Weights or Melinex sheets may be needed to flatten documents. Fingers or pencils should not be used to hold down a page.
A colour checker and ruler must be included on every page. You must ensure there is sufficient space between the item being digitised and the checker/ruler, both to allow for the edge of the item to be fully captured and for any cropping that may be required in the future.
The entire page should be included; the edge of the paper must not be cropped out of view. If you are photographing a bound volume, the margin should be included.
Minimum digital file standards
The images must be uncompressed TIFF files; you may need to convert uncompressed RAW files to TIFF. JPEG files are not suitable.
The file size should be roughly 30MB at A4 size
The minimum resolution and colour quality are as follows:
Capture standards
This image includes a ruler and colour checker
There is ample space between the ruler/colour checker and document.
There is no distortion of the item because it was take directly overhead.
The characters are clear and in focus; the edges of the page are sharply defined.
There is a plain underlay that contrasts with the item being photographed.
EAP Curator’s Role
All aspects of collection management of the surrogate copies of collections preserved under the Endangered Archives Programme within the BL.
Offering advice to recipients of research grants re: professional issues relating to collection management including digital copying of archival material
Preparation of text relating to surrogate collections and archival threats, etc. for the EAP web-pages
To check the quality of project outputs created by the projects and provide advice as needed – sample images and lists sent within first three months of being awarded the grant or ideally once they start digitising.
L-R Top row
EAP031 The Treasures of Danzan Ravjaa , Dorngobi, Mongolia, Mr Namgar photographing the manuscripts digital photographs of a rare privately-owned cache of Mongolian and Tibetan manuscripts that were spared from the communist repression and recently unearthed from caves in the Outer Mongolian province of Dorngobi. (2005)
EAP039: Digital documentation of manuscript collection in Gangtey, Bhutan (2005)
EAP373: Documenting, conserving and archiving the Tai Ahom manuscripts of Assam (awarded 2010 – ongoing)
Bottom row
EAP372 Preserving early periodicals and newspapers of Tamilnadu and Pondichery (awarded 2010 – ongoing)
EAP089: Reconstruction of sound materials of endangered languages in the Russian Federation for sound archives in Saint Petersburg (2006 – completely catalogued)
(EAP608: Syliphone Graeme Council)
EAP584: Preserving memory II - documentation and digitisation of palm leaf manuscripts from Kerala, India Written in languages such as Malayalam, Sanskrit, and Arabic, these manuscripts are spread all over the region in state-sponsored repositories and archives, private, religious and educational institutions as well as family collections. (2012 – just sent in first sample images)