Este documento resume uma apresentação sobre curadoria digital em instituições de memória cultural. Ele discute o arquivamento de páginas da web e mídias sociais, transcrição e análise de dados digitais, crowdsourcing, e ferramentas para pesquisa em humanidades digitais.
1. Curadoria Digital:
Expandindo acervos, inovando pesquisa
e serviços em instituições de memória
cultural
Aquiles Alencar Brayner
@aquilesbrayner
Email: aquiles.alencarbrayner@bl.uk
Fundação Casa de Rui Barbosa
15 e 16 de dezembro, 2015
3. www.bl.uk 3
Dia 2
• Arquivos Digitais
• Preservação
• Transcrição, mineração anotação
• Análise e visualização
• Crowdsourcing
4. www.bl.uk 4
Arquivos de páginas Web
• Contexto: Arquivo e
preservação das publicações
no domínio .uk
• Aplicação e desenvolvimento
de novas ferramentas para
recuperação e análise do
conteúdo arquivado
• http://www.webarchive.org.uk/
ukwa/
5. www.bl.uk 5
Arquivo de conteúdo publicado nas mídias
sociais
• Arquivamento de Twitter feeds
gerados por instituições
governamentais (National Archives)
• (SEDDOCH) Projeto de seleção,
documentação e arquivamento de
opinião pública nas mídias sociais
em resposta a eventos sócio-
políticos e culturais na Europa.
6. www.bl.uk 6
Programas de Arquivos de páginas Web
• The Internet Archive
• Way Back Machine
• Web Archive Australia
8. www.bl.uk 8
Programa de capacitação em Humanidades Digitais:
1. Introdução às mídias sociais: Twitter, blogs, etc.
2. Plataformas colaborativas: Wiki, Google Docs, etc.
3. Ferramentas de apresentação: PowerPoint, Slide
Share, Prezi, etc.
4. Manipulação de imagem e audio digitais
5. Criação de páginas Web
6. Metadados para recursos eletronicos: Dublin Core,
METS, MODS, RDF, XML
7. Introdução às Humanidades Digitais
8. Coleções Digitais na British Library
9. Introdução à digitalização de acervos
10.Copyright para objetos digitais
11.“Crowdsourcing” em Bibliotecas, Arquivos e Museus
12.Codificação e edição de textos em XML (TEI)
13.Ferramentas de visualização e análise de dados
eletrônicos
14.Geo-referencia e mapeamento digital
15.Integração de informação: Mash-ups, APIs, e Web
semantica
•
9. www.bl.uk 9
Conversas Digitais
• Série de palestras organizadas em torno a idéias, ferramentas e projetos em
Humanidades Digitais, incluindo técnicos, programadores, bibliotecários,
acadêmicos, analistas de dados, etc.
• Eventos:
1. Compartilhamento e anotação de conteúdos eletrônicos
2. Armazenamento em Nuvem
3. Arquivo de páginas Web
4. ebooks
5. Uso de conteudos digitais nas artes
6. Narrativas Digitais
7. Big Data
• Eventos gravados e disponíveis no Youtube : http://bit.ly/XFJrcI
10. www.bl.uk 10
Exibições:
Growing Knowledge (2010 – 2011)
Beautiful Science (Feb – May 2014)
Growing Knowledge Criação de um espaço
físico na British Library possibilitando aos
usuários explorar um grande número de
ferramentas digitais utilizadas por
pesquisadores.
Beautiful Science Exposição centrada em técnicas e ferramentas de visualização de
dados utilizadas em várias áreas científicas para análise de informação digital.
12. www.bl.uk 12
O cenário digital hoje….
• Tecnologias em constante desenvolvimento: alto
índice de obsolescência de formatos, programas e
equipamentos para acesso a objetos digitais
• Mito de que toda informação está acessível de
maneira aberta e gratuita
• 75% da informação produzida em formato digital
desaparece ou é alterada anualmente
• Falta de esclarecimento sobre direitos de uso e
proteção de privacidade dos usuários
• “Idade das trevas” na era digial: escassez de
registro, armazenamento e preservação dos
conteúdos que produzimos
13. www.bl.uk 13
Arquivo e gerenciamento de manuscritos
eletrônicos
• Arquivo de conteúdos
armazenados em dispositivos
eletronicos pessoais
• Recuperação de conteúdo
descartado e/ou modificado
pelo autor
• Garantir a preservação e
acesso a materiais
dependentes de tecnologia
obsoleta
• Maiores informações
http://wiki.bitcurator.net/index.
php?title=Main_Page
16. www.bl.uk 16
Transcrição
• Transcriptorium Reconhecimento
automático de textos manuscritos – HTR
• Digipal
• Transcribing Bentham Projeto de
paricipação pública (crowdsourcing) para
transcrição dos manuscritos de Jeremy
Betham
• The Book of Margery Kempe
Projeto de transcrição incluindo anotações
feitas no manuscrito original
• Diagnosis London Anotação /
classificação de conteúdo de acordo com
categorias pré-estabelecidas
17. www.bl.uk 17
Transcrição, correção e adicionamento de
metadados
• Escravidão, Abolição e Pós-
Abolição Transcrição e
controle de qualidade
• Projeto Old Weather
reconstrução de dados sobre
o tempo a partir de relatórios
de viagens, aventureiros, etc.
20. www.bl.uk 20
Comércio Transatlântico de Escravos
• Exemplo de plataforma que
apresenta os resultados de
base de dados num contexto
dinâmico para melhor
análise e interpretação de
resultados
http://www.slavevoyages.org/
21. www.bl.uk 21
Palimpsest: a ficção de Edimburgo
através de mapas
• Identificar localizacões geográficas de Edimburgo
mencionadas em 47,000 textos literários.
• A interface destina-se ao público academico e não-
especialistas, incluindo os turistas que exploram as
ruas de Edimburgo virtual ou fisicamente, os
moradores que queiram descobrir como autores
descreveram sua cidade há 150 anos e
pesquisadores literários que estão interessados
em mapear as relações entre lugar e literatura.
http://litlong.org
22. www.bl.uk 22
Representação de doenças em jornais
do século XIX
• http://www.lancaster.ac.uk/fass/projects/spatialhum.wordpress/?page_id=652/
24. www.bl.uk 24
Gephi
Gephi é uma ferramenta de visualização que nos ajuda a explorar e
compreender gráficos. Como o Photoshop, mas para dados, o usuário
interage com a representação gráfica ao manipular estruturas, formas e
cores para revelar propriedades e relações entre entidades muitas
vezes “ocultas” em base de dados. O objetivo é ajudar pesquisadores a
levantar hipótese, descobrir padrões, isolar singularidades, estrutura ou
falhas durante a manipulação de dados. É uma ferramenta
complementar para as estatísticas tradicionais altamente utilizada no
campo de pesquisa analítica visual; http://gephi.org/
28. www.bl.uk 28
DIRT: Digital Research Tools
• O Diretório DiRT é um registro de
ferramentas digitais para uso
acadêmico oferecendo uma série
de recursos incuindo sistemas de
gerenciamento de conteúdo de
audio, OCR, pacotes de análise
estatística, etc.
• http://dirtdirectory.org/
29. www.bl.uk 29
Sourceforge
• Diretório de software livre com várias opções
interessantes a serem utilizadas no campo da pesquisa
digital
• http://sourceforge.net/
30. www.bl.uk 30
Ferramentas Web: alguns exemplos
• Wordle ferramenta para gerar "nuvens de palavras”
com maiordestaque às palavras que aparecem mais
frequentemente no texto de origem.
• Google Trends análise de tendências de
pesquisa do Google. Você pode navegar por data, ou
ver pesquisas por categoria tempo e localização.
• Google Public Data Explorer colector de
dados de de base de datos abertas incluindo World
Bank, OECD, Eurostat e4 the U.S. Census Bureau.
• Google Ngram Viewer busca de palavras ou
expressões sintáticas em acervos textuais
35. www.bl.uk 35
Definição
• Crowdsourcing é um neologismo em
inglês composto das
palavras crowd (multidão)
e outsourcing (terceirização)
“processo de obtenção de serviços, ideias ou conteúdo
mediante a solicitação de contribuições de um grande
grupo de pessoas e, especialmente, de
uma comunidade online... O "crowdsourcing" distingue-
se de terceirização pelo fato de o trabalho ser feito por
um público indefinido, em vez de ser encomendado ou
atribuído a um grupo especificamente designado para
realizá-lo.” (https://pt.wikipedia.org/wiki/Crowdsourcing)
36. www.bl.uk 36
Tageamento
• BBC World Service Radio Archive (tag de audio)
• sift.pic (tag de fotografias)
• Your Paintings Tagger (exemplo de tageamento para
conteudos visuais)
• Snapshot Serengeti (identificação de animais)
• The US National Archives ‘Citizen Archivist’ dashboard
37. www.bl.uk 37
Criação de conteúdos e acervos
• Soundmap:
• Primeiro projeto de “mapa sonoro” produzido no Reino
Unido, onde participantes podem gravar sons relativos a
diferentes tópicos (meio-ambiente, dialetos, etc).
Gravações podem ser feitas por celurares e enviadas à
British Library através do aplicativo Audioboo. O material
é mantido no servidor da biblioteca para consulta online
por pesquisadores e demais interessados:
http://sounds.bl.uk/Sound-Maps/UK-Soundmap
• Europeana 1914 – 1918
• Convite aberto ao público para digitalização de
acervos pessoais relativos à Primeira Guerra Mundial
(fotografias, cartas, objetos, etc) para reprodução
digital e disponibilização do acervo no site
http://www.europeana1914-1918.eu/en
41. www.bl.uk 41
Catalogação
• Ficheiro de publicações chinesas
• Objetivo: retro-conversão de 48.000 titulos chineses
utilizando a plataforma Libcrowds com resgate de
metadados disponíveis na OCLC integrando-os ao
catálogo da BL: http://www.libcrowds.com/
46. www.bl.uk 46
Laboratório Digital (BL Labs)
• Programa financiado pelaFundação
Andrew Mellow (EE.UU.) com o objetivo
de incentivar o uso e a criação de novas
ferramentas utlizando as coleções digitais
da BL
• A cada ano o projeto seleciona três
projetos digitais a serem implementados
pela BL
• Organização de hackathons e eventos
similares utilizando conteúdos digitais de
acesso aberto em nosso acervo
• Labs.bl.uk
47. www.bl.uk 47
• Curador Mecânico
Tumblr
Flickr
Agrupamento de imagens Flickr
Wikimedia
Lista de projetos
Video
Otros projetos:
Off the Map
Victorian Meme Machine
BL Labs
51. A British Library Labs project
by
Dr Katrina Navickas
University of Hertfordshire
k.navickas@herts.ac.uk
@katrinanavickas
with Ben O’Steen & Mahendra Mahey
52. www.bl.uk 52
O Chartismo (Charstist) foi o maior movimento popular
no século XIX na história da Inglaterra, fazendo
campanha para a permissão de voto a todos os
homens.
http://www.bl.uk/learning/histcitizen/21cc/struggle/chartists1/historicalsources/source6/ke
53. www.bl.uk 53
As reuniões do movimento eram publicadas
no jornal The Northern Star, de 1838 a 1850
Quantas reuniões? Onde?
Quem? Quando?
55. www.bl.uk 55
O que poderia levar meses na busca de notícias e
mapeamento das reuniões à mão…pode agora ser feito
em 2 minutos através de técnicas computacionais!
56. www.bl.uk 56
Missão:
• Descobrir quantas reuniões
e sua frequência
• Mapear onde estas
reuniões ocorreram
• Identificar quais os seus
maiores líderes
Fontes:
• Jornais digitalizados
• Mapas históricos geo-
referencializados na BL
57. www.bl.uk 57
How did we do it?
• Redo the
OCR of
original image
files using
Abbyy
Finereader 12
OCR
58. www.bl.uk 58
Como realizamos o projeto?
• Utilização de
OCR das
imagens
OCR
• Uso do
programa
Python para a
extração de
nomes de e geo-
referencialidade
localidade geo-
code usando
gazetter
Geo-code
• Extração de
datas
• NLP para o
cálculo de
datas em
palavras
como
“amanhã"
Date
63. www.bl.uk 63
Treinamento de Máquina
• Usamos IPython
Notebook, para
tentar identificar e
classificar outros
tipos de reuniões
similares a dos
chartistas
64. www.bl.uk 64
Próximos passos
• Adicionar mais dados!
• Uso de parsing (análise sintática
computacional em ligüística) mais
dados em outros jornais da época
• Conectar chamadas de “futuras
reuniões” aos relatórios destes
encontros publicados
posteriormente nos jornais
• Mais “treinamento de Máquina”
(Machine Learning)
• Identificação de colunas e tipos de
textos nos metadados de outros
jornais digitalizados na mesma
época
67. www.bl.uk 67
Objetivos
• Gerar novos tipos de colaboração com jovens usários
• Explorar como o acervo digital da British Library pode ser utilizado em outros
contextos criativos
• Oportunidades de criar um espaço onde o público que não faz parte do perfil
de leitors da BL possa expor o seus talento e criatividade
68. www.bl.uk 68
Ganhadores de 2014: Pudding Lane Productions que criaram uma
interpretação visual de Londres com material topográfico do século XVII
http://youtu.be/SPY-hr-8-M0 (Flythrough starts at 0:50)
70. www.bl.uk 70
Exposição comemorativa dos aniversário de 150 anos na publicação de Alice no
País das Maravilhas
http://gamecity.org/alices-adventures-off-the-map/
https://commons.wikimedia.org/wiki/Category:British_Library_-_Off_the_Map_Alice_Collection
https://soundcloud.com/the-british-library/sets/alices-adventures-off-the-map
Off the Map 2015
71. www.bl.uk 71
A British Library possui o manuscrito original
de ‘As Aventuras de Alice no Mundo
Subterrâneo’, que foi escrita para Alice
Liddell e suas irmãs, Edith and Lorina, por
Lewis Carroll em 1862.
72. www.bl.uk 72
Os temas selecionados para uso na
competição foram:
• Oxford
• Mundos Subterrâneos
• Jardins
73. www.bl.uk 73
Oxford
Christ Church College
Illustration from Oxonia Illustrata, sive omnium celeberrimae istius universitatis
collegiorum, aularum, Bibliothecae Bodleianae, scholarum publicarum, Theatri
Sheldoniani, nec non urbis totius Scenographia, by David Loggan, published 1675.
British Library item 128.h.10.
Cover illustration from The Railway Traveller's Walk
through Oxford, by John Henry Parker, published 1860.
British Library item RB.23.a.20274
75. www.bl.uk 75
Jardins
"Een der Schoonste
Gesigten t'Vermaarde
Perk van Sorgvliet".
British Library item
Maps C.9.d.9.
76. www.bl.uk 76
Premiação
• 3o lugar: "A Curious Feeling" representado pelo "time Hare
Trigger
• 2o lugar: “Alice's Garden” por Chris Lonsdale
• 1o lugar: “The Wondering Lands Of Alice” representado
pelo time Off Our Rockers
77. www.bl.uk 77
Team Off our Rockers, from De Montfort University in Leicester:
Amber Jamieson, Braden May, Dan Bullock, Denzil Forde, Freddy Canton & Luke Day
87. www.bl.uk 87
Laboratório de Musica Digital
(Digital Music Labs)
• Colaboração entre a BL, City University de
Londres e Universidade de Queen Mary para
a criação de interface de visualização e
análise de coleções de audio en formato
digital
http://dml.city.ac.uk/
88. www.bl.uk 88
Projetos de Doutorado com Universidades
• “The Working Life of Scientists: Exploring the Culture of Scientific Research
through Personal Archives” ill involve the detailed mapping of the personal relationships
of 20th century British scientists. It will draw on the Library’s Contemporary Archives and
Manuscripts collections, which include personal archives and correspondence from the
fields of computer science and programming, cybernetics and artificial intelligence, as well
as evolutionary, developmental and molecular biology. The project will provide a unique
opportunity to investigate the roles of culture, imagination, argumentation, creativity,
discovery and curiosity in scientific enquiry.
• “Digital Publishing and the Reader” will identify and examine new technologies used in
publishing in the UK. It has a particular emphasis on examples which encourage
interaction between readers, texts and authors, such as text-based online gaming, online
comics, or online publishing relating to campaigns and activism. The project will inform
how emerging media and new communication technologies should be recorded or
collected as part of a national collection on British written culture.
• “Hans Sloane’s Books: Evaluating an Enlightenment Library” will break new ground
by developing digital tools to cross-reference, contextualise and analyse the intellectual
significance of the library of Hans Sloane (1660-1753): physician, collector and
posthumous ‘founding father’ of the British Museum. The project will draw on in-house
digital-curatorial expertise to develop software tools to interrogate Library datasets and to
devise ways of ordering and visualising the data. This will enable the first full evaluation of
the contribution of Sloane’s library to the Enlightenment scientific community.
Handmade and bespoke bow ties inspired by an illustration from Alice’s Adventures Under Ground manuscript https://www.etsy.com/shop/DinaMalkova
Dina used a fragment of the original book illustration for Alices’s Adventures Under Ground to create new fabric for her handmade bow ties.
A commercial venture in response to the Redesign Alice competition by Etsy UK and the British Library to mark 150th anniversary of the Alice manuscript at the Library and of which Dina was one of the winners. The winning products from the competition are on sale in the BL Pop Up Shop to accompany the Alice exhibition. The Shop will be open until Christmas.
The competition wanted to see how contemporary designers are inspired by the 150 year old story. As a result of the competition selected design-makers won the chance to stock their products in the British Library Alice Pop-Up Shop to accompany the Alice exhibition and have received hands-on professional development support from our award-winning Business & IP Centre.
Dina’s Alice inspired designs were
I have been inspired by the original Alice's Adventures Under Ground with fantastic illustrations by Lewis Carroll and thought of creating the range of bow ties and other gift products to celebrate the 150th anniversary of Alice! A fragment of the original book illustration was used to create the fabric to make bow ties, ties, cuff links and pocket squares.
URL for Entry: https://www.etsy.com/shop/DinaMalkova