Humanidades Digitais:
Um desafio para insituições de memória
cultural
Aquiles Alencar Brayner
abrayner@yahoo.com
@AquilesBrayner
Aquiles.alencarbrayner@bl.uk
www.bl.uk 2
Humanidades Digitais: gênese
• 1949: A colaboração entre Thomas Watson,
fundador da IBM, e Padre Roberto Busa
inaugurou uma nova era de pesquisa em
humanidades. O resultado, o Índice Thomisticus,
está disponível on-line desde 2005.
• O projeto utilizou processos algorítmicos para
análise linguística, a fim de produzir um índice de
9 milhões de palavras em latim medieval das
obras completas de São Tomás de Aquino.
• Na época, ninguém pensava que computadores
concebidos para cálculos numéricos poderiam ser
usados para o estudo de textos escritos e
concordâncias lingüísticas.
www.bl.uk 3
Novos métodos de pesquisa digital
Uso de APIs (Application Programming Interfaces) para
integrar base de dados, ex: metadados, imagens, etc.
Buscas baseadas em locação geográfica Mineração de texto
Crowdsourcing /
Computação humana
Anotação
Processamento em
Linguagem Natural
(NLP)Visualização de dados
Geo-referenciamento
Lista de ferramentas: DiRT (Digital Research Tools) https://dirtdirectory.org/
www.bl.uk 4
Desafios das instituições de memória
cultural no século XXI
• Selecionar, capturar, descrever e preservar objetos
digitais, oferecendo novos sistemas de busca e
plataformas de acesso e reutilização destes objetos
• Promover seus acervos entre diferentes tipos de
usuários
• Proporcionar a integração de distintos formatos
eletrônicos e criação de ferramentas que facilitem o
acesso e análise de conteúdos digitais
• Participação ativa nos projetos de pesquisa digital,
gerenciando as atividades e disseminação de
resultados obtidos
• Instituições como “laboratórios” de novas idéias e
modelos em pesquisa digital
• Atuar como centros de capacitação para
pesquisadores e profissionais envolvidos na gestão
e utilização de dados eletrônicos
www.bl.uk 5
Páginas Web Domínio .br
• Segundo os dados
coletados do site de
registros de páginas Web
no Brasil,
https://registro.br/estatistic
as.html , o país conta com
cerca 4M de sites criados
desde 1996
• International Internet
Preservation Consortium
(IIPC)
www.bl.uk 6
Panorama da história de páginas Web no
Brasil…
www.bl.uk 7
Desafio: como selecionar, armazenar,
classificar e analisar as informações no
universo digital?
• Qual a quantidade de dados
gerados em 1 dia?
1. Twitter: 7 TB
2. Facebook: 10 TB
• Até 2020 teremos
aproximadamente 35 ZB (1.1
trilhão GB) de dados digitais
disponiveis
www.bl.uk 8
Analógico Digital
www.bl.uk 9
Arquivo e gerenciamento de manuscritos
eletrônicos
• Arquivo de conteúdos
armazenados em dispositivos
eletronicos pessoais
• Recuperação de conteúdo
descartado e/ou modificado
pelo autor
• Garantir a preservação e
acesso a materiais
dependentes de tecnologia
obsoleta
• Maiores informações
http://wiki.bitcurator.net/index.
php?title=Main_Page
www.bl.uk 10
Curadoria Digital
Estabelecer
vários canais
de acesso à
coleção
Incentivar a
criação e
manipulação de
base de dados
por usuários
Apoio à
pesquisa e
educação
Objetivos:
 Infra-estrutura de acesso,
depósito e preservação de
conteudos digitais
 Criação extensiva de coleções
digitais
 Promoção e utilização de novas
ferramentas aplicadas ao acervo
digital: anotação, visualisação,
comparação, análise, etc.
 Informação sobre novos métodos e
modelos em pesquisa digital
 Promover uma maior colaboração
entre técnicos, pesquisadores e
bibliotecários
Alcançados através de:
 Projetos colaborativos
 Pataformas interoperacionais
 Conexão entre base de dados e
ferramentas de pesquisa Criação de
Novos modelos
e métodos de
pesquisa
Conteúdo Digital
 Treinamento e
suporte
profissional
www.bl.uk 11
www.bl.uk 12
Novos métodos de pesquisa digital
Uso de APIs (Application Programming Interfaces) para
integrar base de dados, ex: metadados, imagens, etc.
Buscas baseadas em locação geográfica Mineração de texto
Crowdsourcing /
Computação humana
Anotação
Processamento em
Linguagem Natural
(NLP)Visualização de dados
Geo-referenciamento
Lista de ferramentas: DiRT (Digital Research Tools) https://dirtdirectory.org/
www.bl.uk 13
O Chartismo (Chartism) foi o maior movimento popular
no século XIX na Inglaterra, que fez campanhas para o
direitp de voto aos homens da época.
http://www.bl.uk/learning/histcitizen/21cc/struggle/chartists1/historicalsources/source6/ke
www.bl.uk 14
Chamadas para as reuniões do movimento
aparecem publicadas no jornal The Northern
Star, de 1838 a 1850
www.bl.uk 15
Extração de OCR
www.bl.uk 16
Como realizamos o projeto?
• Utilização de
OCR das
imagens
OCR
• Uso do programa
Python para a
extração de
nomes de locais
Geo-code
• Extração/identifi
cação de datas
• NLP para o
cálculo de datas
em expressões
temporais como
“amanhã"
Date
www.bl.uk 17
Descobertas
Somente entre o período de1841-44, foram
identificadas 5.519 reuniões em 462 cidades…
www.bl.uk 18
Mapeamento: interface de mapeamento (plataforma Omeka)
http://politicalmeetingsmapper.co.uk/maps/
Número de
palestras dadas
por chartistas,
local de
ocorrência e
frequência destes
eventos…
www.bl.uk 19
Movimento Chartista em Londres
12 de setembro de 2016
https://www.youtube.com/watch?v=0lx0CL_dsQs
www.bl.uk 20
Obrigado!
@AquilesBrayner
Aqules.alencarbrayner@bl.uk
abrayner@yahoo.com

Abralic 11 agosto_2917

  • 1.
    Humanidades Digitais: Um desafiopara insituições de memória cultural Aquiles Alencar Brayner abrayner@yahoo.com @AquilesBrayner Aquiles.alencarbrayner@bl.uk
  • 2.
    www.bl.uk 2 Humanidades Digitais:gênese • 1949: A colaboração entre Thomas Watson, fundador da IBM, e Padre Roberto Busa inaugurou uma nova era de pesquisa em humanidades. O resultado, o Índice Thomisticus, está disponível on-line desde 2005. • O projeto utilizou processos algorítmicos para análise linguística, a fim de produzir um índice de 9 milhões de palavras em latim medieval das obras completas de São Tomás de Aquino. • Na época, ninguém pensava que computadores concebidos para cálculos numéricos poderiam ser usados para o estudo de textos escritos e concordâncias lingüísticas.
  • 3.
    www.bl.uk 3 Novos métodosde pesquisa digital Uso de APIs (Application Programming Interfaces) para integrar base de dados, ex: metadados, imagens, etc. Buscas baseadas em locação geográfica Mineração de texto Crowdsourcing / Computação humana Anotação Processamento em Linguagem Natural (NLP)Visualização de dados Geo-referenciamento Lista de ferramentas: DiRT (Digital Research Tools) https://dirtdirectory.org/
  • 4.
    www.bl.uk 4 Desafios dasinstituições de memória cultural no século XXI • Selecionar, capturar, descrever e preservar objetos digitais, oferecendo novos sistemas de busca e plataformas de acesso e reutilização destes objetos • Promover seus acervos entre diferentes tipos de usuários • Proporcionar a integração de distintos formatos eletrônicos e criação de ferramentas que facilitem o acesso e análise de conteúdos digitais • Participação ativa nos projetos de pesquisa digital, gerenciando as atividades e disseminação de resultados obtidos • Instituições como “laboratórios” de novas idéias e modelos em pesquisa digital • Atuar como centros de capacitação para pesquisadores e profissionais envolvidos na gestão e utilização de dados eletrônicos
  • 5.
    www.bl.uk 5 Páginas WebDomínio .br • Segundo os dados coletados do site de registros de páginas Web no Brasil, https://registro.br/estatistic as.html , o país conta com cerca 4M de sites criados desde 1996 • International Internet Preservation Consortium (IIPC)
  • 6.
    www.bl.uk 6 Panorama dahistória de páginas Web no Brasil…
  • 7.
    www.bl.uk 7 Desafio: comoselecionar, armazenar, classificar e analisar as informações no universo digital? • Qual a quantidade de dados gerados em 1 dia? 1. Twitter: 7 TB 2. Facebook: 10 TB • Até 2020 teremos aproximadamente 35 ZB (1.1 trilhão GB) de dados digitais disponiveis
  • 8.
  • 9.
    www.bl.uk 9 Arquivo egerenciamento de manuscritos eletrônicos • Arquivo de conteúdos armazenados em dispositivos eletronicos pessoais • Recuperação de conteúdo descartado e/ou modificado pelo autor • Garantir a preservação e acesso a materiais dependentes de tecnologia obsoleta • Maiores informações http://wiki.bitcurator.net/index. php?title=Main_Page
  • 10.
    www.bl.uk 10 Curadoria Digital Estabelecer várioscanais de acesso à coleção Incentivar a criação e manipulação de base de dados por usuários Apoio à pesquisa e educação Objetivos:  Infra-estrutura de acesso, depósito e preservação de conteudos digitais  Criação extensiva de coleções digitais  Promoção e utilização de novas ferramentas aplicadas ao acervo digital: anotação, visualisação, comparação, análise, etc.  Informação sobre novos métodos e modelos em pesquisa digital  Promover uma maior colaboração entre técnicos, pesquisadores e bibliotecários Alcançados através de:  Projetos colaborativos  Pataformas interoperacionais  Conexão entre base de dados e ferramentas de pesquisa Criação de Novos modelos e métodos de pesquisa Conteúdo Digital  Treinamento e suporte profissional
  • 11.
  • 12.
    www.bl.uk 12 Novos métodosde pesquisa digital Uso de APIs (Application Programming Interfaces) para integrar base de dados, ex: metadados, imagens, etc. Buscas baseadas em locação geográfica Mineração de texto Crowdsourcing / Computação humana Anotação Processamento em Linguagem Natural (NLP)Visualização de dados Geo-referenciamento Lista de ferramentas: DiRT (Digital Research Tools) https://dirtdirectory.org/
  • 13.
    www.bl.uk 13 O Chartismo(Chartism) foi o maior movimento popular no século XIX na Inglaterra, que fez campanhas para o direitp de voto aos homens da época. http://www.bl.uk/learning/histcitizen/21cc/struggle/chartists1/historicalsources/source6/ke
  • 14.
    www.bl.uk 14 Chamadas paraas reuniões do movimento aparecem publicadas no jornal The Northern Star, de 1838 a 1850
  • 15.
  • 16.
    www.bl.uk 16 Como realizamoso projeto? • Utilização de OCR das imagens OCR • Uso do programa Python para a extração de nomes de locais Geo-code • Extração/identifi cação de datas • NLP para o cálculo de datas em expressões temporais como “amanhã" Date
  • 17.
    www.bl.uk 17 Descobertas Somente entreo período de1841-44, foram identificadas 5.519 reuniões em 462 cidades…
  • 18.
    www.bl.uk 18 Mapeamento: interfacede mapeamento (plataforma Omeka) http://politicalmeetingsmapper.co.uk/maps/ Número de palestras dadas por chartistas, local de ocorrência e frequência destes eventos…
  • 19.
    www.bl.uk 19 Movimento Chartistaem Londres 12 de setembro de 2016 https://www.youtube.com/watch?v=0lx0CL_dsQs
  • 20.

Notas do Editor

  • #12 One way is through the British Library Labs project and the Digital Curator team which make up the Digital Research Team. The aim of the lab is to encourage scholars to experiment at scale with our digital collections and data. The team holds competitions, events, and creates the space in which to engage with scholars working in this realm. Through the labs we’re learning how to better support scholars and build new services.