2012
Do Acervo Memorial ao Mundo Digital
Quem somos
 Publicação dos produtos impressos O Globo, Extra e Expresso;
 Distribuição digital dos produtos O Globo, Ext...
Digitalização do acervo histórico da Infoglobo,
garantindo a sua preservação e o preparando
para utilização em novas oport...
Nossos desafios
• Grande volume de material (1,8MM páginas)
• Acervo físico em microfilme com algumas lacunas
• Fragilidad...
Premissas Adotadas
Digitalização a partir do acervo microfilmado:
 Mais rápido do que a partir do acervo impresso;
 Evit...
Solução
 Páginas impressas
 Microfilmes do acervo
digitalização
 Imagens Digitais
(TIFF)
 Imagem + Texto
(PDF c/texto)...
Solução - Microfilmes
 A digitalização dos microfilmes feita por um
fornecedor externo;
 Dificuldade: parte do material ...
Solução - Páginas impressas
 Contratação de mão de obra e equipamentos para
realização do trabalho internamente;
 Dificu...
Solução - Camada de texto
 Contratação de um fornecedor para inserir a
camada de texto nas imagens;
 Dificuldade: poucas...
Solução - Camada de texto
 Prospecção de fornecedores
 Prova de conceito
 Peso e qualidade dos PDF’s entregues
 Precis...
Solução - Camada de texto
 Recebimento das imagens com camada de texto em
lotes semanalmente;
 Validação qualidade sobre...
Considerações finais
 Digitalização total do acervo: aproximadamente 1
ano;
 Equipe de projeto:
 5 profissionais de tec...
Pergutas?
Giselle Porto Maia
giselle.maia@infoglobo.com.br
@gisellepmaia
Obrigada!
Próximos SlideShares
Carregando em…5
×

Do Acervo Memorial ao Mundo Digital

195 visualizações

Publicada em

Palestra realizada pela Sra. Giselle Porto Maia no E-DOC 2012 Curitiba.

0 comentários
0 gostaram
Estatísticas
Notas
  • Seja o primeiro a comentar

  • Seja a primeira pessoa a gostar disto

Sem downloads
Visualizações
Visualizações totais
195
No SlideShare
0
A partir de incorporações
0
Número de incorporações
1
Ações
Compartilhamentos
0
Downloads
2
Comentários
0
Gostaram
0
Incorporações 0
Nenhuma incorporação

Nenhuma nota no slide

Do Acervo Memorial ao Mundo Digital

  1. 1. 2012 Do Acervo Memorial ao Mundo Digital
  2. 2. Quem somos  Publicação dos produtos impressos O Globo, Extra e Expresso;  Distribuição digital dos produtos O Globo, Extra, Ela Digital e Rio Show.  Fundada em julho de 1925;  Foco de atuação no Rio de Janeiro;
  3. 3. Digitalização do acervo histórico da Infoglobo, garantindo a sua preservação e o preparando para utilização em novas oportunidades de negócio. O projeto
  4. 4. Nossos desafios • Grande volume de material (1,8MM páginas) • Acervo físico em microfilme com algumas lacunas • Fragilidade das coleções impressas • Garantia da qualidade das imagens digitalizadas
  5. 5. Premissas Adotadas Digitalização a partir do acervo microfilmado:  Mais rápido do que a partir do acervo impresso;  Evita a manipulação das coleções impressas;  Boa qualidade das imagens geradas a partir desse suporte. Geração de imagens bitonais:  Arquivos aproximadamente 5x mais leves: menor custo com armazenamento;  Expectativa de melhor performance no trabalho de inserção das camadas de texto. Busca textual nas páginas digitalizadas
  6. 6. Solução  Páginas impressas  Microfilmes do acervo digitalização  Imagens Digitais (TIFF)  Imagem + Texto (PDF c/texto) Processo OCR  Sistema de arquivamento Arquivamento
  7. 7. Solução - Microfilmes  A digitalização dos microfilmes feita por um fornecedor externo;  Dificuldade: parte do material comprometido  Resposta: regerar microfilmes a partir das coleções impressas
  8. 8. Solução - Páginas impressas  Contratação de mão de obra e equipamentos para realização do trabalho internamente;  Dificuldade: qualidade de impressão das páginas;  Resposta: tratamento manual da imagem gerada.
  9. 9. Solução - Camada de texto  Contratação de um fornecedor para inserir a camada de texto nas imagens;  Dificuldade: poucas empresas no Brasil e alto custo dos fornecedores estrangeiros;  Resposta: prova de conceito com fornecedores nacionais e internacionais.
  10. 10. Solução - Camada de texto  Prospecção de fornecedores  Prova de conceito  Peso e qualidade dos PDF’s entregues  Precisão do OCR entregue  Precisão da segmentação de artigos  Precisão da identificação de informações para metadados: títulos e autores das matérias  Corte automático das rebarbas da página (invasão de páginas adjacentes)  Orientação automática das páginas (o mais horizontal possível)
  11. 11. Solução - Camada de texto  Recebimento das imagens com camada de texto em lotes semanalmente;  Validação qualidade sobre amostragem do lote;  Pelo menos uma imagem dos arquivos da amostragem não atender aos padrões de qualidade, o lote é reprocessado.
  12. 12. Considerações finais  Digitalização total do acervo: aproximadamente 1 ano;  Equipe de projeto:  5 profissionais de tecnologia;  4 profissionais do centro de documentação;  42 profissionais para OCR  5 controle de qualidade  37 geração camada de texto
  13. 13. Pergutas?
  14. 14. Giselle Porto Maia giselle.maia@infoglobo.com.br @gisellepmaia Obrigada!

×