2. Quem somos
Publicação dos produtos impressos O Globo, Extra e Expresso;
Distribuição digital dos produtos O Globo, Extra, Ela Digital e
Rio Show.
Fundada em julho de 1925;
Foco de atuação no Rio de Janeiro;
3. Digitalização do acervo histórico da Infoglobo,
garantindo a sua preservação e o preparando
para utilização em novas oportunidades de
negócio.
O projeto
4. Nossos desafios
• Grande volume de material (1,8MM páginas)
• Acervo físico em microfilme com algumas lacunas
• Fragilidade das coleções impressas
• Garantia da qualidade das imagens digitalizadas
5. Premissas Adotadas
Digitalização a partir do acervo microfilmado:
Mais rápido do que a partir do acervo impresso;
Evita a manipulação das coleções impressas;
Boa qualidade das imagens geradas a partir desse suporte.
Geração de imagens bitonais:
Arquivos aproximadamente 5x mais leves: menor custo com armazenamento;
Expectativa de melhor performance no trabalho de inserção das camadas de texto.
Busca textual nas páginas digitalizadas
6. Solução
Páginas impressas
Microfilmes do acervo
digitalização
Imagens Digitais
(TIFF)
Imagem + Texto
(PDF c/texto)
Processo OCR
Sistema de
arquivamento
Arquivamento
7. Solução - Microfilmes
A digitalização dos microfilmes feita por um
fornecedor externo;
Dificuldade: parte do material comprometido
Resposta: regerar microfilmes a partir das coleções
impressas
8. Solução - Páginas impressas
Contratação de mão de obra e equipamentos para
realização do trabalho internamente;
Dificuldade: qualidade de impressão das páginas;
Resposta: tratamento manual da imagem gerada.
9. Solução - Camada de texto
Contratação de um fornecedor para inserir a
camada de texto nas imagens;
Dificuldade: poucas empresas no Brasil e alto custo
dos fornecedores estrangeiros;
Resposta: prova de conceito com fornecedores
nacionais e internacionais.
10. Solução - Camada de texto
Prospecção de fornecedores
Prova de conceito
Peso e qualidade dos PDF’s entregues
Precisão do OCR entregue
Precisão da segmentação de artigos
Precisão da identificação de informações para metadados: títulos e
autores das matérias
Corte automático das rebarbas da página (invasão de páginas
adjacentes)
Orientação automática das páginas (o mais horizontal possível)
11. Solução - Camada de texto
Recebimento das imagens com camada de texto em
lotes semanalmente;
Validação qualidade sobre amostragem do lote;
Pelo menos uma imagem dos arquivos da
amostragem não atender aos padrões de
qualidade, o lote é reprocessado.
12. Considerações finais
Digitalização total do acervo: aproximadamente 1
ano;
Equipe de projeto:
5 profissionais de tecnologia;
4 profissionais do centro de documentação;
42 profissionais para OCR
5 controle de qualidade
37 geração camada de texto