SlideShare uma empresa Scribd logo
1 de 14
Baixar para ler offline
2012
Do Acervo Memorial ao Mundo Digital
Quem somos
 Publicação dos produtos impressos O Globo, Extra e Expresso;
 Distribuição digital dos produtos O Globo, Extra, Ela Digital e
Rio Show.
 Fundada em julho de 1925;
 Foco de atuação no Rio de Janeiro;
Digitalização do acervo histórico da Infoglobo,
garantindo a sua preservação e o preparando
para utilização em novas oportunidades de
negócio.
O projeto
Nossos desafios
• Grande volume de material (1,8MM páginas)
• Acervo físico em microfilme com algumas lacunas
• Fragilidade das coleções impressas
• Garantia da qualidade das imagens digitalizadas
Premissas Adotadas
Digitalização a partir do acervo microfilmado:
 Mais rápido do que a partir do acervo impresso;
 Evita a manipulação das coleções impressas;
 Boa qualidade das imagens geradas a partir desse suporte.
Geração de imagens bitonais:
 Arquivos aproximadamente 5x mais leves: menor custo com armazenamento;
 Expectativa de melhor performance no trabalho de inserção das camadas de texto.
Busca textual nas páginas digitalizadas
Solução
 Páginas impressas
 Microfilmes do acervo
digitalização
 Imagens Digitais
(TIFF)
 Imagem + Texto
(PDF c/texto)
Processo OCR
 Sistema de
arquivamento
Arquivamento
Solução - Microfilmes
 A digitalização dos microfilmes feita por um
fornecedor externo;
 Dificuldade: parte do material comprometido
 Resposta: regerar microfilmes a partir das coleções
impressas
Solução - Páginas impressas
 Contratação de mão de obra e equipamentos para
realização do trabalho internamente;
 Dificuldade: qualidade de impressão das páginas;
 Resposta: tratamento manual da imagem gerada.
Solução - Camada de texto
 Contratação de um fornecedor para inserir a
camada de texto nas imagens;
 Dificuldade: poucas empresas no Brasil e alto custo
dos fornecedores estrangeiros;
 Resposta: prova de conceito com fornecedores
nacionais e internacionais.
Solução - Camada de texto
 Prospecção de fornecedores
 Prova de conceito
 Peso e qualidade dos PDF’s entregues
 Precisão do OCR entregue
 Precisão da segmentação de artigos
 Precisão da identificação de informações para metadados: títulos e
autores das matérias
 Corte automático das rebarbas da página (invasão de páginas
adjacentes)
 Orientação automática das páginas (o mais horizontal possível)
Solução - Camada de texto
 Recebimento das imagens com camada de texto em
lotes semanalmente;
 Validação qualidade sobre amostragem do lote;
 Pelo menos uma imagem dos arquivos da
amostragem não atender aos padrões de
qualidade, o lote é reprocessado.
Considerações finais
 Digitalização total do acervo: aproximadamente 1
ano;
 Equipe de projeto:
 5 profissionais de tecnologia;
 4 profissionais do centro de documentação;
 42 profissionais para OCR
 5 controle de qualidade
 37 geração camada de texto
Pergutas?
Giselle Porto Maia
giselle.maia@infoglobo.com.br
@gisellepmaia
Obrigada!

Mais conteúdo relacionado

Semelhante a Digitalização do acervo histórico da Infoglobo

Palestra Zend Framework na Campus Party 2011
Palestra Zend Framework na Campus Party 2011Palestra Zend Framework na Campus Party 2011
Palestra Zend Framework na Campus Party 2011Flávio Lisboa
 
TDC 2017 - Borg até o Prometheus: Site Reliability Engineering
TDC 2017 - Borg até o Prometheus: Site Reliability EngineeringTDC 2017 - Borg até o Prometheus: Site Reliability Engineering
TDC 2017 - Borg até o Prometheus: Site Reliability EngineeringFelipe Klerk Signorini
 
Multipart Upload, Streaming e Criptografia - Desafios de um serviço de armaze...
Multipart Upload, Streaming e Criptografia - Desafios de um serviço de armaze...Multipart Upload, Streaming e Criptografia - Desafios de um serviço de armaze...
Multipart Upload, Streaming e Criptografia - Desafios de um serviço de armaze...Diogo Giassi D'Agostin
 
Técnicas de compressão de dados
Técnicas de compressão de dadosTécnicas de compressão de dados
Técnicas de compressão de dadosSergio10INF
 
TDC - Qual o tamanho adequado de um micro serviço?
TDC - Qual o tamanho adequado de um micro serviço?TDC - Qual o tamanho adequado de um micro serviço?
TDC - Qual o tamanho adequado de um micro serviço?Rafael Salerno de Oliveira
 
NoSQL na nuvem com o Azure Cosmos DB - MVPConf 2018
NoSQL na nuvem com o Azure Cosmos DB - MVPConf 2018NoSQL na nuvem com o Azure Cosmos DB - MVPConf 2018
NoSQL na nuvem com o Azure Cosmos DB - MVPConf 2018Renato Groff
 
Apresentação GT - Digital Preservation
Apresentação GT - Digital PreservationApresentação GT - Digital Preservation
Apresentação GT - Digital PreservationRoberto Beraldo Chaiben
 
Encontrando equilíbrio do DDD enquanto sua aplicação cresce
Encontrando equilíbrio do DDD enquanto sua aplicação cresceEncontrando equilíbrio do DDD enquanto sua aplicação cresce
Encontrando equilíbrio do DDD enquanto sua aplicação cresceCarolina Karklis
 
Ti gimp
Ti   gimpTi   gimp
Ti gimp290839
 
Como desenvolver com um sistema com um front-end colossal?
Como desenvolver com um sistema com um front-end colossal?Como desenvolver com um sistema com um front-end colossal?
Como desenvolver com um sistema com um front-end colossal?Mozart Diniz
 
Produtividade - Conferência do Proz
Produtividade - Conferência do ProzProdutividade - Conferência do Proz
Produtividade - Conferência do ProzVal Ivonica
 
Detecção de Fraudes em Licitações Usando Batch Analytics com WSO2
Detecção de Fraudes em Licitações Usando Batch Analytics com WSO2Detecção de Fraudes em Licitações Usando Batch Analytics com WSO2
Detecção de Fraudes em Licitações Usando Batch Analytics com WSO2WSO2
 
Aspectos profissionais 3pontos
Aspectos profissionais 3pontosAspectos profissionais 3pontos
Aspectos profissionais 3pontosMiguel Alho
 
Engenharia Reversa para Principiantes
Engenharia Reversa para PrincipiantesEngenharia Reversa para Principiantes
Engenharia Reversa para PrincipiantesWanderley Caloni
 

Semelhante a Digitalização do acervo histórico da Infoglobo (20)

Palestra Zend Framework na Campus Party 2011
Palestra Zend Framework na Campus Party 2011Palestra Zend Framework na Campus Party 2011
Palestra Zend Framework na Campus Party 2011
 
TDC 2017 - Borg até o Prometheus: Site Reliability Engineering
TDC 2017 - Borg até o Prometheus: Site Reliability EngineeringTDC 2017 - Borg até o Prometheus: Site Reliability Engineering
TDC 2017 - Borg até o Prometheus: Site Reliability Engineering
 
Multipart Upload, Streaming e Criptografia - Desafios de um serviço de armaze...
Multipart Upload, Streaming e Criptografia - Desafios de um serviço de armaze...Multipart Upload, Streaming e Criptografia - Desafios de um serviço de armaze...
Multipart Upload, Streaming e Criptografia - Desafios de um serviço de armaze...
 
Técnicas de compressão de dados
Técnicas de compressão de dadosTécnicas de compressão de dados
Técnicas de compressão de dados
 
TDC - Qual o tamanho adequado de um micro serviço?
TDC - Qual o tamanho adequado de um micro serviço?TDC - Qual o tamanho adequado de um micro serviço?
TDC - Qual o tamanho adequado de um micro serviço?
 
NoSQL na nuvem com o Azure Cosmos DB - MVPConf 2018
NoSQL na nuvem com o Azure Cosmos DB - MVPConf 2018NoSQL na nuvem com o Azure Cosmos DB - MVPConf 2018
NoSQL na nuvem com o Azure Cosmos DB - MVPConf 2018
 
Workshop-Portfolio
Workshop-PortfolioWorkshop-Portfolio
Workshop-Portfolio
 
Iniciando com Amazon DynamoDB
Iniciando com Amazon DynamoDBIniciando com Amazon DynamoDB
Iniciando com Amazon DynamoDB
 
Com vocês, Django!
Com vocês, Django!Com vocês, Django!
Com vocês, Django!
 
Domain Driven Design
Domain Driven DesignDomain Driven Design
Domain Driven Design
 
Apresentação GT - Digital Preservation
Apresentação GT - Digital PreservationApresentação GT - Digital Preservation
Apresentação GT - Digital Preservation
 
Encontrando equilíbrio do DDD enquanto sua aplicação cresce
Encontrando equilíbrio do DDD enquanto sua aplicação cresceEncontrando equilíbrio do DDD enquanto sua aplicação cresce
Encontrando equilíbrio do DDD enquanto sua aplicação cresce
 
Ti gimp
Ti   gimpTi   gimp
Ti gimp
 
Desenvolvimento Web
Desenvolvimento WebDesenvolvimento Web
Desenvolvimento Web
 
Como desenvolver com um sistema com um front-end colossal?
Como desenvolver com um sistema com um front-end colossal?Como desenvolver com um sistema com um front-end colossal?
Como desenvolver com um sistema com um front-end colossal?
 
Produtividade - Conferência do Proz
Produtividade - Conferência do ProzProdutividade - Conferência do Proz
Produtividade - Conferência do Proz
 
Detecção de Fraudes em Licitações Usando Batch Analytics com WSO2
Detecção de Fraudes em Licitações Usando Batch Analytics com WSO2Detecção de Fraudes em Licitações Usando Batch Analytics com WSO2
Detecção de Fraudes em Licitações Usando Batch Analytics com WSO2
 
Aspectos profissionais 3pontos
Aspectos profissionais 3pontosAspectos profissionais 3pontos
Aspectos profissionais 3pontos
 
Engenharia Reversa para Principiantes
Engenharia Reversa para PrincipiantesEngenharia Reversa para Principiantes
Engenharia Reversa para Principiantes
 
Formato Imagens
Formato ImagensFormato Imagens
Formato Imagens
 

Mais de Index3i

Os desafios da comunicação 3.0 Na Sociedade da Informação
Os desafios da comunicação 3.0 Na Sociedade da InformaçãoOs desafios da comunicação 3.0 Na Sociedade da Informação
Os desafios da comunicação 3.0 Na Sociedade da InformaçãoIndex3i
 
Gestão estratégica de serviços informacionais na Web 2.0
Gestão estratégica de serviços informacionais na Web 2.0Gestão estratégica de serviços informacionais na Web 2.0
Gestão estratégica de serviços informacionais na Web 2.0Index3i
 
Findability: elementos essenciais para a recuperação da informação em ambient...
Findability: elementos essenciais para a recuperação da informação em ambient...Findability: elementos essenciais para a recuperação da informação em ambient...
Findability: elementos essenciais para a recuperação da informação em ambient...Index3i
 
DOCUMENTOS DIGITAIS E SEUS ASPECTOS LEGAIS
DOCUMENTOS DIGITAIS E SEUS ASPECTOS LEGAISDOCUMENTOS DIGITAIS E SEUS ASPECTOS LEGAIS
DOCUMENTOS DIGITAIS E SEUS ASPECTOS LEGAISIndex3i
 
Digitalização de Documentos e a Preservação Documental na Era Digital
Digitalização de Documentos e a Preservação Documental na Era DigitalDigitalização de Documentos e a Preservação Documental na Era Digital
Digitalização de Documentos e a Preservação Documental na Era DigitalIndex3i
 
LEI DE ACESSO À INFORMAÇÃO - LAI
LEI DE ACESSO À INFORMAÇÃO - LAILEI DE ACESSO À INFORMAÇÃO - LAI
LEI DE ACESSO À INFORMAÇÃO - LAIIndex3i
 
A Era do Conhecimento 2.0 nas Organizações
A Era do Conhecimento 2.0 nas OrganizaçõesA Era do Conhecimento 2.0 nas Organizações
A Era do Conhecimento 2.0 nas OrganizaçõesIndex3i
 
Ecologia da informação 3.0
Ecologia da informação 3.0Ecologia da informação 3.0
Ecologia da informação 3.0Index3i
 

Mais de Index3i (8)

Os desafios da comunicação 3.0 Na Sociedade da Informação
Os desafios da comunicação 3.0 Na Sociedade da InformaçãoOs desafios da comunicação 3.0 Na Sociedade da Informação
Os desafios da comunicação 3.0 Na Sociedade da Informação
 
Gestão estratégica de serviços informacionais na Web 2.0
Gestão estratégica de serviços informacionais na Web 2.0Gestão estratégica de serviços informacionais na Web 2.0
Gestão estratégica de serviços informacionais na Web 2.0
 
Findability: elementos essenciais para a recuperação da informação em ambient...
Findability: elementos essenciais para a recuperação da informação em ambient...Findability: elementos essenciais para a recuperação da informação em ambient...
Findability: elementos essenciais para a recuperação da informação em ambient...
 
DOCUMENTOS DIGITAIS E SEUS ASPECTOS LEGAIS
DOCUMENTOS DIGITAIS E SEUS ASPECTOS LEGAISDOCUMENTOS DIGITAIS E SEUS ASPECTOS LEGAIS
DOCUMENTOS DIGITAIS E SEUS ASPECTOS LEGAIS
 
Digitalização de Documentos e a Preservação Documental na Era Digital
Digitalização de Documentos e a Preservação Documental na Era DigitalDigitalização de Documentos e a Preservação Documental na Era Digital
Digitalização de Documentos e a Preservação Documental na Era Digital
 
LEI DE ACESSO À INFORMAÇÃO - LAI
LEI DE ACESSO À INFORMAÇÃO - LAILEI DE ACESSO À INFORMAÇÃO - LAI
LEI DE ACESSO À INFORMAÇÃO - LAI
 
A Era do Conhecimento 2.0 nas Organizações
A Era do Conhecimento 2.0 nas OrganizaçõesA Era do Conhecimento 2.0 nas Organizações
A Era do Conhecimento 2.0 nas Organizações
 
Ecologia da informação 3.0
Ecologia da informação 3.0Ecologia da informação 3.0
Ecologia da informação 3.0
 

Digitalização do acervo histórico da Infoglobo

  • 1. 2012 Do Acervo Memorial ao Mundo Digital
  • 2. Quem somos  Publicação dos produtos impressos O Globo, Extra e Expresso;  Distribuição digital dos produtos O Globo, Extra, Ela Digital e Rio Show.  Fundada em julho de 1925;  Foco de atuação no Rio de Janeiro;
  • 3. Digitalização do acervo histórico da Infoglobo, garantindo a sua preservação e o preparando para utilização em novas oportunidades de negócio. O projeto
  • 4. Nossos desafios • Grande volume de material (1,8MM páginas) • Acervo físico em microfilme com algumas lacunas • Fragilidade das coleções impressas • Garantia da qualidade das imagens digitalizadas
  • 5. Premissas Adotadas Digitalização a partir do acervo microfilmado:  Mais rápido do que a partir do acervo impresso;  Evita a manipulação das coleções impressas;  Boa qualidade das imagens geradas a partir desse suporte. Geração de imagens bitonais:  Arquivos aproximadamente 5x mais leves: menor custo com armazenamento;  Expectativa de melhor performance no trabalho de inserção das camadas de texto. Busca textual nas páginas digitalizadas
  • 6. Solução  Páginas impressas  Microfilmes do acervo digitalização  Imagens Digitais (TIFF)  Imagem + Texto (PDF c/texto) Processo OCR  Sistema de arquivamento Arquivamento
  • 7. Solução - Microfilmes  A digitalização dos microfilmes feita por um fornecedor externo;  Dificuldade: parte do material comprometido  Resposta: regerar microfilmes a partir das coleções impressas
  • 8. Solução - Páginas impressas  Contratação de mão de obra e equipamentos para realização do trabalho internamente;  Dificuldade: qualidade de impressão das páginas;  Resposta: tratamento manual da imagem gerada.
  • 9. Solução - Camada de texto  Contratação de um fornecedor para inserir a camada de texto nas imagens;  Dificuldade: poucas empresas no Brasil e alto custo dos fornecedores estrangeiros;  Resposta: prova de conceito com fornecedores nacionais e internacionais.
  • 10. Solução - Camada de texto  Prospecção de fornecedores  Prova de conceito  Peso e qualidade dos PDF’s entregues  Precisão do OCR entregue  Precisão da segmentação de artigos  Precisão da identificação de informações para metadados: títulos e autores das matérias  Corte automático das rebarbas da página (invasão de páginas adjacentes)  Orientação automática das páginas (o mais horizontal possível)
  • 11. Solução - Camada de texto  Recebimento das imagens com camada de texto em lotes semanalmente;  Validação qualidade sobre amostragem do lote;  Pelo menos uma imagem dos arquivos da amostragem não atender aos padrões de qualidade, o lote é reprocessado.
  • 12. Considerações finais  Digitalização total do acervo: aproximadamente 1 ano;  Equipe de projeto:  5 profissionais de tecnologia;  4 profissionais do centro de documentação;  42 profissionais para OCR  5 controle de qualidade  37 geração camada de texto