Planejamento e desenvolvimento de
   serviço de informação em pesquisa
agropecuária: Caso do Sistema Aberto e
Integrado de Informação em Agricultura
                 (Sabiia)

                   Isaque Vacari




       2° Conferência Luso-Brasileira sobre Acesso Aberto
            Rio de Janeiro (RJ) – Novembro de 2011
Agenda
• Motivação
• Introdução
• Objetivos
• Material e métodos
• Resultados e discussão
• Trabalhos futuros
Projeto Sabiia
• Motivação:

                Pesquisa Agropecuária
                           +
              Acesso Aberto à Informação
                           +
            Padrão Aberto e Interoperável
                           +
                    Software Livre
                           =
     Sistema Aberto e Integrado de Informação em
                  Agricultura (Sabiia)
Projeto Sabiia

     O Sistema Aberto e Integrado de Informação em
      Agricultura (Sabiia) é um mecanismo de busca
   automatizado que coleta e centraliza metadados de
 provedores de dados científicos de acesso aberto (OAI-
 PMH), previamente selecionados. Essa interface reúne
       informações sobre agricultura e áreas afins,
possibilitando o acesso ao texto integral de milhares de
      publicações científicas disponíveis em diversas
instituições nacionais e internacionais. O Sabiia permite
 o acesso a documentos como livros, capítulos de livros,
      artigos em periódicos, folhetos, teses, anais e
          proceedings de eventos, entre outros.
Projeto Sabiia
• Inicio:
   – Janeiro de 2009.
• Contribuições:
   – Facilitar e aumentar a visibilidade do acesso as publicações científicas da
     área de pesquisa agropecuária e afins.
• Governança:
   – Embrapa Informação Tecnológica;
   – Embrapa Informática Agropecuária;
   – Sistema Embrapa de Bibliotecas (SEB);
       • 42 bibliotecas especializadas.

• Parceiros:
   – Universidade Federal de Brasília (UnB) – Dr. Fernando César Lima Leite.
• Patrocinador:
   – Empresa Brasileira de Pesquisa Agropecuária (Embrapa).
Projeto Sabiia
• Objetivos:
  – identificar e coletar metadados de provedores de dados da área
    de pesquisa agropecuária e áreas afins disponíveis em ambiente
    de acesso aberto no Brasil e no mundo;
  – disponibilizar os metadados coletados em um sistema de
    recuperação de informação (mecanimo de busca);
  – expor os metadados coletados para outros provedores de
    serviços ou sistema de informação que porventura tenham
    interesse em coletá-los;
  – monitorar permanentemente o surgimento de novos provedores
    de dados;
  – estabelecer e reavaliar, quando se fizer necessário, política de
    desenvolvimento da coleção que compõe o sistema;
  – adotar soluções livres e gratuitas que permitam adaptação e
    reúso para desenvolvimento do sistema.
Projeto Sabiia
• Esquema funcional:



                      OAI-PMH




                                OAI-PMH
            OAI-PMH



                                   OAI-PMH
                      OAI-PMH
Projeto Sabiia

            - Passo a Passo -

Da identificação dos provedores de dados
e coleta de dados até o desenvolvimento
    e disponibilização do portal Sabiia

     Todo processo sistematizado e
             automatizado
Projeto Sabiia
• Levantamento de provedores de dados de
  interesse da pesquisa agropecuária:
  – Um exame preliminar identificou um total de 261
    provedores de dados em áreas de interesse da pesquisa
    agropecuária. Dentre eles, 52 periódicos nacionais, 74
    periódicos estrangeiros, 27 repositórios institucionais e
    temáticos, 4 repositórios de conferências, e 104 periódicos
    nacionais e estrangeiros disponíveis no SciELO. Dos 261
    provedores de dados identificados e selecionados, cerca de
    128 (49%) provedores de dados disponibilizam seus dados
    para uso por outros sistemas de informação.
Projeto Sabiia
• Levantamento de provedores de dados de
  interesse da pesquisa agropecuária:
  – Principais Sistemas de Informação      utilizados   no
    levantamento de provedores de dados:
     • Doaj: http://www.doaj.org/
     • OpenDoar: http://www.opendoar.org
     • Roar: http://roar.eprints.org/
     • Scielo: http://www.scielo.org
Projeto Sabiia
• Passo 1 - Coleta de dados:
   – Os dados bibliográficos dos
     provedores de dados são
     coletados com o software livre
     jOAI (Java Open Archives
     Initiative) e armazenados em
     arquivos no formato XML.
Projeto Sabiia
• Passo 2 – Tratamento de dados:
  – Os dados armazenados em arquivos XML são tratados,
    convertidos e armazenados no Sistema Gerenciador de
    Banco de Dados PostgreSQL.
  – Exemplos de tratamento:
     • Unificação do carácter separador de palavras-chaves: Agricultura
       familiar, pequeno agricultor, política pública;
     • Conversão dos dados bibliográficos coletados para UTF-8.




                                      Tratamento
                                           e
                                   Conversão de dados
                                         para o
                                       PostgreSQL
Projeto Sabiia
• Passo 3 – Conversão de Dados para Busca:
  – Os dados armazenados no PostgreSQL são convertidos para
    o formato da ferramenta de busca Apache Solr.



                     Conversão de
                         dados
                     para o formato
                      Apache Solr
Projeto Sabiia
• Passo 4 – Visualização e recuperação da
  informação no sistema Sabiia:
   – O sistema Sabiia interage com a ferramenta de
     recuperação de informação Apache Solr, apresentando as
     informações recuperadas em uma interface mais intuitiva e
     amigável.
Projeto Sabiia
• Passo 5 – Exposição dos metadados coletados:
  – Os dados coletados, tratados e armazenados no Sistema
    Gerenciador de Banco de Dados PostgreSQL são convertidos
    para a ferramenta OAICat. A ferramenta OAICat é
    responsável por expor os metadados do sistema Sabiia
    utilizando-se do protocolo OAI-PMH;
  – Dessa forma, o sistema Sabiia além de atuar como
    Provedor de Serviços assume o papel de Agregador de
    Dados.




                Conversão de
                   dados
                para o OAICat
Projeto Sabiia




- Portal Sabiia – Sistema de Recuperação
             de Informação -
Projeto Sabiia
• Portal - Lançamento:
  – http://www.embrapa.br/sabiia
  – Lançado oficialmente no Aniversário da Embrapa em Abril
    de 2011
Projeto Sabiia
• Portal – Plano de Comunicação:
Projeto Sabiia
• Recursos de busca:
  – Busca simples e avançada;
  – Busca com operadores booleanos;
  – Busca específica por campo;
  – Busca por provedor de dados e ano de publicação;
  – Agrupamento e refinamento do resultado da busca por Provedor de
    Dados, Autor, Palavra-chave etc;
  – Paginação do resultado da busca;
  – Highlighting sobre o resultado da busca;
  – Nuvem de tags;
  – Impressão do resultado da busca.
• Internacionalização:
  – Português, Espanhol e Inglês.
Projeto Sabiia
• Screenshot da interface de busca:


                        Busca simples




    Agrupamento e
 Refinamento da Busca                   Resultado da Busca
Projeto Sabiia
• Screenshot da interface de busca:




              Busca por Campo




                                          Busca por
                                      Provedor de Dados
          Busca por
       Ano de Publicação
Projeto Sabiia
• Screenshot da interface de busca:




                                      Registro Completo
Projeto Sabiia
• Screenshot da interface de busca:




                                 Lista de
                            Provedores de Dados
Projeto Sabiia




- Dados Estatísticos -
Projeto Sabiia
• Dados estatísticos:
   – 130 provedores de dados coletados ativos;
   – 279.412 documentos indexados;
   – 2.500 visitas por dia;
   – 40.000 hits por dia;
   – 3.000 buscas por dia.
Projeto Sabiia
• Dados estatísticos: Provedores de Dados por País
Projeto Sabiia
• Dados estatísticos – Provedores de Dados por Status:
Projeto Sabiia
• Dados estatísticos – Provedores de Dados Top 30:
Projeto Sabiia
• Principais dificuldades encontradas:
   – Coleta de dados em Provedores de Dados por tema:
      • Exemplo: coletar a coleção de publicações agrícolas da Biblioteca
        Digital Brasileira de Teses e Dissertações (BDTD);
      • Exemplo: coletar a coleção de publicações agrícolas da Universidade
        de São Paulo (USP).
   – Serviço de coleta de dados inexistente:
      • Cerca de 30% dos provedores de dados identificados não
        disponibilizam os metadados para intercâmbio de dados, ou seja, não
        implementam o serviço OAI-PMH.
Projeto Sabiia
• Resultados e discussão:
  – O intercâmbio de dados entre provedores de dados e
    provedores de serviços previsto pelo protocolo OAI-PMH
    possibilitam a criação de novos serviços de valor agregado. O
    Sabiia é um exemplo prático de criação de serviço com valor
    agregado, onde metadados expostos em escala planetária por
    diversos provedores de dados OAI-PMH do setor agropecuário
    e área afins são centralizados, unificados e disponibilizados
    em uma única interface para consulta.
  – A adoção de padrões abertos e interoperáveis, associada ao
    acesso livre e irrestrito aos dados e informações configuram
    uma nova oportunidade para construção de aplicações
    digitais e democratização do acesso aos resultados de
    pesquisas e do conhecimento em geral.
Projeto Sabiia
• Resultados e discussão:
   – O uso de software livre mostrou-se adequado e viável face
     aos desafios impostos para o desenvolvimento do Sistema
     de Informação Sabiia, permitindo à Embrapa conquistar
     autonomia tecnológica em soluções de livres para
     desenvolvimento de provedores de serviços baseados no
     protocolo OAI-PMH.
Projeto Sabiia
• Trabalhos futuros:
  – Incorporação de ferramentas de Análise e Extração de
    Informações Gerenciais – Business Inteligence (BI) -
    Pentaho:
Projeto Sabiia
• Trabalhos futuros:
  – Coletar coleções da Biblioteca Digital Brasileira de Teses e
    Dissertações (BDTD) em agricultura e correlatas.
  – Embrapa + Biblioteca Nacional de Agricultura (BINAGRI) +
    Serviço Nacional de Pesquisa Agropecuária (SNPA):
    Integração do sistema Sabiia com catálogos de bibliotecas
    especializadas em agricultura.
Obrigado!!!

  Isaque Vacari
isaque.vacari@embrapa.br

Confoa 2011-sabiia

  • 1.
    Planejamento e desenvolvimentode serviço de informação em pesquisa agropecuária: Caso do Sistema Aberto e Integrado de Informação em Agricultura (Sabiia) Isaque Vacari 2° Conferência Luso-Brasileira sobre Acesso Aberto Rio de Janeiro (RJ) – Novembro de 2011
  • 2.
    Agenda • Motivação • Introdução •Objetivos • Material e métodos • Resultados e discussão • Trabalhos futuros
  • 3.
    Projeto Sabiia • Motivação: Pesquisa Agropecuária + Acesso Aberto à Informação + Padrão Aberto e Interoperável + Software Livre = Sistema Aberto e Integrado de Informação em Agricultura (Sabiia)
  • 4.
    Projeto Sabiia O Sistema Aberto e Integrado de Informação em Agricultura (Sabiia) é um mecanismo de busca automatizado que coleta e centraliza metadados de provedores de dados científicos de acesso aberto (OAI- PMH), previamente selecionados. Essa interface reúne informações sobre agricultura e áreas afins, possibilitando o acesso ao texto integral de milhares de publicações científicas disponíveis em diversas instituições nacionais e internacionais. O Sabiia permite o acesso a documentos como livros, capítulos de livros, artigos em periódicos, folhetos, teses, anais e proceedings de eventos, entre outros.
  • 5.
    Projeto Sabiia • Inicio: – Janeiro de 2009. • Contribuições: – Facilitar e aumentar a visibilidade do acesso as publicações científicas da área de pesquisa agropecuária e afins. • Governança: – Embrapa Informação Tecnológica; – Embrapa Informática Agropecuária; – Sistema Embrapa de Bibliotecas (SEB); • 42 bibliotecas especializadas. • Parceiros: – Universidade Federal de Brasília (UnB) – Dr. Fernando César Lima Leite. • Patrocinador: – Empresa Brasileira de Pesquisa Agropecuária (Embrapa).
  • 6.
    Projeto Sabiia • Objetivos: – identificar e coletar metadados de provedores de dados da área de pesquisa agropecuária e áreas afins disponíveis em ambiente de acesso aberto no Brasil e no mundo; – disponibilizar os metadados coletados em um sistema de recuperação de informação (mecanimo de busca); – expor os metadados coletados para outros provedores de serviços ou sistema de informação que porventura tenham interesse em coletá-los; – monitorar permanentemente o surgimento de novos provedores de dados; – estabelecer e reavaliar, quando se fizer necessário, política de desenvolvimento da coleção que compõe o sistema; – adotar soluções livres e gratuitas que permitam adaptação e reúso para desenvolvimento do sistema.
  • 7.
    Projeto Sabiia • Esquemafuncional: OAI-PMH OAI-PMH OAI-PMH OAI-PMH OAI-PMH
  • 8.
    Projeto Sabiia - Passo a Passo - Da identificação dos provedores de dados e coleta de dados até o desenvolvimento e disponibilização do portal Sabiia Todo processo sistematizado e automatizado
  • 9.
    Projeto Sabiia • Levantamentode provedores de dados de interesse da pesquisa agropecuária: – Um exame preliminar identificou um total de 261 provedores de dados em áreas de interesse da pesquisa agropecuária. Dentre eles, 52 periódicos nacionais, 74 periódicos estrangeiros, 27 repositórios institucionais e temáticos, 4 repositórios de conferências, e 104 periódicos nacionais e estrangeiros disponíveis no SciELO. Dos 261 provedores de dados identificados e selecionados, cerca de 128 (49%) provedores de dados disponibilizam seus dados para uso por outros sistemas de informação.
  • 10.
    Projeto Sabiia • Levantamentode provedores de dados de interesse da pesquisa agropecuária: – Principais Sistemas de Informação utilizados no levantamento de provedores de dados: • Doaj: http://www.doaj.org/ • OpenDoar: http://www.opendoar.org • Roar: http://roar.eprints.org/ • Scielo: http://www.scielo.org
  • 11.
    Projeto Sabiia • Passo1 - Coleta de dados: – Os dados bibliográficos dos provedores de dados são coletados com o software livre jOAI (Java Open Archives Initiative) e armazenados em arquivos no formato XML.
  • 12.
    Projeto Sabiia • Passo2 – Tratamento de dados: – Os dados armazenados em arquivos XML são tratados, convertidos e armazenados no Sistema Gerenciador de Banco de Dados PostgreSQL. – Exemplos de tratamento: • Unificação do carácter separador de palavras-chaves: Agricultura familiar, pequeno agricultor, política pública; • Conversão dos dados bibliográficos coletados para UTF-8. Tratamento e Conversão de dados para o PostgreSQL
  • 13.
    Projeto Sabiia • Passo3 – Conversão de Dados para Busca: – Os dados armazenados no PostgreSQL são convertidos para o formato da ferramenta de busca Apache Solr. Conversão de dados para o formato Apache Solr
  • 14.
    Projeto Sabiia • Passo4 – Visualização e recuperação da informação no sistema Sabiia: – O sistema Sabiia interage com a ferramenta de recuperação de informação Apache Solr, apresentando as informações recuperadas em uma interface mais intuitiva e amigável.
  • 15.
    Projeto Sabiia • Passo5 – Exposição dos metadados coletados: – Os dados coletados, tratados e armazenados no Sistema Gerenciador de Banco de Dados PostgreSQL são convertidos para a ferramenta OAICat. A ferramenta OAICat é responsável por expor os metadados do sistema Sabiia utilizando-se do protocolo OAI-PMH; – Dessa forma, o sistema Sabiia além de atuar como Provedor de Serviços assume o papel de Agregador de Dados. Conversão de dados para o OAICat
  • 16.
    Projeto Sabiia - PortalSabiia – Sistema de Recuperação de Informação -
  • 17.
    Projeto Sabiia • Portal- Lançamento: – http://www.embrapa.br/sabiia – Lançado oficialmente no Aniversário da Embrapa em Abril de 2011
  • 18.
    Projeto Sabiia • Portal– Plano de Comunicação:
  • 19.
    Projeto Sabiia • Recursosde busca: – Busca simples e avançada; – Busca com operadores booleanos; – Busca específica por campo; – Busca por provedor de dados e ano de publicação; – Agrupamento e refinamento do resultado da busca por Provedor de Dados, Autor, Palavra-chave etc; – Paginação do resultado da busca; – Highlighting sobre o resultado da busca; – Nuvem de tags; – Impressão do resultado da busca. • Internacionalização: – Português, Espanhol e Inglês.
  • 20.
    Projeto Sabiia • Screenshotda interface de busca: Busca simples Agrupamento e Refinamento da Busca Resultado da Busca
  • 21.
    Projeto Sabiia • Screenshotda interface de busca: Busca por Campo Busca por Provedor de Dados Busca por Ano de Publicação
  • 22.
    Projeto Sabiia • Screenshotda interface de busca: Registro Completo
  • 23.
    Projeto Sabiia • Screenshotda interface de busca: Lista de Provedores de Dados
  • 24.
    Projeto Sabiia - DadosEstatísticos -
  • 25.
    Projeto Sabiia • Dadosestatísticos: – 130 provedores de dados coletados ativos; – 279.412 documentos indexados; – 2.500 visitas por dia; – 40.000 hits por dia; – 3.000 buscas por dia.
  • 26.
    Projeto Sabiia • Dadosestatísticos: Provedores de Dados por País
  • 27.
    Projeto Sabiia • Dadosestatísticos – Provedores de Dados por Status:
  • 28.
    Projeto Sabiia • Dadosestatísticos – Provedores de Dados Top 30:
  • 29.
    Projeto Sabiia • Principaisdificuldades encontradas: – Coleta de dados em Provedores de Dados por tema: • Exemplo: coletar a coleção de publicações agrícolas da Biblioteca Digital Brasileira de Teses e Dissertações (BDTD); • Exemplo: coletar a coleção de publicações agrícolas da Universidade de São Paulo (USP). – Serviço de coleta de dados inexistente: • Cerca de 30% dos provedores de dados identificados não disponibilizam os metadados para intercâmbio de dados, ou seja, não implementam o serviço OAI-PMH.
  • 30.
    Projeto Sabiia • Resultadose discussão: – O intercâmbio de dados entre provedores de dados e provedores de serviços previsto pelo protocolo OAI-PMH possibilitam a criação de novos serviços de valor agregado. O Sabiia é um exemplo prático de criação de serviço com valor agregado, onde metadados expostos em escala planetária por diversos provedores de dados OAI-PMH do setor agropecuário e área afins são centralizados, unificados e disponibilizados em uma única interface para consulta. – A adoção de padrões abertos e interoperáveis, associada ao acesso livre e irrestrito aos dados e informações configuram uma nova oportunidade para construção de aplicações digitais e democratização do acesso aos resultados de pesquisas e do conhecimento em geral.
  • 31.
    Projeto Sabiia • Resultadose discussão: – O uso de software livre mostrou-se adequado e viável face aos desafios impostos para o desenvolvimento do Sistema de Informação Sabiia, permitindo à Embrapa conquistar autonomia tecnológica em soluções de livres para desenvolvimento de provedores de serviços baseados no protocolo OAI-PMH.
  • 32.
    Projeto Sabiia • Trabalhosfuturos: – Incorporação de ferramentas de Análise e Extração de Informações Gerenciais – Business Inteligence (BI) - Pentaho:
  • 33.
    Projeto Sabiia • Trabalhosfuturos: – Coletar coleções da Biblioteca Digital Brasileira de Teses e Dissertações (BDTD) em agricultura e correlatas. – Embrapa + Biblioteca Nacional de Agricultura (BINAGRI) + Serviço Nacional de Pesquisa Agropecuária (SNPA): Integração do sistema Sabiia com catálogos de bibliotecas especializadas em agricultura.
  • 34.
    Obrigado!!! IsaqueVacari isaque.vacari@embrapa.br