Este documento apresenta uma capacitação sobre integração de bancos de dados e sistemas de informação de biodiversidade. A agenda inclui introdução aos conceitos de sistemas de informação e gestão de dados, desafios da gestão de dados, ciclo de vida de dados científicos e boas práticas na gestão de dados.
REVISTA DE BIOLOGIA E CIÊNCIAS DA TERRA ISSN 1519-5228 - Artigo_Bioterra_V25_...
Gestão de Dados Científicos e seu Ciclo de Vida
1. I Capacitação de Integração de Banco de Dados e Sistemas de Informação de
Biodiversidade
Daniel Lins da Silva (daniellins@usp.br)
Grupo de Integração de Sistemas
Escola Politécnica da USP
Gestão de Dados Científicos
Ciclo de Vida dos Dados
2. 2
I Capacitação de Integração de Banco de Dados e
Sistemas de Informação de Biodiversidade
Agenda
1. INTRODUÇÃO
2. PORQUE A GESTÃO DE DADOS?
3. GESTÃO DE DADOS;
4. DESAFIOS DA GESTÃO DE DADOS;
5. CICLO DE VIDA DE DADOS CIENTÍFICOS;
6. BOAS PRÁTICAS NA GESTÃO DOS DADOS;
7. REFERÊNCIAS COMPLEMENTARES.
3. 3
I Capacitação de Integração de Banco de Dados e
Sistemas de Informação de Biodiversidade
Introdução
UM CONJUNTO DE COMPONENTES INTER-RELACIONADOS QUE
COLETA (OU RECUPERA), PROCESSA, ARMAZENA E DISTRIBUI
INFORMAÇÕES DESTINADAS A APOIAR A TOMADA DE DECISÕES E O
CONTROLE EM UM DOMÍNIO. Fonte: Laudon, 2007.
CONCEITO DE SISTEMA DE INFORMAÇÃO
4. 4
I Capacitação de Integração de Banco de Dados e
Sistemas de Informação de Biodiversidade
Introdução
CONCEITO DE SISTEMA DE INFORMAÇÃO
1. DADOS: FLUXOS DE FATOS COLETADOS (BRUTOS) QUE REPRESENTAM
EVENTOS DO DOMÍNIO (EX: UMIDADE, TEMPERATURA, PRECIPITAÇÃO,
OBSERVAÇÃO, COLETA, ETC);
2. INFORMAÇÃO: CONJUNTOS DE DADOS SIGNIFICATIVOS E ÚTEIS A SERES
HUMANOS EM PROCESSOS COMO O DE TOMADA DE DECISÕES;
3. CONHECIMENTO: INFORMAÇÕES INTER-RELACIONADAS NÃO ESTRUTURADAS
DE REGRAS QUE DIRECIONAM AS TOMADAS DE DECISÕES.
Fonte: CORRÊA & SARAIVA.
5. 5
I Capacitação de Integração de Banco de Dados e
Sistemas de Informação de Biodiversidade
Introdução
Processo de Conservação da Biodiversidade
Síntese
Operacional
Integração
Gerencial
Estratégico
Curto/Médio
prazo
Médio/Longo
prazo
Decisões
Fonte: CORRÊA, 2012.
Níveis de Informação
6. 6
I Capacitação de Integração de Banco de Dados e
Sistemas de Informação de Biodiversidade
Porque a gestão de dados?
PORQUE APLICAR AS TÉCNICAS E CONCEITOS DE GESTÃO DE
DADOS?
7. 7
I Capacitação de Integração de Banco de Dados e
Sistemas de Informação de Biodiversidade
Porque a gestão de dados?
1. PARA CAPTURAR, ARMAZENAR, PROTEGER E GARANTIR A INTEGRIDADE
DOS ATIVOS DE DADOS CIENTÍFICOS;
2. GARANTIR A UTILIZAÇÃO ADEQUADA DOS DADOS E INFORMAÇÕES;
3. MAXIMIZAR O USO EFICAZ DOS DADOS E AGREGAR VALOR AOS ATIVOS
DA INFORMAÇÃO.
Fonte: DAMA International, The DAMA Guide to the Data
Management Body of Knowledge
8. 8
I Capacitação de Integração de Banco de Dados e
Sistemas de Informação de Biodiversidade
Porque a gestão de dados?
Fonte: http://news.bbc.co.uk/1/hi/uk/8332445.stm
SE SEUS DADOS CAIREM EM MÃOS
ERRADAS?
9. 9
I Capacitação de Integração de Banco de Dados e
Sistemas de Informação de Biodiversidade
Porque a gestão de dados?
Fonte: The Telegraph
SE FOR NECESSÁRIA A PRODUÇÃO DE
INFORMAÇÕES?
10. 10
I Capacitação de Integração de Banco de Dados e
Sistemas de Informação de Biodiversidade
Porque a gestão de dados?
Fonte: http://g1.globo.com/sao-paulo/noticia/2010/05/incendio-no-instituto-butantan-destroi-maior-acervo-de-
cobras-do-pais.html
SE ESTE FOR O SEU INSTITUTO DE
PESQUISA?
11. 11
I Capacitação de Integração de Banco de Dados e
Sistemas de Informação de Biodiversidade
Porque a gestão de dados?
Fonte: http://blogs.ch.cam.ac.uk/pmr/
2011/08/01/why-you-need-a-
data-management-plan
SE ESTA FOR A SUA
MOCHILA?
“O HD EXTERNO É MUITO
IMPORTANTE, POIS CONTÉM 5
ANOS DE DADOS DE
PESQUISAS…”
12. 12
I Capacitação de Integração de Banco de Dados e
Sistemas de Informação de Biodiversidade
Gestão de dados
“GESTÃO DE DADOS É A DISCIPLINA RESPONSÁVEL POR DEFINIR,
PLANEJAR, IMPLANTAR E EXECUTAR: ESTRATÉGIAS, PROCEDIMENTOS
E PRÁTICAS NECESSÁRIAS PARA GERENCIAR DE FORMA EFETIVA OS
RECURSOS DE DADOS E INFORMAÇÕES DAS ORGANIZAÇÕES,
INCLUINDO PLANOS PARA SUA DEFINIÇÃO, PADRONIZAÇÃO,
ORGANIZAÇÃO, PROTEÇÃO E UTILIZAÇÃO.”
A GESTÃO DE DADOS É UM CONCEITO BASTANTE AMPLO, ELA ATUA
NOS NÍVEIS: OPERACIONAL, GERENCIAL (TÁTICA) E ESTRATÉGICO.
Fonte: DAMA-DMBOK
13. 13
I Capacitação de Integração de Banco de Dados e
Sistemas de Informação de Biodiversidade
O que envolve a Gestão de
Dados?
1. CRIAR OS DADOS;
2. DESCREVER OS DADOS;
3. ACESSAR E UTILIZAR OS DADOS;
4. ARMAZENAR E PROTEGER OS DADOS;
5. COMPARTILHAR OS DADOS;
6. PRESERVAR OS DADOS.
0. PLANEJAR AS AÇÕES;
Planejar
14. 14
I Capacitação de Integração de Banco de Dados e
Sistemas de Informação de Biodiversidade
QUAIS OS DESAFIOS DA GESTÃO DE DADOS?
Foto de @HawkeyePilot
http://www.flickr.com/photos/29
374594@N00/3215997536/
14
15. 15
I Capacitação de Integração de Banco de Dados e
Sistemas de Informação de Biodiversidade
Silos de Dados
SÃO OS DEPÓSITOS ISOLADOS DE DADOS, CRIADOS POR
ORGANIZAÇÕES, SEUS SETORES E ATÉ POR COLABORADORES.
16. 16
I Capacitação de Integração de Banco de Dados e
Sistemas de Informação de Biodiversidade
Dados Orfãos
• INFORMAÇÃO QUE SE TORNOU IRRECUPERÁVEL POR ESTAR LOCALIZADA
EM DISPOSITIVOS NÃO MAIS ACESSÍVEIS, COMO NOTEBOOKS, E QUE
NUNCA FORAM TRANSFERIDAS PARA SERVIDORES COMPUTACIONAIS;
• INFORMAÇÕES PERDIDAS APÓS O DESLIGAMENTO DE
PESQUISADORES/FUNCIONÁRIOS DA INSTITUIÇÃO;
• DADOS DE PESQUISADORES NÃO ASSOCIADOS A NENHUMA REDE DE
DADOS.
?
??
17. 17
I Capacitação de Integração de Banco de Dados e
Sistemas de Informação de Biodiversidade
Dados Orfãos
• INFORMAÇÃO QUE SE TORNOU IRRECUPERÁVEL POR ESTAR LOCALIZADA
EM DISPOSITIVOS NÃO MAIS ACESSÍVEIS, COMO NOTEBOOKS, E QUE
NUNCA FORAM TRANSFERIDAS PARA SERVIDORES COMPUTACIONAIS;
• INFORMAÇÕES PERDIDAS APÓS O DESLIGAMENTO DE
PESQUISADORES/FUNCIONÁRIOS DA INSTITUIÇÃO;
• DADOS DE PESQUISADORES NÃO ASSOCIADOS A NENHUMA REDE DE
DADOS.
?
??
18. 18
I Capacitação de Integração de Banco de Dados e
Sistemas de Informação de Biodiversidade
“The Long tail” da GD
VOLUME
VARIEDADES DE DADOS
Repositórios Especializados
Dados orfãos
“A maioria dos bytes estão
no topo, mas a maioria das
coleções de dados estão
embaixo.” – Jim Gray
Fonte: DataONE
19. 19
I Capacitação de Integração de Banco de Dados e
Sistemas de Informação de Biodiversidade
“Dilúvio” dos Dados
Fonte:http://www.intel.com/content/www/us/en/communications/internet-
minute-infographic.html
20. 20
I Capacitação de Integração de Banco de Dados e
Sistemas de Informação de Biodiversidade
“Dilúvio” dos Dados
Fonte:www.carboafrica.net
Redes, Sensores, Sensoriamento
Remoto, Experimentos, Coletas…
21. 21
I Capacitação de Integração de Banco de Dados e
Sistemas de Informação de Biodiversidade
Entropia dos DadosConteúdodaInformação
Tempo
Período da Publicação
Perda de detalhes específicos
Perda dos detalhes gerais
Um acidente
pode
destruir os
dados e
documentos
Aposentadoria ou
mudança na carreira
Morte
Fonte: Michener et al. 1997
22. 22
I Capacitação de Integração de Banco de Dados e
Sistemas de Informação de Biodiversidade
C.V. de Dados Científicos
Coletar
Assegurar
Descrever
Depositar
Preservar
Descobrir
Integrar
Analisar
Planejar
Fonte: DataONE Best Practices
23. 23
I Capacitação de Integração de Banco de Dados e
Sistemas de Informação de Biodiversidade
C.V. de Dados Científicos
Como eu
mantenho meus
dados?
Quais são as
ferramentas
de QA/QC?
O que é um
plano de gestão
de dados?
O que são
metadados?
Como
preservo
meus dados?
Planejar
Coletar
Assegurar
Descrever
Preservar
Descobrir
Integrar
Analisar Como devo
organizer
meus dados?
Como posso
visualizar e
analisar os
dados?
Que
ferramentas
eu posso
utilizar?
Que outros
dados
existem?
24. 24
I Capacitação de Integração de Banco de Dados e
Sistemas de Informação de Biodiversidade
BOAS PRÁTICAS NA GESTÃO DE DADOS
24
Foto de @Aestheter
http://www.flickr.com/photos/di
ngridsystem/7758303394/
PLANEJAR COLETA
25. 25
I Capacitação de Integração de Banco de Dados e
Sistemas de Informação de Biodiversidade
Planejar
1. MAPEIA OS PROCESSOS E RECURSOS PARA TODO O CICLO DE
VIDA DOS DADOS;
• COMEÇAR COM OS OBJETIVOS DO PROJETO (DESEJOS, RESULTADOS E
IMPACTOS) E CONSTRUIR UM PLANO DE GESTÃO DOS DADOS,
CONSIDERANDO A POLÍTICA DOS DADOS E SUA SUSTENTABILIDADE.
• PONTOS A SEREM CONSIDERADOS:
• QUAIS E COMO OS DADOS SERÃO COLETADOS;
• ONDE OS DADOS SERÃO ARMAZENADOS (REPOSITÓRIO);
• COMO OS DADOS SERÃO ORGANIZADOS (FORMATOS, ESTRUTURA);
• COMO OS DADOS SERÃO DESCRITOS (METADADOS);
• COMO OS DADOS SERÃO COMPARTILHADOS;
• DEFINIÇÃO DO PLANO DE PRESERVAÇÃO DOS DADOS E
RESPONSABILIDADES.
26. 26
I Capacitação de Integração de Banco de Dados e
Sistemas de Informação de Biodiversidade
Plano de Gestão dos Dados
1. DOCUMENTO FORMAL;
2. DESCREVE COMO OS DADOS SERÃO MANIPULADOS DURANTE E DEPOIS DA
CONCLUSÃO DA PESQUISA/PROJETO;
3. OBJETIVA QUE SEUS DADOS ESTARÃO SEGUROS NO PRESENTE E NO FUTURO.
4. PORQUE UM PLANO DE GESTÃO?
• GARANTE QUE TODOS POSSAM ENTENDER E REUTILIZAR OS DADOS;
• ECONOMIZA TEMPO E ESFORÇO (REORGANIZAR É PIOR);
• FACILITA A PRESERVAÇÃO E COMPARTILHAMENTO DOS DADOS;
• EVITA O RETRABALHO E ESFORÇOS DUPLICADOS;
• TORNA A PESQUISA (E SEUS RESULTADOS) MAIS CONFIÁVEIS E
RELEVANTES;
• ESTÁ SE TORNANDO UMA EXIGÊNCIA DAS AGÊNCIAS FINANCIADORAS.
27. 27
I Capacitação de Integração de Banco de Dados e
Sistemas de Informação de Biodiversidade
Plano de Gestão dos Dados
1. FERRAMENTAS PARA A CRIAÇÃO DE PLANOS DE GESTÃO DE
DADOS:
dmp.cdlib.org dmponline.dcc.ac.uk
28. 28
I Capacitação de Integração de Banco de Dados e
Sistemas de Informação de Biodiversidade
Protocolos de Monitoramento
1. DEFINE COMO OS DADOS
DEVEM SER COLETADOS,
GERENCIADOS, ANALISADOS
E PUBLICADOS;
2. DEFINE TAMBÉM QUESTÕES
DE QUALIDADE E
PADRONIZAÇÃO DOS DADOS.
http://science.nature.nps.gov/im/monit
or/protocols/ProtocolGuidelines.pdf
29. 29
I Capacitação de Integração de Banco de Dados e
Sistemas de Informação de Biodiversidade
Custos do Ciclo de Vida
1. COLETA;
2. DIGITALIZAÇÃO;
3. GESTÃO;
4. ARMAZENAMENTO;
5. SEGURANÇA;
6. PESSOAS;
7. HARDWARE;
8. SOFTWARE;
9. CAPACITAÇÃO.
30. 30
I Capacitação de Integração de Banco de Dados e
Sistemas de Informação de Biodiversidade
BOAS PRÁTICAS NA GESTÃO DE DADOS
30
Foto de @Aestheter
http://www.flickr.com/photos/di
ngridsystem/7758303394/
COLETAR ASSEGURPLANEJAR
31. 31
I Capacitação de Integração de Banco de Dados e
Sistemas de Informação de Biodiversidade
Coletar
1. DETERMINA A MELHOR FORMA PARA SE OBTER OS DADOS;
2. O RESULTADO DESTE PROCESSO É UM DOCUMENTO QUE DESCREVE A FORMA COMO
OS DADOS SÃO ESTRUTURADOS.
• DETERMINA COMO OS DADOS SÃO COLETADOS;
• DETERMINA COMO OS DADOS GERADOS SÃO ORGANIZADOS E ARMAZENADOS.
3. PARA O ARMAZENAMENTO EM LONGO PRAZO, OS DADOS DEVEM SER ARMAZENADOS
EM FORMATOS DE DADOS CONSISTENTES E ESPECÍFICOS PARA ESTA FINALIDADE
(FACILITANDO SUA UTILIZAÇÃO HOJE E NO FUTURO).
• BASES RELACIONAIS;
• ARQUIVOS CSV (TEXTO COM SEPARADORES);
• OUTROS RECOMENDAÇÕES DE FORMATOS
http://libraries.mit.edu/guides/subjects/data-management/formats.html
32. 32
I Capacitação de Integração de Banco de Dados e
Sistemas de Informação de Biodiversidade
Problemas na coleta
• Inconsistências entre os eventos coletados;
• Localização das informações de datas;
• Inconsistência no formato de datas;
• Nome das colunas;
• Ordem das colunas.
33. 33
I Capacitação de Integração de Banco de Dados e
Sistemas de Informação de Biodiversidade
Problemas na coleta
• Colunas devem ser consistentes: apenas números, datas ou textos;
• Formatos e códigos consistentes;
• Dados em apenas uma planilha, para facilitar a captura dos dados por sistemas
computacionais, sem a intervenção humana;
• Colunas específicas para comentários e demais características que descrevem o
registro.
34. 34
I Capacitação de Integração de Banco de Dados e
Sistemas de Informação de Biodiversidade
BOAS PRÁTICAS NA GESTÃO DE DADOS
34
Foto de @Aestheter
http://www.flickr.com/photos/di
ngridsystem/7758303394/
ASSEGURAR DESCREVCOLETAR
35. 35
I Capacitação de Integração de Banco de Dados e
Sistemas de Informação de Biodiversidade
Assegurar
1. EMPREGAR PROCEDIMENTOS DE GARANTIA E CONTROLE DA QUALIDADE
(QA/QC) DOS DADOS:
• CAPACITAÇÃO DE PARTICIPANTES;
• ROTINA DE CALIBRAÇÃO DE INSTRUMENTOS;
• PROCEDIMENTOS DE REVISÃO DOS DADOS.
2. IDENTIFICAR PROBLEMAS E TÉCNICAS POSSÍVEIS PARA SOLUCIONÁ-LOS.
QUALITY ASSURANCE (QA) É UM CONJUNTO DE PROCESSOS UTILIZADOS PARA
GARANTIR QUE OS MELHORES DADOS POSSÍVEIS SERÃO COLETADOS E
ARMAZENADOS;
QUALITY CONTROL (QC) É UM CONJUNTO DE PROCESSOS PARA AVALIAR A
QUALIDADE DOS DADOS DEPOIS QUE OS MESMOS FOREM COLETADOS.
36. 36
I Capacitação de Integração de Banco de Dados e
Sistemas de Informação de Biodiversidade
Assegurar
1. TIPOS MAIS COMUNS DE ERROS:
• ERROS DE AÇÃO
• DADOS INSERIDOS INCORRETAMENTE;
• EXEMPLOS: INSTRUMENTOS MAL CALIBRADOS, ERROS DE DIGITAÇÃO.
• ERROS DE OMISSÃO
• DADOS OU METADADOS NÃO REGISTRADOS;
• EXEMPLOS: DOCUMENTAÇÃO INADEQUADA, ERRO HUMANO, ANOMALIAS NAS COLETAS
EM CAMPO.
37. 37
I Capacitação de Integração de Banco de Dados e
Sistemas de Informação de Biodiversidade
Assegurar
1. ATIVIDADES DE QA/QC
• ANTES DAS COLETAS/REGISTROS
• DEFINIR E GARANTIR O CUMPRIMENTO DAS NORMAS;
• FORMATOS, CÓDIGOS, UNIDADES DE MEDIDA, METADADOS.
• DEFINIR RESPONSÁVEIS PELA QUALIDADE DOS DADOS.
• DURANTE AS COLETAS/REGISTROS
• ENTRADA DUPLA DOS DADOS;
• PROCESSOS DE VALIDAÇÃO DOS DADOS;
• PROJETO DE DADOS E INTERFACES BEM ELABORADOS.
• APÓS AS COLETAS/REGISTROS
• VALIDAÇÃO SE OS DADOS ENCONTRAM-SE NAS COLUNAS CORRETAS;
• CHECAGEM DE VALORES AUSENTES, IMPOSSÍVEIS OU ANOMALIAS;
• REALIZAR RESUMOS ESTATÍSTICOS;
• VERIFICAÇÃO DE OUTLIERS.
38. 38
I Capacitação de Integração de Banco de Dados e
Sistemas de Informação de Biodiversidade
BOAS PRÁTICAS NA GESTÃO DE DADOS
38
Foto de @Aestheter
http://www.flickr.com/photos/di
ngridsystem/7758303394/
DESCREVER PRESERVASSEGURAR
39. 39
I Capacitação de Integração de Banco de Dados e
Sistemas de Informação de Biodiversidade
Descrever
1. DOCUMENTAÇÃO DOS DADOS
• PORQUE, QUEM, O QUÊ, QUANDO, ONDE E COMO;
• UTILIZAÇÃO DE METADADOS (DADOS SOBRE DADOS);
• É A CHAVE PARA O COMPARTILHAMENTO E REUTILIZAÇÃO DOS DADOS.
• VÁRIAS NORMAS E FERRAMENTAS ESTÃO DISPONÍVEIS PARA APOIAR ESTE
PROCESSO.
• OS METADADOS SÃO UTILIZADOS TANTO POR HUMANOS QUANTO POR
COMPUTADORES PARA APOIO NOS PROCESSOS DE DESCOBERTA,
INTEGRAÇÃO E ANÁLISE DOS DADOS.
40. 40
I Capacitação de Integração de Banco de Dados e
Sistemas de Informação de Biodiversidade
Descrever
1. REUTILIZAÇÃO DOS DADOS
• SE VOCÊ CRIA METADADOS, OUTRAS PESSOAS PODEM DESCOBRIR SEUS
DADOS.
• SE VOCÊ CRIA METADADOS, VOCÊ PODE ENCONTRAR OS SEUS PRÓPRIOS
DADOS!
41. 41
I Capacitação de Integração de Banco de Dados e
Sistemas de Informação de Biodiversidade
Descrever
TEMPO
DETALHESDOSDADOS
A gestão da informação,
incluindo o desenvolvimento
de metadados, pode acabar
com a perda dos dados.
ENTROPIA DOS DADOS
Fonte: DataONE Best Practices
42. 42
I Capacitação de Integração de Banco de Dados e
Sistemas de Informação de Biodiversidade
BOAS PRÁTICAS NA GESTÃO DE DADOS
42
Foto de @Aestheter
http://www.flickr.com/photos/di
ngridsystem/7758303394/
PRESERVAR DESCOBRDESCREVER
43. 43
I Capacitação de Integração de Banco de Dados e
Sistemas de Informação de Biodiversidade
Preservar
PLANO PARA PRESERVAR OS DADOS
• NO CURTO PRAZO PARA MINIMIZAR AS PERDAS POTENCIAIS, COMO ACIDENTES;
• NO LONGO PRAZO PARA QUE PARTICIPANTES DO PROJETO E OUTROS
PESQUISADORES POSSAM ACESSAR, INTERPRETAR E UTILIZAR OS DADOS NO
FUTURO.
• PROTEÇÃO DOS DADOS INCLUEM QUESTÕES COMO BACKUPS, SEGURANÇA
FÍSICA, CRIPTOGRAFIA;
• PRESERVAÇÃO DOS DADOS INCLUEM OS PROCESSOS PARA CONSERVAÇÃO,
RECUPERAÇÃO, REORGANIZAÇÃO E DESCRIÇÃO DOS DADOS.
44. 44
I Capacitação de Integração de Banco de Dados e
Sistemas de Informação de Biodiversidade
Preservar
BOAS PRÁTICAS
• ARMAZENAR OS DADOS E METADADOS EM FORMATOS APROPRIADOS;
• REALIZAR BACKUPS DOS DADOS DOS PROJETOS;
• GARANTIR A INTEGRIDADE E O ACESSO AOS BACKUPS DE DADOS;
• DEFINIÇÃO DE POLÍTICAS PARA SEGURANÇA E ARMAZENAMENTO DAS
INFORMAÇÕES;
• IDENTIFICAR DADOS COM VALOR A LONGO PRAZO;
• PRESERVAR OS DADOS BRUTOS;
• IDENTIFICAR E GERENCIAR OS DADOS SENSÍVEIS.
45. 45
I Capacitação de Integração de Banco de Dados e
Sistemas de Informação de Biodiversidade
BOAS PRÁTICAS NA GESTÃO DE DADOS
45
Foto de @Aestheter
http://www.flickr.com/photos/di
ngridsystem/7758303394/
DESCOBRIR INTEGRAPRESERVAR
46. 46
I Capacitação de Integração de Banco de Dados e
Sistemas de Informação de Biodiversidade
Descobrir
1. ESTRATÉGIAS PARA A LOCALIZAÇÃO E AQUISIÇÃO DE DADOS
POTENCIALMENTE ÚTEIS:
• IDENTIFICAR DADOS COMPLEMENTARES QUE POSSAM AGREGAR VALOR AOS
DADOS DO PROJETO.
• BUSCADORES GENÉRICOS NA WEB NÃO SÃO EFICIENTES PARA ENCONTRAR
DADOS ÚTEIS.
• DADOS CIENTÍFICOS SÃO MAIS FACILMENTE ENCONTRADOS POR MEIO DAS
REDES, DIRETÓRIOS DE PROJETOS E REPOSITÓRIOS:
Repositórios Website
Global Biodiversity Information Facility gbif.org
Atlas of Living Australia ala.org.au
Knowledge Network for Biocomplexity knb.ecoinformatics.org
Dryad datadryad.org
47. 47
I Capacitação de Integração de Banco de Dados e
Sistemas de Informação de Biodiversidade
Descobrir (Compartilhar)
1. ESTRATÉGIAS PARA TORNAR AS INFORMAÇÕES SOBRE OS DADOS
DISPONÍVEIS, PARA QUE OS OUTROS POSSAM DESCOBRI-LOS E
ACESSÁ-LOS:
1. AUMENTANDO A VISIBILIDADE DO PROJETO E DE SEUS DADOS:
• AUMENTO DO POTENCIAL DE USO AMPLO;
• BENEFÍCIOS PARA A PESQUISA CIENTÍFICA, O APOIO À DECISÃO E A
ELABORAÇÃO DE POLÍTICAS PÚBLICAS.
2. ESTRATÉGIAS PARA GARANTIR O MÁXIMO IMPACTO PARA OS DADOS GERADOS:
• REGISTRAR O PROJETO EM UM SITE DE DIRETÓRIO DE PROJETOS;
• DEPOSITAR OS DADOS GERADOS EM UM REPOSITÓRIOS COMPARTILHADOS;
• ADICIONAR DESCRIÇÕES DOS DADOS (METADADOS) EM SISTEMAS DE
ARMAZENAMENTO DISTRIBUÍDO DE METADADOS.
48. 48
I Capacitação de Integração de Banco de Dados e
Sistemas de Informação de Biodiversidade
Descobrir (Compartilhar)
1. DIVERSOS ESTÁGIOS SÃO CRÍTICOS PARA UMA EFETIVIDADE NO
COMPARTILHAMENTO DE DADOS:
Definir o processo e as regras para uma
eficiente documentação dos dados gerados.
Descrever
Armazenar os dados em uma localização que
facilite o seu acesso.Depositar
Selecionar formatos de armazenamento, tipos
de arquivos e meios de comunicação
adequados.
Preservar
Publicar informações sobre os dados para que
os mesmos possam ser localizados.Descobrir
49. 49
I Capacitação de Integração de Banco de Dados e
Sistemas de Informação de Biodiversidade
O COMPARTILHAMENTO AGREGA VALOR AOS DADOS
OS METADADOS GARANTEM A PROPRIEDADE DOS
DADOS, SUA CONFIABILIDADE E USABILIDADE
OS PATROCINADORES ESPERAM, E ALGUNS EXIGEM,
QUE OS DADOS SEJAM COMPARTILHADOS
O COMPARTILHAMENTO DE CONHECIMENTO É
ESSENCIAL PARA O AVANÇO DA CIÊNCIA
50. 50
I Capacitação de Integração de Banco de Dados e
Sistemas de Informação de Biodiversidade
BOAS PRÁTICAS NA GESTÃO DE DADOS
50
Foto de @Aestheter
http://www.flickr.com/photos/di
ngridsystem/7758303394/
INTEGRAR ANALISADESCOBRIR
51. 51
I Capacitação de Integração de Banco de Dados e
Sistemas de Informação de Biodiversidade
Integrar
COMBINA DADOS DE DIVERSAS FONTES PARA POSSIBILITAR NOVAS
ANÁLISES E INVESTIGAÇÕES.
• O SUCESSO DA INTEGRAÇÃO DE DADOS DEPENDE DO EMPREGO DE
BOAS PRÁTICAS DE GESTÃO EM TODO O CICLO DE VIDA DOS DADOS.
• EXISTEM DIVERSOS CENÁRIOS PARA A INTEGRAÇÃO DE DADOS:
• INTEGRAÇÃO DE DADOS DE MÚLTIPLOS PROJETOS PARA O TRATAMENTO DE
QUESTÕES COMPLEXAS;
• DADOS ESPARSOS QUE PRECISAM SER COMPLEMENTADOS COM DADOS
EXISTENTES PARA POSSIBILITAR A REALIZAÇÃO DE ANÁLISES;.
52. 52
I Capacitação de Integração de Banco de Dados e
Sistemas de Informação de Biodiversidade
BOAS PRÁTICAS NA GESTÃO DE DADOS
52
Foto de @Aestheter
http://www.flickr.com/photos/di
ngridsystem/7758303394/
ANALISAR PLANEJAINTEGRAR
53. 53
I Capacitação de Integração de Banco de Dados e
Sistemas de Informação de Biodiversidade
Analisar
1. UTILIZAR OS DADOS PARA ANÁLISES QUE ATENDAM OS OBJETIVOS DO
PROJETO.
• MUITAS FERRAMENTAS DE SOFTWARE JÁ ESTÃO DISPONÍVEIS PARA APOIAR AS
ATIVIDADES DE EXPLORAÇÃO, ANÁLISE E VISUALIZAÇÃO DOS DADOS.
• DATA ANALYSES
• CONDUZIDA POR COMPUTADORES, GRID OU CLOUD COMPUTING;
• ESTATÍSTICAS, EXECUÇÃO DE MODELOS, ESTIMATIVA DE PARÂMETROS,
GRÁFICOS E PLOTAGENS.
54. 54
I Capacitação de Integração de Banco de Dados e
Sistemas de Informação de Biodiversidade
Analisar
1. REPRODUTIBILIDADE
• A REPRODUTIBILIDADE É A CHAVE PARA OS MÉTODOS CIENTÍFICOS;
• PROCESSOS COMPLEXOS SÃO MAIS DIFÍCEIS DE SEREM REPRODUZIDOS;
• BOA DOCUMENTAÇÃO É ESSENCIAL PARA A REPRODUTIBILIDADE;
55. 55
I Capacitação de Integração de Banco de Dados e
Sistemas de Informação de Biodiversidade
Analisar
1. FLUXOS DE TRABALHO (WORKFLOW)
• A FORMALIZAÇÃO DOS METADADOS DO PROCESSO;
• DESCRIÇÃO PRECISA DO PROCEDIMENTO CIENTÍFICO;
• TRÊS COMPONENTES:
• INPUTS: INFORMAÇÃO E/OU MATERIAL NECESSÁRIO;
• OUTPUTS: INFORMAÇÃO OU MATERIAL PRODUZIDO E POTENCIALMENTE
UTILIZADO COMO INPUT EM OUTROS PASSOS;
• REGRAS DE TRANSFORMAÇÃO/ALGORITMOS.
56. 56
I Capacitação de Integração de Banco de Dados e
Sistemas de Informação de Biodiversidade
Analisar
1. BOAS PRÁTICAS
• OS CIENTISTAS DEVEM DOCUMENTAR OS FLUXOS DE TRABALHO USADOS
NA CRIAÇÃO DE RESULTADOS:
• PROVENIÊNCIA DOS DADOS;
• ANÁLISES E PARÂMETROS UTILIZADOS;
• CONEXÕES ENTRE ANÁLISES POR MEIO DOS INPUTS (ENTRADAS E OUTPUTS
(SAÍDAS).
• A DOCUMENTAÇÃO PODE SER INFORMAL (EX: FLOWCHARTS, COMMENTED
SCRIPTS) OU FORMAL (EX: KEPLER, VISTRAILS).
57. 57
I Capacitação de Integração de Banco de Dados e
Sistemas de Informação de Biodiversidade
Analisar
1. WORKFLOW INFORMAL
Fonte: DataONE Best Practices
58. 58
I Capacitação de Integração de Banco de Dados e
Sistemas de Informação de Biodiversidade
Analisar
• WORKFLOW FORMAL
www.vistrails.org kepler-project.org
59. 59
I Capacitação de Integração de Banco de Dados e
Sistemas de Informação de Biodiversidade
C.V. de Dados Científicos
Planejar
Coletar
Assegurar
Descrever
Preservar
Descobrir
Integrar
Analisar
60. 60
I Capacitação de Integração de Banco de Dados e
Sistemas de Informação de Biodiversidade
DADOS POSSUEM UMA VIDA ÚTIL MAIS LONGA QUE
O PROJETO DE PESQUISA OU SEU PESQUISADOR...
Foto de @Moyan_Brenn
http://www.flickr.com/photos/ai
gle_dore/6225529941/ 60
PESQUISADORES CONTINUAM TRABALHANDO COM
OS DADOS APÓS O FIM DE PROJETOS...
OS DADOS PODEM SER REUTILIZADOS POR
OUTROS PESQUISADORES OU PROJETOS...
DADOS ORGANIZADOS, DOCUMENTADOS,
PRESERVADOS E COMPARTILHADOS POSSUEM UM
VALOR INESTIMÁVEL PARA O AVANÇO DA CIÊNCIA...
61. 61
I Capacitação de Integração de Banco de Dados e
Sistemas de Informação de Biodiversidade
Referências
1. BRASIL. PADRÕES DE INTEROPERABILIDADE DE GOVERNO ELETRÔNICO - E-PING. COMITÊ EXECUTIVO DE
GOVERNO ELETRÔNICO. VERSÃO 2013.
• http://eping.governoeletronico.gov.br/.
2. BRASIL. MINISTÉRIO DO PLANEJAMENTO, ORÇAMENTO E GESTÃO. SECRETARIA DE LOGÍSTICA E
TECNOLOGIA DA INFORMAÇÃO. PANORAMA DA INTEROPERABILIDADE NO BRASIL. BRASÍLIA-DF, 2010.
• http://www.governoeletronico.gov.br/biblioteca/arquivos/panorama-da-interoperabilidade-no-brasil.
3. CORRÊA, P.L.P. ARQUITETURA PARA INTEGRAÇÃO DE SISTEMAS DE INFORMAÇÃO E BANCO
DE DADOS DE BIODIVERSIDADE DO MINISTÉRIO DO MEIO AMBIENTE, MMA. 2012.
4. CORRÊA, P.L.P.. SARAIVA, A.M COMPUTAÇÃO E BIODIVERSIDADE, PROGRAMA DE PÓS-GRADUAÇÃO EM
ENGENHARIA ELÉTRICA. ESCOLA POLITÉCNICA DA USP.
5. DAMA INTERNATIONAL, THE DAMA GUIDE TO THE DATA MANAGEMENT BODY OF KNOWLEDGE - DAMA-
DMBOK, TECHNICS PUBLICATIONS, LLC, 2010.
6. DATA ONE BEST PRACTICES
• http://www.dataone.org/best-practices.
7. FRAME, M. LIFECYCLE AND METADATA. IN: IS 590 ENVIRONMENTAL INFORMATICS. UNIVERSITY OF
TENNESSEE. 2013.
62. 62
I Capacitação de Integração de Banco de Dados e
Sistemas de Informação de Biodiversidade
Referências
8. HEY, T.; TOLLE, K. THE FOURTH PARADIGM DATA-INTENSIVE SCIENTIFIC DISCOVERY. REDMOND, WASH.:
MICROSOFT RESEARCH, 2009.
• http://research.microsoft.com/en-
us/UM/redmond/about/collaboration/fourthparadigm/4th_PARADIGM_BOOK_complete_HR.pdf
9. WIGGINS, A. ET AL. DATA MANAGEMENT GUIDE FOR PUBLIC PARTICIPATION IN SCIENTIFIC RESEARCH.
DATAONE PUBLIC PARTICIPATION IN SCIENTIFIC RESERARCH WORKING GROUP, 2013.
• http://www.dataone.org/sites/all/documents/DataONE-PPSR-DataManagementGuide.pdf
10. STRASSER, C. ET AL. PRIMER ON DATA MANAGEMENT: WHAT YOU ALWAYS WANTED TO KNOW. 2012.
CALIFORNIA DIGITAL LIBRARY, 2013.
• http://escholarship.org/uc/item/7tf5q7n3
63. Gestão de Dados Científicos
Ciclo de Vida dos Dados
Grupo de Integração de Sistemas
Coordenadores
Pedro Luiz Pizzigatti Corrêa (pedro.correa@usp.br)
Antônio Mauro Saraiva (saraiva@usp.br)
Equipe Técnica
Allan Koch Veiga (allan.kv@usp.br)
André Filipe (andrefmb@usp.br)
Cauê Felipe Pan (caue.pan@usp.br)
Cleverton Borba (cleverton.borba@usp.br)
Daniel Lins da Silva (daniellins@usp.br)
Dennis Seman (dennis.seman@usp.br)
Jorge Pinaya (jpinaya@usp.br)
Silvio Luiz Stanzani (silvio.stanzani@usp.br)
I Capacitação de Integração de Banco de Dados e Sistemas de Informação de
Biodiversidade