1) O documento discute a necessidade de uma plataforma para acesso uniforme a grandes conjuntos de dados heterogêneos, como dados genômicos armazenados em diferentes repositórios.
2) É proposta uma arquitetura de referência para essa plataforma, composta por camadas para armazenamento em batch, serviços, tempo real e gerenciamento de metadados.
3) A plataforma é aplicada em um estudo de caso para análise de dados genômicos humanos, visando integrar dados de sequenciamento e
Biblioteca Digital Brasileira de Teses e Dissertações: ações para melhoria na qualidade dos dados - Diego Macedo, Milton Shintaku, Tainá Assis, Washington Ribeiro, Ronnie Brito
Para que um resultado de uma pesquisa científica possa ser considerado como válido, é necessário que este resultado possa ser replicado por diversos cientistas. A replicação é um dos pilares fundamentais da ciência. Basicamente é necessário que diversos cientistas coletem e analisem dados de forma independente, e cheguem no mesmo resultado.
A replicação na ciência têm sido praticada há muitos anos. No entanto, hojem em dia esta prática tem se tornado cada vez mais desafiadora, uma vez que os estudos estão se tornando cada vez maiores e mais caros, e a disponibilidade de recursos financeiros para pesquisas cada vez mais escassa.
Biblioteca Digital Brasileira de Teses e Dissertações: ações para melhoria na qualidade dos dados - Diego Macedo, Milton Shintaku, Tainá Assis, Washington Ribeiro, Ronnie Brito
Para que um resultado de uma pesquisa científica possa ser considerado como válido, é necessário que este resultado possa ser replicado por diversos cientistas. A replicação é um dos pilares fundamentais da ciência. Basicamente é necessário que diversos cientistas coletem e analisem dados de forma independente, e cheguem no mesmo resultado.
A replicação na ciência têm sido praticada há muitos anos. No entanto, hojem em dia esta prática tem se tornado cada vez mais desafiadora, uma vez que os estudos estão se tornando cada vez maiores e mais caros, e a disponibilidade de recursos financeiros para pesquisas cada vez mais escassa.
TAIL—Gestão de dados de investigação da produção ao depósito e à partilha
Cristina Ribeiro, João Rocha da Silva, João Aguiar Castro, Ricardo Carvalho Amorim, João Correia Lopes
Apresentação sobre data mining em repositórios de software, preparada para a disciplina MAC6912 - Ambientes de Desenvolvimento de Software, ministrada pelo Prof. Marco Aurélio Gerosa no programa de mestrado de Ciência da Computação, no IME-USP.
Trabalho apresentado ao Prof. Alexandre Ribeiro Afonso, da Faculdade de Informação e Comunicação da Universidade Federal de Goiás, Como requisito parcial para obtenção de nota na disciplina de Tópicos Especiais em GI 1. Tema do trabalho (BANCO DE DADOS RELACIONAIS)
Semelhante a A Centralized Platform for Access of Heterogeneous Data on Human Genome Repositories for Supporting Clinical Decisions (20)
A Centralized Platform for Access of Heterogeneous Data on Human Genome Repositories for Supporting Clinical Decisions
1. A Centralized Platform for Access
of Heterogeneous Data on Human
Genome Repositories for
Supporting Clinical Decisions
Andrêza Leite de Alencar, Vanilson Burégio, Jamisson Freitas,
Marcel Caraciolo,Vinícius Garcia
andreza.leite@ufrpe.br, jamisson@genomika.com.br
10/3/16
Salvador,
BA
1
2. Agenda
• Motivação e problema
• Objetivo
• Abordagens existentes
• Estudo de Caso
• Contribuições
• Desafios e Oportunidades
10/3/16
Salvador,
BA
2
5. O universo digital dobra a cada 2anos
Em 2011 o mundo criou um escalonamento de
1.8 zettabytes de dados
1.800.000.000.000.000.000.000
Zetta Exa Peta Tera Giga Mega Kilo Byte
10/3/16
Salvador,
BA
5
6. 2011
1.8
ZB
2020
50x
+90ZB
Crescimento
da
Informação
10/3/16
Salvador,
BA
6
7. ≠ Tipos e Fontes
2011
2020
+50x
+75x
Recipientes
de
Informação
-‐1.5x
profissionais
de
TI
10/3/16
Salvador,
BA
7
8.
VARIEDADE
Fontes
de
dados
Produção
mudança
VELOCIDADE
Tamanho
dos
dados
VOLUME
VERACIDADE
Qualidades
diferentes
Big
Data
10/3/16
Salvador,
BA
8
10. O que está causando esta avalanche?
10/3/16
Salvador,
BA
10
11. Objetivo
Auxiliar o gerenciamento (acesso e armazenamento)
de grandes conjuntos de dados heterogêneos
• Definir um modelo de dados que possa ser empregado para expressar de maneira
unificada grandes conjuntos de dados heterogêneos, distribuídos e não
intrinsecamente relacionados;
• Projetar e implementar uma plataforma que irá oferecer acesso de forma
padronizada a dados de diversos tipos e fontes de armazenamento
10/3/16
Salvador,
BA
11
12. É necessário...
Lidar com técnicas de integração sob várias perspectivas:
• Questões técnicas
• Representacionais
10/3/16
Salvador,
BA
12
13. Heterogeneidade
Técnico Representacional
Integração
de
dados
empresariais
Adequação
conceitual
e
formal
Master
data
management
Transformação
de
dados
Federar
fontes
e
representações
Técnicas
e
padrões
de
ETL
Padrões
e
técnicas
de
integração
Model
Management
Modelos
de
dados
Formalizar
problemas
de
tradução
10/3/16
Salvador,
BA
13
15. Generalidade
2000
2003
2004
2005
2007
2009
2013
2015
BigData
Web
2.0
NoSQL
Rondo
Clio
MIDST
Chave
Valor
Orientado
a
documento
Família
de
coluna
Relacional
O.
Relacional
O.
Objeto
SmaSh
SOS
Lenses
SMF
10/3/16
Salvador,
BA
15
16. Generalidade
2000
2003
2004
2005
2007
2009
2013
2015
Chave
Valor
Orientado
a
documento
Família
de
coluna
Relacional
O.
Relacional
O.
Objeto
BigData
Web
2.0
NoSQL
Rondo
Clio
MIDST
SmaSh
SOS
Lenses
SMF
10/3/16
Salvador,
BA
16
17. Generalidade
2000
2003
2004
2005
2007
2009
2013
2015
Chave
Valor
Orientado
a
documento
Família
de
coluna
Relacional
O.
Relacional
O.
Objeto
BigData
Web
2.0
NoSQL
Rondo
Clio
MIDST
SmaSh
SOS
Lenses
SMF
10/3/16
Salvador,
BA
17
18. Modelo para Unificação
2000
2003
2004
2005
2007
2009
2013
2015
Modelo
global
BigData
Web
2.0
NoSQL
Rondo
Clio
MIDST
SmaSh
SOS
Lenses
SMF
10/3/16
Salvador,
BA
18
19. Avaliação
2000
2003
2004
2005
2007
2009
2013
2015
Benchmark
Ambiente
real
Método
formal
BigData
Web
2.0
NoSQL
Rondo
Clio
MIDST
SmaSh
SOS
Lenses
SMF
10/3/16
Salvador,
BA
19
20. Proposta
Uma Plataforma para Acesso Uniforme de grandes volumes
de dados heterogêneos (PAjU)
– Independente de tipos e modelos de dados
– Escalável
– Em tempo (quase) real
10/3/16
Salvador,
BA
20
22. Batch Layer
Armazena um conjunto de dados mestre em constante
crescimento e calcular funções arbitrárias sobre esse
conjunto de dados
Persiste
os
dados
Visões
arbitrárias
10/3/16
Salvador,
BA
22
24. Serving Layer
Realiza análises sobre os dados persistidos e disponibiliza
através de visões distintas
Acesso
a
visões
Atualizada
pela
batch
10/3/16
Salvador,
BA
24
36. Aplicações NGS
• Doenças hereditárias:
– Mendelianas
• Mutações ou alterações em um único gene;
– Complexas
• Muitos genes e variantes envolvidos;
• Mutações somáticas
– Estão na origem de certos cânceres;
– Não são transmitidas à descendência.
10/3/16
Salvador,
BA
36
38. Genomika Diagnósticos
10/3/16
Salvador,
BA
38
• Um dos laboratórios mais avançados
em clínica genética do Brasil e o
primeiro localizado na região Norte e
Nordeste.
47. Bases de dados genéticos
• Dificuldades:
– Variedades de acesso;
– Diversas estruturas;
– Falta de padronização;
– Controle de versões;
– Bases públicas e privadas.
10/3/16
Salvador,
BA
47
48. Bases de dados genéticos
• Dificuldades:
– Uso extensivo de planilhas;
– Compartilhamento de dados sensíveis;
– Visualização de informação (arquivos podem chegar até 30
mil variantes com diversos atributos);
– Reanálise dos dados (laudos negativos podem ser
reavaliados);
– Suporte para múltiplas anotações.
10/3/16
Salvador,
BA
48
56. ClinGen: Anotação de variantes
• Desafio diário: mais de 50 banco de dados minerados,
alguns deles com mais de 1.000.000 variantes para
serem analisados.
• Soluções de anotação existentes:
– Não são flexíveis;
– Interfaces em linhas de comando;
– Alto custo;
10/3/16
Salvador,
BA
56
58. Contribuições
Tempo de reanálise para um exame de exoma completo
10/3/16
Salvador,
BA
58
Método
Preparação
e
anotação
de
dados
pelo
Eme
da
bioinformáEca
Análise
dos
especialistas
Total
(por
pacientes)
Tradicional
≅1h
1
à
2
dias
24
à
48
h
Proposto
<
30min
≈2h
3h*
*Sistema
já
pode
realizar
a
anotação
automágca
quando
uma
nova
atualização
nas
bases
de
dados
ocorrer.
59. Contribuições
Gerenciamento de grandes volumes de dados heterogêneos:
• Uma plataforma independente de modelo para acesso de grandes volumes
de dados heterogêneos.
Suporte a decisões clínicas
• Integração de diversas fontes de dados genéticos: OMIM, ClinVar,
RefGene, Esp6500, LOVD, ExAC65000, 1000Genomes, SegDup e HPO;
• Melhoria do processo de análise de dados (Anotação).
10/3/16
Salvador,
BA
59
61. Desafios e Oportunidadesc
Gerenciamento de grandes volumes de dados heterogêneos:
– Variedade: +50 bases mineradas +1.000.000 variantes
– Heterogeneidade: Diversos modelos e estruturas
• Falta de padronização
– IHC:
• Técnicas de visualização de dados
• Interfaces amigáveis
10/3/16
Salvador,
BA
61
63. A Centralized Platform for Access
of Heterogeneous Data on Human
Genome Repositories for
Supporting Clinical Decisions
Andrêza Leite de Alencar, Vanilson Burégio, Jamisson Freitas,
Marcel Caraciolo,Vinícius Garcia
andreza.leite@ufrpe.br, jamisson@genomika.com.br
10/3/16
Salvador,
BA
63