A Centralized Platform for Access of Heterogeneous Data on Human Genome Repositories for Supporting Clinical Decisions

A Centralized Platform for Access
of Heterogeneous Data on Human
Genome Repositories for
Supporting Clinical Decisions
Andrêza Leite de Alencar, Vanilson Burégio, Jamisson Freitas,
Marcel Caraciolo,Vinícius Garcia
andreza.leite@ufrpe.br, jamisson@genomika.com.br
10/3/16
Salvador,
BA
1

Agenda
•  Motivação e problema
•  Objetivo
•  Abordagens existentes
•  Estudo de Caso
•  Contribuições
•  Desafios e Oportunidades
10/3/16
Salvador,
BA
2

Mainframes

PC

Redes

Nuvem

10/3/16
Salvador,
BA
3

“Era da Conectividade”
10/3/16
Salvador,
BA
4

O universo digital dobra a cada 2anos
Em 2011 o mundo criou um escalonamento de
1.8 zettabytes de dados
1.800.000.000.000.000.000.000
Zetta Exa Peta Tera Giga Mega Kilo Byte
10/3/16
Salvador,
BA
5

2011

1.8
ZB

2020

50x

+90ZB

Crescimento

da
Informação

10/3/16
Salvador,
BA
6

≠ Tipos e Fontes
2011
2020

+50x

+75x

Recipientes
de
Informação

-‐1.5x
proﬁssionais
de
TI

10/3/16
Salvador,
BA
7

VARIEDADE

Fontes
de
dados

Produção

mudança

VELOCIDADE

Tamanho

dos
dados

VOLUME

VERACIDADE

Qualidades

diferentes

Big

Data

10/3/16
Salvador,
BA
8

Gerenciar...
...Unificada e em Tempo Real
Ou quase
10/3/16
Salvador,
BA
9

O que está causando esta avalanche?
10/3/16
Salvador,
BA
10

Objetivo
Auxiliar o gerenciamento (acesso e armazenamento)
de grandes conjuntos de dados heterogêneos
•  Definir um modelo de dados que possa ser empregado para expressar de maneira
unificada grandes conjuntos de dados heterogêneos, distribuídos e não
intrinsecamente relacionados;
•  Projetar e implementar uma plataforma que irá oferecer acesso de forma
padronizada a dados de diversos tipos e fontes de armazenamento
10/3/16
Salvador,
BA
11

É necessário...
Lidar com técnicas de integração sob várias perspectivas:
•  Questões técnicas
•  Representacionais
10/3/16
Salvador,
BA
12

Heterogeneidade
Técnico Representacional
Integração
de
dados

empresariais

Adequação
conceitual
e
formal

Master
data

management

Transformação

de
dados

Federar
fontes

e

representações

Técnicas
e

padrões
de
ETL

Padrões
e

técnicas
de

integração

Model
Management

Modelos
de

dados

Formalizar

problemas
de

tradução

10/3/16
Salvador,
BA
13

Ferramentas Relacionadas
Caracterização e Comparação
10/3/16
Salvador,
BA
14

Generalidade
2000
2003
2004
2005
2007
2009
2013
2015

BigData
Web
2.0
NoSQL

Rondo
Clio
MIDST

Chave
Valor

Orientado
a

documento

Família
de

coluna

Relacional

O.
Relacional

O.
Objeto

SmaSh

SOS

Lenses

SMF

10/3/16
Salvador,
BA
15

Generalidade
2000
2003
2004
2005
2007
2009
2013
2015

Chave
Valor

Orientado
a

documento

Família
de

coluna

Relacional

O.
Relacional

O.
Objeto

BigData
Web
2.0
NoSQL

Rondo
Clio
MIDST

SmaSh

SOS

Lenses

SMF

10/3/16
Salvador,
BA
16

Generalidade
2000
2003
2004
2005
2007
2009
2013
2015

Chave
Valor

Orientado
a

documento

Família
de

coluna

Relacional

O.
Relacional

O.
Objeto

BigData
Web
2.0
NoSQL

Rondo
Clio
MIDST

SmaSh

SOS

Lenses

SMF

10/3/16
Salvador,
BA
17

Modelo para Unificação
2000
2003
2004
2005
2007
2009
2013
2015

Modelo

global

BigData
Web
2.0
NoSQL

Rondo
Clio
MIDST

SmaSh

SOS

Lenses

SMF

10/3/16
Salvador,
BA
18

Avaliação
2000
2003
2004
2005
2007
2009
2013
2015

Benchmark

Ambiente

real

Método

formal

BigData
Web
2.0
NoSQL

Rondo
Clio
MIDST

SmaSh

SOS

Lenses

SMF

10/3/16
Salvador,
BA
19

Proposta
Uma Plataforma para Acesso Uniforme de grandes volumes
de dados heterogêneos (PAjU)
–  Independente de tipos e modelos de dados
–  Escalável
–  Em tempo (quase) real
10/3/16
Salvador,
BA
20

Arquitetura de Referência
10/3/16
Salvador,
BA
21

Batch Layer
Armazena um conjunto de dados mestre em constante
crescimento e calcular funções arbitrárias sobre esse
conjunto de dados
Persiste
os
dados
Visões
arbitrárias

10/3/16
Salvador,
BA
22

Batch Layer
10/3/16
Salvador,
BA
23

Serving Layer
Realiza análises sobre os dados persistidos e disponibiliza
através de visões distintas
Acesso
a
visões
Atualizada
pela
batch

10/3/16
Salvador,
BA
24

Serving Layer
10/3/16
Salvador,
BA
25

Speed Layer
Produz visões em tempo real com base nos dados que
recebe
Atualização
incremental
Isola
a
complexidade

10/3/16
Salvador,
BA
26

Speed Layer
10/3/16
Salvador,
BA
27

Meta Layer
Realiza o gerenciamento da heterogeneidade provendo
generalidade a plataforma
Uniﬁca
acesso
Esquema
global

10/3/16
Salvador,
BA
28

Meta Layer
10/3/16
Salvador,
BA
29

Estudo de Caso
Análise de Dados do Genoma Humano
10/3/16
Salvador,
BA
30

Contexto
10/3/16
Salvador,
BA
31

Contexto
Aproximadamente

de
300-‐600
mutações

por
geração

10/3/16
Salvador,
BA
32

Evolução do custo por genoma
10/3/16
Salvador,
BA
33

Evolução do custo por genoma
10/3/16
Salvador,
BA
34

NextGen Sequencing (NGS)
10/3/16
Salvador,
BA
35

Aplicações NGS
•  Doenças hereditárias:
–  Mendelianas
•  Mutações ou alterações em um único gene;
–  Complexas
•  Muitos genes e variantes envolvidos;
•  Mutações somáticas
–  Estão na origem de certos cânceres;
–  Não são transmitidas à descendência.
10/3/16
Salvador,
BA
36

Genética Clínica
10/3/16
Salvador,
BA
37

Genomika Diagnósticos
10/3/16
Salvador,
BA
38

•  Um dos laboratórios mais avançados
em clínica genética do Brasil e o
primeiro localizado na região Norte e
Nordeste.

Genomika Diagnósticos
10/3/16
Salvador,
BA
39

Processo de Análise
10/3/16
Salvador,
BA
40

Nosso workflow da bioinformática
10/3/16
Salvador,
BA
41

O Genoma em um arquivo
10/3/16
Salvador,
BA
42

10/3/16
Salvador,
BA
43

10/3/16
Salvador,
BA
44

Busca de variantes
10/3/16
Salvador,
BA
45

Bases de dados genéticos
10/3/16
Salvador,
BA
46

•  Dificuldades:
–  Variedades de acesso;
–  Diversas estruturas;
–  Falta de padronização;
–  Controle de versões;
–  Bases públicas e privadas.
10/3/16
Salvador,
BA
47

•  Dificuldades:
–  Uso extensivo de planilhas;
–  Compartilhamento de dados sensíveis;
–  Visualização de informação (arquivos podem chegar até 30
mil variantes com diversos atributos);
–  Reanálise dos dados (laudos negativos podem ser
reavaliados);
–  Suporte para múltiplas anotações.
10/3/16
Salvador,
BA
48

10/3/16
Salvador,
BA
49

Implementação
•  Etapa 1: Esquema de unificação dos dados:
–  GenDB
•  Etapa 2: Anotador de variantes clínicas:
–  ClinGen
10/3/16
Salvador,
BA
50

Implementação
•  Tecnologias envolvidas:
–  Python 2.7 e 3.4
–  PostgreSQL 9.4
–  Django 1.8 e 1.9
–  Django Rest Framework 3.0
–  Celery 3.0
10/3/16
Salvador,
BA
51

GenDB – Visão Geral
XML,
TXT,
VCF

10/3/16
Salvador,
BA
52

GenDB + Arquitetura de Referência
10/3/16
Salvador,
BA
53

GenDB: Esquema
10/3/16
Salvador,
BA
54

GenDB: API
10/3/16
Salvador,
BA
55

ClinGen: Anotação de variantes
•  Desafio diário: mais de 50 banco de dados minerados,
alguns deles com mais de 1.000.000 variantes para
serem analisados.
•  Soluções de anotação existentes:
–  Não são flexíveis;
–  Interfaces em linhas de comando;
–  Alto custo;
10/3/16
Salvador,
BA
56

ClinGen
10/3/16
Salvador,
BA
57

Contribuições
Tempo de reanálise para um exame de exoma completo
10/3/16
Salvador,
BA
58

Método

Preparação
e

anotação
de
dados

pelo
Eme
da

bioinformáEca

Análise
dos

especialistas

Total
(por

pacientes)

Tradicional
≅1h
1
à
2
dias
24
à
48
h

Proposto
<
30min
≈2h
3h*

*Sistema
já
pode
realizar
a
anotação
automágca
quando
uma
nova
atualização
nas
bases
de

dados
ocorrer.

Contribuições
Gerenciamento de grandes volumes de dados heterogêneos:
•  Uma plataforma independente de modelo para acesso de grandes volumes
de dados heterogêneos.
Suporte a decisões clínicas
•  Integração de diversas fontes de dados genéticos: OMIM, ClinVar,
RefGene, Esp6500, LOVD, ExAC65000, 1000Genomes, SegDup e HPO;
•  Melhoria do processo de análise de dados (Anotação).
10/3/16
Salvador,
BA
59

Futuro
10/3/16
Salvador,
BA
60

Desafios e Oportunidadesc
Gerenciamento de grandes volumes de dados heterogêneos:
–  Variedade: +50 bases mineradas +1.000.000 variantes
–  Heterogeneidade: Diversos modelos e estruturas
•  Falta de padronização
–  IHC:
•  Técnicas de visualização de dados
•  Interfaces amigáveis
10/3/16
Salvador,
BA
61

Obridada!
bit.ly/sbbd16
andreza.leite@ufrpe.br
jamisson@genomika.com.br
10/3/16
Salvador,
BA
62

A Centralized Platform for Access
of Heterogeneous Data on Human
Genome Repositories for
Supporting Clinical Decisions
Andrêza Leite de Alencar, Vanilson Burégio, Jamisson Freitas,
Marcel Caraciolo,Vinícius Garcia
andreza.leite@ufrpe.br, jamisson@genomika.com.br
10/3/16
Salvador,
BA
63

A Centralized Platform for Access of Heterogeneous Data on Human Genome Repositories for Supporting Clinical Decisions

Recomendados

Recomendados

Mais conteúdo relacionado

Destaque

Destaque (14)

Semelhante a A Centralized Platform for Access of Heterogeneous Data on Human Genome Repositories for Supporting Clinical Decisions

Semelhante a A Centralized Platform for Access of Heterogeneous Data on Human Genome Repositories for Supporting Clinical Decisions (20)

A Centralized Platform for Access of Heterogeneous Data on Human Genome Repositories for Supporting Clinical Decisions