SlideShare uma empresa Scribd logo
A Centralized Platform for Access
of Heterogeneous Data on Human
Genome Repositories for
Supporting Clinical Decisions
Andrêza Leite de Alencar, Vanilson Burégio, Jamisson Freitas,
Marcel Caraciolo,Vinícius Garcia
andreza.leite@ufrpe.br, jamisson@genomika.com.br
10/3/16	
   Salvador,	
  BA	
   1	
  
Agenda
•  Motivação e problema
•  Objetivo
•  Abordagens existentes
•  Estudo de Caso
•  Contribuições
•  Desafios e Oportunidades
10/3/16	
   Salvador,	
  BA	
   2	
  
Mainframes	
  
PC	
  
Redes	
  
Nuvem	
  
10/3/16	
   Salvador,	
  BA	
   3	
  
“Era da Conectividade”
10/3/16	
   Salvador,	
  BA	
   4	
  
O universo digital dobra a cada 2anos
Em 2011 o mundo criou um escalonamento de
1.8 zettabytes de dados
1.800.000.000.000.000.000.000
Zetta Exa Peta Tera Giga Mega Kilo Byte
10/3/16	
   Salvador,	
  BA	
   5	
  
2011	
  
1.8	
  ZB	
  
2020	
  
50x	
  
+90ZB	
  
Crescimento	
  
da	
  Informação	
  
10/3/16	
   Salvador,	
  BA	
   6	
  
≠ Tipos e Fontes
2011	
   2020	
  
	
  
+50x	
  
	
  
+75x	
  	
  Recipientes	
  de	
  Informação	
  
-­‐1.5x	
  profissionais	
  de	
  TI	
  
10/3/16	
   Salvador,	
  BA	
   7	
  
 
VARIEDADE	
  
Fontes	
  de	
  dados	
  
	
  
Produção	
  	
  
mudança	
  
VELOCIDADE	
  
Tamanho	
  	
  
dos	
  dados	
  
VOLUME	
  
	
  
	
  
VERACIDADE	
  
Qualidades	
  
	
  diferentes	
  
	
  
Big	
  	
  
Data	
  	
  
10/3/16	
   Salvador,	
  BA	
   8	
  
Gerenciar...
...Unificada e em Tempo Real
Ou quase
10/3/16	
   Salvador,	
  BA	
   9	
  
O que está causando esta avalanche?
10/3/16	
   Salvador,	
  BA	
   10	
  
Objetivo
Auxiliar o gerenciamento (acesso e armazenamento)
de grandes conjuntos de dados heterogêneos
•  Definir um modelo de dados que possa ser empregado para expressar de maneira
unificada grandes conjuntos de dados heterogêneos, distribuídos e não
intrinsecamente relacionados;
•  Projetar e implementar uma plataforma que irá oferecer acesso de forma
padronizada a dados de diversos tipos e fontes de armazenamento
10/3/16	
   Salvador,	
  BA	
   11	
  
É necessário...
Lidar com técnicas de integração sob várias perspectivas:
•  Questões técnicas
•  Representacionais
10/3/16	
   Salvador,	
  BA	
   12	
  
Heterogeneidade
Técnico Representacional
Integração	
  de	
  dados	
  
empresariais	
  
Adequação	
  conceitual	
  e	
  formal	
  
Master	
  data	
  
management	
  
Transformação	
  
de	
  dados	
  
Federar	
  fontes	
  
e	
  
representações	
  	
  	
  
Técnicas	
  e	
  
padrões	
  de	
  ETL	
  
Padrões	
  e	
  
técnicas	
  de	
  
integração	
  
Model	
  Management	
  
Modelos	
  de	
  
dados	
  
Formalizar	
  
problemas	
  de	
  
tradução	
  
10/3/16	
   Salvador,	
  BA	
   13	
  
Ferramentas Relacionadas
Caracterização e Comparação
10/3/16	
   Salvador,	
  BA	
   14	
  
Generalidade
2000	
   2003	
   2004	
   2005	
   2007	
   2009	
   2013	
   2015	
  
BigData	
   Web	
  2.0	
   NoSQL	
  
Rondo	
   Clio	
   MIDST	
  
Chave	
  Valor	
  
Orientado	
  a	
  
documento	
  
Família	
  de	
  
coluna	
  
Relacional	
  
O.	
  Relacional	
  
O.	
  Objeto	
  
SmaSh	
  
SOS	
  
Lenses	
  
SMF	
  
10/3/16	
   Salvador,	
  BA	
   15	
  
Generalidade
2000	
   2003	
   2004	
   2005	
   2007	
   2009	
   2013	
   2015	
  
Chave	
  Valor	
  
Orientado	
  a	
  
documento	
  
Família	
  de	
  
coluna	
  
Relacional	
  
O.	
  Relacional	
  
O.	
  Objeto	
  
BigData	
   Web	
  2.0	
   NoSQL	
  
Rondo	
   Clio	
   MIDST	
  
SmaSh	
  
SOS	
  
Lenses	
  
SMF	
  
10/3/16	
   Salvador,	
  BA	
   16	
  
Generalidade
2000	
   2003	
   2004	
   2005	
   2007	
   2009	
   2013	
   2015	
  
Chave	
  Valor	
  
Orientado	
  a	
  
documento	
  
Família	
  de	
  
coluna	
  
Relacional	
  
O.	
  Relacional	
  
O.	
  Objeto	
  
BigData	
   Web	
  2.0	
   NoSQL	
  
Rondo	
   Clio	
   MIDST	
  
SmaSh	
  
SOS	
  
Lenses	
  
SMF	
  
10/3/16	
   Salvador,	
  BA	
   17	
  
Modelo para Unificação
2000	
   2003	
   2004	
   2005	
   2007	
   2009	
   2013	
   2015	
  
Modelo	
  
global	
  
BigData	
   Web	
  2.0	
   NoSQL	
  
Rondo	
   Clio	
   MIDST	
  
SmaSh	
  
SOS	
  
Lenses	
  
SMF	
  
10/3/16	
   Salvador,	
  BA	
   18	
  
Avaliação
2000	
   2003	
   2004	
   2005	
   2007	
   2009	
   2013	
   2015	
  
Benchmark	
  
Ambiente	
  
real	
  
Método	
  
formal	
  
BigData	
   Web	
  2.0	
   NoSQL	
  
Rondo	
   Clio	
   MIDST	
  
SmaSh	
  
SOS	
  
Lenses	
  
SMF	
  
10/3/16	
   Salvador,	
  BA	
   19	
  
Proposta
Uma Plataforma para Acesso Uniforme de grandes volumes
de dados heterogêneos (PAjU)
–  Independente de tipos e modelos de dados
–  Escalável
–  Em tempo (quase) real
10/3/16	
   Salvador,	
  BA	
   20	
  
Arquitetura de Referência
10/3/16	
   Salvador,	
  BA	
   21	
  
Batch Layer
Armazena um conjunto de dados mestre em constante
crescimento e calcular funções arbitrárias sobre esse
conjunto de dados
Persiste	
  os	
  dados	
   Visões	
  arbitrárias	
  
10/3/16	
   Salvador,	
  BA	
   22	
  
Batch Layer
10/3/16	
   Salvador,	
  BA	
   23	
  
Serving Layer
Realiza análises sobre os dados persistidos e disponibiliza
através de visões distintas
Acesso	
  a	
  visões	
   Atualizada	
  pela	
  batch	
  
10/3/16	
   Salvador,	
  BA	
   24	
  
Serving Layer
10/3/16	
   Salvador,	
  BA	
   25	
  
Speed Layer
Produz visões em tempo real com base nos dados que
recebe
Atualização	
  incremental	
   Isola	
  a	
  complexidade	
  
10/3/16	
   Salvador,	
  BA	
   26	
  
Speed Layer
10/3/16	
   Salvador,	
  BA	
   27	
  
Meta Layer
Realiza o gerenciamento da heterogeneidade provendo
generalidade a plataforma
Unifica	
  acesso	
   Esquema	
  global	
  
10/3/16	
   Salvador,	
  BA	
   28	
  
Meta Layer
10/3/16	
   Salvador,	
  BA	
   29	
  
Estudo de Caso
Análise de Dados do Genoma Humano
10/3/16	
   Salvador,	
  BA	
   30	
  
Contexto
10/3/16	
   Salvador,	
  BA	
   31	
  
Contexto
Aproximadamente	
  	
  
de	
  300-­‐600	
  mutações	
  
por	
  geração	
  
10/3/16	
   Salvador,	
  BA	
   32	
  
Evolução do custo por genoma
10/3/16	
   Salvador,	
  BA	
   33	
  
Evolução do custo por genoma
10/3/16	
   Salvador,	
  BA	
   34	
  
NextGen Sequencing (NGS)
10/3/16	
   Salvador,	
  BA	
   35	
  
Aplicações NGS
•  Doenças hereditárias:
–  Mendelianas
•  Mutações ou alterações em um único gene;
–  Complexas
•  Muitos genes e variantes envolvidos;
•  Mutações somáticas
–  Estão na origem de certos cânceres;
–  Não são transmitidas à descendência.
10/3/16	
   Salvador,	
  BA	
   36	
  
Genética Clínica
10/3/16	
   Salvador,	
  BA	
   37	
  
Genomika Diagnósticos
10/3/16	
   Salvador,	
  BA	
   38	
  
•  Um dos laboratórios mais avançados
em clínica genética do Brasil e o
primeiro localizado na região Norte e
Nordeste.
Genomika Diagnósticos
10/3/16	
   Salvador,	
  BA	
   39	
  
Processo de Análise
10/3/16	
   Salvador,	
  BA	
   40	
  
Nosso workflow da bioinformática
10/3/16	
   Salvador,	
  BA	
   41	
  
O Genoma em um arquivo
10/3/16	
   Salvador,	
  BA	
   42	
  
O Genoma em um arquivo
10/3/16	
   Salvador,	
  BA	
   43	
  
O Genoma em um arquivo
10/3/16	
   Salvador,	
  BA	
   44	
  
Busca de variantes
10/3/16	
   Salvador,	
  BA	
   45	
  
Bases de dados genéticos
10/3/16	
   Salvador,	
  BA	
   46	
  
Bases de dados genéticos
•  Dificuldades:
–  Variedades de acesso;
–  Diversas estruturas;
–  Falta de padronização;
–  Controle de versões;
–  Bases públicas e privadas.
10/3/16	
   Salvador,	
  BA	
   47	
  
Bases de dados genéticos
•  Dificuldades:
–  Uso extensivo de planilhas;
–  Compartilhamento de dados sensíveis;
–  Visualização de informação (arquivos podem chegar até 30
mil variantes com diversos atributos);
–  Reanálise dos dados (laudos negativos podem ser
reavaliados);
–  Suporte para múltiplas anotações.
10/3/16	
   Salvador,	
  BA	
   48	
  
Bases de dados genéticos
10/3/16	
   Salvador,	
  BA	
   49	
  
Implementação
•  Etapa 1: Esquema de unificação dos dados:
–  GenDB
•  Etapa 2: Anotador de variantes clínicas:
–  ClinGen
10/3/16	
   Salvador,	
  BA	
   50	
  
Implementação
•  Tecnologias envolvidas:
–  Python 2.7 e 3.4
–  PostgreSQL 9.4
–  Django 1.8 e 1.9
–  Django Rest Framework 3.0
–  Celery 3.0
10/3/16	
   Salvador,	
  BA	
   51	
  
GenDB – Visão Geral
XML,	
  TXT,	
  VCF	
  
10/3/16	
   Salvador,	
  BA	
   52	
  
GenDB + Arquitetura de Referência
10/3/16	
   Salvador,	
  BA	
   53	
  
GenDB: Esquema
10/3/16	
   Salvador,	
  BA	
   54	
  
GenDB: API
10/3/16	
   Salvador,	
  BA	
   55	
  
ClinGen: Anotação de variantes
•  Desafio diário: mais de 50 banco de dados minerados,
alguns deles com mais de 1.000.000 variantes para
serem analisados.
•  Soluções de anotação existentes:
–  Não são flexíveis;
–  Interfaces em linhas de comando;
–  Alto custo;
10/3/16	
   Salvador,	
  BA	
   56	
  
ClinGen
10/3/16	
   Salvador,	
  BA	
   57	
  
Contribuições
Tempo de reanálise para um exame de exoma completo
10/3/16	
   Salvador,	
  BA	
   58	
  
Método	
  
Preparação	
  e	
  
anotação	
  de	
  dados	
  
pelo	
  Eme	
  da	
  
bioinformáEca	
  
Análise	
  dos	
  
especialistas	
  
Total	
  (por	
  
pacientes)	
  
Tradicional	
   ≅1h	
   1	
  à	
  2	
  dias	
   24	
  à	
  48	
  h	
  
Proposto	
   <	
  30min	
   ≈2h	
   3h*	
  
*Sistema	
  já	
  pode	
  realizar	
  a	
  anotação	
  automágca	
  quando	
  uma	
  nova	
  atualização	
  nas	
  bases	
  de	
  
dados	
  ocorrer.	
  
Contribuições
Gerenciamento de grandes volumes de dados heterogêneos:
•  Uma plataforma independente de modelo para acesso de grandes volumes
de dados heterogêneos.
Suporte a decisões clínicas
•  Integração de diversas fontes de dados genéticos: OMIM, ClinVar,
RefGene, Esp6500, LOVD, ExAC65000, 1000Genomes, SegDup e HPO;
•  Melhoria do processo de análise de dados (Anotação).
10/3/16	
   Salvador,	
  BA	
   59	
  
Futuro
10/3/16	
   Salvador,	
  BA	
   60	
  
Desafios e Oportunidadesc
Gerenciamento de grandes volumes de dados heterogêneos:
–  Variedade: +50 bases mineradas +1.000.000 variantes
–  Heterogeneidade: Diversos modelos e estruturas
•  Falta de padronização
–  IHC:
•  Técnicas de visualização de dados
•  Interfaces amigáveis
10/3/16	
   Salvador,	
  BA	
   61	
  
Obridada!
bit.ly/sbbd16
andreza.leite@ufrpe.br
jamisson@genomika.com.br
10/3/16	
   Salvador,	
  BA	
   62	
  
A Centralized Platform for Access
of Heterogeneous Data on Human
Genome Repositories for
Supporting Clinical Decisions
Andrêza Leite de Alencar, Vanilson Burégio, Jamisson Freitas,
Marcel Caraciolo,Vinícius Garcia
andreza.leite@ufrpe.br, jamisson@genomika.com.br
10/3/16	
   Salvador,	
  BA	
   63	
  

Mais conteúdo relacionado

Destaque

Como utilizar sql en visual basic 6.0
Como utilizar sql en visual basic 6.0Como utilizar sql en visual basic 6.0
Como utilizar sql en visual basic 6.0Alex Sanchez
 
2016 NMA
2016 NMA2016 NMA
2016 NMA
Tim Richardson
 
Documento 1
Documento 1Documento 1
Documento 1Mayto WY
 
From marketplace to WordPress - WordCamp Belfast
From marketplace to WordPress - WordCamp BelfastFrom marketplace to WordPress - WordCamp Belfast
From marketplace to WordPress - WordCamp Belfast
Fellyph Cintra
 
Plan de gestion integracion de las ti cs en la institucion educativa el cristal
Plan de gestion integracion de las ti cs en la institucion educativa el cristalPlan de gestion integracion de las ti cs en la institucion educativa el cristal
Plan de gestion integracion de las ti cs en la institucion educativa el cristal1059810783
 
Pompeya y el Vesubio
Pompeya y el VesubioPompeya y el Vesubio
Pompeya y el Vesubiomontsetresaco
 
Teorías del aprendizaje ivanna
Teorías del aprendizaje  ivannaTeorías del aprendizaje  ivanna
Teorías del aprendizaje ivannasusanplay1
 
Parcial 1 susana morales
Parcial 1 susana moralesParcial 1 susana morales
Parcial 1 susana moralessusanplay1
 
Medios de transporte
Medios de transporteMedios de transporte
Medios de transportefriquelme98
 
Generadores sin crono
Generadores sin cronoGeneradores sin crono
Generadores sin crono
Milciades Patiño Rodriguez
 

Destaque (14)

Como utilizar sql en visual basic 6.0
Como utilizar sql en visual basic 6.0Como utilizar sql en visual basic 6.0
Como utilizar sql en visual basic 6.0
 
Pay pal cadena 2013
Pay pal cadena 2013Pay pal cadena 2013
Pay pal cadena 2013
 
2016 NMA
2016 NMA2016 NMA
2016 NMA
 
Documento 1
Documento 1Documento 1
Documento 1
 
From marketplace to WordPress - WordCamp Belfast
From marketplace to WordPress - WordCamp BelfastFrom marketplace to WordPress - WordCamp Belfast
From marketplace to WordPress - WordCamp Belfast
 
Plan de gestion integracion de las ti cs en la institucion educativa el cristal
Plan de gestion integracion de las ti cs en la institucion educativa el cristalPlan de gestion integracion de las ti cs en la institucion educativa el cristal
Plan de gestion integracion de las ti cs en la institucion educativa el cristal
 
Pompeya y el Vesubio
Pompeya y el VesubioPompeya y el Vesubio
Pompeya y el Vesubio
 
Tema 3
Tema 3Tema 3
Tema 3
 
Teorías del aprendizaje ivanna
Teorías del aprendizaje  ivannaTeorías del aprendizaje  ivanna
Teorías del aprendizaje ivanna
 
El avión
El aviónEl avión
El avión
 
Maycon
MayconMaycon
Maycon
 
Parcial 1 susana morales
Parcial 1 susana moralesParcial 1 susana morales
Parcial 1 susana morales
 
Medios de transporte
Medios de transporteMedios de transporte
Medios de transporte
 
Generadores sin crono
Generadores sin cronoGeneradores sin crono
Generadores sin crono
 

Semelhante a A Centralized Platform for Access of Heterogeneous Data on Human Genome Repositories for Supporting Clinical Decisions

Visualização de dados
Visualização de dadosVisualização de dados
Visualização de dadoslrmodesto
 
Biblioteca Digital Brasileira de Teses e Dissertações: ações para melhoria na...
Biblioteca Digital Brasileira de Teses e Dissertações: ações para melhoria na...Biblioteca Digital Brasileira de Teses e Dissertações: ações para melhoria na...
Biblioteca Digital Brasileira de Teses e Dissertações: ações para melhoria na...
Conferência Luso-Brasileira de Ciência Aberta
 
Comparativo de ferramentas tecnológicas para o compartilhamento de dados
Comparativo de ferramentas tecnológicas para o compartilhamento de dadosComparativo de ferramentas tecnológicas para o compartilhamento de dados
Comparativo de ferramentas tecnológicas para o compartilhamento de dados
Leandro Ciuffo
 
gcc214-slides-1-introducao-bd.pdf
gcc214-slides-1-introducao-bd.pdfgcc214-slides-1-introducao-bd.pdf
gcc214-slides-1-introducao-bd.pdf
Slowtfk
 
Aula 01 - Fundamentos de Banco de Dados (2).pdf
Aula 01 - Fundamentos de Banco de Dados (2).pdfAula 01 - Fundamentos de Banco de Dados (2).pdf
Aula 01 - Fundamentos de Banco de Dados (2).pdf
Marcelo Silva
 
Pesquisa Reproduzivel
Pesquisa ReproduzivelPesquisa Reproduzivel
Pesquisa Reproduzivel
João Pedro Albino
 
Banco de dados
Banco de dadosBanco de dados
Banco de dados
M Serafim
 
Gestão de Dados: Sobreposições ou Convergências entre Infraestruturas?
Gestão de Dados: Sobreposições ou Convergências entre Infraestruturas?Gestão de Dados: Sobreposições ou Convergências entre Infraestruturas?
Gestão de Dados: Sobreposições ou Convergências entre Infraestruturas?
Conferência Luso-Brasileira de Ciência Aberta
 
Bdii aula01 apresentacao
Bdii aula01 apresentacaoBdii aula01 apresentacao
Bdii aula01 apresentacaosamuel1562314
 
TAIL—Gestão de dados de investigação da produção ao depósito e à partilha
TAIL—Gestão de dados de investigação da produção ao depósito e à partilhaTAIL—Gestão de dados de investigação da produção ao depósito e à partilha
TAIL—Gestão de dados de investigação da produção ao depósito e à partilha
Conferência Luso-Brasileira de Ciência Aberta
 
Mining software repositories
Mining software repositoriesMining software repositories
Mining software repositories
Rafael Rossi
 
MediaKit 2016 do DatabaseCast
MediaKit 2016 do DatabaseCastMediaKit 2016 do DatabaseCast
MediaKit 2016 do DatabaseCast
pichiliani
 
4 semestre trabalho individual analise e desenvolvimento de sistemas 2014
4 semestre trabalho individual analise e desenvolvimento de sistemas 20144 semestre trabalho individual analise e desenvolvimento de sistemas 2014
4 semestre trabalho individual analise e desenvolvimento de sistemas 2014WANDERSON JONER
 
Bd02 banco de dados
Bd02 banco de dadosBd02 banco de dados
Bd02 banco de dados
Silvano Oliveira
 
Modeloestruturaçaoads
ModeloestruturaçaoadsModeloestruturaçaoads
Modeloestruturaçaoads
csmp
 
Ver
VerVer
Ver
csmp
 
Rede Catarinense de Telemedicina - Aspectos Organizacionais e Estruturais de ...
Rede Catarinense de Telemedicina - Aspectos Organizacionais e Estruturais de ...Rede Catarinense de Telemedicina - Aspectos Organizacionais e Estruturais de ...
Rede Catarinense de Telemedicina - Aspectos Organizacionais e Estruturais de ...
Alexandre Savaris
 
BANCO DE DADOS RELACIONAIS
BANCO DE DADOS RELACIONAIS BANCO DE DADOS RELACIONAIS
BANCO DE DADOS RELACIONAIS
Antonio Pedro
 

Semelhante a A Centralized Platform for Access of Heterogeneous Data on Human Genome Repositories for Supporting Clinical Decisions (20)

Visualização de dados
Visualização de dadosVisualização de dados
Visualização de dados
 
Biblioteca Digital Brasileira de Teses e Dissertações: ações para melhoria na...
Biblioteca Digital Brasileira de Teses e Dissertações: ações para melhoria na...Biblioteca Digital Brasileira de Teses e Dissertações: ações para melhoria na...
Biblioteca Digital Brasileira de Teses e Dissertações: ações para melhoria na...
 
Comparativo de ferramentas tecnológicas para o compartilhamento de dados
Comparativo de ferramentas tecnológicas para o compartilhamento de dadosComparativo de ferramentas tecnológicas para o compartilhamento de dados
Comparativo de ferramentas tecnológicas para o compartilhamento de dados
 
gcc214-slides-1-introducao-bd.pdf
gcc214-slides-1-introducao-bd.pdfgcc214-slides-1-introducao-bd.pdf
gcc214-slides-1-introducao-bd.pdf
 
Aula 01 - Fundamentos de Banco de Dados (2).pdf
Aula 01 - Fundamentos de Banco de Dados (2).pdfAula 01 - Fundamentos de Banco de Dados (2).pdf
Aula 01 - Fundamentos de Banco de Dados (2).pdf
 
Pesquisa Reproduzivel
Pesquisa ReproduzivelPesquisa Reproduzivel
Pesquisa Reproduzivel
 
Banco de dados
Banco de dadosBanco de dados
Banco de dados
 
Gestão de Dados: Sobreposições ou Convergências entre Infraestruturas?
Gestão de Dados: Sobreposições ou Convergências entre Infraestruturas?Gestão de Dados: Sobreposições ou Convergências entre Infraestruturas?
Gestão de Dados: Sobreposições ou Convergências entre Infraestruturas?
 
Bdii aula01 apresentacao
Bdii aula01 apresentacaoBdii aula01 apresentacao
Bdii aula01 apresentacao
 
TAIL—Gestão de dados de investigação da produção ao depósito e à partilha
TAIL—Gestão de dados de investigação da produção ao depósito e à partilhaTAIL—Gestão de dados de investigação da produção ao depósito e à partilha
TAIL—Gestão de dados de investigação da produção ao depósito e à partilha
 
Mining software repositories
Mining software repositoriesMining software repositories
Mining software repositories
 
MediaKit 2016 do DatabaseCast
MediaKit 2016 do DatabaseCastMediaKit 2016 do DatabaseCast
MediaKit 2016 do DatabaseCast
 
4 semestre trabalho individual analise e desenvolvimento de sistemas 2014
4 semestre trabalho individual analise e desenvolvimento de sistemas 20144 semestre trabalho individual analise e desenvolvimento de sistemas 2014
4 semestre trabalho individual analise e desenvolvimento de sistemas 2014
 
Bd02 banco de dados
Bd02 banco de dadosBd02 banco de dados
Bd02 banco de dados
 
Modeloestruturaçaoads
ModeloestruturaçaoadsModeloestruturaçaoads
Modeloestruturaçaoads
 
Ver
VerVer
Ver
 
Aula Data Mining
Aula Data MiningAula Data Mining
Aula Data Mining
 
Apresenta
ApresentaApresenta
Apresenta
 
Rede Catarinense de Telemedicina - Aspectos Organizacionais e Estruturais de ...
Rede Catarinense de Telemedicina - Aspectos Organizacionais e Estruturais de ...Rede Catarinense de Telemedicina - Aspectos Organizacionais e Estruturais de ...
Rede Catarinense de Telemedicina - Aspectos Organizacionais e Estruturais de ...
 
BANCO DE DADOS RELACIONAIS
BANCO DE DADOS RELACIONAIS BANCO DE DADOS RELACIONAIS
BANCO DE DADOS RELACIONAIS
 

A Centralized Platform for Access of Heterogeneous Data on Human Genome Repositories for Supporting Clinical Decisions

  • 1. A Centralized Platform for Access of Heterogeneous Data on Human Genome Repositories for Supporting Clinical Decisions Andrêza Leite de Alencar, Vanilson Burégio, Jamisson Freitas, Marcel Caraciolo,Vinícius Garcia andreza.leite@ufrpe.br, jamisson@genomika.com.br 10/3/16   Salvador,  BA   1  
  • 2. Agenda •  Motivação e problema •  Objetivo •  Abordagens existentes •  Estudo de Caso •  Contribuições •  Desafios e Oportunidades 10/3/16   Salvador,  BA   2  
  • 3. Mainframes   PC   Redes   Nuvem   10/3/16   Salvador,  BA   3  
  • 4. “Era da Conectividade” 10/3/16   Salvador,  BA   4  
  • 5. O universo digital dobra a cada 2anos Em 2011 o mundo criou um escalonamento de 1.8 zettabytes de dados 1.800.000.000.000.000.000.000 Zetta Exa Peta Tera Giga Mega Kilo Byte 10/3/16   Salvador,  BA   5  
  • 6. 2011   1.8  ZB   2020   50x   +90ZB   Crescimento   da  Informação   10/3/16   Salvador,  BA   6  
  • 7. ≠ Tipos e Fontes 2011   2020     +50x     +75x    Recipientes  de  Informação   -­‐1.5x  profissionais  de  TI   10/3/16   Salvador,  BA   7  
  • 8.   VARIEDADE   Fontes  de  dados     Produção     mudança   VELOCIDADE   Tamanho     dos  dados   VOLUME       VERACIDADE   Qualidades    diferentes     Big     Data     10/3/16   Salvador,  BA   8  
  • 9. Gerenciar... ...Unificada e em Tempo Real Ou quase 10/3/16   Salvador,  BA   9  
  • 10. O que está causando esta avalanche? 10/3/16   Salvador,  BA   10  
  • 11. Objetivo Auxiliar o gerenciamento (acesso e armazenamento) de grandes conjuntos de dados heterogêneos •  Definir um modelo de dados que possa ser empregado para expressar de maneira unificada grandes conjuntos de dados heterogêneos, distribuídos e não intrinsecamente relacionados; •  Projetar e implementar uma plataforma que irá oferecer acesso de forma padronizada a dados de diversos tipos e fontes de armazenamento 10/3/16   Salvador,  BA   11  
  • 12. É necessário... Lidar com técnicas de integração sob várias perspectivas: •  Questões técnicas •  Representacionais 10/3/16   Salvador,  BA   12  
  • 13. Heterogeneidade Técnico Representacional Integração  de  dados   empresariais   Adequação  conceitual  e  formal   Master  data   management   Transformação   de  dados   Federar  fontes   e   representações       Técnicas  e   padrões  de  ETL   Padrões  e   técnicas  de   integração   Model  Management   Modelos  de   dados   Formalizar   problemas  de   tradução   10/3/16   Salvador,  BA   13  
  • 14. Ferramentas Relacionadas Caracterização e Comparação 10/3/16   Salvador,  BA   14  
  • 15. Generalidade 2000   2003   2004   2005   2007   2009   2013   2015   BigData   Web  2.0   NoSQL   Rondo   Clio   MIDST   Chave  Valor   Orientado  a   documento   Família  de   coluna   Relacional   O.  Relacional   O.  Objeto   SmaSh   SOS   Lenses   SMF   10/3/16   Salvador,  BA   15  
  • 16. Generalidade 2000   2003   2004   2005   2007   2009   2013   2015   Chave  Valor   Orientado  a   documento   Família  de   coluna   Relacional   O.  Relacional   O.  Objeto   BigData   Web  2.0   NoSQL   Rondo   Clio   MIDST   SmaSh   SOS   Lenses   SMF   10/3/16   Salvador,  BA   16  
  • 17. Generalidade 2000   2003   2004   2005   2007   2009   2013   2015   Chave  Valor   Orientado  a   documento   Família  de   coluna   Relacional   O.  Relacional   O.  Objeto   BigData   Web  2.0   NoSQL   Rondo   Clio   MIDST   SmaSh   SOS   Lenses   SMF   10/3/16   Salvador,  BA   17  
  • 18. Modelo para Unificação 2000   2003   2004   2005   2007   2009   2013   2015   Modelo   global   BigData   Web  2.0   NoSQL   Rondo   Clio   MIDST   SmaSh   SOS   Lenses   SMF   10/3/16   Salvador,  BA   18  
  • 19. Avaliação 2000   2003   2004   2005   2007   2009   2013   2015   Benchmark   Ambiente   real   Método   formal   BigData   Web  2.0   NoSQL   Rondo   Clio   MIDST   SmaSh   SOS   Lenses   SMF   10/3/16   Salvador,  BA   19  
  • 20. Proposta Uma Plataforma para Acesso Uniforme de grandes volumes de dados heterogêneos (PAjU) –  Independente de tipos e modelos de dados –  Escalável –  Em tempo (quase) real 10/3/16   Salvador,  BA   20  
  • 21. Arquitetura de Referência 10/3/16   Salvador,  BA   21  
  • 22. Batch Layer Armazena um conjunto de dados mestre em constante crescimento e calcular funções arbitrárias sobre esse conjunto de dados Persiste  os  dados   Visões  arbitrárias   10/3/16   Salvador,  BA   22  
  • 23. Batch Layer 10/3/16   Salvador,  BA   23  
  • 24. Serving Layer Realiza análises sobre os dados persistidos e disponibiliza através de visões distintas Acesso  a  visões   Atualizada  pela  batch   10/3/16   Salvador,  BA   24  
  • 25. Serving Layer 10/3/16   Salvador,  BA   25  
  • 26. Speed Layer Produz visões em tempo real com base nos dados que recebe Atualização  incremental   Isola  a  complexidade   10/3/16   Salvador,  BA   26  
  • 27. Speed Layer 10/3/16   Salvador,  BA   27  
  • 28. Meta Layer Realiza o gerenciamento da heterogeneidade provendo generalidade a plataforma Unifica  acesso   Esquema  global   10/3/16   Salvador,  BA   28  
  • 29. Meta Layer 10/3/16   Salvador,  BA   29  
  • 30. Estudo de Caso Análise de Dados do Genoma Humano 10/3/16   Salvador,  BA   30  
  • 32. Contexto Aproximadamente     de  300-­‐600  mutações   por  geração   10/3/16   Salvador,  BA   32  
  • 33. Evolução do custo por genoma 10/3/16   Salvador,  BA   33  
  • 34. Evolução do custo por genoma 10/3/16   Salvador,  BA   34  
  • 35. NextGen Sequencing (NGS) 10/3/16   Salvador,  BA   35  
  • 36. Aplicações NGS •  Doenças hereditárias: –  Mendelianas •  Mutações ou alterações em um único gene; –  Complexas •  Muitos genes e variantes envolvidos; •  Mutações somáticas –  Estão na origem de certos cânceres; –  Não são transmitidas à descendência. 10/3/16   Salvador,  BA   36  
  • 37. Genética Clínica 10/3/16   Salvador,  BA   37  
  • 38. Genomika Diagnósticos 10/3/16   Salvador,  BA   38   •  Um dos laboratórios mais avançados em clínica genética do Brasil e o primeiro localizado na região Norte e Nordeste.
  • 39. Genomika Diagnósticos 10/3/16   Salvador,  BA   39  
  • 40. Processo de Análise 10/3/16   Salvador,  BA   40  
  • 41. Nosso workflow da bioinformática 10/3/16   Salvador,  BA   41  
  • 42. O Genoma em um arquivo 10/3/16   Salvador,  BA   42  
  • 43. O Genoma em um arquivo 10/3/16   Salvador,  BA   43  
  • 44. O Genoma em um arquivo 10/3/16   Salvador,  BA   44  
  • 45. Busca de variantes 10/3/16   Salvador,  BA   45  
  • 46. Bases de dados genéticos 10/3/16   Salvador,  BA   46  
  • 47. Bases de dados genéticos •  Dificuldades: –  Variedades de acesso; –  Diversas estruturas; –  Falta de padronização; –  Controle de versões; –  Bases públicas e privadas. 10/3/16   Salvador,  BA   47  
  • 48. Bases de dados genéticos •  Dificuldades: –  Uso extensivo de planilhas; –  Compartilhamento de dados sensíveis; –  Visualização de informação (arquivos podem chegar até 30 mil variantes com diversos atributos); –  Reanálise dos dados (laudos negativos podem ser reavaliados); –  Suporte para múltiplas anotações. 10/3/16   Salvador,  BA   48  
  • 49. Bases de dados genéticos 10/3/16   Salvador,  BA   49  
  • 50. Implementação •  Etapa 1: Esquema de unificação dos dados: –  GenDB •  Etapa 2: Anotador de variantes clínicas: –  ClinGen 10/3/16   Salvador,  BA   50  
  • 51. Implementação •  Tecnologias envolvidas: –  Python 2.7 e 3.4 –  PostgreSQL 9.4 –  Django 1.8 e 1.9 –  Django Rest Framework 3.0 –  Celery 3.0 10/3/16   Salvador,  BA   51  
  • 52. GenDB – Visão Geral XML,  TXT,  VCF   10/3/16   Salvador,  BA   52  
  • 53. GenDB + Arquitetura de Referência 10/3/16   Salvador,  BA   53  
  • 54. GenDB: Esquema 10/3/16   Salvador,  BA   54  
  • 55. GenDB: API 10/3/16   Salvador,  BA   55  
  • 56. ClinGen: Anotação de variantes •  Desafio diário: mais de 50 banco de dados minerados, alguns deles com mais de 1.000.000 variantes para serem analisados. •  Soluções de anotação existentes: –  Não são flexíveis; –  Interfaces em linhas de comando; –  Alto custo; 10/3/16   Salvador,  BA   56  
  • 58. Contribuições Tempo de reanálise para um exame de exoma completo 10/3/16   Salvador,  BA   58   Método   Preparação  e   anotação  de  dados   pelo  Eme  da   bioinformáEca   Análise  dos   especialistas   Total  (por   pacientes)   Tradicional   ≅1h   1  à  2  dias   24  à  48  h   Proposto   <  30min   ≈2h   3h*   *Sistema  já  pode  realizar  a  anotação  automágca  quando  uma  nova  atualização  nas  bases  de   dados  ocorrer.  
  • 59. Contribuições Gerenciamento de grandes volumes de dados heterogêneos: •  Uma plataforma independente de modelo para acesso de grandes volumes de dados heterogêneos. Suporte a decisões clínicas •  Integração de diversas fontes de dados genéticos: OMIM, ClinVar, RefGene, Esp6500, LOVD, ExAC65000, 1000Genomes, SegDup e HPO; •  Melhoria do processo de análise de dados (Anotação). 10/3/16   Salvador,  BA   59  
  • 61. Desafios e Oportunidadesc Gerenciamento de grandes volumes de dados heterogêneos: –  Variedade: +50 bases mineradas +1.000.000 variantes –  Heterogeneidade: Diversos modelos e estruturas •  Falta de padronização –  IHC: •  Técnicas de visualização de dados •  Interfaces amigáveis 10/3/16   Salvador,  BA   61  
  • 63. A Centralized Platform for Access of Heterogeneous Data on Human Genome Repositories for Supporting Clinical Decisions Andrêza Leite de Alencar, Vanilson Burégio, Jamisson Freitas, Marcel Caraciolo,Vinícius Garcia andreza.leite@ufrpe.br, jamisson@genomika.com.br 10/3/16   Salvador,  BA   63