SlideShare uma empresa Scribd logo
1 de 40
Baixar para ler offline
New Generation Sequencing


         The Big Data Era


                Roberta A. Campos
EM 2010
1 ZettaByte (ZB) = 1 Trilhão
1,000,000,000,000 GigaBytes (GB)




                                   Roberta A. Campos PhD, MSc, PD
“Big Data Era” na Ciência


Researchers need to adapt their institutions and
practices in response to torrents of new data —
and need to complement smart science with smart
searching.
                               Editorial




                                                   Setembro 2008

 1 PetaByte (PB) = 1,000 TeraBytes (TB) = 1,000,000 GigaBytes (GB)
                                                       Roberta A. Campos PhD, MSc, PD
Ciclo do Conhecimento
                                            Gene Knock-outs
                                            Protein Assays
                                            Point mutations
                                            …

                                            Microarrays
            (Kell DB et al., 2004)          Genomics
                                            Meta-genomics
  hypothesis-driven science                 HT proteomics
                                            …




data-driven science

                                     Roberta A. Campos PhD, MSc, PD
Inundação de Dados na Área
de Ciências Biológicas
genomas completos sequenciados;
dados de variações genômicas;
projetos de Meta-Genômica;
dados de transcritomas;
dados de proteínas;
dados de interações entre proteínas;
ION Torrent…

                         Roberta A. Campos PhD, MSc, PD
E agora, quais são os desafios?
   Pontos urgentes que devem ser enfrentados:
    ◦ Transferência de dados, controle de acesso e gerenciamento.
    ◦ Padronização dos formatos de dados.
    ◦ Integração dos dados oriundos de múltiplas fontes.
       Dados com características Multi-dimensionais e em um volume
         imenso;
           Exemplo: Análise funcional de variações no DNA em múltiplas
            amostras em diferentes tipos de tumores utilizando dados de
            sequenciamento de nova geração...
    ◦ Modelos preditivos para fenótipos complexos demandam computação
      intensa (Problemas NP-difíceis – ex. Reconstrução de uma rede
      Bayesiana para representar um modelo de regulação gênica)



                                            Roberta A. Campos PhD, MSc, PD
Integração dos Bancos de
Dados Biológicos
   Características
    ◦ Grande volume de dados;
       Desenvolvimento de novos mecanismos e técnicas para o
        armazenamento e recuperação (e.g. Google BigTable );
    ◦ Não há padrão para os nomes dos objetos;
       Ontologias (e.g. Gene Ontology) e organizações que regulam a
        nomenclatura (e.g. HUGO)
    ◦ Não há padrão para acesso aos dados, cuja natureza é distribuída;
       Utilização de formatação padrão para troca de informações (e.g. GFF) e
        web services;
    ◦ Definição variável para alguns conceitos;
       e.g. gene
    ◦ Dados altamente heterogêneos mas inter-relacionados;
    ◦ Informação dinâmica e em constante atualização;
                                                      Roberta A. Campos PhD, MSc, PD
Soluções computacionais
   Cloud-based computing;
   Ambientes computacionais heterogêneos;
    ◦ Integração de aceleradores especializados (GPUs);
   Aumento do número de computadores;
   Otimização de algoritmos;




                                          Roberta A. Campos PhD, MSc, PD
Primeiros passos...
   Compreensão da natureza dos dados, ou seja, da sua
    magnitude e complexidade, e dos recursos disponíveis
    (memória, espaço, tenho um servidor?)...

   Compreensão dos algoritmos.

   Compreensão das vantagens e desvantagens das
    arquiteturas disponíveis.

    ◦ A decisão não é sempre óbvia e muitas vezes consiste
      em uma combinação delas

                                  Roberta A. Campos PhD, MSc, PD
Soluções no Brasil



O EMU (Equipamento MultiUsuário)
é uma plataforma de alta-
performance para análises
computacionais aplicadas à genômica
e à transcriptômica.

Financiamento: Programa
Multiusuário da FAPESP de 2010,
com uma contra-partida do Instituto
Ludwig de Pesquisa sobre o Câncer.    Roberta A. Campos PhD, MSc, PD
Sequenciamento - NGS
        Por quê sequenciar ?




               Roberta A. Campos PhD, MSc, PD
Por quê sequenciar ?

    Motivação
     Aplicações diversas:
     • identificar sequencias funcionais e caracterizar
       genomas ou transcriptomas;
       • Da Genômica Comparativa à Expressão gênica...
     • Propósitos gerais...

       “NOVA ONDA NGS”...


                             Roberta A. Campos PhD, MSc, PD
Bioinformática
• Bioinformática: Pesquisa, desenvolvimento, ou aplicação de ferramentas
  computacionais e abordagens para expandir a utilização de dados biológicos,
  médicos, comportamentais e de saúde, incluindo a aquisição, o
  armazenamento, a organização, o arquivamento a análise ou visualização
  desses dados.

• Computational Biology: O desenvolvimento e aplicação de métodos teóricos
  e analíticos, incluindo modelagem matemática e aplicação de técnicas de
  simulações computacionais para o estudo de sistemas biológicos, sociais ou
  comportamentais.



                                  Biomedical Information Science and Technology
                                  Initiative Consortium (BISTI - NIH)

                                               Roberta A. Campos PhD, MSc, PD
Repositórios de Dados Biológicos

   1965 – Atlas of Protein Sequences and Structure
    (Dayhoff et al.) - ~1Mb

   1982 – GenBank – 1988 – NCBI – National
    Center for Biotechnology Information

   1997 – EMBL – European Molecular Biology
    Laboratory

   1986 – DDBJ – DNA Data Bank of Japan

                                              Roberta A. Campos PhD, MSc, PD
International Nucleotide Sequence Database
Colaboration

                                1982
                                606 seqüências
                                2.427 bases

                                2008
                                98.868.465 seqüências
                                99.116.431.942 bases




                            Roberta A. Campos PhD, MSc, PD
Era “Pós-Genoma”
    "O PGH aumentou a capacidade de compreensão
    da complexidade que é a transmissão dos
    caracteres genéticos” (José Roberto Goldim, UFRGS)

   Genômica Estrutural
    ◦ Construção de mapas genéticos, físicos e de transcrição
      de um organismo.
   Genômica Funcional
    ◦ Caracterização das propriedades funcionais dos genes e
      determinação de Assinaturas Moleculares de Expressão
      Gênica.


                                     Roberta A. Campos PhD, MSc, PD
Projetos “omas”
                x
Pesquisa Clássica em Genética e
          Bioquímica

                                            Genômica

                                         Transcritômica

                                           Proteômica

                                           Epigenômica

                                          Metabolômica


                                        Nova Onda NGS
         Science 291:1221. 2001 A. Campos PhD, MSc, PD
                             Roberta
Genômica Funcional: Análise de Expressão
   Gênica
Genômica Funcional = Métodos de obtenção de dados em larga escala
                                 +
                      Métodos de Bioinformática

Revolução dos projetos “-omas”                    (Genome-wide expression “profiling”)




           Mayo Clin Proc. 2004 May;79(5):651-8
                                                        Roberta A. Campos PhD, MSc, PD
Últimos anos – NGS Era
                                                  Sequenciamento do Genoma
                                                  Diplóide de um único indivíduo
                                                  (Craig Venter)

                                                  The diploid genome sequence of
                                                  an individual human.
                                                  (Levy, S. et al. 2007)


                  2005          2007
                                                     Legião de Sequenciadores
                                                         ... ABI 3730 no JCVI

    2003                 2006          2008
                                                       Genoma James D. Watson
                                                       Sequenciamento com 454



 Conclusão do
 Projeto Genoma
 Humano                            1000 Genomes
                                   Project

      Next-Generation Sequencing A.Revollution
                             Roberta Campos PhD, MSc, PD
NEW GENERATION
SEQUENCING
AND APPLICATIONS



         Roberta A. Campos PhD, MSc, PD
Nova Geração de Sequenciadores
      PLATÔ
   TECNOLOGIA
                    Roche/454 FLX        Illumina/Solexa GA        ABI SOLiD
     ABI 3730xl




           ABI 3730xl    Roche/454 FLX        Illumina/Solexa GA   ABI SOLiD
Método     Sanger        Pirosequenciamento   Sequenciamento       Sequenciamento
                                              por Síntese          por Ligação

     • Aumento na quantidade de Dados
         • IlluminaHiSeq 2000 (~1 Tb/run - >600Gb Q30 – Tamanho 100bp)
     • Redução no tempo relativo para obtenção dos dados ( genoma 3Gb (8x)
     em questão de poucos dias);
     • Aumento gradual do tamanho das sequências (curtas ~36pb – 400pb);
     • Redução do custo por base sequenciada. Roberta A. Campos PhD, MSc, PD
Resumo das plataformas




                                  http://www.illumina.com/
                                  http://www.my454.com/
                   http://www.appliedbiosystems.com.br/
                      Roberta A. Campos PhD, MSc, PD
Trade-offs in Next Generation
Sequencing technologies




              NHGRI Current Topics in Genome Analysis 2010
              Elliott Margulies, Roberta A. Campos PhD, MSc, PD
                                 Ph.D
NGS no mundo




                 http://pathogenomics.bham.ac.uk/hts/
               Roberta A. Campos PhD, MSc, PD
Novas promessas
   HeliScope
    ◦ Helicos BioSciences                                    2008



   ION Torrent
    ◦ Applied Biosystems                                     2010



   PacBio RS
    ◦ Pacific Biosciences                                    2010


                            Roberta A. Campos PhD, MSc, PD
Produtividade




                            [Stratton MR, et al. 2009]
                Roberta A. Campos PhD, MSc, PD
Aplicacao Biotecnologica

   i5K
    ◦ 5000 genomas de insetos
       importância especialmente para a agricultura.
   Genome10K
    ◦ 10000 genomas de vertebrados
       diversidade genética entre vertebrados;
   1001 Genomes
    ◦ 1001 genotipos de Arabdopsis thaliana
       planta modelo, base de estudos outras plantas;
   1KP
    ◦ 1000 genomas de plantas
       desenvolvimentos de produtos biotecnológicos.

                                          Roberta A. Campos PhD, MSc, PD
“Counting Experiments”




                Roberta A. Campos PhD, MSc, PD
Análise RNA-Seq
RNA-Seq
RNA-Seq – Quantificação da expresão dos genes no transcriptoma




                                              Roberta A. Campos PhD, MSc, PD
Análise ChIP-Seq
ChIP-Seq
ChIP – Chromatin ImunoPreciptation
                                              Reproducibilidade
High-Throughput sequencing
                                              r = 0.906 (p-value < 2.2e-16).
ChIP-Seq – Estudo da estrutura da cromatina
Padrão de metilação de histonas no genoma
humano




                                                                                   ChIP-Seq X GMAT (Genome-wide Mapping Technique)
Uma das primeiras publicações utilizando
Illumina 1G Genome Analyzer




                                                  Roberta A. Campos PhD, MSc, PD
Análise Methyl-Seq
Methyl-Seq
DNA treatment with methyl-sensitive restriction enzymes
(HpaII - não metilada, MspI - indiferente)
High-Throughput sequencing

Methyl-Seq – Estudo de padrões de metilação do
DNA em hESCs, células derivadas de hESCs e fígado
fetal humano




                                                          AUC = 0.94
                                                          Methyl-Seq x Illumina Infinium

                                                          methylation status:
                                                           presence or absence of HpaII tags:
                                                             average tag count > 1 unmethylated


                                                           Roberta A. Campos PhD, MSc, PD
Análise microRNA-Seq
microRNA-Seq
small RNA library (mirVana miRNA Isolation Kit)
High-Throughput sequencing

microRNA-Seq – Caracterização dos miRNAs
expressos em tecido gástrico humano (cardia -
estômago)

Plataforma SOLiD
                                                                  qRT  -PCR
                                                                  2 -∆Ct




                                                          Pearson correlation (SOLiDxqRTPCR)
                                                          r2 = 83.9 (p-value < 0.05)


                                                  Roberta A. Campos PhD, MSc, PD
Análise de Vias Biológicas




Vias metabólicas/regulatórias
relacionadas   JASMONATO
em plantas em diferentes
contextos ecologicos




                                Roberta A. Campos PhD, MSc, PD
Interações entre Proteínas

   Cobertura

   Ontologia - Paralogia

   Regioes Conservadas

   Problemas de ANOTACAO!!!

   Estima-se que 20% de anotacoes erradas!!!
                            Roberta A. Campos PhD, MSc, PD
Análise de Interações entre
Proteínas – Redes Baysianas




                   Protein–protein interactions networks
                     for mutated genes in HCC1954 (A)
                           and HCC1954BL (B).


              Roberta A. Campos PhD, MSc, PD
Biologia Sistêmica – “New hit”

   Estudo das interações entre as componentes de um
    sistema biológico, e como essas interações fazem
    emergir função e comportamento no sistema;


                  "Systems Biology is the science of discovering, modeling,
                  understanding and ultimately engineering at the
                  molecular level the dynamic relationships between the
                  biological molecules that define living organisms “

                  Leroy Hood



                                            Roberta A. Campos PhD, MSc, PD
CONCLUSÃO




        Roberta A. Campos PhD, MSc, PD
Perguntas?




                             Roberta Alvares Campos

                                        OBRIGADA !!!




             Roberta A. Campos PhD, MSc, PD
ABORDAGENS EM
      GRUPOS

       Brain storm



    Roberta A. Campos PhD, MSc, PD
Resumo de Aplicações

Category - NGS                                Examples of applications
                                              Comprehensive polymorphism and mutation discovery in
Complete genome resequencing
                                              individual human genomes
Reduced representation sequencing - Draft     Large-scale polymorphism discovery
Targeted genomic resequencing                 Targeted polymorphism and mutation discovery

RNA-seq = Pairend or single end sequencing Discovery of inherited and acquired structural variation

Metagenomic sequencing                        Discovery of infectious and flora

                                              Quantification of gene expression and alternative splicing;
Transcriptome sequencing                      transcript annotation; discovery of transcribed SNPs or
                                              somatic mutations.
Small RNA sequencing                          microRNA profiling
                                              Determining patterns of cytosine methylation in genomic
Sequencing of bisulfite-treated DNA
                                              DNA
Chromatin immunoprecipitation– sequencing
                                              Genome-wide mapping of protein-DNA interactions
(ChIP-Seq)
Nuclease fragmentation and sequencing         Nucleosome positioning

Molecular barcoding - NGS                     Multiplex sequencing of samples from multiple individuals

                                                                                    [Shendure, J & Ji, H, 2008]
                                                  Roberta A. Campos PhD, MSc, PD

Mais conteúdo relacionado

Mais procurados

Sequenciamento de nova geração- Curso de Inverno de Genética 2013-UFPR by Jos...
Sequenciamento de nova geração- Curso de Inverno de Genética 2013-UFPR by Jos...Sequenciamento de nova geração- Curso de Inverno de Genética 2013-UFPR by Jos...
Sequenciamento de nova geração- Curso de Inverno de Genética 2013-UFPR by Jos...Joseph Evaristo
 
Seminario "Efficient de novo assembly of single-cell bacterial genomes from s...
Seminario "Efficient de novo assembly of single-cell bacterial genomes from s...Seminario "Efficient de novo assembly of single-cell bacterial genomes from s...
Seminario "Efficient de novo assembly of single-cell bacterial genomes from s...Edson Silva
 
Fundamentos de Engenharia Genética
Fundamentos de Engenharia GenéticaFundamentos de Engenharia Genética
Fundamentos de Engenharia GenéticaPedro Veiga
 
Engenharia Genetica
Engenharia GeneticaEngenharia Genetica
Engenharia GeneticaAlunos IFMA
 
Marcadores Moleculares para Características Físicas
Marcadores Moleculares para Características FísicasMarcadores Moleculares para Características Físicas
Marcadores Moleculares para Características FísicasRinaldo Pereira
 
Aplicação de RNA seq em biologia molecular
Aplicação de RNA seq em biologia molecularAplicação de RNA seq em biologia molecular
Aplicação de RNA seq em biologia molecularEdivaldo Júnior
 
Bioinformática Introdução (Basic NGS)
Bioinformática Introdução (Basic NGS)Bioinformática Introdução (Basic NGS)
Bioinformática Introdução (Basic NGS)Renato Puga
 
Engenharia genética
Engenharia genéticaEngenharia genética
Engenharia genéticapaulober
 
Biotecnologia e Engenharia Genética (Power Point)
Biotecnologia e Engenharia Genética (Power Point)Biotecnologia e Engenharia Genética (Power Point)
Biotecnologia e Engenharia Genética (Power Point)Bio
 
Exames realizados na área de Genética Médica
Exames realizados na área de Genética MédicaExames realizados na área de Genética Médica
Exames realizados na área de Genética MédicaUniversidade de Brasília
 
25 Patrim Genetico Engenharia Genetica Ppt
25  Patrim  Genetico   Engenharia Genetica Ppt25  Patrim  Genetico   Engenharia Genetica Ppt
25 Patrim Genetico Engenharia Genetica PptLeonor Vaz Pereira
 

Mais procurados (20)

Sequenciamento de nova geração- Curso de Inverno de Genética 2013-UFPR by Jos...
Sequenciamento de nova geração- Curso de Inverno de Genética 2013-UFPR by Jos...Sequenciamento de nova geração- Curso de Inverno de Genética 2013-UFPR by Jos...
Sequenciamento de nova geração- Curso de Inverno de Genética 2013-UFPR by Jos...
 
Seminario "Efficient de novo assembly of single-cell bacterial genomes from s...
Seminario "Efficient de novo assembly of single-cell bacterial genomes from s...Seminario "Efficient de novo assembly of single-cell bacterial genomes from s...
Seminario "Efficient de novo assembly of single-cell bacterial genomes from s...
 
01_Pereira_RW_SBG
01_Pereira_RW_SBG01_Pereira_RW_SBG
01_Pereira_RW_SBG
 
Engenharia genética
Engenharia genéticaEngenharia genética
Engenharia genética
 
Engenharia Genética
Engenharia GenéticaEngenharia Genética
Engenharia Genética
 
Fundamentos de Engenharia Genética
Fundamentos de Engenharia GenéticaFundamentos de Engenharia Genética
Fundamentos de Engenharia Genética
 
Engenharia Genetica
Engenharia GeneticaEngenharia Genetica
Engenharia Genetica
 
Marcadores Moleculares para Características Físicas
Marcadores Moleculares para Características FísicasMarcadores Moleculares para Características Físicas
Marcadores Moleculares para Características Físicas
 
Engenharia genética
Engenharia genéticaEngenharia genética
Engenharia genética
 
Aplicação de RNA seq em biologia molecular
Aplicação de RNA seq em biologia molecularAplicação de RNA seq em biologia molecular
Aplicação de RNA seq em biologia molecular
 
Bioinformática Introdução (Basic NGS)
Bioinformática Introdução (Basic NGS)Bioinformática Introdução (Basic NGS)
Bioinformática Introdução (Basic NGS)
 
Tecnologia do dna
Tecnologia do dnaTecnologia do dna
Tecnologia do dna
 
Engenharia genética
Engenharia genéticaEngenharia genética
Engenharia genética
 
Engenharia genética
Engenharia genéticaEngenharia genética
Engenharia genética
 
Biotecnologia e Engenharia Genética (Power Point)
Biotecnologia e Engenharia Genética (Power Point)Biotecnologia e Engenharia Genética (Power Point)
Biotecnologia e Engenharia Genética (Power Point)
 
Exames realizados na área de Genética Médica
Exames realizados na área de Genética MédicaExames realizados na área de Genética Médica
Exames realizados na área de Genética Médica
 
ENGENHARIA GENÉTICA
ENGENHARIA GENÉTICAENGENHARIA GENÉTICA
ENGENHARIA GENÉTICA
 
2016 Frente 1 modulo 13 Engenharia genética
2016 Frente 1 modulo 13 Engenharia genética2016 Frente 1 modulo 13 Engenharia genética
2016 Frente 1 modulo 13 Engenharia genética
 
Rflp
RflpRflp
Rflp
 
25 Patrim Genetico Engenharia Genetica Ppt
25  Patrim  Genetico   Engenharia Genetica Ppt25  Patrim  Genetico   Engenharia Genetica Ppt
25 Patrim Genetico Engenharia Genetica Ppt
 

Destaque

Pos Usp Aula Biomol Dna Rna Prot Genomica Parte1
Pos Usp Aula Biomol Dna Rna Prot Genomica Parte1Pos Usp Aula Biomol Dna Rna Prot Genomica Parte1
Pos Usp Aula Biomol Dna Rna Prot Genomica Parte1Beta Campos
 
Genetic Algorithm For Job Shop Problem
Genetic Algorithm For Job Shop ProblemGenetic Algorithm For Job Shop Problem
Genetic Algorithm For Job Shop Problemmarcelobeckmann
 
Mineração de dados com a presença da deriva conceitual
Mineração de dados com a presença da deriva conceitualMineração de dados com a presença da deriva conceitual
Mineração de dados com a presença da deriva conceitualLuis Miguel Rojas Aguilera
 
Inteligência Artificial: a ciência da antecipação em ambientes incertos
Inteligência Artificial: a ciência da antecipação em ambientes incertosInteligência Artificial: a ciência da antecipação em ambientes incertos
Inteligência Artificial: a ciência da antecipação em ambientes incertosCarlos R. B. Azevedo
 
PLP – Paradigma de Programação Orientado a Modelos
PLP – Paradigma de Programação Orientado a ModelosPLP – Paradigma de Programação Orientado a Modelos
PLP – Paradigma de Programação Orientado a Modeloselliando dias
 
Matemática das redes - parte II
Matemática das redes - parte IIMatemática das redes - parte II
Matemática das redes - parte IIDalton Martins
 
Matemática das Redes - Parte I
Matemática das Redes - Parte IMatemática das Redes - Parte I
Matemática das Redes - Parte IDalton Martins
 
Aula 13 - Algoritmos de Escalonamento
Aula 13 - Algoritmos de Escalonamento Aula 13 - Algoritmos de Escalonamento
Aula 13 - Algoritmos de Escalonamento camila_seixas
 
Rethinking microbial diversity analysis in the high throughput sequencing era
Rethinking microbial diversity analysis in the high throughput sequencing eraRethinking microbial diversity analysis in the high throughput sequencing era
Rethinking microbial diversity analysis in the high throughput sequencing eraLeandro Lemos
 
Bioinformática aplicada nas análises da microbiota do rúmen
Bioinformática aplicada nas análises da microbiota do rúmenBioinformática aplicada nas análises da microbiota do rúmen
Bioinformática aplicada nas análises da microbiota do rúmenLeandro Lemos
 
Sequenciamento de DNA
Sequenciamento de DNASequenciamento de DNA
Sequenciamento de DNAfelipes
 
Como Python pode ajudar na automação do seu laboratório
Como Python pode ajudar na automação do  seu laboratórioComo Python pode ajudar na automação do  seu laboratório
Como Python pode ajudar na automação do seu laboratórioMarcel Caraciolo
 
Sistemas operacionais escalonamento de processos
Sistemas operacionais  escalonamento de processosSistemas operacionais  escalonamento de processos
Sistemas operacionais escalonamento de processosTalles Nascimento Rodrigues
 

Destaque (20)

Pos Usp Aula Biomol Dna Rna Prot Genomica Parte1
Pos Usp Aula Biomol Dna Rna Prot Genomica Parte1Pos Usp Aula Biomol Dna Rna Prot Genomica Parte1
Pos Usp Aula Biomol Dna Rna Prot Genomica Parte1
 
Genetic Algorithm For Job Shop Problem
Genetic Algorithm For Job Shop ProblemGenetic Algorithm For Job Shop Problem
Genetic Algorithm For Job Shop Problem
 
Mineração de dados com a presença da deriva conceitual
Mineração de dados com a presença da deriva conceitualMineração de dados com a presença da deriva conceitual
Mineração de dados com a presença da deriva conceitual
 
4 groebner danton4 dissertacao
4 groebner danton4 dissertacao4 groebner danton4 dissertacao
4 groebner danton4 dissertacao
 
Alessandra henriquesferreiravc
Alessandra henriquesferreiravcAlessandra henriquesferreiravc
Alessandra henriquesferreiravc
 
Pi1415 tudo
Pi1415 tudoPi1415 tudo
Pi1415 tudo
 
Inteligência Artificial: a ciência da antecipação em ambientes incertos
Inteligência Artificial: a ciência da antecipação em ambientes incertosInteligência Artificial: a ciência da antecipação em ambientes incertos
Inteligência Artificial: a ciência da antecipação em ambientes incertos
 
PLP – Paradigma de Programação Orientado a Modelos
PLP – Paradigma de Programação Orientado a ModelosPLP – Paradigma de Programação Orientado a Modelos
PLP – Paradigma de Programação Orientado a Modelos
 
Matemática das redes - parte II
Matemática das redes - parte IIMatemática das redes - parte II
Matemática das redes - parte II
 
Matemática das Redes - Parte I
Matemática das Redes - Parte IMatemática das Redes - Parte I
Matemática das Redes - Parte I
 
Nazareno ufla 14 agrocafe
Nazareno ufla 14 agrocafeNazareno ufla 14 agrocafe
Nazareno ufla 14 agrocafe
 
Aula 13 - Algoritmos de Escalonamento
Aula 13 - Algoritmos de Escalonamento Aula 13 - Algoritmos de Escalonamento
Aula 13 - Algoritmos de Escalonamento
 
Rethinking microbial diversity analysis in the high throughput sequencing era
Rethinking microbial diversity analysis in the high throughput sequencing eraRethinking microbial diversity analysis in the high throughput sequencing era
Rethinking microbial diversity analysis in the high throughput sequencing era
 
Bioinformática aplicada nas análises da microbiota do rúmen
Bioinformática aplicada nas análises da microbiota do rúmenBioinformática aplicada nas análises da microbiota do rúmen
Bioinformática aplicada nas análises da microbiota do rúmen
 
Bioinformática
BioinformáticaBioinformática
Bioinformática
 
Sequenciamento de dna
Sequenciamento de dnaSequenciamento de dna
Sequenciamento de dna
 
Bioinformática
BioinformáticaBioinformática
Bioinformática
 
Sequenciamento de DNA
Sequenciamento de DNASequenciamento de DNA
Sequenciamento de DNA
 
Como Python pode ajudar na automação do seu laboratório
Como Python pode ajudar na automação do  seu laboratórioComo Python pode ajudar na automação do  seu laboratório
Como Python pode ajudar na automação do seu laboratório
 
Sistemas operacionais escalonamento de processos
Sistemas operacionais  escalonamento de processosSistemas operacionais  escalonamento de processos
Sistemas operacionais escalonamento de processos
 

Semelhante a Pos Usp Ngs Big Data Parte 2

Avanços e perspectivas em Bioinformática
Avanços e perspectivas em BioinformáticaAvanços e perspectivas em Bioinformática
Avanços e perspectivas em BioinformáticaLeandro Lima
 
Como seu DNA com a Bioinformática pode revolucionar o diagnóstico clínico no ...
Como seu DNA com a Bioinformática pode revolucionar o diagnóstico clínico no ...Como seu DNA com a Bioinformática pode revolucionar o diagnóstico clínico no ...
Como seu DNA com a Bioinformática pode revolucionar o diagnóstico clínico no ...Genomika Diagnósticos
 
Exploring the Applications and Potential of Bioinformatics
Exploring the Applications and Potential of BioinformaticsExploring the Applications and Potential of Bioinformatics
Exploring the Applications and Potential of BioinformaticsLuana Joana Barreto Cabral
 
Como interpretar seu próprio genoma com Python
Como interpretar seu próprio genoma com PythonComo interpretar seu próprio genoma com Python
Como interpretar seu próprio genoma com PythonMarcel Caraciolo
 
XI Workshop Genética PUC-GO - Rinaldo Pereira
XI Workshop Genética PUC-GO - Rinaldo PereiraXI Workshop Genética PUC-GO - Rinaldo Pereira
XI Workshop Genética PUC-GO - Rinaldo PereiraRinaldo Pereira
 
Anotação molecular
Anotação molecularAnotação molecular
Anotação molecularUERGS
 
Biologia forense e suas áreas auxiliares.
Biologia forense e suas áreas auxiliares.Biologia forense e suas áreas auxiliares.
Biologia forense e suas áreas auxiliares.Danieli Simões
 
Predição de estruturas e função de proteínas usando Redes Neurais
Predição de estruturas e função de proteínas usando Redes NeuraisPredição de estruturas e função de proteínas usando Redes Neurais
Predição de estruturas e função de proteínas usando Redes NeuraisElaine Cecília Gatto
 
Bioinformática arquivo de dados
Bioinformática arquivo de dadosBioinformática arquivo de dados
Bioinformática arquivo de dadosUERGS
 
grandes temas em biologia_aula_05_volume01
grandes temas em biologia_aula_05_volume01grandes temas em biologia_aula_05_volume01
grandes temas em biologia_aula_05_volume01Adila Trubat
 
Int. à Bioinformática (FMU - 08/05/2012)
Int. à Bioinformática (FMU - 08/05/2012)Int. à Bioinformática (FMU - 08/05/2012)
Int. à Bioinformática (FMU - 08/05/2012)Leandro Lima
 
Novas Perspectivas em Estudos de Ecologia Microbiana
Novas Perspectivas em Estudos de Ecologia MicrobianaNovas Perspectivas em Estudos de Ecologia Microbiana
Novas Perspectivas em Estudos de Ecologia MicrobianaLeandro Lemos
 
Análises de metagenomas
Análises de metagenomasAnálises de metagenomas
Análises de metagenomasLeandro Lemos
 
Gestão de Dados de Pesquisa e o Papel dos Bibliotecários
Gestão de Dados de Pesquisa e o Papel dos BibliotecáriosGestão de Dados de Pesquisa e o Papel dos Bibliotecários
Gestão de Dados de Pesquisa e o Papel dos BibliotecáriosSIBiUSP
 

Semelhante a Pos Usp Ngs Big Data Parte 2 (20)

Avanços e perspectivas em Bioinformática
Avanços e perspectivas em BioinformáticaAvanços e perspectivas em Bioinformática
Avanços e perspectivas em Bioinformática
 
Como seu DNA com a Bioinformática pode revolucionar o diagnóstico clínico no ...
Como seu DNA com a Bioinformática pode revolucionar o diagnóstico clínico no ...Como seu DNA com a Bioinformática pode revolucionar o diagnóstico clínico no ...
Como seu DNA com a Bioinformática pode revolucionar o diagnóstico clínico no ...
 
Montagem de Genomas
Montagem de GenomasMontagem de Genomas
Montagem de Genomas
 
Exploring the Applications and Potential of Bioinformatics
Exploring the Applications and Potential of BioinformaticsExploring the Applications and Potential of Bioinformatics
Exploring the Applications and Potential of Bioinformatics
 
Como interpretar seu próprio genoma com Python
Como interpretar seu próprio genoma com PythonComo interpretar seu próprio genoma com Python
Como interpretar seu próprio genoma com Python
 
XI Workshop Genética PUC-GO - Rinaldo Pereira
XI Workshop Genética PUC-GO - Rinaldo PereiraXI Workshop Genética PUC-GO - Rinaldo Pereira
XI Workshop Genética PUC-GO - Rinaldo Pereira
 
Anotação molecular
Anotação molecularAnotação molecular
Anotação molecular
 
BDsBiologicos.ppt
BDsBiologicos.pptBDsBiologicos.ppt
BDsBiologicos.ppt
 
Aula Introdução a Genética.ppt
Aula Introdução a Genética.pptAula Introdução a Genética.ppt
Aula Introdução a Genética.ppt
 
Biologia forense e suas áreas auxiliares.
Biologia forense e suas áreas auxiliares.Biologia forense e suas áreas auxiliares.
Biologia forense e suas áreas auxiliares.
 
Técnicas Moleculares
Técnicas MolecularesTécnicas Moleculares
Técnicas Moleculares
 
Predição de estruturas e função de proteínas usando Redes Neurais
Predição de estruturas e função de proteínas usando Redes NeuraisPredição de estruturas e função de proteínas usando Redes Neurais
Predição de estruturas e função de proteínas usando Redes Neurais
 
1228690340 ds
1228690340 ds1228690340 ds
1228690340 ds
 
Bioinformática arquivo de dados
Bioinformática arquivo de dadosBioinformática arquivo de dados
Bioinformática arquivo de dados
 
grandes temas em biologia_aula_05_volume01
grandes temas em biologia_aula_05_volume01grandes temas em biologia_aula_05_volume01
grandes temas em biologia_aula_05_volume01
 
Int. à Bioinformática (FMU - 08/05/2012)
Int. à Bioinformática (FMU - 08/05/2012)Int. à Bioinformática (FMU - 08/05/2012)
Int. à Bioinformática (FMU - 08/05/2012)
 
Novas Perspectivas em Estudos de Ecologia Microbiana
Novas Perspectivas em Estudos de Ecologia MicrobianaNovas Perspectivas em Estudos de Ecologia Microbiana
Novas Perspectivas em Estudos de Ecologia Microbiana
 
Amostras Degradadas
Amostras DegradadasAmostras Degradadas
Amostras Degradadas
 
Análises de metagenomas
Análises de metagenomasAnálises de metagenomas
Análises de metagenomas
 
Gestão de Dados de Pesquisa e o Papel dos Bibliotecários
Gestão de Dados de Pesquisa e o Papel dos BibliotecáriosGestão de Dados de Pesquisa e o Papel dos Bibliotecários
Gestão de Dados de Pesquisa e o Papel dos Bibliotecários
 

Pos Usp Ngs Big Data Parte 2

  • 1. New Generation Sequencing The Big Data Era Roberta A. Campos
  • 2. EM 2010 1 ZettaByte (ZB) = 1 Trilhão 1,000,000,000,000 GigaBytes (GB) Roberta A. Campos PhD, MSc, PD
  • 3. “Big Data Era” na Ciência Researchers need to adapt their institutions and practices in response to torrents of new data — and need to complement smart science with smart searching. Editorial Setembro 2008 1 PetaByte (PB) = 1,000 TeraBytes (TB) = 1,000,000 GigaBytes (GB) Roberta A. Campos PhD, MSc, PD
  • 4. Ciclo do Conhecimento Gene Knock-outs Protein Assays Point mutations … Microarrays (Kell DB et al., 2004) Genomics Meta-genomics hypothesis-driven science HT proteomics … data-driven science Roberta A. Campos PhD, MSc, PD
  • 5. Inundação de Dados na Área de Ciências Biológicas genomas completos sequenciados; dados de variações genômicas; projetos de Meta-Genômica; dados de transcritomas; dados de proteínas; dados de interações entre proteínas; ION Torrent… Roberta A. Campos PhD, MSc, PD
  • 6. E agora, quais são os desafios?  Pontos urgentes que devem ser enfrentados: ◦ Transferência de dados, controle de acesso e gerenciamento. ◦ Padronização dos formatos de dados. ◦ Integração dos dados oriundos de múltiplas fontes.  Dados com características Multi-dimensionais e em um volume imenso;  Exemplo: Análise funcional de variações no DNA em múltiplas amostras em diferentes tipos de tumores utilizando dados de sequenciamento de nova geração... ◦ Modelos preditivos para fenótipos complexos demandam computação intensa (Problemas NP-difíceis – ex. Reconstrução de uma rede Bayesiana para representar um modelo de regulação gênica) Roberta A. Campos PhD, MSc, PD
  • 7. Integração dos Bancos de Dados Biológicos  Características ◦ Grande volume de dados;  Desenvolvimento de novos mecanismos e técnicas para o armazenamento e recuperação (e.g. Google BigTable ); ◦ Não há padrão para os nomes dos objetos;  Ontologias (e.g. Gene Ontology) e organizações que regulam a nomenclatura (e.g. HUGO) ◦ Não há padrão para acesso aos dados, cuja natureza é distribuída;  Utilização de formatação padrão para troca de informações (e.g. GFF) e web services; ◦ Definição variável para alguns conceitos;  e.g. gene ◦ Dados altamente heterogêneos mas inter-relacionados; ◦ Informação dinâmica e em constante atualização; Roberta A. Campos PhD, MSc, PD
  • 8. Soluções computacionais  Cloud-based computing;  Ambientes computacionais heterogêneos; ◦ Integração de aceleradores especializados (GPUs);  Aumento do número de computadores;  Otimização de algoritmos; Roberta A. Campos PhD, MSc, PD
  • 9. Primeiros passos...  Compreensão da natureza dos dados, ou seja, da sua magnitude e complexidade, e dos recursos disponíveis (memória, espaço, tenho um servidor?)...  Compreensão dos algoritmos.  Compreensão das vantagens e desvantagens das arquiteturas disponíveis. ◦ A decisão não é sempre óbvia e muitas vezes consiste em uma combinação delas Roberta A. Campos PhD, MSc, PD
  • 10. Soluções no Brasil O EMU (Equipamento MultiUsuário) é uma plataforma de alta- performance para análises computacionais aplicadas à genômica e à transcriptômica. Financiamento: Programa Multiusuário da FAPESP de 2010, com uma contra-partida do Instituto Ludwig de Pesquisa sobre o Câncer. Roberta A. Campos PhD, MSc, PD
  • 11. Sequenciamento - NGS Por quê sequenciar ? Roberta A. Campos PhD, MSc, PD
  • 12. Por quê sequenciar ? Motivação Aplicações diversas: • identificar sequencias funcionais e caracterizar genomas ou transcriptomas; • Da Genômica Comparativa à Expressão gênica... • Propósitos gerais... “NOVA ONDA NGS”... Roberta A. Campos PhD, MSc, PD
  • 13. Bioinformática • Bioinformática: Pesquisa, desenvolvimento, ou aplicação de ferramentas computacionais e abordagens para expandir a utilização de dados biológicos, médicos, comportamentais e de saúde, incluindo a aquisição, o armazenamento, a organização, o arquivamento a análise ou visualização desses dados. • Computational Biology: O desenvolvimento e aplicação de métodos teóricos e analíticos, incluindo modelagem matemática e aplicação de técnicas de simulações computacionais para o estudo de sistemas biológicos, sociais ou comportamentais. Biomedical Information Science and Technology Initiative Consortium (BISTI - NIH) Roberta A. Campos PhD, MSc, PD
  • 14. Repositórios de Dados Biológicos  1965 – Atlas of Protein Sequences and Structure (Dayhoff et al.) - ~1Mb  1982 – GenBank – 1988 – NCBI – National Center for Biotechnology Information  1997 – EMBL – European Molecular Biology Laboratory  1986 – DDBJ – DNA Data Bank of Japan Roberta A. Campos PhD, MSc, PD
  • 15. International Nucleotide Sequence Database Colaboration 1982 606 seqüências 2.427 bases 2008 98.868.465 seqüências 99.116.431.942 bases Roberta A. Campos PhD, MSc, PD
  • 16. Era “Pós-Genoma” "O PGH aumentou a capacidade de compreensão da complexidade que é a transmissão dos caracteres genéticos” (José Roberto Goldim, UFRGS)  Genômica Estrutural ◦ Construção de mapas genéticos, físicos e de transcrição de um organismo.  Genômica Funcional ◦ Caracterização das propriedades funcionais dos genes e determinação de Assinaturas Moleculares de Expressão Gênica. Roberta A. Campos PhD, MSc, PD
  • 17. Projetos “omas” x Pesquisa Clássica em Genética e Bioquímica Genômica Transcritômica Proteômica Epigenômica Metabolômica Nova Onda NGS Science 291:1221. 2001 A. Campos PhD, MSc, PD Roberta
  • 18. Genômica Funcional: Análise de Expressão Gênica Genômica Funcional = Métodos de obtenção de dados em larga escala + Métodos de Bioinformática Revolução dos projetos “-omas” (Genome-wide expression “profiling”) Mayo Clin Proc. 2004 May;79(5):651-8 Roberta A. Campos PhD, MSc, PD
  • 19. Últimos anos – NGS Era Sequenciamento do Genoma Diplóide de um único indivíduo (Craig Venter) The diploid genome sequence of an individual human. (Levy, S. et al. 2007) 2005 2007 Legião de Sequenciadores ... ABI 3730 no JCVI 2003 2006 2008 Genoma James D. Watson Sequenciamento com 454 Conclusão do Projeto Genoma Humano 1000 Genomes Project Next-Generation Sequencing A.Revollution Roberta Campos PhD, MSc, PD
  • 20. NEW GENERATION SEQUENCING AND APPLICATIONS Roberta A. Campos PhD, MSc, PD
  • 21. Nova Geração de Sequenciadores PLATÔ TECNOLOGIA Roche/454 FLX Illumina/Solexa GA ABI SOLiD ABI 3730xl ABI 3730xl Roche/454 FLX Illumina/Solexa GA ABI SOLiD Método Sanger Pirosequenciamento Sequenciamento Sequenciamento por Síntese por Ligação • Aumento na quantidade de Dados • IlluminaHiSeq 2000 (~1 Tb/run - >600Gb Q30 – Tamanho 100bp) • Redução no tempo relativo para obtenção dos dados ( genoma 3Gb (8x) em questão de poucos dias); • Aumento gradual do tamanho das sequências (curtas ~36pb – 400pb); • Redução do custo por base sequenciada. Roberta A. Campos PhD, MSc, PD
  • 22. Resumo das plataformas  http://www.illumina.com/  http://www.my454.com/  http://www.appliedbiosystems.com.br/ Roberta A. Campos PhD, MSc, PD
  • 23. Trade-offs in Next Generation Sequencing technologies NHGRI Current Topics in Genome Analysis 2010 Elliott Margulies, Roberta A. Campos PhD, MSc, PD Ph.D
  • 24. NGS no mundo http://pathogenomics.bham.ac.uk/hts/ Roberta A. Campos PhD, MSc, PD
  • 25. Novas promessas  HeliScope ◦ Helicos BioSciences 2008  ION Torrent ◦ Applied Biosystems 2010  PacBio RS ◦ Pacific Biosciences 2010 Roberta A. Campos PhD, MSc, PD
  • 26. Produtividade [Stratton MR, et al. 2009] Roberta A. Campos PhD, MSc, PD
  • 27. Aplicacao Biotecnologica  i5K ◦ 5000 genomas de insetos  importância especialmente para a agricultura.  Genome10K ◦ 10000 genomas de vertebrados  diversidade genética entre vertebrados;  1001 Genomes ◦ 1001 genotipos de Arabdopsis thaliana  planta modelo, base de estudos outras plantas;  1KP ◦ 1000 genomas de plantas  desenvolvimentos de produtos biotecnológicos. Roberta A. Campos PhD, MSc, PD
  • 28. “Counting Experiments” Roberta A. Campos PhD, MSc, PD
  • 29. Análise RNA-Seq RNA-Seq RNA-Seq – Quantificação da expresão dos genes no transcriptoma Roberta A. Campos PhD, MSc, PD
  • 30. Análise ChIP-Seq ChIP-Seq ChIP – Chromatin ImunoPreciptation Reproducibilidade High-Throughput sequencing r = 0.906 (p-value < 2.2e-16). ChIP-Seq – Estudo da estrutura da cromatina Padrão de metilação de histonas no genoma humano ChIP-Seq X GMAT (Genome-wide Mapping Technique) Uma das primeiras publicações utilizando Illumina 1G Genome Analyzer Roberta A. Campos PhD, MSc, PD
  • 31. Análise Methyl-Seq Methyl-Seq DNA treatment with methyl-sensitive restriction enzymes (HpaII - não metilada, MspI - indiferente) High-Throughput sequencing Methyl-Seq – Estudo de padrões de metilação do DNA em hESCs, células derivadas de hESCs e fígado fetal humano AUC = 0.94 Methyl-Seq x Illumina Infinium methylation status: presence or absence of HpaII tags: average tag count > 1 unmethylated Roberta A. Campos PhD, MSc, PD
  • 32. Análise microRNA-Seq microRNA-Seq small RNA library (mirVana miRNA Isolation Kit) High-Throughput sequencing microRNA-Seq – Caracterização dos miRNAs expressos em tecido gástrico humano (cardia - estômago) Plataforma SOLiD qRT -PCR 2 -∆Ct Pearson correlation (SOLiDxqRTPCR) r2 = 83.9 (p-value < 0.05) Roberta A. Campos PhD, MSc, PD
  • 33. Análise de Vias Biológicas Vias metabólicas/regulatórias relacionadas JASMONATO em plantas em diferentes contextos ecologicos Roberta A. Campos PhD, MSc, PD
  • 34. Interações entre Proteínas Cobertura Ontologia - Paralogia Regioes Conservadas Problemas de ANOTACAO!!! Estima-se que 20% de anotacoes erradas!!! Roberta A. Campos PhD, MSc, PD
  • 35. Análise de Interações entre Proteínas – Redes Baysianas Protein–protein interactions networks for mutated genes in HCC1954 (A) and HCC1954BL (B). Roberta A. Campos PhD, MSc, PD
  • 36. Biologia Sistêmica – “New hit”  Estudo das interações entre as componentes de um sistema biológico, e como essas interações fazem emergir função e comportamento no sistema; "Systems Biology is the science of discovering, modeling, understanding and ultimately engineering at the molecular level the dynamic relationships between the biological molecules that define living organisms “ Leroy Hood Roberta A. Campos PhD, MSc, PD
  • 37. CONCLUSÃO Roberta A. Campos PhD, MSc, PD
  • 38. Perguntas? Roberta Alvares Campos OBRIGADA !!! Roberta A. Campos PhD, MSc, PD
  • 39. ABORDAGENS EM GRUPOS Brain storm Roberta A. Campos PhD, MSc, PD
  • 40. Resumo de Aplicações Category - NGS Examples of applications Comprehensive polymorphism and mutation discovery in Complete genome resequencing individual human genomes Reduced representation sequencing - Draft Large-scale polymorphism discovery Targeted genomic resequencing Targeted polymorphism and mutation discovery RNA-seq = Pairend or single end sequencing Discovery of inherited and acquired structural variation Metagenomic sequencing Discovery of infectious and flora Quantification of gene expression and alternative splicing; Transcriptome sequencing transcript annotation; discovery of transcribed SNPs or somatic mutations. Small RNA sequencing microRNA profiling Determining patterns of cytosine methylation in genomic Sequencing of bisulfite-treated DNA DNA Chromatin immunoprecipitation– sequencing Genome-wide mapping of protein-DNA interactions (ChIP-Seq) Nuclease fragmentation and sequencing Nucleosome positioning Molecular barcoding - NGS Multiplex sequencing of samples from multiple individuals [Shendure, J & Ji, H, 2008] Roberta A. Campos PhD, MSc, PD