Estratégias de sequenciamento

8.811 visualizações

Publicada em

Publicada em: Educação
0 comentários
9 gostaram
Estatísticas
Notas
  • Seja o primeiro a comentar

Sem downloads
Visualizações
Visualizações totais
8.811
No SlideShare
0
A partir de incorporações
0
Número de incorporações
3
Ações
Compartilhamentos
0
Downloads
264
Comentários
0
Gostaram
9
Incorporações 0
Nenhuma incorporação

Nenhuma nota no slide

Estratégias de sequenciamento

  1. 1. Estratégias de Sequenciamento genoma e transcriptoma Prof. Adriana Dantas UERGS – Bento Gonçalves
  2. 2. COMO ISOLAR UM GENE DE INTERESSE? Genoma estruturalMapeamento de gene Sequenciamento Anotação gênica Genoma funcionalPerfil de expressão Transcriptoma Anotação gênica Proteômica
  3. 3. GenômicaCiência que estuda o genoma, ou oconjunto do material genético de umorganismo.Ex.: Genoma da Xylella fastidiosa écomposto pelo DNA cromossomal mais oDNA plasmidial.
  4. 4. GENOMA COMO ESTUDAR?Marcador molecular Sequenciamento de DNA Polimorfismo Bancos de sequencias Biblioteca genômicaAnálise de segregação Mapa genético Genoma funcional Mapeamento de interesse (QRL – QTL) Expressão gênica - RNAm
  5. 5. Metodologias de análise e obtenção de genes de interesseSeleção diferencial e hibridização subtrativa(Sambrook et al., 1989) cDNA-AFLP (Bachem et al.,1996)Mapeamento PosicionalHibridação Somática assimétrica (Xu e Korban, 2000)Differential Display Reverse Transcription PCR -(DDRT-PCR) (Liang and Pardee., 1992)RFLP-coupled differential display (RC4D) (Fischer etal., 1995)Serial Analysis of Gene Expression (SAGE)(Velculescu et al., 1995)Macroarrays (Chen et al., 1998)Microarrays (Schena et al., 1995)
  6. 6. Controle Tratado Extração de RNA e síntese de cDNA Construção da biblioteca sequenciamento sequenciamento e sequenciamento Sequência consensu clusterizaçãoExpressão gênica : tratado = 2x controle
  7. 7. Biblioteca subtrativa RNA Pools Síntese de cDNA Controle Tratado Digestão de cDNA com 4 enzimas de Driver Tester corte Ligação dos Adaptador adaptadores para amostra do tester Driver Driver and Tester Hibridização Tester Tester/ driver PCR com primers especificos para adaptador já ligado a amostra do Amplificação tester Não é Amplificação Exponencial Enriquecimento deamplificado linear bibliotecas de Enriquecido cDNA nos genes Tester expressos nas Eliminado Eliminado amostras do tester
  8. 8. Construção de bibliotecas Subtrativas cDNA “tester“com adaptador 1 R cDNA “Driver” cDNA“tester“com adaptador 2 R (em excesso) Tester Driver RNA tecido A RNA tecido B 1ª Hibridização a cDNA b cRNA mensageiro d Digestão com Dpn II 2ª Hibridização mistura de amostras, : adição de “Driver” desnaturado anelamento e cDNA a, b, c, d + e Ligação ao oligo A Ligação ao oligo B Preenchimento dos terminaisDigestão comRsaI a b Hibridização com excesso de Driver Ligação dos c adaptadores d PCR com a utilização de iniciadores complementares ao oligo A e Adição de “primers” Subtração Amplificação por PCR Amplificação seletiva dos cDNAs derivados do Tester a e d - nenhuma amplificação b- b’ - nenhuma amplificação c - amplificação linear Clonagem em vetores e montagem da biblioteca 5’ 3’ e e - amplificação exponencial 3’ 5’
  9. 9. cDNA-AFLP
  10. 10. cDNA-AFLPVantagens:• Alta reprodutibilidade;• Poucos falso positivos;• Necessita de pequenas quantidades iniciais de RNA.Desvantagens:• O cDNA precisa conter o sítio de restrição da enzima utilizada.
  11. 11. DDRT-PCR(Differential Display Reverse Transcription PCR)
  12. 12. SNPs (Single nucleotide polymorphisms) Polimorfismo de um único nucleotídeo 5’ leader Coding sequence 3’ end Poly-A (exons) Seqüênciamento 3’Seqüênciamento 5’
  13. 13. SNPs - Princípio detectar a variação de seqüência na janela de um alinhamento de ESTs de um mesmo gene, parcialmente sobrepostasVariações mais frequentes no genoma:- 1 substituição a cada 31 pb não codificadora- 124 pb em regiões codificadoras
  14. 14. Detecção e validação de SNPs
  15. 15. Princípio da genotipagem SNP site1. PCR amplificação TTACGCATAACCTATCGAATTCCATCGCATCGA C2. Restrição do produto PCR com a enzima adequada (ex: EcoRI, GAATTC) Se ‘A’ está presente ocorre Se ‘C’ está presente, não ocorre a restrição a restriçãoTAACCTATCGAATTCCATCG TAACCTATCGACTTCCATCG N R - N R - + +
  16. 16. Hibridação somática assimétrica “ transferência parcial do genoma da célula doadora para uma célula somática receptora...”1. Eliminação do genoma doador por radiação e posterior fusão2. Microinjeção Variável, instável e3. Fusão de microprotoplastos contendo aleatória! micronúcleos com um ou poucos cromossomos do genoma doador
  17. 17. Caracterização molecularIdentificação de marcas candidatas
  18. 18. Hibridação somática assimétricaIdentificar marcadores genéticos ligados aos genes de interesse, nos respectivos cromossomos. AFLP Gene Vf (Sarna) Xu & Korban, 2000
  19. 19. Mapeamento por Saturação (AFLP)
  20. 20. 840marcadores:475 AFLPs235 RAPDs129 SSRs
  21. 21. Marcador Primer Gene Referencia RAPDS OPM18900 CACCATCCGT Vf Koller et al.,1994 OPU01400 ACGGACGTA Vf Koller et al.,1994 OPD20500 ACCCGGTCAC Vf Yang & Kruger, 1994 OPC081100 TGGACCGGTG Vf Tartarini 1996 OPC09900 CTCACCGTCC Vf Tartarini 1996 OPAL07580 CCGTCCATCC Vf Tartarini 1996 OPAM192200 CCAGGTCTTC Vf Tartarini 1996 OPA15900 TTCCGAACCC Vf Durham and Korban 1994 OPO141700 AGCATGGCTC Vf King et al. 1998 OPAF132000 CCGAGGTGAC Vf King et al. 1998 OPAG051900 CCCACTAGAC Vf King et al. 1998 OPAG12800 CTCCCAGGGT Vf King et al. 1998 SSR CH05e03 For:CGAATATTTTCACTCTGACTGGG Vbj M.Gygax (Frey et al.,2004) Rev:CAAGTTGTTGTACTGCTCCGA CH02B10 For: CAAGGAAATCATCAAAGATTCAAG Vr Hemmat et al.,2002 Rev: CAAGTGGCTTCGGATAGT CHVf1 For: ATCACCACCAGCAGCAAAG Vf C.Gessler (Frey et al.,2004) Rev: CATACAAATCAAAGCACAACCC CH02c06 For: TGACGAAATCCACTACTAATGCA Vr Baldi et al.,2004 Rev: GATTGCGCGCTTTTTAACAT CH02C02a For: CTTCAAGTTCAGCATCAAGACAA Vr2 Patocchi et al., 2003 Rev: TAGGGCACACTTGCTGGTC CH02B07 For: CCAGACAAGTCATCACAACACTC Vd Calenge et al., 2005 Rev: ATGTCGATGTCGCTCTGTTG Primers específicos Vf Vfa1 For: TCTATCTCAGTAGTTTCTATAATTCC Vf Xu & Korban (2002) Rev:GTAGTTACTCTCAAGATTAAGAACTT Vfa2 For: CTCAATCTCAGTAGTTTCTATGGA Vf Xu & Korban (2002) Rev: CCCCCGAGATTAAGAGTTG Vfa3 For:ATATTAGTAGTTTCTATAATCTGAAGG Vf Xu & Korban (2002) Rev:CCCCCGAGATTAAGAGATG Vfa4 For:TATCTCAATCTCAGTAGTAATAGTATC Vf Xu & Korban (2002) Rev:GACCTTGGAAACCACAATC AL07/SCAR 450 464 For: TCCTTACTGAGGAGGAAACCAG Tartarini et al. (1999) Rev: CAAGGGAACTGATCTTTCGTTG ARGH ARGH 25/CH02B07 For:CAAACATCATCGTAATTTTGACG Vd Baldi et al.,2004 Rev:CATACTCTTCATGAGGATAATTC ARGH37 For:TGCACGACATTAGCAACACTG Vr2 Baldi et al.,2004 Rev:GAAACAACTTCTTTTGAGAGTTC ARGH17 For:TTGCCGACGTTCGTGATGCT Vr2 Baldi et al.,2004 Rev:GATATCCTTTGTTTGGACAACC ARGH 34/CHVf1 For:TGTATGACCAGCCGAAGGTG Vf1 Baldi et al.,2004 REv:CCAGGACAACAATGTACCTCSeleção assistida por marcadores moleculares (SAM)
  22. 22. A.C.M. Dantas, N. F. Martins, M. Costa, M.S.Teixeira Junior. Characterization ofResistance gene analogs in apple resistant and susceptible cultivars toGromerella leaf spot. Cluster Acesso NCBI Identificação e-value CL1Contig2 AAP45181.1 putative disease resistant protein rga3 [Solanum bulbocastanum] 1.49657E-51 CL1Contig2 AAT09451. putative NBS-LRR type disease resistance protein [Prunus 1.89882E-71 pb persica]", 39F1/1R1 1F/P3b 3F2/13R1 2F/13R1 F G F G F G F G CL2Contig2 AY599223.1 Prunus persica putative NBS-LRR type disease resistance 2.79193E-27 protein (RPM1) mRNA CL3Contig1 AM167520.1 Malus x domestica transposon gene for putative DNA 7.5496E-22 topoisomerase II, hypothetical protein, putative CC-NBS- LRR resistance protein, and putative cyclin-related protein CL6Contig1 AC130799.19 Medicago truncatula clone mth2-34b13, complete sequence 1.30146E-21 1000 CL6Contig1 CAB79834.1 putative protein [Arabidopsis thaliana] 2.1971E-79 CL7Contig1 ABE86887.1 Disease resistance protein; Peptidase aspartic, active site 4.05789E-65 [Medicago truncatula] 500 370 CL7Contig1 ABE87630.1 Disease resistance protein; AAA ATPase [Medicago truncatula] 9.04004E-65 CL12Contig1 ABE86887.1 Disease resistance protein; Peptidase aspartic, active site 3.26504E-56 [Medicago truncatula] CL12Contig1 ABE86891.1 Disease resistance protein; Peptidase aspartic, active site 1.62042E-55 [Medicago truncatula] CL12Contig1 AAQ15192.1 resistance protein [Vitis vinifera] 4.41283E-53 NBS-ARC domain RNBS Cl1|Sequence RNBS-B -------------------------MQDHG-------TTRKEE----------------- 11 CL12Contig1 AJ581790.1|PCO5817 Pyrus communis partial gene for putative nucleotide binding site 2.28422E-34 90 leucine-rich repeat disease resistance protein, clone Cl23|Sequence MRYFLVLDDVWTRDRKKWEQLEAALIQSGAKGSRIVVTTRQHE----------------- 43 RGA03 Cl16|Sequence ---------MGPLDACSSGRQCDGYLQNSPLRYFLVLDDVWNDNYSDWDLVRTPFTYGAR 51 Cl19|Sequence ---------MGPLDACSSGRQCDGYLQNSPFG--QVVHNVVQN----------------- 32 CL12Contig1 ABE87630.1 Disease resistance protein; AAA ATPase [Medicago truncatula 6.37212E-52 Cl18|Sequence ---------MITTRDVNVAKFMG------------------------------------- 14 Cl7|Sequence ------------------------------------------------------------ CL13Contig1 AJ581790.1|PCO5817 Pyrus communis partial gene for putative nucleotide binding site 3.4056E-55 Cl8|Sequence ------------------------------------------------------------ 90 leucine-rich repeat disease resistance protein, clone Cl17|Sequence ---------MVTTRKKDIA----------------------------------------- 10 RGA03 Kinase 2 CL13Contig1 PCO581780 Pyrus communis partial gene for putative nucleotide binding site 1.03544E-33 Cl1|Sequence -----------VVRMIGAVTQKIDLERLSEPDCLAIFNRMAFF-SRD--KDSVLESIGEE 57 leucine-rich repeat disease resistance protein, clone cl23|Sequence -----------VADMMRAKSHMISMGELSEQFCLSIFNHMAFY-GKEVNKSNKFEDISQE 91 RGA13 cl16|Sequence GSKVIVTTRNKSVASIVHTGPIHYLKHLSHKDCWLLLRKHAFR-NENPSAHPHLKEIGKQ 110 cl19|Sequence ------------------TIPIHDLEKLSDDDCWLLLAKHAFR-NENSSAHPDLEEVGKK 73 CL13Contig1 ABE86887.1 Disease resistance protein; Peptidase aspartic, active site 6.47369E-57 cl18|Sequence ------------------AAGVHNLKCMRDDDCLEIFERHAFG-ELNDGKPVNYELIRRK 55 [Medicago truncatula]"," cl7|Sequence -------------------------------------MIKKFHEGRKEEVPEHLNSMRY- 22 CL15Contig1 AF516631.1 Malus prunifolia putative disease resistance gene analog-like 8.3607E-25 cl8|Sequence -------------------------------------MIKQFHQGRKEEVTEHLNSMSY- 22 NBS-LRR (RGA-I8) cl17|Sequence ------------LYSFEVESRPFEIEPLENNEAWELFSKKAFSSYDNKSCPPELESLAWK 58 * . : : CL15Contig1 AM075244.1" Rosa hybrid cultivar partial brp36 gene for putative LZ-NBS-LRR 1.75467E-10 RNBS-C LRR resistance protein Cl1|Sequence IAKKCKGLPLAAKTMGSLMRYKQTRKEWQEVLNSKIWELEEVEQQVFKPLLLS--YFDLA 115 CL16Contig1 BAC56785.1 unknown protein [Oryza sativa (japonica cultivar-group)]" 1.95037E-22 cl23|Sequence IVKKCKGLPLAAQTLGSLMHNKTTRREWQDVLSSKMWGLKDVEQEVFQPLLLS--YYDLA 149 cl16|Sequence IARKCNGLPLAAKALGGLLGCNVGYREWSHILNSNLWETLHTDKNVLPSLRLS--YHYLP 168 CL17Contig1 AAQ15192.1 resistance protein [Vitis vinifera] 1.02163E-52 cl19|Sequence IAHKCNGLPLASKTLGGLLGCNLDYKEWNHILESNFWDLPHSDS-VLPSLRLS--YHYLP 130 CL15Contig1 AAR19096.1 NBS-LRR type disease resistance protein RPG1-B [Glycine max] 1.46353E-46 cl18|Sequence IVEKCRGLPFAARTLGGLLRCKE-KDEWEEILNNKLWNIADKSD-ILPVLKLS--YHYLP 111 cl7|Sequence -----EEL---LEMLSTYLKSKRYLVVLDDVWDIKLWQEIRIPLLN----------RHHG 64 CL17Contig1 AJ581789.1|PCO5817 Pyrus communis partial gene for putative nucleotide binding site 3.59679E-42 cl9|Sequence -----EEL---LEMLSTYLKSKRYLTVLDDVWDIKLWQEIRIPLLN----------RHHG 64 89 leucine-rich repeat disease resistance protein, clone cl17|Sequence LVEKCEGLPLAVVTLGGLMSSKRSSSEWRSVYNSLNWHLTNNPMLEPMSSILLLSFNNLP 118 RGA02 . * :. : : : . * CL17Contig1 AJ581791.1|PCO5817 Pyrus communis partial gene for putative nucleotide binding site 5.6158E-41 91 leucine-rich repeat disease resistance protein, clone Cl1|Sequence PAVKRCLLYCVIFPKDYLIYKDYLIELWMSQDYLYSKGNTEK--EIIGQRCFDNLAMRSF 173 RGA04" cl23|Sequence PEVKCCLLYCAIFPKDYQFDKDCLINLWMAQDYLNS---------LDGQAYFDNLVARSF 200 cl16|Sequence TYLKQCFAYLSIFPKDYEFEKENIIQLWMALGLIPQ-AESGQGLEELGGRYFDELLSRSL 227 CL17Contig1 AY369228.1 Malus x domestica NBS-LRR resistance gene-like protein 2.21901E-40 cl19|Sequence SYLKRCFAYCSIFPKGYELEKENVLLLWVAEGLIPQ-SESGNTMEEVGERYFDELLSRSL 189 ARGH04 gene cl18|Sequence SNLKRCFAYCSILPNDYEFREKQLVLLWMAEGLIQQKPKDNKQMEDLGRDYFRELLSRSL 171 CL17Contig1 AJ581781.1|PCO5817 Pyrus communis partial gene for putative nucleotide binding site 1.369E-38 cl7|Sequence SRIM-------------LTTRKKDIAFYSFEVESRPFE---IEPLEYNE--AWELFSKKA 106 81 leucine-rich repeat disease resistance protein, clone cl8|Sequence SRIM-------------LTTRKKDIASYSFEVESCPLE---IEPLENNE--AWELFSKKA 106 RGA14 cl17|Sequence NRLKPCFLYCAFFPEDCLIKRKRLIRLWIAEGFVEPIDG--VTPEEVAEGYLLELIVRSM 176
  23. 23. Hibridação somática assimétrica Controle do processo datransferência genômica parcial usando microprotoplastos,micromanipulação e citometria de fluxo.
  24. 24. Mapeamento Posicional
  25. 25. Predição dos aminoácidos
  26. 26. Genoma Expresso (Transcriptoma):SUCEST Sugarcane EST Project Cana: Desafio & Oportunidad e
  27. 27. A Arquitetura da ResistênciaSequências similares conferem resistência adiversos patógenos como vírus, bactérias, fungosand nematóides.A maioria dos genes de resistência (genes R)pertence a famílias multigênicas.Genes R são altamente polimórficos e apresentamdiversas especificidades de reconhecimento.Grupos vegetais diferentes apresentam genes R comdomínios e padrões (motifs) com significativaconservação.Clusters de genes R parecem evoluir maisrapidamente do que outras regiões do genoma.
  28. 28. Modelo da Interação Gene-a- Gene Patógen o Interação R & avr Produto Elicitores avr Gene R HR SA JA Etileno Morte Celula Calosis r Genes PR Etileno Genes PR Fitoalexinas SA
  29. 29. Interação Hospedeiro-Patógeno Avr & R Nematóide Fungo BactériaAfter Bonas &Lahaye Curr. Opn. Transferabilidade & Diversas localizaçõesMicrobiol. 2002 Mudança de Função subcelulares
  30. 30. Estrutura de Genes RA Ser/Thre KinaseB LRR-Ser/Thre- KinaseC NBS-LRR TIR NBS-D LRRE LRR Nucleot. Binding Site Domínios conservado Toll-Interleukin s de genes Dom. R Transmembrane Dom. Leucine Rich Repeats
  31. 31. Arabidopsis thalianaEstima-se que contenhaaproximadamente 220 genesque codificam proteínas com odomínios NBS (em ≅ 21clusters genômicos e 14 loci)Seqüências TIR – ainda maisabundantesCerca de 600 seqüências não-TIR
  32. 32. Estratégias de Amplificação Diferencial (RGAs = Resistance Gene Analogs) Isolamento de genes da classe NBSKinase-1a and Transmembrane Region: 550 Bp H2 N COOH Kinase-1a and Kinase-3a: 340 Bp Nucleotide-binding Site (NBS) (Kinase-1a, Kinase-2, and Kinase-3a Domain) Putative Transmembrane Region Leucine-rich Repeats
  33. 33. Obtenção e Identificação de RGAs Amplificação por PCR Clonagem dos Produtos de PCR Mapeamento de Restrição Seqüenciamento Automático Análise de ORF (Open Reading Frame) Anotação e Identificação do Gene
  34. 34. Isolamento de RGAs (Resistance Gene Analogs): Domínio Kinase (1a) & Região Transmembrana Questões em Aberto sobre Genes R Macroevolução Evolução em plantas silvestres Comportamento em lenhosas e grupos primitivos
  35. 35. Isolamento de RGAs (Resistance Gene Analogs): Domínio Kinase 1a & Kinase 3a
  36. 36. Técnica de AFLP e SSAP Restriction of Genomic DNA Ligation of Adaptors Pre-Amplification with Adaptor Primer AFLP Selective Amplification SSAP (Amplified Fragment Length Polymorphism) (Sequence-specific Amplified Polymorphism)32 Eco+ 32 GRP1 P Mse+3 P Mse0 2 32 Eco+ 32 GRP2 P Mse+3 P Mse0 2
  37. 37. Mapeamento Genético Cruzamento Interespecífico Cicer arietinum X C. reticulatum ICC4959 PI489777 (Resistant) (Susceptible) ↓ F7 to F8 Recombinant Inbred Lines 131 Individuals Fusarium oxysporum fsp. ciceriResistance Loci → Linkage Group 2
  38. 38. Marcadores Moleculares•DAF - DNA Amplification Fingerprinting•RAPD - Random Amplified Polymorphic DNA•SSR – Simple Sequence Repeats•STMS - Sequence Tagged Microsatellite Markers•AFLP - Amplification Fragment Length Polymorphism•SCAR - Sequence Characterized Amplified Regions•ISSR - Inter Simple Sequence Repeats•RGA - Resistance Gene Analogs•SSAP - Sequence-Specific Amplified Polymorphism
  39. 39. Mapa Genético GeradoCaracterísticas: •412 marcadores em 8 grupos de ligação •Tamanho total 2.330 cM 8 grandes + 8 •Distância Média entre os marcadores: 6,7 cM •Relação Média Kb / cM = 322 (genoma = 750 pequenos grupos de Mb) •“Ilhas” ou “clusters” com acúmulo de ligação
  40. 40. Mapeamento Fino Análise Segregante de Bulks “Caçando um Gene Específico” Respectivamente 12 Linhagens: Bulk Resistente:R14, R18, R22, R29, R53, R56, R72, R74, R87, R88, R94, R96 Bulk Suscetível: S11, S25, S32, S37, S40, S49, S55, S61, S63, S64, S65, S77 Primeira Seleção de Primers: 432 Primers Testados em 2 Semanas ↓ 174 Primers Polimórficos ↓ Análise nos parentais e em sete indivíduos R e S
  41. 41. Última Seleção de Marcadores R1 – R7 S1 – S 7 PR PS PR= A Parental Resistente PS= Parental suscetível →500 kb R= indivíduo resistente S= indivíduo suscetível 32 Primers testados B 24 Ligados (no LG 2) →500 kb 18 seqüenciados
  42. 42. Mapeamento Fino do Gene Foc 4 Região deresistênciaao redor dos genesFoc 4 e Foc 5
  43. 43. Identidade de Marcadores Seqüenciados OP-P08-1→ 840 bp = N-Polyacetil-Benzoyltransferase (proteína reguladora da síntese de fitoalexinas) OP-M20-1/3 → 1103 bp = Disease resistance N (Nicotiana)-like protein from Arabidopsis thaliana (E-value 0.0) OP-P15-3/1→ 577 bp = Hypersensitivity response related gene 201 isolog from Arabidopsis thaliana (2e-28) P-U17-1 → 1014 bp = Pathogenic related thaumatin-like protein precursor from Prunus avium (1e-10) OP-M20-1/2 → 1045 bp = MUTS2 DNA mismatch repair protein from Arabidopsis thaliana (7e-09) OP-P06-1→ 784 bp = Retrotransposon-like gag-protein sequence from Nicotiana tabacum putatively linked to black root rot resistance in -04
  44. 44. Sintenia e Colinearidade
  45. 45. SEQUENCIAMENTO MOLECULARBreve histórico:• Gilbert e Sanger: 70’s: 20 bases em dois anos • Seqüenciamento manual Géis de poliacrilamida Radioisótopos • Seqüenciamento automático Slab gel Capilar • 2001: Genoma humano Sanger Institute Celera Genomics 500 bases / segundo
  46. 46. Como ???Através de sequenciamento de DNA Determinação da sua seqüência nucleotídica (ACGTs). Utilizar uma tecnologia de sequenciamento : Sanger sequencing Pirosequenciamento
  47. 47. Sequenciamento de DNA Determinar a seqüência nucleotídica (ACGTs). A tecnologia de sequenciamento atualexige que se quebre o DNA em pequenos fragmentos de cerca de 2.000 pares de bases (shotgun), exigindo a montagem dos fragmentos.
  48. 48. TranscriptomaSeqüenciamento de material genético,DNA e RNA, de organismo e anotação deestruturas dos genes encontrados.Ex.: Seqüenciamento do genomahumano; do cromossomo IV de S.cerevisiae; de ESTs de diferentesespécies de Eucalyptus.
  49. 49. Tipos de ProjetosDNA – seqüenciamento de estruturas dogenoma ou de trechos destas.ESTs – sequenciamento de cDNA, feitosà partir de bibliotecas de mRNA. Ex.:ESTs de cana-de-açúcarSAGE – sequenciamento de fragmentosem torno de 20 pb do cDNA (especificocom conhecimento)
  50. 50. Sequenciamento DNASequenciamento de DNA, feito de formaaleatória Informações sobre regiões codantes (genes) e promotores Gera sequências em regiões inter-gênicas (a princípio sem nenhuma função)
  51. 51. Sequenciamento de mRNA Informação direta sobre os genes e também sobre a expressão gênica Mas genes pouco expressos são mais raros de serem sequenciados por essa técnica
  52. 52. SAGESAGE fornece informação sobre aexpressão gênica de forma mais eficienteque ESTs, mas é útil apenas quando ogenoma completo do organismo forconhecido A situação ideal para um projeto genomaé sequenciar ambos DNA e cDNA
  53. 53. Serial Analysis ofGene Expression(SAGE)
  54. 54. Serial Analysis of Gene Expression (SAGE)Vantagens: Comparável ao microarray; Permite uma análise digital dos resultados; Permite identificar pequenas variações de quantidade do transcrito; Não depende de informação anterior de seqüência.Desvantagens: Pode apresentar possíveis problemas durante a realização da técnica.
  55. 55. Estratégias de Sequenciamento DNA  Shotgun de genoma inteiro  Shotgun em pedaços do genoma clonados em BACs  Primer walking ESTs  RNA oriundos de diferentes tecidos ou condições  Biblioteca subtrativa
  56. 56. Sequenciamento por shot-gunParte de bibliotecas genômicas representativasSeqüenciamento aleatório de clonesMontagens das seqüências em contigsMontagem de scaffoldsFinishing
  57. 57. Shot-gunsequencing
  58. 58. Shotgun do genoma inteiro Quebrar em pedaços aleatórios ~2000pb (shotgun) reads clonar em vetor sequenciamento
  59. 59. Reconstrução do DNA original a partir do fragmentos (clusterização) reads Sequência consensu (DNA original)A reconstrução é feita a partir de sobreposição dos fragmentos
  60. 60. montagemAGATATGAGAGACACAGAAATTTCCG GACACAGAAATTTCCGATA ATTTCCGATACAAACCTGGTAAGACAGC AAATTTCCGATACAAACCTGGTAAGACAGCTAAGGTTAG GACAGCTAAGGTTAGGACGACTTTAGGACCGATACCC TTAGGACGACTTTAGGACCGATACCCCAAATACC TACCCCAAATACCCTAAGATTA
  61. 61. GACACAGAAATTTCCGATAAGATATGAGAGACACAGAAATTTCCG ATTTCCGATACAAACCTGGTAAGACAGC AAATTTCCGATACAAACCTGGTAAGACAGCTAAGGTTAG GACAGCTAAGGTTAGGACGACTTTAGGACCGATACCC TTAGGACGACTTTAGGACCGATACCCCAAATACC TACCCCAAATACCCTAAGATTAAGATATGAGAGACACAGAAATTTCCGATACAAACCTGGTAAGACAGCTAAGGTTAGGACGACTTTAGGACCGATACCCCAAATACCCTAAGATTA
  62. 62. GACACAGAAATTTCCGATAAGATATGAGAGACACAGAAATTTCCG ATTTCCGATACAAACCTGGTAAGACAGC AAATTTCCGATACAAACCTGGTAAGACAGCTAAGGTTAG GACAGCTAAGGTTAGGACGACTTTAGGACCGATACCC TTAGGACGACTTTAGGACCGATACCCCAAATACC TACCCCAAATACCCTAAGATTA ContigAGATATGAGAGACACAGAAATTTCCGATACAAACCTGGTAAGACAGCTAAGGTTAGGACGACTTTAGGACCGATACCCCAAATACCCTAAGATTA
  63. 63. Os reads são agrupados em contigs ACGTTGCCTAGTAGATGCTAreads GATGCTAACGTTGCCTAGTA GCCTAGTAGAT AACGTTGCCTAGTAGCT clusterização Contig (contíguo) ACGTTGCCTAGTAGATGCTAACGTTGCCTAGTAGCT
  64. 64. Visualizando o Contig ContigReads
  65. 65. Montagem do scaffold Cosmídeos/BACScaffold 1 contigs Scaffold 2
  66. 66. Evolução do projeto
  67. 67. Análise de transcriptomaExpressed Sequence TagsSerial Analysis of Gene ExpressionMicroarranjos
  68. 68. Expression Sequences Tags AAAAAAAAA TTTTTTTTT RT PCR Clonagem Seqüenciamento
  69. 69. Genes diferencialmente expressos Genes exclusivos de uma formaBiblioteca de micélio Biblioteca de levedura Genes comuns
  70. 70. Expressed sequence tags (ESTs) Extrair RNA de diferentes tecidos/condições Síntese de cDNA 5’ EST 3’ EST clonar em vetor sequenciamento
  71. 71. 250200150100
  72. 72. Serial Analysis of Gene Expression
  73. 73. O SAGE se baseia na análisede pequenas seqüênciasrótulo de cDNA (10-14 pb)concatenados.O processo de concatenaçãomantêm a proporcionalidadedos rótulos.O seqüenciamento maciçodos rótulos permite aquantificação da expressãode cada rótulo.
  74. 74. Shotgun de pedaços do genoma Quebrar em pedaços aleatoriamente desde 50Kpb até 300Kpb Clonar em BAC’s e sequenciar apenas as pontas de cada fragmento~800 bp ~800 bp Quebrar em pedaços de 2000pb clonar em vetor e sequenciar os fragmentos
  75. 75. Shotgun do genoma inteiroDNA genômico Quebrar em pedaços aleatórios ~2000pb (shotgun) Ligação do adaptador e separação em fita simples
  76. 76. Primer WalkingVector Clone to sequencePrimer Sequence New Sequence Primer RepeatSempre desenhar o primer de forma que a sequência amplificada tenhasobreposição com a anterior (tipicamente 100 pb de sobreposição)
  77. 77. Chemical SequencingMétodo de Maxam e GilbertDNA pode ser sequenciado , através de uma marcação terminalque quebra a molécula, em cada base do DNAO tamanho dos fragmentos irá determinar posteriormente aposição das bases.Para G = tratamento com dimetil sulfato metilaPara G+A = tratamento com ácido fórmico que enfraquece asligações glicosídicas, protonando os nitrogênios dos anéis depurinaPara T+C = tratamento com hidrazinal cliva anéis de timina ecitosinaPara C = tratamento com hidrazina na presença de NaCl. NaCl
  78. 78. Chemical Sequencing - Método de Maxam e Gilbert G+A G C C+T C A C C T T G G C A A
  79. 79. Tecnologias atuais para sequenciamentoSanger sequencing PNAS 74 (1977), n. 12, 5463-5467 Sequenciador MegaBACE (1Mpb/24 horas)Pirosequenciamento Science 281 (1998), n. 5375, 363-365 Nature 437 (2005), 362-7 Sequenciador 454 (150Mpb/24 horas)
  80. 80. Seqüenciamento de DNA Frederick Sanger (1918-) Graduado em Ciências em Cambridge Estudou proteínas – insulina 1943 – técnicas de sequenciamento Prêmio Nobel de medicina e fisiologia em 1980 J. Mol. Biol. v.94, p. 441-448, 1975
  81. 81. Dideoxy Sequencing, Método Sanger (1977)Terminação de cadeia com didesoxirribonucleosídeotrifosfato, ou ainda dideoxinucleotídeoÉ o mais empregado, permitindo o sequenciamentode DNA tanto de fita simples, como de fita dupla,desnaturado.Neste método o DNA é hibridizado com umoligonucleosídeo ou iniciador (foward ou reverseseparadamente), na presença dos quatrodesoxinucleotídeos (dATP, dCTP, dGTP e dTTP),um dideoxinucleotídeo 32P-dATP ou 35S-dATP eDNA polimerase.
  82. 82. PRE PA RA Ç ÃO DO DNA (C LONA GE M)Plasmídeo Clivagem com Inserção de nuclease de fragmento restrição de DNA Multiplicação via colônias bacterianas
  83. 83. Sanger Sequencing anelamento dos primers desnaturação
  84. 84. ddATP32 ddCTP32 Repetidos ciclos de: DNA polimerase DNA polimerase desnaturação, DNA DNA A, C, G e T A, C, G e T anelamento extensãoddTTP32 ddGTP32 DNA polimerase DNA polimerase DNA DNA A, C, G e T A, C, G e T A C T G Interpretação CACCTTGGCAA
  85. 85. Filme de Sequenciamento• Exemplo de gel utilizado nos seqüenciadores de gel (ex.: 377).• A diferença de tamanho permite a separação dos grupos de fragmentos, e esta “distribuição normal” da passagem dos fragmentos• Representada pelo eletroferograma (ou cromatograma) de cada seqüência (read).
  86. 86. Eletroforese dos produtos de amplificação da reação de sequenciamento
  87. 87. Método de Seqüenciamento Automatizado Substituição da marcação radioativa pela marcação com fluorocromos Mais segurança, rapidez e economia Marcação das quatro bases em• um mesmo tubo
  88. 88. PROJETOS GENOMA
  89. 89. SEQUENCIAMENTO DE DNAComponentes da reação:• DNA• tampão apropriado• primer• enzima (Polimerase)• dNTPs normais dNTPs (Menor quant.) G G A A C T + C T
  90. 90. primer polimerase template dNTPs labelled ddNTPs
  91. 91. ATCTCGTAGCTATCTCGTAGCTA AATCTCGTAGCTATCTCGTAGCTAG GATCTCGTAGCTATCTCGTAGCTAGC CATCTCGTAGCTATCTCGTAGCTAGCT TATCTCGTAGCTATCTCGTAGCTAGCTA AATCTCGTAGCTATCTCGTAGCTAGCTAC CATCTCGTAGCTATCTCGTAGCTAGCTACG GATCTCGTAGCTATCTCGTAGCTAGCTACGA AATCTCGTAGCTATCTCGTAGCTAGCTACGAC CATCTCGTAGCTATCTCGTAGCTAGCTACGACG GATCTCGTAGCTATCTCGTAGCTAGCTACGACGT TATCTCGTAGCTATCTCGTAGCTAGCTACGACGTC CATCTCGTAGCTATCTCGTAGCTAGCTACGACGTCT TATCTCGTAGCTATCTCGTAGCTAGCTACGACGTCTA ATAGAGCATCGATCGATGCTGCAGATGATGCTAGCATCGGCTAGGCGACG
  92. 92. Sequenciamento de DNAT G C A C G T G A C A G T Fita Molde G T G C A G T G C A C G T G C A C T G T G C A C T G
  93. 93. Eletroforese capilar e detecção fluorescente Sequência Adaptado de Belo,2003
  94. 94. Início Receber Processar Anotar Depositar Fim
  95. 95. O programa PHRED lê o cromatograma identificando e dando uma notapara cada base que forma a sequência :0 0 5 6 7 10 10 9 12 15 20 20 30 30 35 40 41 45 50 56 56 50 40 ... Genome Research 8 (3) (1998), 175-185
  96. 96. background- A identificação dos picos é feita através de uma transformada de fourier do sinal- A nota é ligada com a resolução entre os picos vizinhos e a altura do background
  97. 97. Analisando o GenomaRegião de qualidade alta• Picos bem definidos e grandes.• Linha de base boa.• Distância entre picos anterior e posterior constante.
  98. 98. Região de qualidade média – poucas ambigüidades • Picos razoavelmente bem definidos e de tamanho médio. • Linha de base boa a razoável. • Distância entre picos anterior e posterior razoável.
  99. 99. Região de qualidade baixa – baixa confiabilidade• Picos mal definidos e de tamanho pequeno.• Linha de base confusa.• Distância entre picos anterior e posterior inconstante.
  100. 100. Sequenciamento de seqüências da ordem de 500 pbOnde q é a nota phred e P é a probabilidade encontrar uma baseerrada : - Nota phred = 20 => 1 base errada a cada 100 (99%) - Nota phred = 30 => 1 base errada a cada 1000 (99.9%)
  101. 101. PirosequenciamentoFita simples Câmera de CCDReação dedegradação Filme sequenciamento Science 281 (1998), n. 5375, 363-365
  102. 102. ProtocoloO adaptador permite que o DNA se ligue em grânulos minúsculos(diâmetro de 28 mm). Apenas um DNA é ligado em cada grânulo; Os grânulos são envolvidos em gotas de óleo que contêm todosos reagentes necessários para amplificar o DNA; Cada gota contendo o grânulo é mantida isolada para evitarcontaminaçãoProduz 10 milhões de cópias numa reação depirosequenciamento; Um pmol de DNA numa reação de piroseq. produz 1011moléculas de ATP gerando mais de 109 fótons, num comprimentode onda de 560 nm, e num período de 3-4 segundos.Facilmente detectado por uma câmera de CCD Nature 437 (2005), 326-327
  103. 103. O sequenciador 454 Câmara de fluxo contendo as amostras e as fibras ópticas (1,6 milhões/slide) Bombeamento Câmera de de fluídos CCDComputador Nature 437 (2005), 376-380
  104. 104. PirogramaLinearidade é mantida até homopolímeros de 8 nt
  105. 105. São obtidas seqüências de até 100-120 b
  106. 106. Sanger x Pirosequenciamento SANGER Pirosequenciamento• Depende de clonagem em bactéria (2 semanas de • Não há clonagem trabalho)• 1 milhão de pb em 24 horas • 25 milhões de bp em 4 horas (100x mais rápido)• Reads de ~700 bp • Reads de ~100 bp• Clones de fita dupla permitem • Fragmentos fita simples não seqüenciamento em ambas permitem seqüenciamento em direções (facilita orientação e ambas direções montagem)• 6 meses de sequenciamento, 24 hs/dia, para sequenciar o • 24 horas para sequenciar o genoma de um fungo genoma de um fungo Conclusão : a união faz a força PNAS 103 (2006), 11240
  107. 107. Caminhos map (Mbp)YACsBACs or map (200kbp)Cosmidsm13, plasmid sequence (kbp)
  108. 108. Produto gênico TransposonGene hipotético Gene preditoContig Gene 1 Gene 2 ....actctagt.... Dados de outros genes e genomas permitem anotar uma função e produto para o Gene 2 com o auxílio do programa BLAST. A presença do suposto Gene 1 foi assinalada Regiões repetitivas como transposons por um algoritmo que busca por ORFs podem ser anotadas com o auxílio de significativas, enquanto não se conhece seu programas como BLAST, RepeatMasker e produto (proteína), é considerado hipotético. outros. bioinformática Receber Processar Anotar Depositar
  109. 109. Predição de genes em procariotosSinais na sequência de DNA de um procarioto quepodem ser utilizados na predição de genesRegiões da sequência de DNA de um procarioto queapresentam diferenças nas análises de conteúdo GC ecodon usage
  110. 110. Conteúdo GC - Regiões condantes (que codificam um gene) tem alto conteúdo GC (rica em nucleotídeos G e C) Região do DNA que contêm um gene Conteúdo GC elevado nessa região- Regiões rica em GC são mais difíceis de sofrerem mutações (ligação química forte)
  111. 111. ORF – open read frame ACGTG TAACA CTGAG ACTAT AGGTG TGAAA A T C A T C G G GTA ACT GAC TAG GTG AAT TAA CTG ACT AGG TGA- Cada grupo de nucleotídeos em trincas consecutivasconstituem um read frame- Existem 3 diferentes read frames na direção 5’ -> 3’ e mais 3na direção contrária (outra fita)- Uma sequência de trincas que não contêm um stop dentro échamanda de open read frame (ORF)
  112. 112. -A probabilidade de uma sequência aleatória de “n” nucleotídeosnão conter um códon de stop é (61/64)n- Quando n=50 a probabilidade de ter um códon de stop no meio dasequência é de 92%- Normalmente usa-se, para procariotos, ORFs de tamanho n>=60para definir possíveis candidatos a genes
  113. 113. Códon usage-Baseado no fato que o uso do códon é diferente para cada organismo- Regiões codantes seguem o codon usage do organismodiferentemente das regiões intergênicas L, S, R => 6 combinações V, P, A, G => 4 combinações I,* => 3 combinações F, Y, H, Q, N, K, D, E, C => 2 combinações M, W => 1 combinações
  114. 114. Cálculo do códon usagehttp://www.kazusa.or.jp/codon/
  115. 115. - A tabela de uso do códon do organismo é facilmente obtida usando programas como codonw ou cusp e usando como entrada sequências em nucleotídeo que codificam proteínas e no frame correto (tipicamente obtidas via similaridade entre a sequência e a proteína)http://bioweb.pasteur.fr/docs/EMBOSS/cusp.html http://codonw.sourceforge.net/
  116. 116. Sinais no promotor One type of RNA polymerase.- Com o alinhamento de sequências de promotores ortólogos épossível reconhecer regiões que se mantêm conversadas durantea evolução, observem que as distâncias também são conservadas
  117. 117. Positional Weight MatrixFor TATA box:
  118. 118. Juntando tudo-Promotor e início de transcrição são sinais obtidos através de alinhamentos entrepromotores ortólogos (treinamento feito usando sequências de organismospróximos)- Regiões codantes (exons) são obtidos por codon usage (treinamento feitousando regiões do DNA que possuam com similaridade forte com proteínasconhecidas) e conteúdo GC- Outro vínculo importante é a ordem dos sinais. Não tem sentido um sinal deinício de transcrição no meio do exon
  119. 119. Predição de genes em eucariotos• Gene length: 30kb, coding region: 1-2kb• Binding site: ~6bp; ~30bp upstream of TSS• Long Introns• Average of 6 exons, 150bp long
  120. 120. Identificando splice sites (junção íntron-exon)- Com o alinhamento entre sequências de cDNA e DNA épossível identificar as regiões dos íntrons
  121. 121. - Com o alinhamento global entre os íntrons constroem-se amatriz de posição com os padrões de splice sites, branch site etamanho médio dos íntrons
  122. 122. Juntando tudo-Promotor e início de transcrição são sinais obtidos através de alinhamentos entrepromotores ortólogos (treinamento feito usando sequências de organismospróximos)- Regiões codantes (exons) são obtidos por codon usage (treinamento feitousando regiões do DNA que possuam com similaridade forte com proteínasconhecidas) e conteúdo GC- Informações sobre os íntrons são obtidas através de alinhamento do DNA comESTs- Outro vínculo importante é a ordem dos sinais. Não tem sentido um sinal deinício de transcrição no meio do exon
  123. 123. Sp=TP/(TP+FP)- Usando genes conhecidos e de preferência não usados no conjunto detreinamento podem ser usados para medir a performance do preditor
  124. 124. - Usando genes conhecidos e de preferência não usados no conjunto detreinamento podem ser usados para medir a performance do preditor
  125. 125. PerformanceSn=TP/(TP+FN) Sp=TP/(TP+FP)KORF, I. Gene finding in novel genomes. BMC Bioinformatics 5:59. 2004.

×