+




    Universidade Católica de Brasília
               RNA-seq
          Prof. Dr. Gabriel da Rocha Fernandes
                   Universidade Católica de Brasília
           gabrielf@ucb.br - fernandes.gabriel@gmail.com
+                                                              2

    Transcritoma

    n Conjunto
             de todas as moléculas de RNA encontradas em uma
     população celular:
     n mRNA

     n tRNA

     n rRNA

     n miRNA


    n Total
          de transcritos encontrados em um organismo, tipo
     celular, condição...

    n Reflete
           os genes que estão sendo expressos em um
     determinado momento.

    n Snapshot   da função celular.
+                                                           3

    Métodos de estudo

                   n Expressed   Sequence Tags.

                   n Sequenciado   por método de Sanger.

                   n Clonagem    dos fragmentos usando
                    vetores.

                   n Não   funciona em procariotos.

                   n Low   throughput.
+                                                             4

    Métodos de estudo

                  n Microarray.

                  n Arranjos
                           com os genes em locais
                   determinados.

                  n Comparação      de amostras par a par.

                  n Hibridização.
+                                5

    Next Generation Sequencing
+                             6

    Custo do sequenciamento
+                                               7

    RNA-seq

              n Ultra   larga escala.

              n Não   necessita de clonagem.

              n Baixo   custo.

              n Valores   absolutos.

              n Análise   multi amostras.

              n Grande    cobertura.
+                                                                 8

    Protocolo

    n Protocolo
              para montagem da biblioteca pode varias de acordo
     com a tecnologia e com o objetivo:

    n Remoção     de rRNA.

    n Amplificação   por PCR.

    n Conversão    a cDNA.

    n Single   read ou pair end.
+                                                           9

    Genoma referência vs. Montagem
    de novo
    n Mapeamento       dos reads a um genoma referência.
     n Quantificação   da expressão.
     n Identificação   de variantes de splicing.


    n Montagem     de novo do transcritoma.
     n Caracterização    dos genes expressos.
     n Identificação   de isoformas.
     n Ausência   de genoma referência.
+                                                                    10

    O que sai do sequenciador?

    n Formato    padrão para análises é o FastQ.
    n @SEQ_ID
    GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCAC
    +
    !”*((((***+))%%%++)(%%%%).1***-+*”))**55CCF»»»CCCCCCC65

    n Primeira   linha: identificador da sequência.
     n Nome   da sequência.
     n Informação   sobre filtros.

    n Terceira   linha: qualidade da chamada da base (em código).
+              11

    Montagem
+                                                                               12

    Mapeamento e quantificação

    n As
        sequências produzidas são mapeadas a um genôma
     referência.

    n Alinhou   em apenas uma região = ótimo.

    n Alinhou   em mais que uma região = dilema.

    n O   uso de replicatas é FUNDAMENTAL!
                                                          Repl. 1   Repl. 2   Repl. 3

                                                 Gene A      5         3        12

                                                 Gene B     16        25        35

                                                 Gene C     10        15         3

                                                 Gene D    750       500       500

                                                 Gene E    1504      1005      1030
+                                                               13

    Interpretando a contagem dos
    genes
    n No
        exemplo da tabela, o Gene E tem duas vezes mais reads
     que o Gene D:
+                                                               13

    Interpretando a contagem dos
    genes
    n No
        exemplo da tabela, o Gene E tem duas vezes mais reads
     que o Gene D:
     n Gene   E é expresso duas vezes mais que o Gene D.
+                                                                          13

    Interpretando a contagem dos
    genes
    n No
        exemplo da tabela, o Gene E tem duas vezes mais reads
     que o Gene D:
     n Gene   E é expresso duas vezes mais que o Gene D.
     n Ambos os genes se expressam na mesma intensidade, mas o Gene E é
       duas vezes maior que o Gene D.
+                                                                           13

    Interpretando a contagem dos
    genes
    n No
        exemplo da tabela, o Gene E tem duas vezes mais reads
     que o Gene D:
     n Gene   E é expresso duas vezes mais que o Gene D.
     n Ambos os genes se expressam na mesma intensidade, mas o Gene E é
       duas vezes maior que o Gene D.
     n Ambos  os genes tem o mesmo tamanho e se expressam na mesma
       intensidade, mas o Gene D tem um parálogo no genoma ao qual metade
       dos seus reads foram mapeados.
+                                                                           13

    Interpretando a contagem dos
    genes
    n No
        exemplo da tabela, o Gene E tem duas vezes mais reads
     que o Gene D:
     n Gene   E é expresso duas vezes mais que o Gene D.
     n Ambos os genes se expressam na mesma intensidade, mas o Gene E é
       duas vezes maior que o Gene D.
     n Ambos  os genes tem o mesmo tamanho e se expressam na mesma
       intensidade, mas o Gene D tem um parálogo no genoma ao qual metade
       dos seus reads foram mapeados.

    n A   causa é os três ao mesmo tempo.
+                                                                 14

    Identificando genes
    diferencialmente expressos.
    n Comparar      diferentes condições: controle com testes.
     n Célula   normal com célula tumoral.
     n Planta   sem e com estresse hídrico.
     n Animal   sem e com parasita...

    n Genesem duas condições diferentes VÃO apresentar
     quantidades de reads diferentes.

    n Essa
         variação pode ser diferença biológica entre as duas
     condições, ou ruído experimental.

    n Aplicação    de testes estatísticos.
+                                                                       15

    Identificando genes
    diferencialmente expressos.
    n Para
          identificar uma diferença estatisticamente significantes, é
     necessário que a diferença de expressão entre as duas
     condições seja maior que a imprecisão do nível de expressão
     sob uma determinada condição.
+                                                                               16

    Sou pobre, não vou usar replicata.

    n Lição   de vida:
     n Um   Gene H, em uma célula normal extraída do Zé Moreno, tem 5 reads.
     n Omesmo Gene H, em célula tumoral extraída do mesmo Zé Moreno,
       tem 10 reads.
     n Uoua!   O Gene H é duas vezes mais expresso na célula tumoral!

     n Ganheiuns trocados e fiz transcritoma da célula normal de mais 2
       pacientes. De brinde, ganhei o sequenciamento do Zé moreno de novo.
     n OGene H teve 12 reads na célula do Zé Moreno, 17 reads na Maria Tolé,
       e 22 reads na célula do Tião Torresmo.

    n Moral
           da história: quanto mais medições fizer, mais vai ter
     certeza dos níveis de expressão dos genes.
+                                     17

    Replicata técnica vs. Replicata
    biológica
    n Técnica: explica
                      a variação
     encontrada que pode ter
     sido causada por critérios
     técnicos: preparação da
     biblioteca, qualidade do
     sequênciamento, cobertura
     do gene...

    n Biológica: explica
                       a
     variação encontrada que
     pode ter sido causada pela
     variabilidade de expressão
     que não está associada à
     mudança nas condições do
     experimento.
+                                                                       18

    Fontes de variação
    Variância de Poisson
    n É
       a incerteza existente em qualquer medição em que algo é
      amostrado e contado.

    n Como é baseado no valor da contagem em si, não é específico
      do experimento.

    n Essa   variância está relacionada a quantidade total de reads.

    n Porexemplo, a diferença na expressão de um gene medido
      com 1 read versus 2 reads é inerentemente menos seguro do
      que as diferenças na expressão de um gene medido com 100
      reads versus 200 reads, apesar de ambas as diferenças serem,
      nominalmente, uma mudança 2X.
+                          19

    Fontes de variação
    Variância de Poisson
+                                        20

    Fontes de variação
    Variação Técnica Não-Poisson
    n Associadoà incapacidade da
     técnica não conseguir medir
     a expressão perfeitamente.

    n Visto   em replicatas técnicas.

    n Causas:
     n Seleção   de miRNA.
     n Depleção   de rRNA.
     n Amplificação   por PCR.
     n Armazenamento.

     n RNA-later.


    n Moral
           da história: Manipule
     sua amostra o mínimo
     possível.
+                                            21

    Fontes de variação
    Variação Biológica
    n Ocorre   naturalmente nas amostras.

    n A
      expressão naturalmente flutua
     em células sob a mesma condição.

    n Causas
            da variações biológicas
     podem ser diferenças genéticas,
     de maquinaria celular, ou de
     resposta a variação do ambiente.

    n Variaçãobiológica também sofre a
     influência das outras duas
     variações vistas.
+                                                                  22

    Filosofando...

    n Mais   replicatas vs. Mais reads.

    n Como    lidar com batch-effects?

    n Preciso   validar com RT-PCR?

    n Eu
        considero como diferencialmente expresso genes com p-
     value < 0.01.

    n Calcular   FDR (False discovery rate)

    n Leia   artigos que tenham usado benchmarks.

    n Converse    com o bioinformata que vai fazer as análises.

Laboratório de Biotecnologia - Rna seq

  • 1.
    + Universidade Católica de Brasília RNA-seq Prof. Dr. Gabriel da Rocha Fernandes Universidade Católica de Brasília gabrielf@ucb.br - fernandes.gabriel@gmail.com
  • 2.
    + 2 Transcritoma n Conjunto de todas as moléculas de RNA encontradas em uma população celular: n mRNA n tRNA n rRNA n miRNA n Total de transcritos encontrados em um organismo, tipo celular, condição... n Reflete os genes que estão sendo expressos em um determinado momento. n Snapshot da função celular.
  • 3.
    + 3 Métodos de estudo n Expressed Sequence Tags. n Sequenciado por método de Sanger. n Clonagem dos fragmentos usando vetores. n Não funciona em procariotos. n Low throughput.
  • 4.
    + 4 Métodos de estudo n Microarray. n Arranjos com os genes em locais determinados. n Comparação de amostras par a par. n Hibridização.
  • 5.
    + 5 Next Generation Sequencing
  • 6.
    + 6 Custo do sequenciamento
  • 7.
    + 7 RNA-seq n Ultra larga escala. n Não necessita de clonagem. n Baixo custo. n Valores absolutos. n Análise multi amostras. n Grande cobertura.
  • 8.
    + 8 Protocolo n Protocolo para montagem da biblioteca pode varias de acordo com a tecnologia e com o objetivo: n Remoção de rRNA. n Amplificação por PCR. n Conversão a cDNA. n Single read ou pair end.
  • 9.
    + 9 Genoma referência vs. Montagem de novo n Mapeamento dos reads a um genoma referência. n Quantificação da expressão. n Identificação de variantes de splicing. n Montagem de novo do transcritoma. n Caracterização dos genes expressos. n Identificação de isoformas. n Ausência de genoma referência.
  • 10.
    + 10 O que sai do sequenciador? n Formato padrão para análises é o FastQ. n @SEQ_ID GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCAC + !”*((((***+))%%%++)(%%%%).1***-+*”))**55CCF»»»CCCCCCC65 n Primeira linha: identificador da sequência. n Nome da sequência. n Informação sobre filtros. n Terceira linha: qualidade da chamada da base (em código).
  • 11.
    + 11 Montagem
  • 12.
    + 12 Mapeamento e quantificação n As sequências produzidas são mapeadas a um genôma referência. n Alinhou em apenas uma região = ótimo. n Alinhou em mais que uma região = dilema. n O uso de replicatas é FUNDAMENTAL! Repl. 1 Repl. 2 Repl. 3 Gene A 5 3 12 Gene B 16 25 35 Gene C 10 15 3 Gene D 750 500 500 Gene E 1504 1005 1030
  • 13.
    + 13 Interpretando a contagem dos genes n No exemplo da tabela, o Gene E tem duas vezes mais reads que o Gene D:
  • 14.
    + 13 Interpretando a contagem dos genes n No exemplo da tabela, o Gene E tem duas vezes mais reads que o Gene D: n Gene E é expresso duas vezes mais que o Gene D.
  • 15.
    + 13 Interpretando a contagem dos genes n No exemplo da tabela, o Gene E tem duas vezes mais reads que o Gene D: n Gene E é expresso duas vezes mais que o Gene D. n Ambos os genes se expressam na mesma intensidade, mas o Gene E é duas vezes maior que o Gene D.
  • 16.
    + 13 Interpretando a contagem dos genes n No exemplo da tabela, o Gene E tem duas vezes mais reads que o Gene D: n Gene E é expresso duas vezes mais que o Gene D. n Ambos os genes se expressam na mesma intensidade, mas o Gene E é duas vezes maior que o Gene D. n Ambos os genes tem o mesmo tamanho e se expressam na mesma intensidade, mas o Gene D tem um parálogo no genoma ao qual metade dos seus reads foram mapeados.
  • 17.
    + 13 Interpretando a contagem dos genes n No exemplo da tabela, o Gene E tem duas vezes mais reads que o Gene D: n Gene E é expresso duas vezes mais que o Gene D. n Ambos os genes se expressam na mesma intensidade, mas o Gene E é duas vezes maior que o Gene D. n Ambos os genes tem o mesmo tamanho e se expressam na mesma intensidade, mas o Gene D tem um parálogo no genoma ao qual metade dos seus reads foram mapeados. n A causa é os três ao mesmo tempo.
  • 18.
    + 14 Identificando genes diferencialmente expressos. n Comparar diferentes condições: controle com testes. n Célula normal com célula tumoral. n Planta sem e com estresse hídrico. n Animal sem e com parasita... n Genesem duas condições diferentes VÃO apresentar quantidades de reads diferentes. n Essa variação pode ser diferença biológica entre as duas condições, ou ruído experimental. n Aplicação de testes estatísticos.
  • 19.
    + 15 Identificando genes diferencialmente expressos. n Para identificar uma diferença estatisticamente significantes, é necessário que a diferença de expressão entre as duas condições seja maior que a imprecisão do nível de expressão sob uma determinada condição.
  • 20.
    + 16 Sou pobre, não vou usar replicata. n Lição de vida: n Um Gene H, em uma célula normal extraída do Zé Moreno, tem 5 reads. n Omesmo Gene H, em célula tumoral extraída do mesmo Zé Moreno, tem 10 reads. n Uoua! O Gene H é duas vezes mais expresso na célula tumoral! n Ganheiuns trocados e fiz transcritoma da célula normal de mais 2 pacientes. De brinde, ganhei o sequenciamento do Zé moreno de novo. n OGene H teve 12 reads na célula do Zé Moreno, 17 reads na Maria Tolé, e 22 reads na célula do Tião Torresmo. n Moral da história: quanto mais medições fizer, mais vai ter certeza dos níveis de expressão dos genes.
  • 21.
    + 17 Replicata técnica vs. Replicata biológica n Técnica: explica a variação encontrada que pode ter sido causada por critérios técnicos: preparação da biblioteca, qualidade do sequênciamento, cobertura do gene... n Biológica: explica a variação encontrada que pode ter sido causada pela variabilidade de expressão que não está associada à mudança nas condições do experimento.
  • 22.
    + 18 Fontes de variação Variância de Poisson n É a incerteza existente em qualquer medição em que algo é amostrado e contado. n Como é baseado no valor da contagem em si, não é específico do experimento. n Essa variância está relacionada a quantidade total de reads. n Porexemplo, a diferença na expressão de um gene medido com 1 read versus 2 reads é inerentemente menos seguro do que as diferenças na expressão de um gene medido com 100 reads versus 200 reads, apesar de ambas as diferenças serem, nominalmente, uma mudança 2X.
  • 23.
    + 19 Fontes de variação Variância de Poisson
  • 24.
    + 20 Fontes de variação Variação Técnica Não-Poisson n Associadoà incapacidade da técnica não conseguir medir a expressão perfeitamente. n Visto em replicatas técnicas. n Causas: n Seleção de miRNA. n Depleção de rRNA. n Amplificação por PCR. n Armazenamento. n RNA-later. n Moral da história: Manipule sua amostra o mínimo possível.
  • 25.
    + 21 Fontes de variação Variação Biológica n Ocorre naturalmente nas amostras. n A expressão naturalmente flutua em células sob a mesma condição. n Causas da variações biológicas podem ser diferenças genéticas, de maquinaria celular, ou de resposta a variação do ambiente. n Variaçãobiológica também sofre a influência das outras duas variações vistas.
  • 26.
    + 22 Filosofando... n Mais replicatas vs. Mais reads. n Como lidar com batch-effects? n Preciso validar com RT-PCR? n Eu considero como diferencialmente expresso genes com p- value < 0.01. n Calcular FDR (False discovery rate) n Leia artigos que tenham usado benchmarks. n Converse com o bioinformata que vai fazer as análises.