14. “Os algoritmos propostos fazem uso de
Grafos De Bruijn (DBG).
Acrescentam ao DBG clássico coloração
dos nós e arestas por amostras que estão
sendo observadas.
15. “
Leva em conta informações das amostras:
uma ou mais sequências referências e
variantes conhecidas.
16. “
O método também é capaz de detectar
variação em espéces sem uma referência,
combinando informações através de
vários indivíduos para melhorar a
acurácia.
17. “
Nome da aplicação desenvolvida: Cortex.
Site:
http://cortexassembler.sourceforge.net
43. “
Se tiver um genoma de referência, essa
abordagem pode ajudar a distinguir
variantes verdadeiras de erros e
estruturas de repetição.
44. “
DBG coloridos podem ser usados para
genotipar amostras em loci conhecida
mesmo quando a cobertura é insuficiente.
45. “
Em azul temos a cobertura (insuficiente).
Os alelos estão em vermelho e verde.
46. “
Foi construído um DBG colorido da
sequência referência, variantes alélicas
conhecidas e dados a partir da amostra.
47. “Cortex é um assembler eficiente do ponto
de vista de memória.
Ele constrói e representa um DBG
colorido. Realiza variant calling e
genotipagem de dados HTS.
48. “
Foi utilizada uma eficiente hash table que
codifica implicitamente o grafo.
O uso de memória é previamente
especificado de acordo com uma fórmula.
55. “
O aumento do K (tamanho do k-mer)
aumenta a probabilidade de um k-mer
conter um erro.
56. “
O tamanho do k-mer maximiza a
sensibilidade do BC algorithm.
57. “
Exemplo: com cobertura 50x, K = 65 e
100bp reads, foi identificado 86% dos
SNPs de 92% possíveis.
58. “
O Cortex se utiliza de DBG colorido para
representar informações de várias fontes
e abordagens estatísticas para detectar
variantes de diferentes tipos.
59. “Um implementação eficiente do DBG
colorido permite a utilização de dados de
várias amostras bem como sequências de
referências e variantes conhecidas.
Todos são incluídos numa única estrutura
de grafo. A identidade da amostra é
preservada com o uso de cores.
60. “
Essa abordagem permite a análise
simultânea de vários genomas.
Isso pode ser poderoso para detectar
variantes precisas sem qualquer
necessidade de um genoma de referência.
61. “
É possível a análise HTS de variações
genéticas em qualquer espécie.
67. “
DBG colorido foi introduzido em 2012.
Objetivo: detectar e genotipar variantes
genéticas simples e complexas em um
indivíduo ou população.
68. “
Relembrando o DBG clássico:
1) Conjunto de strings (sequence reads)
2) Vértice para cada (k-1)-mer.
3) Aresta para cada k-mer com (k-1)-mer
prefixo e (k-1)-mer sufixo.
70. “
A aresta em um DBG colorido é o mesmo
do DBG clássico.
71. “
A diferença: cada vértice ((k-1)-mer) e
aresta (k-mer) estão associados a uma
lista de cores correspondendo as
amostras.
72. “
Dado um conjunto de n amostras, existe
um conjunto C de n cores: c[1], c[2], c[3],
…, c[n] onde c[i] corresponde a amostra i e
todos os k-mers e (k-1)-mers que estão
contidos na amostra i são coloridos com
c[i].
73. “
Uma bolha no grafo corresponde a um
ciclo direcionado e é considerada um
indicativo de variação biológica.
74. “
Essas cores permitem que não perder o
controle dos indivíduos dos quais os
kmers foram originados.
75. “
Relembrando: o Cortex utiliza DBG
colorido para montar vários genomas
simultaneamente, por isso é importante o
uso das cores para manter um controle.
76. “
Nesse artigo foi desenvolvida uma
estrutura de dados eficiente para o
armazenamento e uso do DBG colorido.
77. “
Comparado ao Cortex, essa estrutura
reduz dramaticamente a quantidade de
memória para armazenar e utilizar o DBG
colorido com alguma penalidade de
execução.
86. “Lembrando:
1) Bolhas podem ser induzidas por
variantes, repetições ou erros de
sequenciamento.
2) Variantes podem ser separadas de
repetições por inclusão da referência.
92. “
5) Tip: um pequeno caminho que termina
em um nó com grau de saída 0.
93. “
5) Confounded: uma variante que se
sobrepõem com outras partes do genoma
(ou com ela própria) impedindo que se
forma uma bolha limpa.
94. “O algoritmo Bubble Caller foi
implementado como um percurso de uma
hash table.
O tempo de acesso numa hash é
constante, portanto, o caminho tem um
custo proporcional ao tamanho da tabela.
107. “
Mesmo quando não se forma uma bolha limpa,
pode-se descobrir variantes através da divergência
do caminho de referência.
108. “
Ao encontrar um breakpoint (verde), pega-se o contig
mais longo da amostra
(exemplo: caminho até o próximo cruzamento).
109. “
O azul pontilhado é uma sequência de repetição dentro
do alelo de referência presente em outro local
dentro do genoma da amostra.
o algoritmo
não é afetado
110. “
Algoritmo de Genotipagem
Tem-se um grafo com uma cor para cada
alelo conhecido, uma cor para o genoma
de referência e uma cor para amostra.
111. “
Algoritmo de Genotipagem
Tem-se um grafo com uma cor para cada
alelo conhecido, uma cor para o genoma
de referência e uma cor para amostra.