1
TASSEL
Trait Analysis by aSSociation, Evolution and
Linkage
2
Mapeamento por associação
● Software para o mapeamento por associação
de traços (características) complexos [1].
3
Conceitos
● Mapeamento por associação
– Método para mapear QTLs
● QLT (quantitative trait loci)
– Expressão de caracteres fenotípicos
– Caracteres quantitativos
● Vários genes
● Distribuição contínua
● Quantidades: peso, altura etc.
4
Estudo de associação
● Identificar associações entre o fenótipo e um
ou mais marcadores genéticos
● Marcador genético
– Diferenças entre indivíduos
– Detectar QTLs
– Exemplo: SNPs
5
SNPs
● Single Nucleotide Polymosphisms
● Grande abundância
– A cada 300 ~ 600 nucleotídeos [2]
● Tecnologias de genotipagem
● Mutações que se propagaram ao longo de
gerações
6
SNPs
7
TASSEL - Instalação
● http://www.maizegenetics.net/tassel
8
TASSEL - Instalação
● Recomendável via git
– https://git-scm.com/downloads
● Para copiar o projeto:
– git clone <endereço da versão>
● Para atualizações:
– git pull
9
TASSEL Pipeline
● Consiste em módulos (plugins)
● Saída de um módulo pode ser utilizada como
entrada para outro módulo
10
Termos importantes
● Sequence File: arquivo texto com uma
sequência de DNA e informações adicionais da
plataforma Illumina.
● Taxa: amostra individual
● Key File: arquivo texto usado para atribuir um
GBS Bar Code para uma Taxa
● GBS Tag: sequência DNA
11
Arquivos de teste
● Download de arquivos de testes:
– http://mirrors.iplantcollaborative.org/browse/iplan
t/home/shared/panzea/tassel/GBSTestData.tar
● Pasta GBS
– Pipeline_Testing_key.txt → key file
12
Tassel GBS Pipeline
● 3 pipelines
– Discovery Pipeline (genoma de referência)
● Vários passos
– Production Pipeline
● Utiliza informação do Discovery Pipeline
● Um passo
– UNEAK (sem um genoma de referência)
13
Estrutura de diretórios
● É necessária uma estrutura de diretórios
– ./fastq
– ./tagCounts
– ./mergedTagCounts
– (…)
● Exemplo: o plugin FastqToTagCountPlugin
redireciona sua saída para o diretório
tagCounts.
14
Discovery Pipeline
● Genoma de referência
● Na pasta GBS (arquivos de teste) possui um
genoma de referência:
– ZmB73_RefGen_(...)
15
Discovery Pipeline
● Execução por linha de comando através de um
script em Perl que se comunica com a
aplicação Java
● Sintaxe:
– run_pipeline.pl -fork1 -PluginName –plugin-option(s)
-endPlugin -runfork1
● TASSEL pode rodar vários processos de uma
vez, combinar resultados etc.
16
TASSEL GBS Pipeline
● Sintaxe:
– run_pipeline.pl -fork1 -PluginName –plugin-option(s)
-endPlugin -runfork1
● Em máquinas Windows sem o Perl instalado,
pode-se utilizar o “run_pipeline.bat”
● Cada passo do pipeline é especificado com um
comando “-fork” e um número
17
TASSEL GBS Pipeline
● Sintaxe:
– run_pipeline.pl -fork1 -PluginName –plugin-option(s)
-endPlugin -runfork1
● O “fork” é seguido pelo nome do plugin e as
opções do plugin.
● “-endPlugin” sinaliza o final das opções.
● “-runfork1” executa o plugin especificado.
18
TASSEL GBS Pipeline
● Sintaxe:
– run_pipeline.pl -fork1 -PluginName –plugin-option(s)
-endPlugin -runfork1
● Caso você chame o plugin sem argumento
algum, então serão impressas suas
opções/argumentos.
19
TASSEL GBS Pipeline
20
TASSEL GBS Pipeline
● Exemplos de argumentos para o plugin
FastqToTagCountPlugin
– -i → especifica o diretório de entrada contendo
arquivo FASTQ
– -e → especifica enzima utilizada na criação de uma
biblioteca GBS (exemplo: ApeKI)
– -o → diretório de saída
21
TASSEL GBS Pipeline
● Exemplo de comando:
– run_pipeline.pl -fork1 -FastToTagCountPlugin -i
fastq -k myGBSProject_key.txt -e ApeKI -o
tagCounts -endPlugin -runfork1
● fastq → faz parte da estrutura de diretórios
● -k → key file
● -e → enzima de restrição (ApeKI)
● -o → saída para o diretório tagCounts
22
TASSEL GBS Pipeline
● Exemplo comando com vários fork's
Run_pipeline.bat -fork1 –h mdp_genotype.hmp.txt -
filterAlign -filterAlignMinFreq 0.05 -fork2 -r
mdp_traits.txt -fork3 -q mdp_population_structure.txt -
excludeLastTrait -fork4 -k mdp_kinship.txt -combine5 -
input1 -input2 -input3 -intersect -combine6 -input5 -
input4 -mlm -export mlm_output_tutorial -runfork1 -
runfork2 -runfork3 -runfork4
23
Enzimas de restrição
● TASSEL-GBS pipeline não se limita às enzimas
de restrição específicas usadas nos protocolos
GBS.
● Novas enzimas podem ser adicionadas:
– Basta solicitar no Google Group
– http://groups.google.com/group/tassel
24
TASSEL GBS Pipeline
● O default de memória é 1.5GB, caso tenha
mais memória, é aconselhável aumentar a
quantidade de memória editando o arquivo
run_pipeline.pl
● Ou passando por argumento:
– run_pipeline.pl -Xmx6g (...)
25
TASSEL GBS Pipeline
● O primeiro passo do pipeline requer pelo
menos 6G.
● Recomendável 16G
26
TASSEL GBS Pipeline
● Muitos dos comandos produzem uma saída
enorme no console
● Pode ser útil redirecionar a saída para um
arquivo
● Utiliza-se o comando: | tee log.txt
– run_pipeline.pl (…) | tee log.txt
27
Discovery Pipeline
28
TASSEL GBS Pipeline
● Alguns arquivos (exemplo: TagCounts) estão
em formato binário.
● Para converter para um formato legível:
– BinaryToTextPlugin
● Para arquivos de textos muito grandes:
– Utilizar os comandos head e/ou tail
● head -10 meuArquivo.txt
● Mostra as 10 primeiras linhas de meuArquivo.txt
29
GUI
30
Linha de comando
● Vantagens:
– Pode ser usada a saída de um comando como
entrada de outro comando através de scripts
– Execução em servidor
– Consome menos recursos
31
Referências
● [1]
http://bioinformatics.oxfordjournals.org/content/
23/19/2633.full.pdf
● [2]
http://www.lge.ibi.unicamp.br/lgeextensao2008/
extsup/snps.pdf
● Wiki Tassel:
– https://bitbucket.org/tasseladmin/tassel-5-source/wi
ki/Home

TASSEL - Trait Analysis by aSSociation, Evolution and Linkage

  • 1.
    1 TASSEL Trait Analysis byaSSociation, Evolution and Linkage
  • 2.
    2 Mapeamento por associação ●Software para o mapeamento por associação de traços (características) complexos [1].
  • 3.
    3 Conceitos ● Mapeamento porassociação – Método para mapear QTLs ● QLT (quantitative trait loci) – Expressão de caracteres fenotípicos – Caracteres quantitativos ● Vários genes ● Distribuição contínua ● Quantidades: peso, altura etc.
  • 4.
    4 Estudo de associação ●Identificar associações entre o fenótipo e um ou mais marcadores genéticos ● Marcador genético – Diferenças entre indivíduos – Detectar QTLs – Exemplo: SNPs
  • 5.
    5 SNPs ● Single NucleotidePolymosphisms ● Grande abundância – A cada 300 ~ 600 nucleotídeos [2] ● Tecnologias de genotipagem ● Mutações que se propagaram ao longo de gerações
  • 6.
  • 7.
    7 TASSEL - Instalação ●http://www.maizegenetics.net/tassel
  • 8.
    8 TASSEL - Instalação ●Recomendável via git – https://git-scm.com/downloads ● Para copiar o projeto: – git clone <endereço da versão> ● Para atualizações: – git pull
  • 9.
    9 TASSEL Pipeline ● Consisteem módulos (plugins) ● Saída de um módulo pode ser utilizada como entrada para outro módulo
  • 10.
    10 Termos importantes ● SequenceFile: arquivo texto com uma sequência de DNA e informações adicionais da plataforma Illumina. ● Taxa: amostra individual ● Key File: arquivo texto usado para atribuir um GBS Bar Code para uma Taxa ● GBS Tag: sequência DNA
  • 11.
    11 Arquivos de teste ●Download de arquivos de testes: – http://mirrors.iplantcollaborative.org/browse/iplan t/home/shared/panzea/tassel/GBSTestData.tar ● Pasta GBS – Pipeline_Testing_key.txt → key file
  • 12.
    12 Tassel GBS Pipeline ●3 pipelines – Discovery Pipeline (genoma de referência) ● Vários passos – Production Pipeline ● Utiliza informação do Discovery Pipeline ● Um passo – UNEAK (sem um genoma de referência)
  • 13.
    13 Estrutura de diretórios ●É necessária uma estrutura de diretórios – ./fastq – ./tagCounts – ./mergedTagCounts – (…) ● Exemplo: o plugin FastqToTagCountPlugin redireciona sua saída para o diretório tagCounts.
  • 14.
    14 Discovery Pipeline ● Genomade referência ● Na pasta GBS (arquivos de teste) possui um genoma de referência: – ZmB73_RefGen_(...)
  • 15.
    15 Discovery Pipeline ● Execuçãopor linha de comando através de um script em Perl que se comunica com a aplicação Java ● Sintaxe: – run_pipeline.pl -fork1 -PluginName –plugin-option(s) -endPlugin -runfork1 ● TASSEL pode rodar vários processos de uma vez, combinar resultados etc.
  • 16.
    16 TASSEL GBS Pipeline ●Sintaxe: – run_pipeline.pl -fork1 -PluginName –plugin-option(s) -endPlugin -runfork1 ● Em máquinas Windows sem o Perl instalado, pode-se utilizar o “run_pipeline.bat” ● Cada passo do pipeline é especificado com um comando “-fork” e um número
  • 17.
    17 TASSEL GBS Pipeline ●Sintaxe: – run_pipeline.pl -fork1 -PluginName –plugin-option(s) -endPlugin -runfork1 ● O “fork” é seguido pelo nome do plugin e as opções do plugin. ● “-endPlugin” sinaliza o final das opções. ● “-runfork1” executa o plugin especificado.
  • 18.
    18 TASSEL GBS Pipeline ●Sintaxe: – run_pipeline.pl -fork1 -PluginName –plugin-option(s) -endPlugin -runfork1 ● Caso você chame o plugin sem argumento algum, então serão impressas suas opções/argumentos.
  • 19.
  • 20.
    20 TASSEL GBS Pipeline ●Exemplos de argumentos para o plugin FastqToTagCountPlugin – -i → especifica o diretório de entrada contendo arquivo FASTQ – -e → especifica enzima utilizada na criação de uma biblioteca GBS (exemplo: ApeKI) – -o → diretório de saída
  • 21.
    21 TASSEL GBS Pipeline ●Exemplo de comando: – run_pipeline.pl -fork1 -FastToTagCountPlugin -i fastq -k myGBSProject_key.txt -e ApeKI -o tagCounts -endPlugin -runfork1 ● fastq → faz parte da estrutura de diretórios ● -k → key file ● -e → enzima de restrição (ApeKI) ● -o → saída para o diretório tagCounts
  • 22.
    22 TASSEL GBS Pipeline ●Exemplo comando com vários fork's Run_pipeline.bat -fork1 –h mdp_genotype.hmp.txt - filterAlign -filterAlignMinFreq 0.05 -fork2 -r mdp_traits.txt -fork3 -q mdp_population_structure.txt - excludeLastTrait -fork4 -k mdp_kinship.txt -combine5 - input1 -input2 -input3 -intersect -combine6 -input5 - input4 -mlm -export mlm_output_tutorial -runfork1 - runfork2 -runfork3 -runfork4
  • 23.
    23 Enzimas de restrição ●TASSEL-GBS pipeline não se limita às enzimas de restrição específicas usadas nos protocolos GBS. ● Novas enzimas podem ser adicionadas: – Basta solicitar no Google Group – http://groups.google.com/group/tassel
  • 24.
    24 TASSEL GBS Pipeline ●O default de memória é 1.5GB, caso tenha mais memória, é aconselhável aumentar a quantidade de memória editando o arquivo run_pipeline.pl ● Ou passando por argumento: – run_pipeline.pl -Xmx6g (...)
  • 25.
    25 TASSEL GBS Pipeline ●O primeiro passo do pipeline requer pelo menos 6G. ● Recomendável 16G
  • 26.
    26 TASSEL GBS Pipeline ●Muitos dos comandos produzem uma saída enorme no console ● Pode ser útil redirecionar a saída para um arquivo ● Utiliza-se o comando: | tee log.txt – run_pipeline.pl (…) | tee log.txt
  • 27.
  • 28.
    28 TASSEL GBS Pipeline ●Alguns arquivos (exemplo: TagCounts) estão em formato binário. ● Para converter para um formato legível: – BinaryToTextPlugin ● Para arquivos de textos muito grandes: – Utilizar os comandos head e/ou tail ● head -10 meuArquivo.txt ● Mostra as 10 primeiras linhas de meuArquivo.txt
  • 29.
  • 30.
    30 Linha de comando ●Vantagens: – Pode ser usada a saída de um comando como entrada de outro comando através de scripts – Execução em servidor – Consome menos recursos
  • 31.