Mais conteúdo relacionado
Mais de DNA Data Bank of Japan center (20)
[DDBJing30] BioProject, BioSample, DDBJ Sequence Read Archive の紹介
- 2. 2014年年12⽉月18⽇日
DDBJ
センターが運営するデータベース
第30回
DDBJing
講習会
(JST東京)
INSDC:
オープンアクセスデータベース
個⼈人レベルの遺伝型と表現型
JGA
アクセス制限データベース
ヒトデータ審査委員会
DDBJ
アセンブリ
アノテーション
リード
Quality
value
アライメント
DRA
BioProject
BioSample
1
- 3. 2014年年12⽉月18⽇日
BioProject/BioSample
はデータをまとめる
第30回
DDBJing
講習会
(JST東京)
BioSample
1
BioSample
2
data
Umbrella
BioProject
Genome
BioProject
Transcriptome
BioProject
Epigenome
BioProject
data
data
data
data
data
! プロジェクトとサンプルのためのデータベース
! データベースを横断してデータをまとめる役割も果たす
2
- 4. 2014年年12⽉月18⽇日
SRA
データモデルの移⾏行行
第30回
DDBJing
講習会
(JST東京)
! SRA
Study
→
BioProject、SRA
Sample
→
BioSample
へ移⾏行行
! DDBJ
SRA
(DRA)
は2014年年5⽉月12⽇日に移⾏行行
3
- 5. 2014年年12⽉月18⽇日
次世代シークエンスデータの登録フロー
第30回
DDBJing
講習会
(JST東京)
DRA
Run
DRA
Experiment
・Run
にリンクされている全ての
ファイルは1つのアーカイブ⽤用
SRA
ファイルに変換され、まとめられる
3.
シークエンス⼿手法を登録
・サンプルからライブラリーを構築した⽅方法
・「どのように」シークエンスしたのか
・複数
Experiment
は1つの
Sample
を
参照できるが、逆はできない
(データファ
イルは1つの
Sample
にリンクされる)
TSV
TSV
BioProject
BioSample
1.
プロジェクトとサンプル
を登録
• 研究概要
• 「なぜ」そのサンプルをシークエンス
したのか
• ⽣生物学的・物理理的にユニークなサンプル
• 「何を」シークエンスしたのか
TSV
TSV
エクセルなどで編集できる「タブ区切切りテキストファイル」での登録が可能
2.
データファイルを転送
• シークエンスデータファイルを
Experiment
と
Run
を登録する前
にアップロード
0.
登録アカウントを取得
• ウェブサイト
(https://trace.ddbj.nig.ac.jp/D-‐‑‒way)
で
D-‐‑‒way
アカウントを取得
• DRA
へのデータ登録のために、公開鍵と
center
name
をアカウントに登録
http://trace.ddbj.nig.ac.jp/dra/submission.html#DRA_̲登録の流流れ
4
- 6. 2014年年12⽉月18⽇日
DRA
登録は3つのデータベースにまたがる
第30回
DDBJing
講習会
(JST東京)
! BioProject
»
BioSample
»
DRA
Experiment
»
DRA
Run
! それぞれのオブジェクトにアクセッション番号が発⾏行行される
例例:
DRX000001
(プレフィックス
“DRX”)
5
- 8. 2014年年12⽉月18⽇日
D-‐‑‒way
アカウントの取得
第30回
DDBJing
講習会
(JST東京)
! D-‐‑‒way
アカウントをウェブサイト
(https://trace.ddbj.nig.ac.jp/D-‐‑‒way/)
で取得
! 公開鍵と
center
name
をアカウントに登録し、DRA
登録を可能にする
DRA
BioProject
BioSample
公開鍵
と
center
name
を
D-‐‑‒way
アカウントに登録
http://trace.ddbj.nig.ac.jp/book/account.html
登録アカウント
Handbook:
center
name
:
SRA
が組織に運⽤用上割り振っている略略号
公開鍵
:
秘密鍵とペアでユーザの認証に使⽤用される
7
- 10. 2014年年12⽉月18⽇日
メタデータの構成を決めておく
第30回
DDBJing
講習会
(JST東京)
! 登録する前に必要な
BioProject・BioSample・Experiment・Run
の数を決めておく
! サンプル数から考えると分かりやすい
1.
最もシンプルな登録
2.
三つの菌株の⽐比較ゲノム解析
http://trace.ddbj.nig.ac.jp/dra/submission.html#オブジェクトの構成例例
メタデータ:
シークエンスデータがどのようにして得られたのかを説明するデータ
9
- 13. 2014年年12⽉月18⽇日
第30回
DDBJing
講習会
(JST東京)
http://www.ncbi.nlm.nih.gov/bioproject/PRJDA38027
ゲノム配列列
SRA
データ
Pubmed
論論⽂文情報
プロジェクト概要
プロジェクトに由来するデータを⼀一覧
NCBI
BioProject:
12
- 15. 2014年年12⽉月18⽇日
アンブレラプロジェクトの活⽤用
第30回
DDBJing
講習会
(JST東京)
! アンブレラプロジェクト
(⾮非公開にできない)
でプロジェクトをまとめる
! ⼤大規模プロジェクトからの成果を整理理して提⽰示することができる
! 初期段階でアンブレラを取得し、関係者に周知することを推奨
DDBJ
側では申告されないとアンブレラとの関係が分からない
http://trace.ddbj.nig.ac.jp/bioproject/submission.html#アンブレラプロジェクトの活⽤用
アンブレラ
プライマリー
14
- 16. 2014年年12⽉月18⽇日
プロジェクトの登録
第30回
DDBJing
講習会
(JST東京)
! プロジェクト
(概要・研究費・プロジェクトのタイプなど)
をアカウントから登録
! 即⽇日公開
or
⾮非公開を選択
(公開予定⽇日は設定不不可)
! プレフィックス
“PRJD”
の
BioProject
ID
が発⾏行行される
ポップアップでの説明
15
- 18. 2014年年12⽉月18⽇日
BioSample
でサンプル情報を集中管理理
第30回
DDBJing
講習会
(JST東京)
! データベースに散在していたサンプル情報を集中管理理
! サンプル記述を標準化
! 2014年年2⽉月に
DDBJ
センターは
BioSample
を開始
http://trace.ddbj.nig.ac.jp/biosample/index.html
17
- 19. 2014年年12⽉月18⽇日
属性
(attributes)
でサンプルを記述
第30回
DDBJing
講習会
(JST東京)
! 「属性名:値」のペアでサンプルを記述
(例例:
tissue:liver)
http://www.ncbi.nlm.nih.gov/biosample/1990977
パッケージ
サンプル属性
関連データ
タイトル
NCBI
BioSample:
18
- 20. 2014年年12⽉月18⽇日
サンプルの種類に応じた属性リスト
第30回
DDBJing
講習会
(JST東京)
! サンプルの種類
(Sample
type)
に応じた必須と任意属性のリスト
http://trace.ddbj.nig.ac.jp/biosample/attribute.html
サンプル属性⼀一覧:
メタゲノム
さらに
Environmental
package
を選択
ゲノム
マーカー遺伝⼦子
(16S
rRNA
など)
その他
(遺伝⼦子発現解析など)
サンプルの種類
サンプル属性リスト
19
- 21. 2014年年12⽉月18⽇日
サンプルの登録
第30回
DDBJing
講習会
(JST東京)
! Sample
type
に対応したタブ区切切りのテキストファイルにサンプル属性を記⼊入
! エクセルなどで1⾏行行に1サンプルの情報を⼊入⼒力力し、アップロード
! 即⽇日公開
or
⾮非公開を選択
(公開予定⽇日は設定不不可)
! プレフィックス
“SAMD”
の
BioSample
ID
が発⾏行行される
必須属性に対する値がない場合は
“N.A.”
や
“missing”
を記⼊入
sample_̲name
は内部
ID
として使⽤用されるため、投稿後は変更更不不可
ポップアップでの説明
20
- 23. 2014年年12⽉月18⽇日
DRA
登録の順序
第30回
DDBJing
講習会
(JST東京)
DRA
新規登録の作成
データファイルの転送
メタデータの投稿
データファイルの
Validation
アノテータが査定
アクセッション番号発⾏行行
BioProject
の登録
BioSample
の登録
22
- 24. 2014年年12⽉月18⽇日
新規
DRA
登録の作成
第30回
DDBJing
講習会
(JST東京)
! 登録アカウントにログインし、新規
DRA
登録を作成
(例例
dradev-‐‑‒0019)
23
- 25. 2014年年12⽉月18⽇日
シークエンスデータファイルの転送
第30回
DDBJing
講習会
(JST東京)
! 鍵認証で
DRA
ファイル受付サーバにアクセスし、
データファイルを新規登録に対応するディレクトリに
SSH
でアップロード
DRA
ファイル受付サーバ
秘密鍵
公開鍵
DRA
新規登録
(dradev-‐‑‒0019)
シークエンスデータファイル
(fastq,
bam
etc)
http://trace.ddbj.nig.ac.jp/dra/submission.html#シークエンスデータのアップロード
24
- 26. 2014年年12⽉月18⽇日
DRA
メタデータの作成
1:
Submission
第30回
DDBJing
講習会
(JST東京)
! 登録者情報と公開予定⽇日
(2年年後まで指定可能)
を記⼊入
順番に⼊入⼒力力していく
(Analysis
は任意)
別のタブに移動する際、⾃自動で内容がチェックされ保存されます
ポップアップでの説明
25
- 27. 2014年年12⽉月18⽇日
DRA
メタデータの作成
2:
Study
第30回
DDBJing
講習会
(JST東京)
! 登録済みの
BioProject
を⼀一つ選択
BioProject
ID
(プレフィックス
PRJD)
が発⾏行行されていない
プロジェクトは選択できません
26
- 28. 2014年年12⽉月18⽇日
DRA
メタデータの作成
3:
Sample
第30回
DDBJing
講習会
(JST東京)
! 登録済みの
BioSample
を必要数選択
BioSample
ID
(プレフィックス
SAMD)
が発⾏行行されていない
サンプルは選択できません
27
- 29. 2014年年12⽉月18⽇日
DRA
メタデータの作成
4:
Experiment
第30回
DDBJing
講習会
(JST東京)
! サンプルから構築したライブラリー、シークエンサーやリード⻑⾧長について記⼊入
タブ区切切りテキストファイルとしてダウンロードし、
メタデータを作成することができる
28
- 30. 2014年年12⽉月18⽇日
DRA
メタデータの作成
5:
Run
第30回
DDBJing
講習会
(JST東京)
! Run
を
Experiment
にリンク
! アップロードしたデータファイルを
Run
にリンク
リード⻑⾧長が⼀一定ではない
fastq
の場合、filetype
は
“generic_̲fastq”
を選択
29
- 31. 2014年年12⽉月18⽇日
DRA
メタデータの投稿
第30回
DDBJing
講習会
(JST東京)
! メタデータ完成後、Submit
をクリックして投稿
オブジェクト相互が過不不⾜足なく参照されているかどうかチェックされます
クリックしてメタデータを投稿
30
- 32. 2014年年12⽉月18⽇日
データファイルの
validation
第30回
DDBJing
講習会
(JST東京)
! データファイルの形式とメタデータとの整合性が検証され、
アーカイブ⽤用の
SRA
ファイルが作成されます
クリックして
validation
を開始
メタデータの投稿後、データファイルの
validation
が必須
31
- 33. 2014年年12⽉月18⽇日
よくある
validation
エラー
第30回
DDBJing
講習会
(JST東京)
" 合計⻑⾧長を記⼊入
(例例
Forward
100
+
Reverse
100
=
200)
" ファイルが破損している場合は再度度ファイルをアップロード
" 空⽩白を除去
" サブディレクトリを含めず、ファイルそのものをアップロード
! 配列列⻑⾧長が⼀一定のペアリードで
Experiment.Spot
Length
にペアの合計
配列列⻑⾧長が記⼊入されていない
! メタデータ中の
md5
値と転送されたファイルの
md5
値が異異なる
! アップロードされたデータファイル名に空⽩白が含まれている
! サブディレクトリを含んでいる
32
- 36. 2014年年12⽉月18⽇日
BioProject
と
BioSample
の連動公開
第30回
DDBJing
講習会
(JST東京)
! 塩基配列列データの公開は参照している
BioProject/BioSample
の公開を引き起こす
! BioProject/BioSample
の公開は参照元の塩基配列列データの公開を引き起こさない
BioProject/BioSample
公開
DRA/DDBJ
塩基配列列データ
公開
BioProject/BioSample
公開
DRA/DDBJ
塩基配列列データ
⾮非公開
http://trace.ddbj.nig.ac.jp/bioproject/submission.html#データ公開
35
- 37. 2014年年12⽉月18⽇日
データの公開
第30回
DDBJing
講習会
(JST東京)
! 公開されたデータはミラーされ
DDBJ/EBI/NCBI
で利利⽤用できるようになります
DDBJ
DRASearch
NCBI
BioProject
NCBI
BioSample
NCBI
SRA
36
- 38. 2014年年12⽉月18⽇日
データの更更新
第30回
DDBJing
講習会
(JST東京)
! 更更新内容を
BioProject
チームに連絡
! 関連する論論⽂文が公開されたら
pubmed
ID
などの⽂文献情報を連絡
BioProject
BioSample
DRA
! 更更新内容を
BioSample
チームに連絡
! Sample
name
は
ID
として使⽤用しているため変更更不不可
! メタデータの内容と公開予定⽇日はアカウントにログインし、⾃自⾝身で変更更
! データファイルの追加:
新規登録を作成し、既存のオブジェクトを参照する
(補⾜足スライド43を参照)
37
- 39. 2014年年12⽉月18⽇日
お問い合わせ先
第30回
DDBJing
講習会
(JST東京)
http://trace.ddbj.nig.ac.jp/contact.html
! 登録について問い合わせる場合には
D-‐‑‒way
アカウント名と
Submission
ID
をお知らせください
38
- 41. 2014年年6⽉月12⽇日
微⽣生物ゲノム配列列の登録
第30回
DDBJing
講習会
(JST東京)
! Strain-‐‑‒level
taxonomy
ID
にかわり
BioSample
微⽣生物ゲノムを識識別
BioProject BioSample
Strain: 1
Locus tag prefix: AAAA1
BioSample
Strain: 2
Locus tag prefix: AAAA2
BioSample
Strain: 3
Locus tag prefix: AAAA3
BioProject
Strain: 1
Locus tag prefix: AAAA1
Strain-level taxonomy ID: 10
BioProject
Strain: 2
Locus tag prefix: AAAA2
Strain-level taxonomy ID: 11
BioProject
Strain: 3
Locus tag prefix: AAAA3
Strain-level taxonomy ID: 12
Species-level taxonomy ID: 100
Federhen
S
et
al.
Stand
Genomic
Sci
(2014)
doi:
10.4056/sigs.4851102
2014年年2⽉月以前
2014年年2⽉月以降降
Genome
Genome
Genome
Bacteria: A
Strain: 1
Bacteria: A
Strain: 2
Bacteria: A
Strain: 3
Genome
Genome
Genome
Bacteria: A
Strain: 1
Bacteria: A
Strain: 2
Bacteria: A
Strain: 3
40
- 44. 2014年年6⽉月12⽇日
データファイルの追加
第30回
DDBJing
講習会
(JST東京)
! 新しい
DRA
登録から既存の
BioProject
を参照することでデータを追加
http://trace.ddbj.nig.ac.jp/dra/submission.html#データファイルの追加
43
- 45. 2014年年6⽉月12⽇日
ファイルの破損を
md5
値でチェック
第30回
DDBJing
講習会
(JST東京)
! md5
値が⼀一致
:
ファイルの破損なし
md5
値が不不⼀一致
:
ファイルの破損あり
DRA
ファイル受付サーバ
md5
値
md5
値
md5
値
md5
値
=
≠
md5
値
:
ファイルに固有の32桁の英数字からなるハッシュ値
http://trace.ddbj.nig.ac.jp/dra/submission.html#補⾜足_̲_̲MD5_̲値
44