More Related Content
Similar to Normalization of microarray
Similar to Normalization of microarray (20)
Normalization of microarray
- 4. 事前知識 - mRNA -
…ATGCATCGTAGATGCTAGCATGCTAGTAGCT… ゲノム
転写
mRNA
DNAマイクロアレイはこのmRNAを 翻訳,折りたたみ
定量的に計測する技術
⇒
タンパク質
遺伝子の機能解析、遺伝子間相互
作用の解析等に利用
各種生体内機能 4
- 5. 事前知識 – マイクロアレイ -
マイクロアレイ = 基盤上に何かを並べたもの
Micro:1/1000レベルに分割して
Array:並べたもの
DNAマイクロアレイ = DNAを基盤上に並べたもの
細胞マイクロアレイ = 細胞を基盤上に並べたもの
タンパク質マイクロアレイ
抗体アレイ
組織マイクロアレイ
化合物マイクロアレイ
… 5
- 6. 事前知識 - DNAマイクロアレイ -
• 以下の2つがポピュラー
– 1色法:Affymetrix型(オリゴヌクレオチドアレイ)
• 作成法:フォトリソグラフィ法(基盤上でプローブを合成)
• 商品名:GeneChip(Affymetrix社)
• 種類: 3’-Array, Gene Array, Exon Array, Cytogenetics Array, miRNA Array,
SNP Array
– 2色法:Stanford型(cDNAアレイ、オリゴよりプローブが長い)
• 作成法:スポット法(作成したプローブをスライドガラス上にスポット)
プリント法(インクジェット)
• 商品名:DNAmicroarray(Agilent社)、AceGene(DNAChip研究所)、IntelliGene
(タカラバイオ社)
• その他ビーズアレイ(Bead Array: Illumina社)や、長鎖オリゴヌクレオチドアレイ(Agilent
社)、タイリングアレイ(ゲノム断片)とかもあるけどここでは割愛
• EST、SAGE、CAGE、MPSS、RNA-Seq(次世代シーケンサ)等も技術は違うが、同様に
遺伝子発現データを出力する
6
- 7. 事前知識 - アレイ解析の基礎 -
実験 画像データ 数値データ、生データ
(.DAT) (.CEL)
正規化
c1 c2 c3 t1 t2 t3 各統計手法(例:t検定)
遺伝子1 6.5 5.5 5.3 4.4 5.3 5.1 p=0.1
遺伝子2 2.3 3.3 1.0 5.6 7.5 5.7 p=0.007
遺伝子3 5.3 4.4 4.4 -5.5 -4.2 -5.6 p=0.001
遺伝子30000 1.5 0.4 4.4 1.3 2.4 2.1 p=0.09
対照群 処置群
何も刺激を与えていないもの 試薬の投与、培養条件の変化など、 FDR制御
刺激を与えたもの
発現変動遺伝子の判定
7
1チップの値だけでは意味を為さず、必ず対照群 vs 処置群の比較がなされる
- 8. 事前知識 - アレイ解析の基礎 -
• 必ず対数変換したものを用いる。しかも底を2にする事が多い
– 正規分布になって、統計的に扱いやすいから
– 2くらいのスケールが一番見やすいから
– 2倍と1/2倍を同等に扱いたいから
– 情報系の人はビットが好きだから
y:頻度
y
x:蛍光強度 log2x
• なぜ対数正規分布するのは不明。ただし、熱力学モデルを作成
して、対数正規分布するまでの仮定を記述した研究は存在 8
(Tomokazu Konishi,2005)
- 9. 事前知識 - バイアスと正規化 -
• バイアス:実験操作やプローブの物性などで、ある値を大き
く(または小さく)見積もってしまう事
• 正規化:「データには○○というバイアスがあるはずだ」とい
う仮定のもと、そのバイアスの影響を軽減させるために、値
に補正をかける事
バイアスの例
空間バイアス Cy3、Cy5のそもそも 蛍光強度の値に依存す 9
の蛍光強度の違い る分散の大きさの違い
- 10. 事前知識 - バイアスと正規化 -
• 各研究者が各々バイアスを仮定するため、正規化
手法は乱立
• そのわりにみんなに広く使われている手法(デファク
トスタンダード)は決まっている
• 1色法と2色法でも使われている手法が全然違う
• ただし、共通の問題というのもある
10
- 12. 1色法の原理
生物の細胞からmRNAを抽出
ビオチン標識 cDNAに逆転写
ハイブリダイゼーション反応
処置群
比較
各スポットにcDNAと相補的
なプローブが並んだ基盤 対照群 12
- 13. PM-MM戦略(Affymetrix社)
mRNAの全長は5000塩基くらい。3‘側近辺から適当な間隔で11〜16配列が
選択されプローブが作成される。これはRNAが不安定で分解されやすいため
AAAAAAA
5’ 3’
mRNA
1 2 3 4 5 6 7 8 9 10 11
acttctataatctgcaacggtacat PM
acttctataatctccaacggtacat MM 13
プローブ長は25塩基で、13番目の塩基を変えてる
- 15. 1色法で提案されている正規化法
• MBEI(2001)
• PLIER(2001)
• dChip(2001)
• RMA(2002)
• PDNN(2003) デファクトスタンダード
• MAS5(2003)
• GCRMA(2004)
• multi-mgMOS(2005)
• GLA(2005)
• Extrapolation Strategy、refRMA,RMA+(2006)
• FARMS(2006)
• RMA++(2007)
• DFW(2007)
• Hook(2008)
…
Comparison of Affymetrix GeneChip expression measures, Bioinformatics, 2006
の時点で50の手法が存在している事が確認されている
15
- 17. *MAS4(今は誰も使わない)
<特徴>
プローブペア
<Background Correction>
PM PMからMMを引く事で自ずと
<Summalization>
MM
Avdiff
1 2 3 4 5 6 7 8 9 10 11
<Normalization>
特に無し
PM = (特異的な結合) + (非特異的な結合) + (バックグラウンド)
MM = (非特異的な結合) + (バックグラウンド)
だと考えれば、PMからMMをひけばいい
A:3SD以内に入った(すなわち外れ値ではないと思われる)ペアの数
1≦A≦11
値が負になる場合が出てくる ⇒ 対数とるとNA(欠損値)になる ⇒ エラーになる 17
- 18. MAS5
プローブペア <特徴>
<Background Correction>
PM 4×4の区画からの重み付け平均
MM <Summalization>
1 2 3 4 5 6 7 8 9 10 11 Tukey Biweight法で重み付けをした
Avdiff
<Normalization>
特に無し
<Background Correction>
1 2 3 4 1. 4×4の区画にアレイを分割
2. 各区画でのランキングで小さいほうから2%のところのセルの平
均値(bZk)と、その標準偏差(nZk)を計算
5 6 7 8
3. 各セル毎に、全区画の中心との距離を計算:dk(x,y)
y 9 10 11 12
4. 距離をもとにした重みを計算:1/ (dk(x,y) +100)
5. 各中心からの重み付け平均をバックグランドの推定値とする
13 14 15 16 6. 蛍光強度からバックグランド値を引く
18
x
- 19. MAS5(続き)
<Summalization>
MAS4の値が負になる弱点をロバスト推定の手法(Tukey Biweight法)でカバー
Normalization and Construction of Expression Measures for Affymetrixより 19
- 21. MBEI
<特徴>
複数のアレイでのプローブペアの値を非線形回帰して、
プローブ効果を考慮
推定値を割り出してから、平均を計算する <Background Correction>
開発者達の名前“Li Wong”としても知られている PMからMMを引く事で
<Summalization>
非線形回帰
<Normalization>
1 2 3 4 5 6 7 8 9 10 11
特に無し
1 2 3 4 5 6 7 8 9 10 11 最尤法で回帰係数を推定。
但し、少なくともこれを使うの
1 2 3 4 5 6 7 8 9 10 11
には、10〜20チップは必要
PM-MMの (正規分布ベースだから)
蛍光強度 .
.
.
.
.
. .
.
. . . .
.
. . . .
. . .
. . . .
. . . . .
. .
. . . .
. .
. . .
. . . .
. . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. の平均を使う
. . . .
. . . .
. .
. .
. 21
プローブペア
- 24. RMA法
1色法正規化のデファクトスタンダード <特徴>
<Background Correction>
グローバルバックグラウンド補正(PM
<Background Correction> のみ)
①PMは真のシグナル(指数分布)とバックグラウンド(正規分布) <Summalization>
Median polish (PMのみ)
からなると仮定 <Normalization>
②1チップ毎に、シグナルとバックグラウンドのパラメーターを推定 クオンタイル正規化(箱ひげ図を揃え
る)
③それらパラメーターを利用して、PMを補正
http://bmbolstad.com/t
alks/Bolstad-
%20GenentechBioinf
ormaticsTalk.pdfより
PMの補正式 24
- 25. RMA法(続き)
<Normalization>
クオンタイル正規化(後述)で複数アレイのデータを標準化する
<Summalization>
Median Polish法で線形モデルを求める
http://bmbolstad.com/t
alks/Bolstad-
%20GenentechBioinf
ormaticsTalk.pdfより
25
- 26. RMAから派生した手法
• GCRMA プローブ-ターゲットRNA間のGC結合の強さ
まで考慮したRMA
• RMA+
大規模なアレイ解析(100枚以上)を意識し
た(Extrapolation Strategy)RMA
• RMA++
26
- 28. 2色法の原理
対照群の細胞から 処置群の細胞から
mRNAを抽出 mRNAを抽出
対照群1vs処置群1
逆転写&蛍光標識
対照群2vs処置群2
Cy3 Cy5
競合的
ハイブリダイゼーション反応
対照群3vs処置群3
Cy:Cyanine
28
1色法との違いは、1チップ上で対照群と処置群を同時に見るところ
- 29. 一般的なマイクロアレイ
Cy3が赤の発光をする
のイメージ画像
ハイブリ後 波長Xの光
のプレート
画像重ね合わせ
無色
波長Yの光 赤:正常細胞で多く発現
緑:癌細胞で多く発現
Cy5が緑の発光をする 黄:両細胞で多く発現
黒:両細胞で発現無し
29
- 30. 2色法で提案されている正規化法
• LOWESS(局所重み付け多項式回帰) デファクトスタンダード
• スプライン回帰
• ハウスキーピング遺伝子の利用
• プリントオーダーバイアス補正
• 空間バイアス補正(ヒストグラム法)
…
• 分散安定化法 こっちは1色法にも共通す
• グローバル正規化 るものがあるので後で説明
• クオンタイル正規化
30
- 31. Cy3/Cy5の非線形な系統誤差
Cy5(対照群)に比べ、
MA-plot
Cy3(処置群)で何倍
発現変動したか
M = log2( Cy3 / Cy5 )
Cy5側に系統的に偏る
(Cy3/Cy5の物性の違い)
+しかも蛍光強度に依存
して偏る(非線形)
Cy5とCy3の
対数値の平均
A = ( log2(Cy3)+log2(Cy5)) / 2
31
Wikipediaより
- 32. LOWESS、スプライン回帰
ノンパラトリック回帰の手法の利用
補正前 補正後
この関数を直線にして、
全データに補正をかける
この回帰関数の選び方でLOWESS、LOESS、スプライン回帰等がある 32
- 35. VSN(分散安定化法)
散布図
geneAの発現量 高発現領域(分散小)
低発現領域(分散大)
考えられる理由
チップ2 *そもそも小さい値のほうが、変動
がでかい
例:1⇒2は2倍だが、100⇒101は
1.01倍でしかない
geneAの発現量 *アレイは飽和する
チップ1 ⇒高発現領域はもう
それ以上値が大きく
ならない
低発現領域の遺伝子発現は信頼度が低い ⇒ 低発現領域の分散を小さくする補正 35
- 37. まとめ
既存の正規化手法のアプローチ
1色法→PM、MMをどう使うか
2色法→Cy3、Cy5の系統誤差をどう補正するか
1,2色法共通→標準化、分散安定化、正規分布化
37
- 38. 参考文献
• 各手法の文献
• 門田先生のサイト
• 各メタ解析の文献
• PM/MMの画像:
http://compbio.pbworks.com/w/page/16252906/Microarray%20Normalization%20and%20Expression%20Index
• バイオメトリックス研究所:http://www.biomatrix.co.jp/product/dna_micro/1_1.html
• Affymetrix:http://www.affymetrix.com/jp/products_services/arrays/specific/ht_hgu133_pm_ap.affx
• 京大のサイト:
• Agilent:
• Illumina:
• 製造法の違い:http://www.bio-concierge.com/buyers_guide/nucle2_2_1.php
• 藤淵先生の講義資料(2色法の正規化):http://cellmontage.cbrc.jp/~wataru/to_takeyama/waseda-enshu2010-1.pdf
• MAS5アルゴリズム:http://bioinformatics.picr.man.ac.uk/research/software/simpleaffy/algorithms.html
• MAS5のスライド:
http://www.google.co.jp/url?sa=t&rct=j&q=estimating%20signal%20with%20next%20generation%20affymetrix%20
software&source=web&cd=1&ved=0CD0QFjAA&url=http%3A%2F%2Fstat-
www.berkeley.edu%2Fusers%2Fterry%2Fzarray%2FAffy%2FGL_Workshop%2FHubbell_GLGCpresents.ppt&ei=
4LWPT6SKNYHumAX7gtnxAQ&usg=AFQjCNH3PnznEWu02vK8H7mb6GkW6NW2aQ&sig2=oTlCY4XIIOQYaY5
Vz9Nx8A
• median polishについて:http://www3.atword.jp/kmgs/2008/12/29/median-polishで株価変動のトレンド除去/
• 正規化のベンチマーク:http://affycomp.biostat.jhsph.edu/
38