Mais conteúdo relacionado

Apresentações para você(20)

経験ベイズ木(IBIS 2017)

  1. T1-05 : 経験ベイズ木 関野正志 masashi_sekino@so-netmedia.jp ノードの出力を確率分布でモデル化して、ベイズ推定で統一的に扱う決定木を提案します。 決定木 経験ベイズ木 • 二値/カテゴリカル (二値/多クラス分類木) • 連続値 (二乗誤差に基づく回帰木) タスクに応じた確率分布 ベルヌーイ分布、正規分布、 ポアソン分布、指数分布・・ • 交差エントロピー • Gini係数 周辺尤度ルール 検証データ ノードの出力 (扱う課題) 分割の規準 分割の停止 枝刈りの規準 ベイズ推定 決定木の良さ を活かしつつ パラメータフリー化! 任意の分布に 一般化!
  2. 提案法の位置づけ 経験ベイズ木 一般化線形 モデル 出力の分布を任意の分布に 一般化した決定木モデル 出力の分布を任意の分布に 一般化した線形モデル ノンパラベイズ 要素分布について周辺化して サンプル割り当てについて解 くという点で共通 アンサンブル学習 Random Forest, GBDT, etc. 決定木の替わりに、経験ベ イズ木を弱学習器に用いる アンサンブル学習も可能
  3. 背景 決定木の利点と課題 最大深さ 親ノードの最小サイズ 子ノードの最小サイズ 子ノードの最小比率 子ノードの最大数最小ゲイン 識別タスク 回帰タスク タスク専用の評価基準 ・ 平均情報量 ・ Gini係数 二乗誤差 課題1: 決定木はタスクが限定されている。 課題2: 分割停止のルールがたくさんある。 決定木 • データの標準化などの前処理が要らない。 • 前向き解法で大規模データに適用しやすい。 • 学習したモデルの可読性が高い。 =実務上、モデルの挙動を確認しやすい。 • 組み合わせ特徴量の探索にも使える。 100サンプル 10サンプル 90サンプル 20サンプル 70サンプル 広告主サイト 訪問あり 広告主サイト 訪問なし 類似広告 クリック歴なし 類似広告 クリック歴ありクリック率 高い! クリック率 なかなか! クリック率 低い! など 実用上とても使いやすいモデル!
  4. アプローチ ベイズ推定 周辺尤度 予測分布 尤度 事前分布 ・・事後分布による期待値 確率モデル: 事後分布 ・・ベイズの定理 • モデル(確率モデル、事前分布) とベイズの定理から自然に導出さ れる推定法 • 簡単に実現できる分布は限られる が、モデルが適切なら一般的に高 精度になることが多い。 経験ベイズ法 複数のモデルがあるとき、データ全体 がひとつのモデルから得られていると したときの、モデルの事後分布: 周辺尤度を最大化するモデルを選ぶ(経験ベイズ法) ベイズ推定における モデルの良さを測る尺度 事後確率最大化でモデルをひとつ選ぶ
  5. 提案法 経験ベイズ木 経験ベイズ木 学習データ全体決定木 学習データを説明変数で分割して、別々の予測値を割り当てるモデル 木全体の対数周辺尤度=葉ノードの対数周辺尤度の和 ⇒ 決定木の分割の規準を対数周辺尤度で置き換える。 決定木 20 70 10 広告主サイト 訪問あり 広告主サイト 訪問なし 類似広告 クリック歴なし 類似広告 クリック歴あり 平均クリック率 高い! 平均クリック率 なかなか! 平均クリック率 低い! 100サンプル 10サンプル 90サンプル 20サンプル 70サンプル 広告主サイト 訪問あり 広告主サイト 訪問なし 類似広告 クリック歴なし 類似広告 クリック歴ありクリック率 高い! クリック率 なかなか! クリック率 低い! 20 70 10 広告主サイト 訪問あり 広告主サイト 訪問なし 類似広告 クリック歴なし 類似広告 クリック歴あり クリック率 の予測分布 出力を平均値でなく 分布でモデル化 クリック率 の予測分布 クリック率 の予測分布 分割停止は対数周辺尤度に基づいて決定できる! タスクに応じた任意の分布を用いることができる!
  6. 決定木学習アルゴリズム 指数型分布族の対数周辺尤度 • 各説明変数の各区切り位置で分割したときの gainを計算 ⇒ 高速に評価可能でないと厳しい • 既存の決定木で用いられている平均情報量・ Gini係数などは、1サンプル出し入れしたとき の評価値は、1サンプル分の値の足し引きで計 算できる。 平均情報量 Gini係数 ベルヌーイ分布 正規分布 指数型分布族の対数周辺尤度は十分統計量 の和で計算でき、サンプルを出し入れした ときの値も高速に評価可能 変えるのはここ!
  7. 周辺尤度に基づく枝刈り/Multi-Split 周辺尤度に基づく枝刈り • 決定木全体の対数周辺尤度は葉ノードの対数周辺尤度 の和であり、これを最大化するように枝刈りする。 • 葉ノードから自身以降の部分木の最大対数周辺尤度を 計算して親に渡していき、親単独の対数周辺尤度が、 子ノードの最大対数周辺尤度の和を上回る場合に枝刈 り(子を除く)していくことで、木全体の対数周辺尤 度を最大化する。 連続値説明変数のMulti-Split • 二分割ではgainが得られないが、多分割であれば大きな gainが得られる可能性がある。 • そこで、連続値説明変数を分割位置の探索時に、全ての 異なる値を別のノードとする状態から、Greedyに周辺尤 度を増加させるようにマージを繰り返すことで、連続値 説明変数に対する複数の区切り位置を求め、多分木 (Multi-split tree)を構成する。
  8. ブートストラップ 複製データ1 ブートストラップ 複製データT 予測値 Random Empirical Bayesian Trees Random Forest • 学習データのブートストラップ複製を用いて、要素木を 学習する。 • 要素木の各分割ステップにおいて、説明変数全てから探 索するのではなく、いくつかのランダムに選択した説明 変数の中で探索する。 • 分類タスクでは予測ラベルの多数決、回帰タスクでは予 測値の平均を出力する。 Random Empirical Bayesian Trees • 分割の停止に関しては経験ベイズ木に任せる。 • 要素木の本数、分割に用いる説明変数の個数はREBTでも ハイパーパラメータとなる。 要素木として経験 ベイズ木を用いる 学習データ ・・・ 学習 学習 ・・・ 予測 予測 単独予測値 ・・・ 単独予測値 多数決/平均
  9. CV精度が最も良い深さの決定木/ランダムフォレストとほぼ同等の精度 2クラス分類 二分木+枝刈り 経験ベイズ木 多分木 二分木+枝刈り Random EBTs 多分木 決定木 ランダム フォレスト 深さがベストな決定木との対戦結果 深さがベストなRFとの対戦結果
  10. カテゴリカル分布を用いる二分木+枝刈りの経験ベイズ木/REBTが高精度 多クラス分類 二分木+枝刈り 多分木 マルチベルヌー イ カテゴリカル マルチベルヌー イ カテゴリカル 経験ベイズ木 決定木 二分木+枝刈り 多分木 マルチベルヌー イ カテゴリカル マルチベルヌー イ カテゴリカル Random EBTs ランダム フォレスト
  11. 経験ベイズ木はCV-MSEが最も良い決定木と同等、二分木+枝狩りのREBTが高精度 回帰タスク 二分木+枝刈り 経験ベイズ木 多分木 決定木 ランダム フォレスト 二分木+枝刈り Random EBTs 多分木
  12. • 決定木の分割の規準を対数周辺尤度に置き換える経験ベイズ木を提案 • 経験ベイズ木は • 出力の分布を任意の分布に一般化 • 検証データを用意せずに、対数周辺尤度を規準に枝刈りする手法を提案 • 対数周辺尤度を規準に、連続値説明変数をMulti-splitする手法も提案 • ベンチマークテストの結果、 • 多分木よりも2分木+枝刈りの性能が良い。 • 2クラス分類、回帰タスクでは経験ベイズ木とREBTはそれぞれ深さを 最適化した決定木やランダムフォレストと同等程度 • 多クラス分類ではカテゴリカル分布を用いる経験ベイズ木とREBTがそ れぞれ深さを最適化した決定木やランダムフォレストよりも高精度と なった。 • 多クラス分類では1対他学習がよく取られる方法であるが、これに対 応するマルチベルヌーイよりもカテゴリカル分布での性能が良かった。 まとめ