「樹木モデルとランダムフォレスト－機械学習による分類・予測－」－データマイニングセミナー

データマイニングセミナー
2010/10/07

樹木モデルとランダムフォレスト
Tree-based Models and Random Forests

－機械学習による分類・予測－

hamadakoichi
濱田晃一

AGENDA
◆Random Forestとは
◆樹木モデル
◆樹木モデルとは
◆R言語での実行
◆集団学習
◆Random Forest
◆アルゴリズム
◆R言語での実行
◆Mahout：Random Forest
◆参考資料

hamadakoichi
濱田晃一
http://iddy.jp/profile/hamadakoichi

3

資料

各種講師資料を公開しています

http://www.slideshare.net/hamadakoichi

Random Forest とは

集団学習により

7



高精度の分類・予測を実現する

8




機械学習アルゴリズム

9




機械学習アルゴリズム

“Random forests”
(L. Breiman, 2001)

10

樹木モデルの集団学習により
高精度の分類・予測を行う
学習用データ

Random Sampling 1 Sampling 2 … Sampling B

Forest
Forest
Tree 1 Tree 2 … Tree B

予測対象

Result 1 Result 2 … Result B

分類・予測結果 11

Random Forest ：長所
Random Forest の
主な長所

・精度が高い
・説明変数が数百、数千でも効率的に作動
・目的変数に対する説明変数の重要度を推定
・欠損値を持つデータでも有効に動作
・個体数がアンバランスでもエラーバランスが保たれる

12

樹木モデル、Support Vector Machine(SVM)、等
他分類器に比べ分類・予測精度が高い
例：11人の著者の10テーマ110編の文章分類
精度：高い（49個の特徴語。100回の学習・テストでの比較）

Random Forest
ＢａｇｇｉｎｇＡｄａＢｏｏｓｔ
F1値平均

ニューラルネット
樹木モデル (量子ベクトル化)
(CART)
ＳＶＭ
K近傍法

カーネルK近傍法

引用元：「ESTRELA」 2009年05月号統計的テキスト解析(15) ～テキストの分類分析2～
http://mjin.doshisha.ac.jp/R/200905_70.pdf
13

学習用データ


Forest
Forest

予測対象



樹木モデルとは
目的変数に影響が大きい変数・境界値・順序を
算出することができる

18


影響大
データ木構造

19


影響大
データ木構造

今まで気づかなかった重要な条件を知り
サービスやプロセスを改良することができる 20

解決する課題
■丌具合発生率が大きい製造工程にはどのような特徴があるのか？


解決する課題
⇒ 丌具合原因の特定・改善


解決する課題
■広告効果が高いユーザーにはどのような特徴があるのか？


解決する課題
⇒ 投資対効果の高いターゲット選定


解決する課題
■優良ユーザーはどのような楽しみかたをしているか？


解決する課題
⇒ より継続的に楽しんでもらえるサービス改良


木構造の条件分岐で
分類・予測(回帰)を行う
例：植物の分類
Iris（アヤメ）データ
花葉と花びらの長さ・幅から
種類の分類構造算出
説明変数目的変数
花葉（長さ・幅）花びら（長さ・幅）種類

28

例：植物の分類分類花びらの長さ
花葉と花びらの長さ・幅から花びらの幅
setosa

virginica

versicolor

29

例：植物の分類分類花びらの長さ
花葉と花びらの長さ・幅から花びらの幅

virginica setosa

setosa
virginica
versicolor virginica

versicolor virginica

30

例：ブレーキ後停車距離予測
carsデータ
車速度と
ブレーキ後の停車距離の関係構造算出
ブレーキ後の
車の速度
停車までの距離

31

例：ブレーキ後停車距離予測回帰（予測）スピード(speed)
carsデータ
車速度と
ブレーキ後の
車の速度
停車までの距離

ブレーキ後の停車距離

32

例：ブレーキ後停車距離予測回帰（予測）スピード(speed)
carsデータ
車速度と

ブレーキ後の停車距離

33

樹木モデル：分岐基準
条件ノード A を条件ノードALとARに分けるとき
以下のΔIを最大化する分割を行う
Classification And Regression Trees (CART)
(Breiman et al, 1984)
分類木

Entropy
GINI係数

※ ：条件ノード A でクラス k をとる確率
回帰木

尤離度(deviance)

※ ：条件ノード A での目標変数 t の平均値 34

樹木モデルの実行

パッケージインストール
# 樹木モデルのインストール
install.packages("mvpart")
library(mvpart)

36


# 樹木モデルのインストール
install.packages("mvpart")
library(mvpart)

# Species(種類)を分類変数として樹木モデルを生成
# iris（アヤメ）データを使用
tree <- rpart(Species~., data = iris, method = "class")

サンプルデータ
iris(アヤメ)データ：よい性質を持ちよく使用される
(R環境で標準提供されている) 説明変数目的変数
Sepal.Length Sepal.Width Petal.Length Petal.Width Species
5.1 3.5 1.4 0.2 setosa
4.9 3.0 1.4 0.2 setosa
4.7 3.2 1.3 0.2 setosa
4.6 3.1 1.5 0.2 setosa
5.0 3.6 1.4 0.2 setosa
Iris Sanguinea 37


生成された樹木モデルの表示
#Tree の表示 (全分岐での分布表示(all=TRUE) 、個数も表示(use.n =TRUE)）
plot.rpart(tree)
text.rpart(tree, all = TRUE, use.n = TRUE)
花びらの長さ

花びらの幅

setosa

versicolor virginica 38

樹木モデルを用いた予測

predtree <- predict(tree, data = newdata, type = "class")

39

学習・予測データに分け
学習用データで樹木モデル作成

data <- iris
# 学習用データとテスト用データをランダムサンプリング
ndata <- nrow(data)#データ行数
ridx <- sample(ndata, ndata*0.5) #50%のランダム抽出で学習・予測データ分割
data.learn <- data[ridx,] #学習用データ作成
data.test <- data[-ridx,] #予測用データ作成

# Species(種類)を分類変数として樹木モデルを生成
tree <- rpart(Species~., data = data.learn, method = "class")

40



# 樹木モデルを用いた予測 (新データ data.test に対する種類分類を予測）
predtree <- predict(tree, data.test, type = "class")

41



# 樹木モデルを用いた予測 (新データ data.test に対する種類分類を予測）
predtree <- predict(tree, data.test, type = "class")

# 解との比較
table(predtree,data.test$Species)

予測結果： Tree 予測
predtree setosa versicolor virginica
setosa 24 0 0
versicolor 0 22 3
virginica 0 3 23

42

学習用データ


Forest
Forest

予測対象



集団学習とは

46

集団学習とは
複数モデル生成し結果を統合
精度を向上させる機械学習のアルゴリズム

47

集団学習とは

■異なるサンプル、異なる重みの
複数の学習モデルを生成

48

集団学習とは


■各モデルの結果を統合・組合せにより
精度・汎用性を向上

49

集団学習とは


結果の統合・分類：多数決
・回帰：平均値

50

集団学習とは


結果の統合・分類：多数決
・回帰：平均値

51

Random Forest
樹木モデルの集団学習による
高精度の分類・予測(回帰)
学習用データ


Forest
Forest

予測対象



学習と予測

学習

55

Random Forest アルゴリズム：学習

Random
Forest

56


ブートストラップサンプリング
学習データから重複を許しランダムに B組のサンプル集合抽出

学習用データ


Forest

57


ランダム抽出変数での樹木モデル生成
各ノード展開で M個の説明変数からm個変数をランダム抽出

学習用データ


Forest
Tree 1

58

全サンプル集合で
樹木モデルを生成
学習用データ


Forest

59

複数の樹木モデル
= Forest (森) モデル
学習用データ


Forest

60

複数の樹木モデル
= Forest (森) モデル
学習用データ


Forest
Forest

61

学習と予測

予測

62

Random Forest アルゴリズム
全樹木モデルで
分類・回帰予測の結果算出
学習用データ


Forest
Forest

予測対象


63


全樹木モデルの結果を統合する
分類：多数決、回帰予測：平均

学習用データ


Forest
Forest

予測対象



樹木モデルの集団学習による
高精度の分類・予測(回帰)
学習用データ


Forest
Forest

予測対象



Random Forest の
主な長所

・精度が高い
・説明変数が数百、数千でも効率的に作動
・目的変数に対する説明変数の重要度を推定
・欠損値を持つデータでも有効に動作
・個体数がアンバランスでもエラーバランスが保たれる

66

樹木モデル、Support Vector Machine(SVM)、等
他分類器に比べ分類・予測精度が高い
例：11人の著者の10テーマ110編の文章分類
精度：高い（49個の特徴語。100回の学習・テストでの比較）

Random Forest
ＢａｇｇｉｎｇＡｄａＢｏｏｓｔ
F1値平均

ニューラルネット
樹木モデル (量子ベクトル化)
(CART)
ＳＶＭ
K近傍法

カーネルK近傍法

引用元：「ESTRELA」 2009年05月号統計的テキスト解析(15) ～テキストの分類分析2～
http://mjin.doshisha.ac.jp/R/200905_70.pdf
67

Random Forest の実行

# randomForest のインストール
install.packages("randomForest")
library(randomForest)

69


学習用・予測用データ作成
data <- iris
# 学習用データとテスト用データをランダムサンプリング
ndata <- nrow(data)#データ行数
ridx <- sample(ndata, ndata*0.5) #50%のランダム抽出で学習・予測データ分割
data.learn <- data[ridx,] #学習用データ作成
data.test <- data[-ridx,] #予測用データ作成
サンプルデータ
iris(アヤメ)データ：よい性質を持ちよく使用される
(R環境で標準提供されている) 説明変数目的変数
Sepal.Length Sepal.Width Petal.Length Petal.Width Species
5.1 3.5 1.4 0.2 setosa
4.9 3.0 1.4 0.2 setosa
4.7 3.2 1.3 0.2 setosa
4.6 3.1 1.5 0.2 setosa
5.0 3.6 1.4 0.2 setosa
Iris Sanguinea 70


Random Forest の生成
# Species(種類)を分類変数として Random Forest を生成
forest <- randomForest(Species~.,data = data.learn)

71


Random Forest の生成
# Species(種類)を分類変数として Random Forest を生成
forest <- randomForest(Species~.,data = data.learn)

関数
randomForest(formula, data = NULL, …, ..., subset, na.action=na.fail)

主要な引数内容
formula モデルの形式
x, y 目的変数と説明変数 (formula 代わりに用いる）
data, subset 用いるデータ
na.action 欠損値の表記型の指定
ntree 生成する木の数 (デフォルトは 500)
mtry 分岐に用いる変数の数 (デフォルト, 分類 √M, 回帰 M/3, M:変数総数)
importance 変数の重要度出力 (デフォルトは FALSE）

72

生成されたForest を用いた
高精度の予測
# Forestを用いた予測の実行
pred.forest <- predict(forest, newdata = data.test, type = "class")

# 解との比較
table(pred.forest, data.test[,5])

73

高精度の予測

# 解との比較

予測結果： Random Forest 予測
pred.forest setosa versicolor virginica
setosa 27 0 0
versicolor 0 28 0
virginica 0 0 20

分類間違いなし

74

高精度の予測

# 解との比較

予測結果： Random Forest 予測 ※比較参照予測結果：分類木 (rpart)
pred.forest setosa versicolor virginica pred.dt setosa versicolor virginica
setosa 27 0 0 setosa 27 0 0
versicolor 0 28 0 versicolor 0 26 1
virginica 0 0 20 virginica 0 2 19

分類間違いなし

75

樹木モデルとの比較
きわどいところも
分類できている

予測結果： Random Forest 予測 ※比較参照予測結果：分類木 (rpart)
pred.forest setosa versicolor virginica pred.dt setosa versicolor virginica
setosa 27 0 0 setosa 27 0 0
versicolor 0 28 0 versicolor 0 26 1
virginica 0 0 20 virginica 0 2 19

分類木のエラー箇所

virginica

setosa

virginica
versicolor

76

重要度算出
各変数の目的変数に対する重要度
重要度グラフ表示
#重要度グラフ表示
varImpPlot(forest)

#重要度出力
Importance(forest)

重要度出力
> importance(forest)
MeanDecreaseGini
Sepal.Length 4.791776
Sepal.Width 2.102875
Petal.Length 20.811569
Petal.Width 20.627166

77

Mahoutとは
Open Sourceでスケーラブルな
機械学習・データマイニングのライブラリ

・Apache プロジェクト
・機械学習・データマイニングのライブラリ
・Java オープンソース
・Hadoop（大規模分散処理基盤）上で動作
（Hadoop：象, Mahout: 象使い）

http://mahout.apache.org
79

Mahoutとは


80

Mahoutとは


81

Mahoutとは


82

Mahoutとは


83

Mahoutとは

・Hadoop：象, Mahout: 象使い

84

Mahoutとは

・Hadoop：象, Mahout: 象使い

85

Mahoutとは

Applications

Examples

Freq.
Genetic Pattern Classification Clustering Recommenders
Mining

Math
Utilities Collections Apache
Vectors/Matrices/
Lucene/Vectorizer (primitives) Hadoop
SVD

http://cwiki.apache.org/confluence/display/MAHOUT/Algorithms
http://www.slideshare.net/gsingers/intro-to-apache-mahout 86

Mahout : Random Forest
mahout.df(Decision Forest) Packageで実装されている

87

Mahout : Random Forest
mahout.df(Decision Forest) Packageで実装されている
主要クラス
Decision Tree構築： org.apache.mahout.df.builder.TreeBuilder
Interface 内容
TreeBuilder 樹木モデル(Decision Tree)構築のInterface
Class 内容
DefaultTreeBuilder 樹木モデル(Decision Tree)構築の実装クラス
Forest予測： org.apache.mahout.df.callback
Class 内容
ForestPredictions Decision Forestの予測結果を算出する

Decision Forest構築： org.apache.mahout.df.mapreduce
Class 内容
Builder Decision Forestを構築する
Decision Forest： org.apache.mahout.df.DecisionForest
Ｉｎｔｅｒｆａｃｅ内容
DecisionForest Decision Forest (Decision Tree 集合) 表現・データ取得 88

参考資料：R／CART／Random Forest

Rによるデータサイエンス Rによる統計解析
～データ解析の基礎から最新手法まで～

http://www.slideshare.net/hamadakoichi/r-r-3201648

■CART：
L. Breiman, J. H. Friedman, R. A. Olshen and. C. J. Stone:
“Classification and Regression Trees.”, Wadsworth (1984)
■Random Forest：
L. Breiman. Random forests. Machine Learning, 45, 5–32 (2001)

参考資料：Mahout/Hadoop/Recommendation

http://www.slideshare.net/hamadakoichi/mahoutweb http://www.slideshare.net/karubi/web-mining-0620

http://www.slideshare.net/yanaoki/hadoop-4113186 http://www.slideshare.net/hamadakoichi/ss-4552939

ご清聴ありがとうございました

92

「樹木モデルとランダムフォレスト－機械学習による分類・予測－」－データマイニングセミナー

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Destaque

Destaque (8)

Mais de Koichi Hamada

Mais de Koichi Hamada (20)

Último

Último (10)

「樹木モデルとランダムフォレスト－機械学習による分類・予測－」－データマイニングセミナー