SlideShare uma empresa Scribd logo
1 de 16
Baixar para ler offline
アンケートの解析
         -カテゴリカルデータの解析法をささっと紹介-




                              東京大学大学院
2012-05-18                 新領域創成科学研究科

Kashiwa.R#3                @tsutatsuta (蔦谷匠)
自己紹介                                    2




       http://tsutatsuta.web.fc2.com/
概要                                                       3


● カテゴリカルデータとは

◯ いろいろな解析法

◯ みかけ上の相関に注意




             話すこと: 「こんなことができますよ」
             話さないこと: 原理,細かい方法,応用
                     詳細は http://bit.ly/tsutatsutaKashiwaR3
カテゴリカルデータとは?                                                                 4

グループで分類されるような変数をもつデータ
 たとえば「アンケート」など
 ・{症状: なし, 軽度, 重度}                順序変数
 ・{性別: 男性, 女性, その他}               名義変数


 vcdパッケージ
  ・Arthritis: 関節炎に関する臨床試験のデータ
  ・DanishWelfare: デンマークにおける福利関連のデータ



> head(Arthritis)                  > head(DanishWelfare)
  ID Treatment Sex Age Improved      Freq Alcohol Income Status          Urban
1 57   Treated Male 27     Some    1    1      <1   0-50   Widow    Copenhagen
2 46   Treated Male 29     None    2    4      <1   0-50   Widow SubCopenhagen
3 77   Treated Male 30     None    3    1      <1   0-50   Widow     LargeCity
4 17   Treated Male 32   Marked    4    8      <1   0-50   Widow          City
5 36   Treated Male 46   Marked    5    6      <1   0-50   Widow       Country
6 23   Treated Male 58   Marked    6   14      <1   0-50 Married    Copenhagen
クロス表の作成                                                          5

複数変数間で度数を集計した表
 カテゴリカルデータ解析の基本形
 xtabs(頻度 ~ 変数1 + 変数2) で簡単に作成できる


 処置 (Treatment) と症状改善度合い (Improved) の組み合わせごとの度数 (# Arthritis)

 > xtabs(~ Improved + Treatment, data = Arthritis)
          Treatment
 Improved Placebo Treated
   None         29     13
   Some          7      7
   Marked        7     21


 アルコール消費量 (Alcohol) と収入 (Income) の組み合わせごとの度数 (# DanishWelfare)
 > xtabs(Freq ~ Alcohol + Income, data = DanishWelfare)
        Income
 Alcohol 0-50 50-100 100-150 >150
     <1   382    748     273 936
     1-2 150     567     437 929
     >2    34    161     144 383
概要              6


◯ カテゴリカルデータとは

● いろいろな解析法

◯ みかけ上の相関に注意
独立性の検定                                                                    7

変数のあいだに関連性があるかを調べる
 Arthritisデータを対象にカイ二乗検定を適用してみる
 この場合はフィッシャーの直接確率検定でも良い (標本サイズ小のときはこちら推奨)
 処置 (Treatment) と症状改善度合い (Improved) のあいだに関連性があるか (# Arthritis)
 > arthritis.imp.tre <- xtabs(~ Improved + Treatment, data = Arthritis)
 > chisq.test(arthritis.imp.tre)

    Pearson's Chi-squared test

 data: arthritis.imp.tre
 X-squared = 13.055, df = 2, p-value = 0.001463
 p値 < 0.0015 で帰無仮説「関連性はない」が棄却されている



場合によって使用する検定法が異なる
 マンテル検定: カテゴリー間の順序関係をスコアに変換
 ウィルコクソン順位和検定: スコアではなく順位の状態で検定
 コクラン・アーミテージ検定: 順序カテゴリーを対象とする
 クラスカル・ワリス検定: 3群以上の比較に拡張したウィルコクソン検定
 マクネマー検定: 変数間に対応関係がある場合に使う
回帰分析                                                                 8

その他の変数で目的変数を説明するモデルを用いる
 SpaceShuttleデータを対象にロジスティック回帰分析を適用してみる
 vcdパッケージのSpaceShuttle(打ち上げテスト時にO-リングが故障したかどうか)
 > library(vcd)
 > head(SpaceShuttle)
   FlightNumber Temperature Pressure Fail nFailures Damage
 1            1          66       50   no         0      0
 2            2          70       50 yes          1      4
 3            3          69       50   no         0      0


 温度で故障を説明するモデルを作成
 > glm(Fail ~ Temperature, data = SpaceShuttle, family = binomial)

 Call: glm(formula = Fail ~ Temperature, family = binomial,
  data = SpaceShuttle)

 Coefficients:
 (Intercept) Temperature
     15.0429     -0.2322

 Degrees of Freedom: 22 Total (i.e. Null); 21 Residual
   (1 observation deleted due to missingness)
 Null Deviance:      28.27
 Residual Deviance: 20.32    AIC: 24.32
回帰分析                               9




温度が低いと故障の可能性も高くなることがわかる
summary() で見ると一応 p値 < 0.01になっている
対応分析                                                                      10

カテゴリカル変数間の関係をうまく表そうとする方法
 相関が高くなるような数値を割り当てて関係を分析する

 DanishWelfareに適用してみる
 婚姻関係と居住域には何らかの関連がありそう (# DanishWelfare)
 > danish.sta.urb <- xtabs(Freq ~ Status + Urban, data = DanishWelfare)
 > round(prop.table(danish.sta.urb, margin = 2), 3)
             Urban
 Status       Copenhagen SubCopenhagen LargeCity City Country
   Widow           0.210         0.148     0.093 0.121  0.064
   Married         0.522         0.700     0.705 0.705  0.773
   Unmarried       0.268         0.151     0.202 0.173  0.163
 > chisq.test(danish.sta.urb)

    Pearson's Chi-squared test

 data: danish.sta.urb
 X-squared = 158.1145, df = 8, p-value < 2.2e-16

 カテゴリーを2変数で表し,相関係数を最大化する最適化問題を解いて結果を図示

 > danish.corresp <- corresp(danish.sta.urb, nf = 2)
 > plot(danish.corresp)
対応分析                            11




婚姻に関して,Copenhagen以外の4地域は同様の傾向
この4地域では婚姻者の割合が比較的大きい
決定木                                                                              12

説明変数を利用して各個体を段階的に分類・カテゴリー予測
 mvpart や rpart パッケージを利用

 irisデータに適用してみる
 種を目的変数に,他の変数 (雄しべ長・幅,雌しべ長・幅) でデータを分類する
 > install.packages("mvpart")
 > library(mvpart)
 > (iris.part <- rpart(Species ~ ., data = iris))
 n= 150

 node), split, n, loss, yval, (yprob)
       * denotes terminal node

  1) root 150 100 setosa (0.33333333 0.33333333 0.33333333)
    2) Petal.Length< 2.45 50   0 setosa (1.00000000 0.00000000 0.00000000) *
    3) Petal.Length>=2.45 100 50 versicolor (0.00000000 0.50000000 0.50000000)
      6) Petal.Width< 1.75 54    5 versicolor (0.00000000 0.90740741 0.09259259)
       12) Petal.Length< 4.95 48    1 versicolor (0.00000000 0.97916667 0.02083333) *
       13) Petal.Length>=4.95 6    2 virginica (0.00000000 0.33333333 0.66666667) *
      7) Petal.Width>=1.75 46    1 virginica (0.00000000 0.02173913 0.97826087) *

 結果を図示
 plot(iris.part)
 > text(iris.part, use.n = TRUE, all = TRUE)
決定木                                                               13




1. Petal.Lengthでsetosaと{versicolor, virginica}が100%分かれる
2. Petal.Widthで残りが分かれる ただし,
                           versicolorに分類されてしまったvirginicaが5/50個体
                           virginicaに分類されてしまったversicolorが1/50個体
概要              14


◯ カテゴリカルデータとは

◯ いろいろな解析法

● みかけ上の相関に注意
つづきはWebで!!                         15


「シンプソンのパラドックス」という有名な問題




簡単に言うと,
集団全体をみたときと,ある変数によって分割した集団をみたときで,
異なる相関関係が見えることがある,というものです
まとめ                                                16


◯ なにはともあれ集計に始まる

◯ 変数の数や種類によりさまざまな解析手法

◯ 解析によって「何を言いたいか」が重要




参考
 藤井良宜. 2010. カテゴリカルデータ解析 (Rで学ぶデータサイエンス 1). 共立出版.
 (カテゴリカルデータの解析や図示について非常に参考になる書籍です)

Mais conteúdo relacionado

Semelhante a カテゴリカルデータの解析 (Kashiwa.R#3)

「生物統計学」演習問題集
「生物統計学」演習問題集「生物統計学」演習問題集
「生物統計学」演習問題集Keiji Miura
 
K030 appstat201203 2variable
K030 appstat201203 2variableK030 appstat201203 2variable
K030 appstat201203 2variablet2tarumi
 
20130716 はじパタ3章前半 ベイズの識別規則
20130716 はじパタ3章前半 ベイズの識別規則20130716 はじパタ3章前半 ベイズの識別規則
20130716 はじパタ3章前半 ベイズの識別規則koba cky
 
不均衡データのクラス分類
不均衡データのクラス分類不均衡データのクラス分類
不均衡データのクラス分類Shintaro Fukushima
 
みどりぼん9章前半
みどりぼん9章前半みどりぼん9章前半
みどりぼん9章前半Akifumi Eguchi
 
R Study Tokyo03
R Study Tokyo03R Study Tokyo03
R Study Tokyo03Yohei Sato
 
データ解析4 確率の復習
データ解析4 確率の復習データ解析4 確率の復習
データ解析4 確率の復習Hirotaka Hachiya
 
正則化による尤度比推定法を応用した多値分類器の改良
正則化による尤度比推定法を応用した多値分類器の改良正則化による尤度比推定法を応用した多値分類器の改良
正則化による尤度比推定法を応用した多値分類器の改良MasatoKikuchi4
 
異常検知と変化検知の1~3章をまとめてみた
異常検知と変化検知の1~3章をまとめてみた異常検知と変化検知の1~3章をまとめてみた
異常検知と変化検知の1~3章をまとめてみたTakahiro Yoshizawa
 
ITエンジニアのための機械学習理論入門 第5章
ITエンジニアのための機械学習理論入門 第5章ITエンジニアのための機械学習理論入門 第5章
ITエンジニアのための機械学習理論入門 第5章Isao Takaesu
 
基本統計量について
基本統計量について基本統計量について
基本統計量についてwada, kazumi
 
みどりぼん読書会 第4章
みどりぼん読書会 第4章みどりぼん読書会 第4章
みどりぼん読書会 第4章Masanori Takano
 
データ解析10 因子分析の基礎
データ解析10 因子分析の基礎データ解析10 因子分析の基礎
データ解析10 因子分析の基礎Hirotaka Hachiya
 
Yamadai.Rデモンストレーションセッション
Yamadai.RデモンストレーションセッションYamadai.Rデモンストレーションセッション
Yamadai.Rデモンストレーションセッション考司 小杉
 
能動学習による多関係データセットの構築
能動学習による多関係データセットの構築能動学習による多関係データセットの構築
能動学習による多関係データセットの構築Hiroshi Kajino
 

Semelhante a カテゴリカルデータの解析 (Kashiwa.R#3) (20)

「生物統計学」演習問題集
「生物統計学」演習問題集「生物統計学」演習問題集
「生物統計学」演習問題集
 
4thNLPDL
4thNLPDL4thNLPDL
4thNLPDL
 
K030 appstat201203 2variable
K030 appstat201203 2variableK030 appstat201203 2variable
K030 appstat201203 2variable
 
20130716 はじパタ3章前半 ベイズの識別規則
20130716 はじパタ3章前半 ベイズの識別規則20130716 はじパタ3章前半 ベイズの識別規則
20130716 はじパタ3章前半 ベイズの識別規則
 
不均衡データのクラス分類
不均衡データのクラス分類不均衡データのクラス分類
不均衡データのクラス分類
 
Rゼミ 3
Rゼミ 3Rゼミ 3
Rゼミ 3
 
みどりぼん9章前半
みどりぼん9章前半みどりぼん9章前半
みどりぼん9章前半
 
R Study Tokyo03
R Study Tokyo03R Study Tokyo03
R Study Tokyo03
 
データ解析4 確率の復習
データ解析4 確率の復習データ解析4 確率の復習
データ解析4 確率の復習
 
正則化による尤度比推定法を応用した多値分類器の改良
正則化による尤度比推定法を応用した多値分類器の改良正則化による尤度比推定法を応用した多値分類器の改良
正則化による尤度比推定法を応用した多値分類器の改良
 
異常検知と変化検知の1~3章をまとめてみた
異常検知と変化検知の1~3章をまとめてみた異常検知と変化検知の1~3章をまとめてみた
異常検知と変化検知の1~3章をまとめてみた
 
Chisq 01
Chisq 01Chisq 01
Chisq 01
 
ITエンジニアのための機械学習理論入門 第5章
ITエンジニアのための機械学習理論入門 第5章ITエンジニアのための機械学習理論入門 第5章
ITエンジニアのための機械学習理論入門 第5章
 
基本統計量について
基本統計量について基本統計量について
基本統計量について
 
実践データ分析基礎
実践データ分析基礎実践データ分析基礎
実践データ分析基礎
 
みどりぼん読書会 第4章
みどりぼん読書会 第4章みどりぼん読書会 第4章
みどりぼん読書会 第4章
 
Rで学ぶロバスト推定
Rで学ぶロバスト推定Rで学ぶロバスト推定
Rで学ぶロバスト推定
 
データ解析10 因子分析の基礎
データ解析10 因子分析の基礎データ解析10 因子分析の基礎
データ解析10 因子分析の基礎
 
Yamadai.Rデモンストレーションセッション
Yamadai.RデモンストレーションセッションYamadai.Rデモンストレーションセッション
Yamadai.Rデモンストレーションセッション
 
能動学習による多関係データセットの構築
能動学習による多関係データセットの構築能動学習による多関係データセットの構築
能動学習による多関係データセットの構築
 

Último

ゲーム理論 BASIC 演習106 -価格の交渉ゲーム-#ゲーム理論 #gametheory #数学
ゲーム理論 BASIC 演習106 -価格の交渉ゲーム-#ゲーム理論 #gametheory #数学ゲーム理論 BASIC 演習106 -価格の交渉ゲーム-#ゲーム理論 #gametheory #数学
ゲーム理論 BASIC 演習106 -価格の交渉ゲーム-#ゲーム理論 #gametheory #数学ssusere0a682
 
UniProject Workshop Make a Discord Bot with JavaScript
UniProject Workshop Make a Discord Bot with JavaScriptUniProject Workshop Make a Discord Bot with JavaScript
UniProject Workshop Make a Discord Bot with JavaScriptyuitoakatsukijp
 
The_Five_Books_Overview_Presentation_2024
The_Five_Books_Overview_Presentation_2024The_Five_Books_Overview_Presentation_2024
The_Five_Books_Overview_Presentation_2024koheioishi1
 
TokyoTechGraduateExaminationPresentation
TokyoTechGraduateExaminationPresentationTokyoTechGraduateExaminationPresentation
TokyoTechGraduateExaminationPresentationYukiTerazawa
 
ゲーム理論 BASIC 演習105 -n人囚人のジレンマモデル- #ゲーム理論 #gametheory #数学
ゲーム理論 BASIC 演習105 -n人囚人のジレンマモデル- #ゲーム理論 #gametheory #数学ゲーム理論 BASIC 演習105 -n人囚人のジレンマモデル- #ゲーム理論 #gametheory #数学
ゲーム理論 BASIC 演習105 -n人囚人のジレンマモデル- #ゲーム理論 #gametheory #数学ssusere0a682
 
生成AIの回答内容の修正を課題としたレポートについて:お茶の水女子大学「授業・研究における生成系AIの活用事例」での講演資料
生成AIの回答内容の修正を課題としたレポートについて:お茶の水女子大学「授業・研究における生成系AIの活用事例」での講演資料生成AIの回答内容の修正を課題としたレポートについて:お茶の水女子大学「授業・研究における生成系AIの活用事例」での講演資料
生成AIの回答内容の修正を課題としたレポートについて:お茶の水女子大学「授業・研究における生成系AIの活用事例」での講演資料Takayuki Itoh
 
東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2
東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2
東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2Tokyo Institute of Technology
 

Último (7)

ゲーム理論 BASIC 演習106 -価格の交渉ゲーム-#ゲーム理論 #gametheory #数学
ゲーム理論 BASIC 演習106 -価格の交渉ゲーム-#ゲーム理論 #gametheory #数学ゲーム理論 BASIC 演習106 -価格の交渉ゲーム-#ゲーム理論 #gametheory #数学
ゲーム理論 BASIC 演習106 -価格の交渉ゲーム-#ゲーム理論 #gametheory #数学
 
UniProject Workshop Make a Discord Bot with JavaScript
UniProject Workshop Make a Discord Bot with JavaScriptUniProject Workshop Make a Discord Bot with JavaScript
UniProject Workshop Make a Discord Bot with JavaScript
 
The_Five_Books_Overview_Presentation_2024
The_Five_Books_Overview_Presentation_2024The_Five_Books_Overview_Presentation_2024
The_Five_Books_Overview_Presentation_2024
 
TokyoTechGraduateExaminationPresentation
TokyoTechGraduateExaminationPresentationTokyoTechGraduateExaminationPresentation
TokyoTechGraduateExaminationPresentation
 
ゲーム理論 BASIC 演習105 -n人囚人のジレンマモデル- #ゲーム理論 #gametheory #数学
ゲーム理論 BASIC 演習105 -n人囚人のジレンマモデル- #ゲーム理論 #gametheory #数学ゲーム理論 BASIC 演習105 -n人囚人のジレンマモデル- #ゲーム理論 #gametheory #数学
ゲーム理論 BASIC 演習105 -n人囚人のジレンマモデル- #ゲーム理論 #gametheory #数学
 
生成AIの回答内容の修正を課題としたレポートについて:お茶の水女子大学「授業・研究における生成系AIの活用事例」での講演資料
生成AIの回答内容の修正を課題としたレポートについて:お茶の水女子大学「授業・研究における生成系AIの活用事例」での講演資料生成AIの回答内容の修正を課題としたレポートについて:お茶の水女子大学「授業・研究における生成系AIの活用事例」での講演資料
生成AIの回答内容の修正を課題としたレポートについて:お茶の水女子大学「授業・研究における生成系AIの活用事例」での講演資料
 
東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2
東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2
東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2
 

カテゴリカルデータの解析 (Kashiwa.R#3)

  • 1. アンケートの解析 -カテゴリカルデータの解析法をささっと紹介- 東京大学大学院 2012-05-18 新領域創成科学研究科 Kashiwa.R#3 @tsutatsuta (蔦谷匠)
  • 2. 自己紹介 2 http://tsutatsuta.web.fc2.com/
  • 3. 概要 3 ● カテゴリカルデータとは ◯ いろいろな解析法 ◯ みかけ上の相関に注意 話すこと: 「こんなことができますよ」 話さないこと: 原理,細かい方法,応用 詳細は http://bit.ly/tsutatsutaKashiwaR3
  • 4. カテゴリカルデータとは? 4 グループで分類されるような変数をもつデータ たとえば「アンケート」など ・{症状: なし, 軽度, 重度} 順序変数 ・{性別: 男性, 女性, その他} 名義変数 vcdパッケージ ・Arthritis: 関節炎に関する臨床試験のデータ ・DanishWelfare: デンマークにおける福利関連のデータ > head(Arthritis) > head(DanishWelfare) ID Treatment Sex Age Improved Freq Alcohol Income Status Urban 1 57 Treated Male 27 Some 1 1 <1 0-50 Widow Copenhagen 2 46 Treated Male 29 None 2 4 <1 0-50 Widow SubCopenhagen 3 77 Treated Male 30 None 3 1 <1 0-50 Widow LargeCity 4 17 Treated Male 32 Marked 4 8 <1 0-50 Widow City 5 36 Treated Male 46 Marked 5 6 <1 0-50 Widow Country 6 23 Treated Male 58 Marked 6 14 <1 0-50 Married Copenhagen
  • 5. クロス表の作成 5 複数変数間で度数を集計した表 カテゴリカルデータ解析の基本形 xtabs(頻度 ~ 変数1 + 変数2) で簡単に作成できる 処置 (Treatment) と症状改善度合い (Improved) の組み合わせごとの度数 (# Arthritis) > xtabs(~ Improved + Treatment, data = Arthritis) Treatment Improved Placebo Treated None 29 13 Some 7 7 Marked 7 21 アルコール消費量 (Alcohol) と収入 (Income) の組み合わせごとの度数 (# DanishWelfare) > xtabs(Freq ~ Alcohol + Income, data = DanishWelfare) Income Alcohol 0-50 50-100 100-150 >150 <1 382 748 273 936 1-2 150 567 437 929 >2 34 161 144 383
  • 6. 概要 6 ◯ カテゴリカルデータとは ● いろいろな解析法 ◯ みかけ上の相関に注意
  • 7. 独立性の検定 7 変数のあいだに関連性があるかを調べる Arthritisデータを対象にカイ二乗検定を適用してみる この場合はフィッシャーの直接確率検定でも良い (標本サイズ小のときはこちら推奨) 処置 (Treatment) と症状改善度合い (Improved) のあいだに関連性があるか (# Arthritis) > arthritis.imp.tre <- xtabs(~ Improved + Treatment, data = Arthritis) > chisq.test(arthritis.imp.tre) Pearson's Chi-squared test data: arthritis.imp.tre X-squared = 13.055, df = 2, p-value = 0.001463 p値 < 0.0015 で帰無仮説「関連性はない」が棄却されている 場合によって使用する検定法が異なる マンテル検定: カテゴリー間の順序関係をスコアに変換 ウィルコクソン順位和検定: スコアではなく順位の状態で検定 コクラン・アーミテージ検定: 順序カテゴリーを対象とする クラスカル・ワリス検定: 3群以上の比較に拡張したウィルコクソン検定 マクネマー検定: 変数間に対応関係がある場合に使う
  • 8. 回帰分析 8 その他の変数で目的変数を説明するモデルを用いる SpaceShuttleデータを対象にロジスティック回帰分析を適用してみる vcdパッケージのSpaceShuttle(打ち上げテスト時にO-リングが故障したかどうか) > library(vcd) > head(SpaceShuttle) FlightNumber Temperature Pressure Fail nFailures Damage 1 1 66 50 no 0 0 2 2 70 50 yes 1 4 3 3 69 50 no 0 0 温度で故障を説明するモデルを作成 > glm(Fail ~ Temperature, data = SpaceShuttle, family = binomial) Call: glm(formula = Fail ~ Temperature, family = binomial, data = SpaceShuttle) Coefficients: (Intercept) Temperature 15.0429 -0.2322 Degrees of Freedom: 22 Total (i.e. Null); 21 Residual (1 observation deleted due to missingness) Null Deviance: 28.27 Residual Deviance: 20.32 AIC: 24.32
  • 9. 回帰分析 9 温度が低いと故障の可能性も高くなることがわかる summary() で見ると一応 p値 < 0.01になっている
  • 10. 対応分析 10 カテゴリカル変数間の関係をうまく表そうとする方法 相関が高くなるような数値を割り当てて関係を分析する DanishWelfareに適用してみる 婚姻関係と居住域には何らかの関連がありそう (# DanishWelfare) > danish.sta.urb <- xtabs(Freq ~ Status + Urban, data = DanishWelfare) > round(prop.table(danish.sta.urb, margin = 2), 3) Urban Status Copenhagen SubCopenhagen LargeCity City Country Widow 0.210 0.148 0.093 0.121 0.064 Married 0.522 0.700 0.705 0.705 0.773 Unmarried 0.268 0.151 0.202 0.173 0.163 > chisq.test(danish.sta.urb) Pearson's Chi-squared test data: danish.sta.urb X-squared = 158.1145, df = 8, p-value < 2.2e-16 カテゴリーを2変数で表し,相関係数を最大化する最適化問題を解いて結果を図示 > danish.corresp <- corresp(danish.sta.urb, nf = 2) > plot(danish.corresp)
  • 11. 対応分析 11 婚姻に関して,Copenhagen以外の4地域は同様の傾向 この4地域では婚姻者の割合が比較的大きい
  • 12. 決定木 12 説明変数を利用して各個体を段階的に分類・カテゴリー予測 mvpart や rpart パッケージを利用 irisデータに適用してみる 種を目的変数に,他の変数 (雄しべ長・幅,雌しべ長・幅) でデータを分類する > install.packages("mvpart") > library(mvpart) > (iris.part <- rpart(Species ~ ., data = iris)) n= 150 node), split, n, loss, yval, (yprob) * denotes terminal node 1) root 150 100 setosa (0.33333333 0.33333333 0.33333333) 2) Petal.Length< 2.45 50 0 setosa (1.00000000 0.00000000 0.00000000) * 3) Petal.Length>=2.45 100 50 versicolor (0.00000000 0.50000000 0.50000000) 6) Petal.Width< 1.75 54 5 versicolor (0.00000000 0.90740741 0.09259259) 12) Petal.Length< 4.95 48 1 versicolor (0.00000000 0.97916667 0.02083333) * 13) Petal.Length>=4.95 6 2 virginica (0.00000000 0.33333333 0.66666667) * 7) Petal.Width>=1.75 46 1 virginica (0.00000000 0.02173913 0.97826087) * 結果を図示 plot(iris.part) > text(iris.part, use.n = TRUE, all = TRUE)
  • 13. 決定木 13 1. Petal.Lengthでsetosaと{versicolor, virginica}が100%分かれる 2. Petal.Widthで残りが分かれる ただし, versicolorに分類されてしまったvirginicaが5/50個体 virginicaに分類されてしまったversicolorが1/50個体
  • 14. 概要 14 ◯ カテゴリカルデータとは ◯ いろいろな解析法 ● みかけ上の相関に注意
  • 15. つづきはWebで!! 15 「シンプソンのパラドックス」という有名な問題 簡単に言うと, 集団全体をみたときと,ある変数によって分割した集団をみたときで, 異なる相関関係が見えることがある,というものです
  • 16. まとめ 16 ◯ なにはともあれ集計に始まる ◯ 変数の数や種類によりさまざまな解析手法 ◯ 解析によって「何を言いたいか」が重要 参考 藤井良宜. 2010. カテゴリカルデータ解析 (Rで学ぶデータサイエンス 1). 共立出版. (カテゴリカルデータの解析や図示について非常に参考になる書籍です)