カテゴリカルデータの解析 (Kashiwa.R#3)

アンケートの解析
-カテゴリカルデータの解析法をささっと紹介-

東京大学大学院
2012-05-18 新領域創成科学研究科

Kashiwa.R#3 @tsutatsuta (蔦谷匠)

自己紹介 2

http://tsutatsuta.web.fc2.com/

概要 3

● カテゴリカルデータとは

◯ いろいろな解析法

◯ みかけ上の相関に注意

話すこと: 「こんなことができますよ」
話さないこと: 原理，細かい方法，応用
詳細は http://bit.ly/tsutatsutaKashiwaR3

カテゴリカルデータとは？ 4

グループで分類されるような変数をもつデータ
たとえば「アンケート」など
・{症状: なし, 軽度, 重度} 順序変数
・{性別: 男性, 女性, その他} 名義変数

vcdパッケージ
・Arthritis: 関節炎に関する臨床試験のデータ
・DanishWelfare: デンマークにおける福利関連のデータ

> head(Arthritis) > head(DanishWelfare)
ID Treatment Sex Age Improved Freq Alcohol Income Status Urban
1 57 Treated Male 27 Some 1 1 <1 0-50 Widow Copenhagen
2 46 Treated Male 29 None 2 4 <1 0-50 Widow SubCopenhagen
3 77 Treated Male 30 None 3 1 <1 0-50 Widow LargeCity
4 17 Treated Male 32 Marked 4 8 <1 0-50 Widow City
5 36 Treated Male 46 Marked 5 6 <1 0-50 Widow Country
6 23 Treated Male 58 Marked 6 14 <1 0-50 Married Copenhagen

クロス表の作成 5

複数変数間で度数を集計した表
カテゴリカルデータ解析の基本形
xtabs(頻度 ~ 変数1 + 変数2) で簡単に作成できる

処置 (Treatment) と症状改善度合い (Improved) の組み合わせごとの度数 (# Arthritis)

> xtabs(~ Improved + Treatment, data = Arthritis)
Treatment
Improved Placebo Treated
None 29 13
Some 7 7
Marked 7 21

アルコール消費量 (Alcohol) と収入 (Income) の組み合わせごとの度数 (# DanishWelfare)
> xtabs(Freq ~ Alcohol + Income, data = DanishWelfare)
Income
Alcohol 0-50 50-100 100-150 >150
<1 382 748 273 936
1-2 150 567 437 929
>2 34 161 144 383

概要 6

◯ カテゴリカルデータとは

● いろいろな解析法

◯ みかけ上の相関に注意

独立性の検定 7

変数のあいだに関連性があるかを調べる
Arthritisデータを対象にカイ二乗検定を適用してみる
この場合はフィッシャーの直接確率検定でも良い (標本サイズ小のときはこちら推奨)
処置 (Treatment) と症状改善度合い (Improved) のあいだに関連性があるか (# Arthritis)
> arthritis.imp.tre <- xtabs(~ Improved + Treatment, data = Arthritis)
> chisq.test(arthritis.imp.tre)

Pearson's Chi-squared test

data: arthritis.imp.tre
X-squared = 13.055, df = 2, p-value = 0.001463
p値 < 0.0015 で帰無仮説「関連性はない」が棄却されている

場合によって使用する検定法が異なる
マンテル検定: カテゴリー間の順序関係をスコアに変換
ウィルコクソン順位和検定: スコアではなく順位の状態で検定
コクラン・アーミテージ検定: 順序カテゴリーを対象とする
クラスカル・ワリス検定: 3群以上の比較に拡張したウィルコクソン検定
マクネマー検定: 変数間に対応関係がある場合に使う

回帰分析 8

その他の変数で目的変数を説明するモデルを用いる
SpaceShuttleデータを対象にロジスティック回帰分析を適用してみる
vcdパッケージのSpaceShuttle(打ち上げテスト時にO-リングが故障したかどうか)
> library(vcd)
> head(SpaceShuttle)
FlightNumber Temperature Pressure Fail nFailures Damage
1 1 66 50 no 0 0
2 2 70 50 yes 1 4
3 3 69 50 no 0 0

温度で故障を説明するモデルを作成
> glm(Fail ~ Temperature, data = SpaceShuttle, family = binomial)

Call: glm(formula = Fail ~ Temperature, family = binomial,
data = SpaceShuttle)

Coefficients:
(Intercept) Temperature
15.0429 -0.2322

Degrees of Freedom: 22 Total (i.e. Null); 21 Residual
(1 observation deleted due to missingness)
Null Deviance: 28.27
Residual Deviance: 20.32 AIC: 24.32

回帰分析 9

温度が低いと故障の可能性も高くなることがわかる
summary() で見ると一応 p値 < 0.01になっている

対応分析 10

カテゴリカル変数間の関係をうまく表そうとする方法
相関が高くなるような数値を割り当てて関係を分析する

DanishWelfareに適用してみる
婚姻関係と居住域には何らかの関連がありそう (# DanishWelfare)
> danish.sta.urb <- xtabs(Freq ~ Status + Urban, data = DanishWelfare)
> round(prop.table(danish.sta.urb, margin = 2), 3)
Urban
Status Copenhagen SubCopenhagen LargeCity City Country
Widow 0.210 0.148 0.093 0.121 0.064
Married 0.522 0.700 0.705 0.705 0.773
Unmarried 0.268 0.151 0.202 0.173 0.163
> chisq.test(danish.sta.urb)

Pearson's Chi-squared test

data: danish.sta.urb
X-squared = 158.1145, df = 8, p-value < 2.2e-16

カテゴリーを2変数で表し，相関係数を最大化する最適化問題を解いて結果を図示

> danish.corresp <- corresp(danish.sta.urb, nf = 2)
> plot(danish.corresp)

対応分析 11

婚姻に関して，Copenhagen以外の4地域は同様の傾向
この4地域では婚姻者の割合が比較的大きい

決定木 12

説明変数を利用して各個体を段階的に分類・カテゴリー予測
mvpart や rpart パッケージを利用

irisデータに適用してみる
種を目的変数に，他の変数 (雄しべ長・幅，雌しべ長・幅) でデータを分類する
> install.packages("mvpart")
> library(mvpart)
> (iris.part <- rpart(Species ~ ., data = iris))
n= 150

node), split, n, loss, yval, (yprob)
* denotes terminal node

1) root 150 100 setosa (0.33333333 0.33333333 0.33333333)
2) Petal.Length< 2.45 50 0 setosa (1.00000000 0.00000000 0.00000000) *
3) Petal.Length>=2.45 100 50 versicolor (0.00000000 0.50000000 0.50000000)
6) Petal.Width< 1.75 54 5 versicolor (0.00000000 0.90740741 0.09259259)
12) Petal.Length< 4.95 48 1 versicolor (0.00000000 0.97916667 0.02083333) *
13) Petal.Length>=4.95 6 2 virginica (0.00000000 0.33333333 0.66666667) *
7) Petal.Width>=1.75 46 1 virginica (0.00000000 0.02173913 0.97826087) *

結果を図示
plot(iris.part)
> text(iris.part, use.n = TRUE, all = TRUE)

決定木 13

1. Petal.Lengthでsetosaと{versicolor, virginica}が100%分かれる
2. Petal.Widthで残りが分かれるただし，
versicolorに分類されてしまったvirginicaが5/50個体
virginicaに分類されてしまったversicolorが1/50個体

概要 14

◯ カテゴリカルデータとは

◯ いろいろな解析法

● みかけ上の相関に注意

つづきはWebで！！ 15

「シンプソンのパラドックス」という有名な問題

簡単に言うと，
集団全体をみたときと，ある変数によって分割した集団をみたときで，
異なる相関関係が見えることがある，というものです

まとめ 16

◯ なにはともあれ集計に始まる

◯ 変数の数や種類によりさまざまな解析手法

◯ 解析によって「何を言いたいか」が重要

参考
藤井良宜. 2010. カテゴリカルデータ解析 (Rで学ぶデータサイエンス 1). 共立出版.
(カテゴリカルデータの解析や図示について非常に参考になる書籍です)

カテゴリカルデータの解析 (Kashiwa.R#3)

Recomendados

Recomendados

Mais conteúdo relacionado

Semelhante a カテゴリカルデータの解析 (Kashiwa.R#3)

Semelhante a カテゴリカルデータの解析 (Kashiwa.R#3) (20)

Último

Último (7)

カテゴリカルデータの解析 (Kashiwa.R#3)