Enviar pesquisa
Carregar
カテゴリカルデータの解析 (Kashiwa.R#3)
•
4 gostaram
•
3,897 visualizações
Takumi Tsutaya
Seguir
Rを利用したカテゴリカルデータの解析法について,さらっと紹介しています.
Leia menos
Leia mais
Educação
Denunciar
Compartilhar
Denunciar
Compartilhar
1 de 16
Baixar agora
Baixar para ler offline
Recomendados
Rによる分類木 入門
Rによる分類木 入門
Hiro47
エクセルで統計分析 統計プログラムHADについて
エクセルで統計分析 統計プログラムHADについて
Hiroshi Shimizu
Survival analysis0702
Survival analysis0702
Nobuaki Oshiro
Survival analysis0702 2
Survival analysis0702 2
Nobuaki Oshiro
パターン認識 第10章 決定木
パターン認識 第10章 決定木
Miyoshi Yuya
効果測定入門 Rによる傾向スコア解析
効果測定入門 Rによる傾向スコア解析
aa_aa_aa
An introduction to statistical learning 4 logistic regression manu
An introduction to statistical learning 4 logistic regression manu
Hideyuki Takahashi
Meta analysis of microarray
Meta analysis of microarray
弘毅 露崎
Recomendados
Rによる分類木 入門
Rによる分類木 入門
Hiro47
エクセルで統計分析 統計プログラムHADについて
エクセルで統計分析 統計プログラムHADについて
Hiroshi Shimizu
Survival analysis0702
Survival analysis0702
Nobuaki Oshiro
Survival analysis0702 2
Survival analysis0702 2
Nobuaki Oshiro
パターン認識 第10章 決定木
パターン認識 第10章 決定木
Miyoshi Yuya
効果測定入門 Rによる傾向スコア解析
効果測定入門 Rによる傾向スコア解析
aa_aa_aa
An introduction to statistical learning 4 logistic regression manu
An introduction to statistical learning 4 logistic regression manu
Hideyuki Takahashi
Meta analysis of microarray
Meta analysis of microarray
弘毅 露崎
「生物統計学」演習問題集
「生物統計学」演習問題集
Keiji Miura
4thNLPDL
4thNLPDL
Sho Takase
K030 appstat201203 2variable
K030 appstat201203 2variable
t2tarumi
20130716 はじパタ3章前半 ベイズの識別規則
20130716 はじパタ3章前半 ベイズの識別規則
koba cky
不均衡データのクラス分類
不均衡データのクラス分類
Shintaro Fukushima
Rゼミ 3
Rゼミ 3
tarokun3
みどりぼん9章前半
みどりぼん9章前半
Akifumi Eguchi
R Study Tokyo03
R Study Tokyo03
Yohei Sato
データ解析4 確率の復習
データ解析4 確率の復習
Hirotaka Hachiya
正則化による尤度比推定法を応用した多値分類器の改良
正則化による尤度比推定法を応用した多値分類器の改良
MasatoKikuchi4
異常検知と変化検知の1~3章をまとめてみた
異常検知と変化検知の1~3章をまとめてみた
Takahiro Yoshizawa
Chisq 01
Chisq 01
akira_11
ITエンジニアのための機械学習理論入門 第5章
ITエンジニアのための機械学習理論入門 第5章
Isao Takaesu
基本統計量について
基本統計量について
wada, kazumi
実践データ分析基礎
実践データ分析基礎
TOSHI STATS Co.,Ltd.
みどりぼん読書会 第4章
みどりぼん読書会 第4章
Masanori Takano
Rで学ぶロバスト推定
Rで学ぶロバスト推定
Shintaro Fukushima
データ解析10 因子分析の基礎
データ解析10 因子分析の基礎
Hirotaka Hachiya
Yamadai.Rデモンストレーションセッション
Yamadai.Rデモンストレーションセッション
考司 小杉
能動学習による多関係データセットの構築
能動学習による多関係データセットの構築
Hiroshi Kajino
ゲーム理論 BASIC 演習106 -価格の交渉ゲーム-#ゲーム理論 #gametheory #数学
ゲーム理論 BASIC 演習106 -価格の交渉ゲーム-#ゲーム理論 #gametheory #数学
ssusere0a682
UniProject Workshop Make a Discord Bot with JavaScript
UniProject Workshop Make a Discord Bot with JavaScript
yuitoakatsukijp
Mais conteúdo relacionado
Semelhante a カテゴリカルデータの解析 (Kashiwa.R#3)
「生物統計学」演習問題集
「生物統計学」演習問題集
Keiji Miura
4thNLPDL
4thNLPDL
Sho Takase
K030 appstat201203 2variable
K030 appstat201203 2variable
t2tarumi
20130716 はじパタ3章前半 ベイズの識別規則
20130716 はじパタ3章前半 ベイズの識別規則
koba cky
不均衡データのクラス分類
不均衡データのクラス分類
Shintaro Fukushima
Rゼミ 3
Rゼミ 3
tarokun3
みどりぼん9章前半
みどりぼん9章前半
Akifumi Eguchi
R Study Tokyo03
R Study Tokyo03
Yohei Sato
データ解析4 確率の復習
データ解析4 確率の復習
Hirotaka Hachiya
正則化による尤度比推定法を応用した多値分類器の改良
正則化による尤度比推定法を応用した多値分類器の改良
MasatoKikuchi4
異常検知と変化検知の1~3章をまとめてみた
異常検知と変化検知の1~3章をまとめてみた
Takahiro Yoshizawa
Chisq 01
Chisq 01
akira_11
ITエンジニアのための機械学習理論入門 第5章
ITエンジニアのための機械学習理論入門 第5章
Isao Takaesu
基本統計量について
基本統計量について
wada, kazumi
実践データ分析基礎
実践データ分析基礎
TOSHI STATS Co.,Ltd.
みどりぼん読書会 第4章
みどりぼん読書会 第4章
Masanori Takano
Rで学ぶロバスト推定
Rで学ぶロバスト推定
Shintaro Fukushima
データ解析10 因子分析の基礎
データ解析10 因子分析の基礎
Hirotaka Hachiya
Yamadai.Rデモンストレーションセッション
Yamadai.Rデモンストレーションセッション
考司 小杉
能動学習による多関係データセットの構築
能動学習による多関係データセットの構築
Hiroshi Kajino
Semelhante a カテゴリカルデータの解析 (Kashiwa.R#3)
(20)
「生物統計学」演習問題集
「生物統計学」演習問題集
4thNLPDL
4thNLPDL
K030 appstat201203 2variable
K030 appstat201203 2variable
20130716 はじパタ3章前半 ベイズの識別規則
20130716 はじパタ3章前半 ベイズの識別規則
不均衡データのクラス分類
不均衡データのクラス分類
Rゼミ 3
Rゼミ 3
みどりぼん9章前半
みどりぼん9章前半
R Study Tokyo03
R Study Tokyo03
データ解析4 確率の復習
データ解析4 確率の復習
正則化による尤度比推定法を応用した多値分類器の改良
正則化による尤度比推定法を応用した多値分類器の改良
異常検知と変化検知の1~3章をまとめてみた
異常検知と変化検知の1~3章をまとめてみた
Chisq 01
Chisq 01
ITエンジニアのための機械学習理論入門 第5章
ITエンジニアのための機械学習理論入門 第5章
基本統計量について
基本統計量について
実践データ分析基礎
実践データ分析基礎
みどりぼん読書会 第4章
みどりぼん読書会 第4章
Rで学ぶロバスト推定
Rで学ぶロバスト推定
データ解析10 因子分析の基礎
データ解析10 因子分析の基礎
Yamadai.Rデモンストレーションセッション
Yamadai.Rデモンストレーションセッション
能動学習による多関係データセットの構築
能動学習による多関係データセットの構築
Último
ゲーム理論 BASIC 演習106 -価格の交渉ゲーム-#ゲーム理論 #gametheory #数学
ゲーム理論 BASIC 演習106 -価格の交渉ゲーム-#ゲーム理論 #gametheory #数学
ssusere0a682
UniProject Workshop Make a Discord Bot with JavaScript
UniProject Workshop Make a Discord Bot with JavaScript
yuitoakatsukijp
The_Five_Books_Overview_Presentation_2024
The_Five_Books_Overview_Presentation_2024
koheioishi1
TokyoTechGraduateExaminationPresentation
TokyoTechGraduateExaminationPresentation
YukiTerazawa
ゲーム理論 BASIC 演習105 -n人囚人のジレンマモデル- #ゲーム理論 #gametheory #数学
ゲーム理論 BASIC 演習105 -n人囚人のジレンマモデル- #ゲーム理論 #gametheory #数学
ssusere0a682
生成AIの回答内容の修正を課題としたレポートについて:お茶の水女子大学「授業・研究における生成系AIの活用事例」での講演資料
生成AIの回答内容の修正を課題としたレポートについて:お茶の水女子大学「授業・研究における生成系AIの活用事例」での講演資料
Takayuki Itoh
東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2
東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2
Tokyo Institute of Technology
Último
(7)
ゲーム理論 BASIC 演習106 -価格の交渉ゲーム-#ゲーム理論 #gametheory #数学
ゲーム理論 BASIC 演習106 -価格の交渉ゲーム-#ゲーム理論 #gametheory #数学
UniProject Workshop Make a Discord Bot with JavaScript
UniProject Workshop Make a Discord Bot with JavaScript
The_Five_Books_Overview_Presentation_2024
The_Five_Books_Overview_Presentation_2024
TokyoTechGraduateExaminationPresentation
TokyoTechGraduateExaminationPresentation
ゲーム理論 BASIC 演習105 -n人囚人のジレンマモデル- #ゲーム理論 #gametheory #数学
ゲーム理論 BASIC 演習105 -n人囚人のジレンマモデル- #ゲーム理論 #gametheory #数学
生成AIの回答内容の修正を課題としたレポートについて:お茶の水女子大学「授業・研究における生成系AIの活用事例」での講演資料
生成AIの回答内容の修正を課題としたレポートについて:お茶の水女子大学「授業・研究における生成系AIの活用事例」での講演資料
東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2
東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2
カテゴリカルデータの解析 (Kashiwa.R#3)
1.
アンケートの解析
-カテゴリカルデータの解析法をささっと紹介- 東京大学大学院 2012-05-18 新領域創成科学研究科 Kashiwa.R#3 @tsutatsuta (蔦谷匠)
2.
自己紹介
2 http://tsutatsuta.web.fc2.com/
3.
概要
3 ● カテゴリカルデータとは ◯ いろいろな解析法 ◯ みかけ上の相関に注意 話すこと: 「こんなことができますよ」 話さないこと: 原理,細かい方法,応用 詳細は http://bit.ly/tsutatsutaKashiwaR3
4.
カテゴリカルデータとは?
4 グループで分類されるような変数をもつデータ たとえば「アンケート」など ・{症状: なし, 軽度, 重度} 順序変数 ・{性別: 男性, 女性, その他} 名義変数 vcdパッケージ ・Arthritis: 関節炎に関する臨床試験のデータ ・DanishWelfare: デンマークにおける福利関連のデータ > head(Arthritis) > head(DanishWelfare) ID Treatment Sex Age Improved Freq Alcohol Income Status Urban 1 57 Treated Male 27 Some 1 1 <1 0-50 Widow Copenhagen 2 46 Treated Male 29 None 2 4 <1 0-50 Widow SubCopenhagen 3 77 Treated Male 30 None 3 1 <1 0-50 Widow LargeCity 4 17 Treated Male 32 Marked 4 8 <1 0-50 Widow City 5 36 Treated Male 46 Marked 5 6 <1 0-50 Widow Country 6 23 Treated Male 58 Marked 6 14 <1 0-50 Married Copenhagen
5.
クロス表の作成
5 複数変数間で度数を集計した表 カテゴリカルデータ解析の基本形 xtabs(頻度 ~ 変数1 + 変数2) で簡単に作成できる 処置 (Treatment) と症状改善度合い (Improved) の組み合わせごとの度数 (# Arthritis) > xtabs(~ Improved + Treatment, data = Arthritis) Treatment Improved Placebo Treated None 29 13 Some 7 7 Marked 7 21 アルコール消費量 (Alcohol) と収入 (Income) の組み合わせごとの度数 (# DanishWelfare) > xtabs(Freq ~ Alcohol + Income, data = DanishWelfare) Income Alcohol 0-50 50-100 100-150 >150 <1 382 748 273 936 1-2 150 567 437 929 >2 34 161 144 383
6.
概要
6 ◯ カテゴリカルデータとは ● いろいろな解析法 ◯ みかけ上の相関に注意
7.
独立性の検定
7 変数のあいだに関連性があるかを調べる Arthritisデータを対象にカイ二乗検定を適用してみる この場合はフィッシャーの直接確率検定でも良い (標本サイズ小のときはこちら推奨) 処置 (Treatment) と症状改善度合い (Improved) のあいだに関連性があるか (# Arthritis) > arthritis.imp.tre <- xtabs(~ Improved + Treatment, data = Arthritis) > chisq.test(arthritis.imp.tre) Pearson's Chi-squared test data: arthritis.imp.tre X-squared = 13.055, df = 2, p-value = 0.001463 p値 < 0.0015 で帰無仮説「関連性はない」が棄却されている 場合によって使用する検定法が異なる マンテル検定: カテゴリー間の順序関係をスコアに変換 ウィルコクソン順位和検定: スコアではなく順位の状態で検定 コクラン・アーミテージ検定: 順序カテゴリーを対象とする クラスカル・ワリス検定: 3群以上の比較に拡張したウィルコクソン検定 マクネマー検定: 変数間に対応関係がある場合に使う
8.
回帰分析
8 その他の変数で目的変数を説明するモデルを用いる SpaceShuttleデータを対象にロジスティック回帰分析を適用してみる vcdパッケージのSpaceShuttle(打ち上げテスト時にO-リングが故障したかどうか) > library(vcd) > head(SpaceShuttle) FlightNumber Temperature Pressure Fail nFailures Damage 1 1 66 50 no 0 0 2 2 70 50 yes 1 4 3 3 69 50 no 0 0 温度で故障を説明するモデルを作成 > glm(Fail ~ Temperature, data = SpaceShuttle, family = binomial) Call: glm(formula = Fail ~ Temperature, family = binomial, data = SpaceShuttle) Coefficients: (Intercept) Temperature 15.0429 -0.2322 Degrees of Freedom: 22 Total (i.e. Null); 21 Residual (1 observation deleted due to missingness) Null Deviance: 28.27 Residual Deviance: 20.32 AIC: 24.32
9.
回帰分析
9 温度が低いと故障の可能性も高くなることがわかる summary() で見ると一応 p値 < 0.01になっている
10.
対応分析
10 カテゴリカル変数間の関係をうまく表そうとする方法 相関が高くなるような数値を割り当てて関係を分析する DanishWelfareに適用してみる 婚姻関係と居住域には何らかの関連がありそう (# DanishWelfare) > danish.sta.urb <- xtabs(Freq ~ Status + Urban, data = DanishWelfare) > round(prop.table(danish.sta.urb, margin = 2), 3) Urban Status Copenhagen SubCopenhagen LargeCity City Country Widow 0.210 0.148 0.093 0.121 0.064 Married 0.522 0.700 0.705 0.705 0.773 Unmarried 0.268 0.151 0.202 0.173 0.163 > chisq.test(danish.sta.urb) Pearson's Chi-squared test data: danish.sta.urb X-squared = 158.1145, df = 8, p-value < 2.2e-16 カテゴリーを2変数で表し,相関係数を最大化する最適化問題を解いて結果を図示 > danish.corresp <- corresp(danish.sta.urb, nf = 2) > plot(danish.corresp)
11.
対応分析
11 婚姻に関して,Copenhagen以外の4地域は同様の傾向 この4地域では婚姻者の割合が比較的大きい
12.
決定木
12 説明変数を利用して各個体を段階的に分類・カテゴリー予測 mvpart や rpart パッケージを利用 irisデータに適用してみる 種を目的変数に,他の変数 (雄しべ長・幅,雌しべ長・幅) でデータを分類する > install.packages("mvpart") > library(mvpart) > (iris.part <- rpart(Species ~ ., data = iris)) n= 150 node), split, n, loss, yval, (yprob) * denotes terminal node 1) root 150 100 setosa (0.33333333 0.33333333 0.33333333) 2) Petal.Length< 2.45 50 0 setosa (1.00000000 0.00000000 0.00000000) * 3) Petal.Length>=2.45 100 50 versicolor (0.00000000 0.50000000 0.50000000) 6) Petal.Width< 1.75 54 5 versicolor (0.00000000 0.90740741 0.09259259) 12) Petal.Length< 4.95 48 1 versicolor (0.00000000 0.97916667 0.02083333) * 13) Petal.Length>=4.95 6 2 virginica (0.00000000 0.33333333 0.66666667) * 7) Petal.Width>=1.75 46 1 virginica (0.00000000 0.02173913 0.97826087) * 結果を図示 plot(iris.part) > text(iris.part, use.n = TRUE, all = TRUE)
13.
決定木
13 1. Petal.Lengthでsetosaと{versicolor, virginica}が100%分かれる 2. Petal.Widthで残りが分かれる ただし, versicolorに分類されてしまったvirginicaが5/50個体 virginicaに分類されてしまったversicolorが1/50個体
14.
概要
14 ◯ カテゴリカルデータとは ◯ いろいろな解析法 ● みかけ上の相関に注意
15.
つづきはWebで!!
15 「シンプソンのパラドックス」という有名な問題 簡単に言うと, 集団全体をみたときと,ある変数によって分割した集団をみたときで, 異なる相関関係が見えることがある,というものです
16.
まとめ
16 ◯ なにはともあれ集計に始まる ◯ 変数の数や種類によりさまざまな解析手法 ◯ 解析によって「何を言いたいか」が重要 参考 藤井良宜. 2010. カテゴリカルデータ解析 (Rで学ぶデータサイエンス 1). 共立出版. (カテゴリカルデータの解析や図示について非常に参考になる書籍です)
Baixar agora