Enviar pesquisa
Carregar
Dslt祭り2夜
•
1 gostou
•
2,370 visualizações
Akifumi Eguchi
Seguir
20160913開催のDslt祭り2夜の資料です。
Leia menos
Leia mais
Dados e análise
Denunciar
Compartilhar
Denunciar
Compartilhar
1 de 22
Baixar agora
Baixar para ler offline
Recomendados
データサイエンスLT祭り 2夜目 のLT資料です
機械学習するな機会学習しろ - データサイエンスLT祭り 2夜目
機械学習するな機会学習しろ - データサイエンスLT祭り 2夜目
cancolle
データサイエンスLT
階層ベイズモデルで割安mobile PCを探す
階層ベイズモデルで割安mobile PCを探す
. .
#dslt祭り
初心者向けに機械学習のハンズオンセミナーをしてわかったこと
初心者向けに機械学習のハンズオンセミナーをしてわかったこと
__john_smith__
データサイエンティストの憂鬱と、そこから思いついて実行したデータマートプロジェクトの話。詳細は↓ http://shoe116.hatenablog.com/entry/2016/04/04/084113
tokyo_webmining_no51
tokyo_webmining_no51
Shu (shoe116)
データサイエンスLT祭り 2夜目 http://data-science-lt.connpass.com/event/35412/ の資料
Reproducebility 100倍 Dockerマン
Reproducebility 100倍 Dockerマン
Nagi Teramo
面倒くさいこと考えたくないあなたへ〜Tpotと機械学習〜 dslt1夜目で発表しました。
面倒くさいこと考えたくないあなたへ〜Tpotと機械学習〜
面倒くさいこと考えたくないあなたへ〜Tpotと機械学習〜
Hiroki Yamamoto
DS LT祭り 2016/9/7(水) 発表資料 「AUCが0.01改善したって どういうことですか?」
DS LT祭り 「AUCが0.01改善したって どういうことですか?」
DS LT祭り 「AUCが0.01改善したって どういうことですか?」
Ken'ichi Matsui
Rstudioでgithub上のパッケージをGUIでインストールできるアドインの紹介
Rstudio上でのパッケージインストールを便利にするaddin4githubinstall
Rstudio上でのパッケージインストールを便利にするaddin4githubinstall
Atsushi Hayakawa
Recomendados
データサイエンスLT祭り 2夜目 のLT資料です
機械学習するな機会学習しろ - データサイエンスLT祭り 2夜目
機械学習するな機会学習しろ - データサイエンスLT祭り 2夜目
cancolle
データサイエンスLT
階層ベイズモデルで割安mobile PCを探す
階層ベイズモデルで割安mobile PCを探す
. .
#dslt祭り
初心者向けに機械学習のハンズオンセミナーをしてわかったこと
初心者向けに機械学習のハンズオンセミナーをしてわかったこと
__john_smith__
データサイエンティストの憂鬱と、そこから思いついて実行したデータマートプロジェクトの話。詳細は↓ http://shoe116.hatenablog.com/entry/2016/04/04/084113
tokyo_webmining_no51
tokyo_webmining_no51
Shu (shoe116)
データサイエンスLT祭り 2夜目 http://data-science-lt.connpass.com/event/35412/ の資料
Reproducebility 100倍 Dockerマン
Reproducebility 100倍 Dockerマン
Nagi Teramo
面倒くさいこと考えたくないあなたへ〜Tpotと機械学習〜 dslt1夜目で発表しました。
面倒くさいこと考えたくないあなたへ〜Tpotと機械学習〜
面倒くさいこと考えたくないあなたへ〜Tpotと機械学習〜
Hiroki Yamamoto
DS LT祭り 2016/9/7(水) 発表資料 「AUCが0.01改善したって どういうことですか?」
DS LT祭り 「AUCが0.01改善したって どういうことですか?」
DS LT祭り 「AUCが0.01改善したって どういうことですか?」
Ken'ichi Matsui
Rstudioでgithub上のパッケージをGUIでインストールできるアドインの紹介
Rstudio上でのパッケージインストールを便利にするaddin4githubinstall
Rstudio上でのパッケージインストールを便利にするaddin4githubinstall
Atsushi Hayakawa
Tokyo.R #73のLTスライドです
PlaidML Kerasでやっていく #TokyoR 73
PlaidML Kerasでやっていく #TokyoR 73
Akifumi Eguchi
TokyoR 61のスライドです
High-order factorization machines with R #tokyor 61
High-order factorization machines with R #tokyor 61
Akifumi Eguchi
JapanR 2016でのLT資料です
Randomforestで高次元の変数重要度を見る #japanr LT
Randomforestで高次元の変数重要度を見る #japanr LT
Akifumi Eguchi
10月4日、統計的学習の基礎読書会 第8回&第9回で使用した資料です。
統計的学習の基礎6章前半 #カステラ本
統計的学習の基礎6章前半 #カステラ本
Akifumi Eguchi
愛媛大学で講演させて頂いた環境化学データ入門についてのスライドです。誤りもあるかもしれませんがお手柔らかにお願いします。
環境化学データ解析入門: 愛媛大講演資料 160728
環境化学データ解析入門: 愛媛大講演資料 160728
Akifumi Eguchi
統計的学習の基礎読書会 第1回のLT資料です。
統計的学習の基礎, 副読本紹介: An Introduction to Statistical Learning
統計的学習の基礎, 副読本紹介: An Introduction to Statistical Learning
Akifumi Eguchi
第53回 Tokyo.R LT資料です。
Mxnetで回帰 #TokyoR 53th
Mxnetで回帰 #TokyoR 53th
Akifumi Eguchi
第50回 データマイニング+WEB@東京 ー機械学習 実活用 祭りーでの発表資料です
子どもたちの未来を支える機械学習: 定量的構造活性相関 (QSAR) による有機ハロゲン化合物の母子間移行率予測
子どもたちの未来を支える機械学習: 定量的構造活性相関 (QSAR) による有機ハロゲン化合物の母子間移行率予測
Akifumi Eguchi
続わかりやすいパターン認識読書会 最終回の資料です。
ぞくパタ最終回: 13章「共クラスタリング」
ぞくパタ最終回: 13章「共クラスタリング」
Akifumi Eguchi
Deep learningもくもくハッカソンの結果まとめスライドです。 実際の数字については今後使うかもしれないので削ってますがご了承ください。 発表者はDeep learning初心者なので色々間違ってるかもです。
Deep learningもくもくハッカソンまとめup用
Deep learningもくもくハッカソンまとめup用
Akifumi Eguchi
第43回データマイニング+WEB @東京での発表資料です。
Tokyo webmining 43 "化学物質汚染のデータ解析・リスク評価についての私見"
Tokyo webmining 43 "化学物質汚染のデータ解析・リスク評価についての私見"
Akifumi Eguchi
第2回「続・わかりやすいパターン認識」読書会、2章の資料です。#ぞくパタ
第2回ぞくパタ
第2回ぞくパタ
Akifumi Eguchi
第1回 「続・わかりやすいパターン認識」の発表資料になります。
第一回ぞくパタ
第一回ぞくパタ
Akifumi Eguchi
続・わかりやすいパターン認識: はじめに
ぞくパタ はじめに
ぞくパタ はじめに
Akifumi Eguchi
Tokyo.R 44のLT資料です。
Tokyo.r #44 lt.pptx
Tokyo.r #44 lt.pptx
Akifumi Eguchi
Tokyo r #43
Tokyo r #43
Akifumi Eguchi
みどりぼん9章前半
みどりぼん9章前半
Akifumi Eguchi
みどりぼん3章の前半スライドです。 6月11日再アップロードしました。 文字化け等修正してます。
みどりぼん3章前半
みどりぼん3章前半
Akifumi Eguchi
Devium を使ったヒト血清中化学物質の解析 R, ShinyベースのWebアプリで多変量解析やってみた。 環境媒体の分析データについて、なぜ測定する必要があるかなども少しづつ紹介してます。 アルゴリズムの紹介は力尽きました。 DeviumWeb https://github.com/dgrapov/DeviumWeb ローカル版は開発中 開発者HP http://imdevsoftware.wordpress.com/
Tokyo R #39
Tokyo R #39
Akifumi Eguchi
Mais conteúdo relacionado
Mais de Akifumi Eguchi
Tokyo.R #73のLTスライドです
PlaidML Kerasでやっていく #TokyoR 73
PlaidML Kerasでやっていく #TokyoR 73
Akifumi Eguchi
TokyoR 61のスライドです
High-order factorization machines with R #tokyor 61
High-order factorization machines with R #tokyor 61
Akifumi Eguchi
JapanR 2016でのLT資料です
Randomforestで高次元の変数重要度を見る #japanr LT
Randomforestで高次元の変数重要度を見る #japanr LT
Akifumi Eguchi
10月4日、統計的学習の基礎読書会 第8回&第9回で使用した資料です。
統計的学習の基礎6章前半 #カステラ本
統計的学習の基礎6章前半 #カステラ本
Akifumi Eguchi
愛媛大学で講演させて頂いた環境化学データ入門についてのスライドです。誤りもあるかもしれませんがお手柔らかにお願いします。
環境化学データ解析入門: 愛媛大講演資料 160728
環境化学データ解析入門: 愛媛大講演資料 160728
Akifumi Eguchi
統計的学習の基礎読書会 第1回のLT資料です。
統計的学習の基礎, 副読本紹介: An Introduction to Statistical Learning
統計的学習の基礎, 副読本紹介: An Introduction to Statistical Learning
Akifumi Eguchi
第53回 Tokyo.R LT資料です。
Mxnetで回帰 #TokyoR 53th
Mxnetで回帰 #TokyoR 53th
Akifumi Eguchi
第50回 データマイニング+WEB@東京 ー機械学習 実活用 祭りーでの発表資料です
子どもたちの未来を支える機械学習: 定量的構造活性相関 (QSAR) による有機ハロゲン化合物の母子間移行率予測
子どもたちの未来を支える機械学習: 定量的構造活性相関 (QSAR) による有機ハロゲン化合物の母子間移行率予測
Akifumi Eguchi
続わかりやすいパターン認識読書会 最終回の資料です。
ぞくパタ最終回: 13章「共クラスタリング」
ぞくパタ最終回: 13章「共クラスタリング」
Akifumi Eguchi
Deep learningもくもくハッカソンの結果まとめスライドです。 実際の数字については今後使うかもしれないので削ってますがご了承ください。 発表者はDeep learning初心者なので色々間違ってるかもです。
Deep learningもくもくハッカソンまとめup用
Deep learningもくもくハッカソンまとめup用
Akifumi Eguchi
第43回データマイニング+WEB @東京での発表資料です。
Tokyo webmining 43 "化学物質汚染のデータ解析・リスク評価についての私見"
Tokyo webmining 43 "化学物質汚染のデータ解析・リスク評価についての私見"
Akifumi Eguchi
第2回「続・わかりやすいパターン認識」読書会、2章の資料です。#ぞくパタ
第2回ぞくパタ
第2回ぞくパタ
Akifumi Eguchi
第1回 「続・わかりやすいパターン認識」の発表資料になります。
第一回ぞくパタ
第一回ぞくパタ
Akifumi Eguchi
続・わかりやすいパターン認識: はじめに
ぞくパタ はじめに
ぞくパタ はじめに
Akifumi Eguchi
Tokyo.R 44のLT資料です。
Tokyo.r #44 lt.pptx
Tokyo.r #44 lt.pptx
Akifumi Eguchi
Tokyo r #43
Tokyo r #43
Akifumi Eguchi
みどりぼん9章前半
みどりぼん9章前半
Akifumi Eguchi
みどりぼん3章の前半スライドです。 6月11日再アップロードしました。 文字化け等修正してます。
みどりぼん3章前半
みどりぼん3章前半
Akifumi Eguchi
Devium を使ったヒト血清中化学物質の解析 R, ShinyベースのWebアプリで多変量解析やってみた。 環境媒体の分析データについて、なぜ測定する必要があるかなども少しづつ紹介してます。 アルゴリズムの紹介は力尽きました。 DeviumWeb https://github.com/dgrapov/DeviumWeb ローカル版は開発中 開発者HP http://imdevsoftware.wordpress.com/
Tokyo R #39
Tokyo R #39
Akifumi Eguchi
Mais de Akifumi Eguchi
(19)
PlaidML Kerasでやっていく #TokyoR 73
PlaidML Kerasでやっていく #TokyoR 73
High-order factorization machines with R #tokyor 61
High-order factorization machines with R #tokyor 61
Randomforestで高次元の変数重要度を見る #japanr LT
Randomforestで高次元の変数重要度を見る #japanr LT
統計的学習の基礎6章前半 #カステラ本
統計的学習の基礎6章前半 #カステラ本
環境化学データ解析入門: 愛媛大講演資料 160728
環境化学データ解析入門: 愛媛大講演資料 160728
統計的学習の基礎, 副読本紹介: An Introduction to Statistical Learning
統計的学習の基礎, 副読本紹介: An Introduction to Statistical Learning
Mxnetで回帰 #TokyoR 53th
Mxnetで回帰 #TokyoR 53th
子どもたちの未来を支える機械学習: 定量的構造活性相関 (QSAR) による有機ハロゲン化合物の母子間移行率予測
子どもたちの未来を支える機械学習: 定量的構造活性相関 (QSAR) による有機ハロゲン化合物の母子間移行率予測
ぞくパタ最終回: 13章「共クラスタリング」
ぞくパタ最終回: 13章「共クラスタリング」
Deep learningもくもくハッカソンまとめup用
Deep learningもくもくハッカソンまとめup用
Tokyo webmining 43 "化学物質汚染のデータ解析・リスク評価についての私見"
Tokyo webmining 43 "化学物質汚染のデータ解析・リスク評価についての私見"
第2回ぞくパタ
第2回ぞくパタ
第一回ぞくパタ
第一回ぞくパタ
ぞくパタ はじめに
ぞくパタ はじめに
Tokyo.r #44 lt.pptx
Tokyo.r #44 lt.pptx
Tokyo r #43
Tokyo r #43
みどりぼん9章前半
みどりぼん9章前半
みどりぼん3章前半
みどりぼん3章前半
Tokyo R #39
Tokyo R #39
Dslt祭り2夜
1.
1回くらいやってみよう: Kaggle初挑戦 Twi,er: @siero5335 データサイエンスLT祭り 2夜⽬@Yahoo! 20160913 参照: h,ps://www.kaggle.com/c/shelter-animal-outcomes
2.
結果 ⾝も蓋もありませんが最終結果です 参照: h,ps://www.kaggle.com/c/shelter-animal-outcomes
3.
結果 ⾝も蓋もない感じですが最終結果です ここにたどり着いた経緯について今⽇は話します 参照: h,ps://www.kaggle.com/c/shelter-animal-outcomes
4.
誰 Twi,er ID: @siero5335 仕事: 化学物質曝露影響の解析 化学分析法の開発 専⾨: 環境化学、分析化学 興味: ⽣理活性物質の⼀⻫分析
関連分野へのデータ解析応⽤ hoxo-m末席 これまで触ってたデータはサンプルサイズn = 100前後 変数のほうが数が多いことが多い 今後n=1000-10000くらいのデータも扱うかも?
5.
背景: データセット 保健所に預けられたイヌ・ネコが どうなったか、どうなるかを予測 特徴量: 種、⾊、名前の有無、性別、年齢等 アウトカム:
他所への輸送、引取、死亡、安楽死、 飼い主への返却の5種 参照: h,ps://www.kaggle.com/c/shelter-animal-outcomes
6.
背景: なぜこのコンペ? 1: データが⼤きすぎない
(解凍して3MB弱) サンプルサイズ数万オーダー 2: ちょうど本業のデカ⽬のデータセットと似た⼤きさ 3: 特徴量も本業と似てる → 何か得るものがあるだろうということで参加 参照: h,ps://www.kaggle.com/c/shelter-animal-outcomes
7.
環境 OSX 10.11 Rstudio + MicrosoQ R open ver3.2.4 とりあえず練習なのでローカル上で
8.
初めはKernelを参考に とりあえずデータは読み込んでみたものの どこから⼿を付けるか?
9.
初めはKernelを参考に とりあえずデータは読み込んでみたものの どこから⼿を付けるか? アウトカムはわかるけど…
10.
初めはKernelを参考に h,ps://www.kaggle.com/kernels Kernel: 解析結果を公開・共有する場 公開コードから前処理や解析のヒントを得られる
11.
初めはKernelを参考に h,ps://www.kaggle.com/kernels 公開する側はメンターとしてポイントが得られる
12.
マエショリ
13.
前処理: やってみたこと これまで演者がやってきた解析は⼤抵 Excelでどうとでもなるデータがほとんど dplyrなどの使⽤経験も浅い → Kernelを写経・データの変化確認を繰り返して慣れる 参照:
h,ps://www.kaggle.com/mrisdal/shelter-animal-outcomes/quick-dirty-randomforest
14.
前処理: やってみたこと これまで演者がやってきた解析は⼤抵 Excelでどうとでもなるデータがほとんど dplyrなどの使⽤経験も浅い → Kernelを写経・データの変化確認を繰り返して慣れる 慣れてきたら? ちょっと⼯夫してみる ex. LOFで検出された外れ値外す、 SMOTEでoutcomeの例数を揃える 参考図書 参照:
h,ps://www.kaggle.com/mrisdal/shelter-animal-outcomes/quick-dirty-randomforest
15.
前処理: やってみたこと これまで演者がやってきた解析は⼤抵 Excelでどうとでもなるデータがほとんど dplyrなどの使⽤経験も浅い → Kernelを写経・データの変化確認を繰り返して慣れる 慣れてきたら? ちょっと⼯夫してみる ex. LOFで検出された外れ値外す、 SMOTEでoutcomeの例数を揃える 悲しいかな結果としてはどれも精度向上には寄与せず… 参考図書 参照:
h,ps://www.kaggle.com/mrisdal/shelter-animal-outcomes/quick-dirty-randomforest
16.
モデル
17.
モデル: glmnet, SVM, xgboost 今回はcaretを使わず各パッケージの機能を使⽤ glmnet: cv.glmnetによる多クラス分類 参照: glmnetで多クラスのロジスティック回帰 h,p://d.hatena.ne.jp/teramonagi/20150615/1434367563 SVM: class.weightの調整 参照: 不均衡データのクラス分類, 不均衡データをSVMでクラス分類するにはどうすれば良いか h,p://d.hatena.ne.jp/teramonagi/20150615/1434367563 h,p://tjo.hatenablog.com/entry/2014/10/09/224106 xgboost: max_delta_step調整による不均衡データ対応 参照: xgboost のパラメータ h,p://puyokw.hatenablog.com/entry/2015/04/11/040941
18.
モデル: glmnet, SVM, xgboost 今回はcaretを使わず各パッケージの機能を使⽤ xgboost: max_delta_step調整による不均衡データ対応 参照: xgboost のパラメータ h,p://puyokw.hatenablog.com/entry/2015/04/11/040941 最終的にこれが⼀番良かった logloss = 0.745くらい ⼀般的な動物の⼤きさや⾷べる量などの特徴量を追 加して⼯夫した⽅は0.704くらいまで下がっていた Top勢はデータリーク?で0に近い数字になっている が、leak表記がない⼈でも0.34まで下げてる h,ps://www.kaggle.com/c/shelter-animal-outcomes/forums/t/22589/0-704-score-with-xgb
19.
雑感 xgboostの特徴量としてSVMやglmnetの結果を⼊れて stackingみたいなことをしてみたが精度は上がらず 上位陣が何をやってここまで伸ばしているのかさっ ぱりわからなかった。やっぱりマスターって凄い。
20.
結果 参照: h,ps://www.kaggle.com/c/shelter-animal-outcomes
21.
雑感 個⼈的にはとても意味があった。Kernelなぞるだけで も気づきがあるし、kaggleガチ勢は当たり前のように stackingやxgboostの話をしているが実際にやったらす ぐに結果が良くなるではないことを体験できた。 本当はその辺りに⾊々⼯夫があるのだと思うがもう 少しやってみないと⼊賞コード読んでも余り凄さが わからないのかも... ここにいらっしゃった⽅でまだやったことがないな ら、⼀度くらい挑戦しても良いと思います。
22.
Enjoy!
Baixar agora