Enviar pesquisa
Carregar
データサイエンス概論第一=3-3 回帰分析
•
Transferir como PPTX, PDF
•
6 gostaram
•
3,620 visualizações
S
Seiichi Uchida
Seguir
九州大学大学院システム情報科学研究院「データサイエンス実践特別講座」が贈る,数理・情報系『でない』学生さんのための「データサイエンス講義
Leia menos
Leia mais
Dados e análise
Denunciar
Compartilhar
Denunciar
Compartilhar
1 de 38
Baixar agora
Recomendados
データサイエンス概論第一 6 異常検出
データサイエンス概論第一 6 異常検出
Seiichi Uchida
データサイエンス概論第一=3-2 主成分分析と因子分析
データサイエンス概論第一=3-2 主成分分析と因子分析
Seiichi Uchida
データサイエンス概論第一=3-1 線形代数に基づくデータ解析の基礎
データサイエンス概論第一=3-1 線形代数に基づくデータ解析の基礎
Seiichi Uchida
データサイエンス概論第一=2-2 クラスタリング
データサイエンス概論第一=2-2 クラスタリング
Seiichi Uchida
データサイエンス概論第一=1-2 データのベクトル表現と集合
データサイエンス概論第一=1-2 データのベクトル表現と集合
Seiichi Uchida
データサイエンス概論第一=8 パターン認識と深層学習
データサイエンス概論第一=8 パターン認識と深層学習
Seiichi Uchida
データサイエンス概論第一=4-2 確率と確率分布
データサイエンス概論第一=4-2 確率と確率分布
Seiichi Uchida
データサイエンス概論第一=2-1 データ間の距離と類似度
データサイエンス概論第一=2-1 データ間の距離と類似度
Seiichi Uchida
Recomendados
データサイエンス概論第一 6 異常検出
データサイエンス概論第一 6 異常検出
Seiichi Uchida
データサイエンス概論第一=3-2 主成分分析と因子分析
データサイエンス概論第一=3-2 主成分分析と因子分析
Seiichi Uchida
データサイエンス概論第一=3-1 線形代数に基づくデータ解析の基礎
データサイエンス概論第一=3-1 線形代数に基づくデータ解析の基礎
Seiichi Uchida
データサイエンス概論第一=2-2 クラスタリング
データサイエンス概論第一=2-2 クラスタリング
Seiichi Uchida
データサイエンス概論第一=1-2 データのベクトル表現と集合
データサイエンス概論第一=1-2 データのベクトル表現と集合
Seiichi Uchida
データサイエンス概論第一=8 パターン認識と深層学習
データサイエンス概論第一=8 パターン認識と深層学習
Seiichi Uchida
データサイエンス概論第一=4-2 確率と確率分布
データサイエンス概論第一=4-2 確率と確率分布
Seiichi Uchida
データサイエンス概論第一=2-1 データ間の距離と類似度
データサイエンス概論第一=2-1 データ間の距離と類似度
Seiichi Uchida
データサイエンス概論第一=4-1 相関・頻度・ヒストグラム
データサイエンス概論第一=4-1 相関・頻度・ヒストグラム
Seiichi Uchida
データサイエンス概論第一=1-3 平均と分散
データサイエンス概論第一=1-3 平均と分散
Seiichi Uchida
データサイエンス概論第一=0 まえがき
データサイエンス概論第一=0 まえがき
Seiichi Uchida
データサイエンス概論第一=1-1 データとは
データサイエンス概論第一=1-1 データとは
Seiichi Uchida
統計分析
統計分析
大貴 末廣
0 データサイエンス概論まえがき
0 データサイエンス概論まえがき
Seiichi Uchida
1 データとデータ分析
1 データとデータ分析
Seiichi Uchida
データサイエンスことはじめ
データサイエンスことはじめ
大貴 末廣
13 分類とパターン認識
13 分類とパターン認識
Seiichi Uchida
15 人工知能入門
15 人工知能入門
Seiichi Uchida
画像処理応用
画像処理応用
大貴 末廣
Python基礎その1
Python基礎その1
大貴 末廣
5 クラスタリングと異常検出
5 クラスタリングと異常検出
Seiichi Uchida
7 主成分分析
7 主成分分析
Seiichi Uchida
クラシックな機械学習の入門 8. クラスタリング
クラシックな機械学習の入門 8. クラスタリング
Hiroshi Nakagawa
Jubatus Casual Talks #2 異常検知入門
Jubatus Casual Talks #2 異常検知入門
Shohei Hido
3 平均・分散・相関
3 平均・分散・相関
Seiichi Uchida
機械学習を用いた異常検知入門
機械学習を用いた異常検知入門
michiaki ito
Python基礎その2
Python基礎その2
大貴 末廣
距離とクラスタリング
距離とクラスタリング
大貴 末廣
データ解析
データ解析
Issei Kurahashi
環境化学データ解析入門: 愛媛大講演資料 160728
環境化学データ解析入門: 愛媛大講演資料 160728
Akifumi Eguchi
Mais conteúdo relacionado
Mais procurados
データサイエンス概論第一=4-1 相関・頻度・ヒストグラム
データサイエンス概論第一=4-1 相関・頻度・ヒストグラム
Seiichi Uchida
データサイエンス概論第一=1-3 平均と分散
データサイエンス概論第一=1-3 平均と分散
Seiichi Uchida
データサイエンス概論第一=0 まえがき
データサイエンス概論第一=0 まえがき
Seiichi Uchida
データサイエンス概論第一=1-1 データとは
データサイエンス概論第一=1-1 データとは
Seiichi Uchida
統計分析
統計分析
大貴 末廣
0 データサイエンス概論まえがき
0 データサイエンス概論まえがき
Seiichi Uchida
1 データとデータ分析
1 データとデータ分析
Seiichi Uchida
データサイエンスことはじめ
データサイエンスことはじめ
大貴 末廣
13 分類とパターン認識
13 分類とパターン認識
Seiichi Uchida
15 人工知能入門
15 人工知能入門
Seiichi Uchida
画像処理応用
画像処理応用
大貴 末廣
Python基礎その1
Python基礎その1
大貴 末廣
5 クラスタリングと異常検出
5 クラスタリングと異常検出
Seiichi Uchida
7 主成分分析
7 主成分分析
Seiichi Uchida
クラシックな機械学習の入門 8. クラスタリング
クラシックな機械学習の入門 8. クラスタリング
Hiroshi Nakagawa
Jubatus Casual Talks #2 異常検知入門
Jubatus Casual Talks #2 異常検知入門
Shohei Hido
3 平均・分散・相関
3 平均・分散・相関
Seiichi Uchida
機械学習を用いた異常検知入門
機械学習を用いた異常検知入門
michiaki ito
Python基礎その2
Python基礎その2
大貴 末廣
距離とクラスタリング
距離とクラスタリング
大貴 末廣
Mais procurados
(20)
データサイエンス概論第一=4-1 相関・頻度・ヒストグラム
データサイエンス概論第一=4-1 相関・頻度・ヒストグラム
データサイエンス概論第一=1-3 平均と分散
データサイエンス概論第一=1-3 平均と分散
データサイエンス概論第一=0 まえがき
データサイエンス概論第一=0 まえがき
データサイエンス概論第一=1-1 データとは
データサイエンス概論第一=1-1 データとは
統計分析
統計分析
0 データサイエンス概論まえがき
0 データサイエンス概論まえがき
1 データとデータ分析
1 データとデータ分析
データサイエンスことはじめ
データサイエンスことはじめ
13 分類とパターン認識
13 分類とパターン認識
15 人工知能入門
15 人工知能入門
画像処理応用
画像処理応用
Python基礎その1
Python基礎その1
5 クラスタリングと異常検出
5 クラスタリングと異常検出
7 主成分分析
7 主成分分析
クラシックな機械学習の入門 8. クラスタリング
クラシックな機械学習の入門 8. クラスタリング
Jubatus Casual Talks #2 異常検知入門
Jubatus Casual Talks #2 異常検知入門
3 平均・分散・相関
3 平均・分散・相関
機械学習を用いた異常検知入門
機械学習を用いた異常検知入門
Python基礎その2
Python基礎その2
距離とクラスタリング
距離とクラスタリング
Semelhante a データサイエンス概論第一=3-3 回帰分析
データ解析
データ解析
Issei Kurahashi
環境化学データ解析入門: 愛媛大講演資料 160728
環境化学データ解析入門: 愛媛大講演資料 160728
Akifumi Eguchi
[Tokyor08] Rによるデータサイエンス第2部 第3章 対応分析
[Tokyor08] Rによるデータサイエンス第2部 第3章 対応分析
Yohei Sato
内容的妥当性,構造的妥当性と仮説検定の評価
内容的妥当性,構造的妥当性と仮説検定の評価
Yoshitake Takebayashi
Gasshuku98
Gasshuku98
隆浩 安
理科教育学研究のための統計分析入門
理科教育学研究のための統計分析入門
Hiroshi Unzai
多重代入法(Multiple Imputation)の発表資料
多重代入法(Multiple Imputation)の発表資料
Tomoshige Nakamura
Wolf et al. "Graph abstraction reconciles clustering with trajectory inferen...
Wolf et al. "Graph abstraction reconciles clustering with trajectory inferen...
Ryohei Suzuki
MIRU2011 OS1-2 拡張ペアワイズ表現を用いた一般化多変量解析
MIRU2011 OS1-2 拡張ペアワイズ表現を用いた一般化多変量解析
Akisato Kimura
WI2研究会 Vol.10発表資料20170708
WI2研究会 Vol.10発表資料20170708
Yusuke Yamamoto
九大_DS実践_距離とクラスタリング
九大_DS実践_距離とクラスタリング
RyomaBise1
presentation for padoc
presentation for padoc
Masato Nakai
6診断精度のメタアナリシス
6診断精度のメタアナリシス
SR WS
Semelhante a データサイエンス概論第一=3-3 回帰分析
(13)
データ解析
データ解析
環境化学データ解析入門: 愛媛大講演資料 160728
環境化学データ解析入門: 愛媛大講演資料 160728
[Tokyor08] Rによるデータサイエンス第2部 第3章 対応分析
[Tokyor08] Rによるデータサイエンス第2部 第3章 対応分析
内容的妥当性,構造的妥当性と仮説検定の評価
内容的妥当性,構造的妥当性と仮説検定の評価
Gasshuku98
Gasshuku98
理科教育学研究のための統計分析入門
理科教育学研究のための統計分析入門
多重代入法(Multiple Imputation)の発表資料
多重代入法(Multiple Imputation)の発表資料
Wolf et al. "Graph abstraction reconciles clustering with trajectory inferen...
Wolf et al. "Graph abstraction reconciles clustering with trajectory inferen...
MIRU2011 OS1-2 拡張ペアワイズ表現を用いた一般化多変量解析
MIRU2011 OS1-2 拡張ペアワイズ表現を用いた一般化多変量解析
WI2研究会 Vol.10発表資料20170708
WI2研究会 Vol.10発表資料20170708
九大_DS実践_距離とクラスタリング
九大_DS実践_距離とクラスタリング
presentation for padoc
presentation for padoc
6診断精度のメタアナリシス
6診断精度のメタアナリシス
Mais de Seiichi Uchida
9 可視化
9 可視化
Seiichi Uchida
12 非構造化データ解析
12 非構造化データ解析
Seiichi Uchida
14 データ収集とバイアス
14 データ収集とバイアス
Seiichi Uchida
10 確率と確率分布
10 確率と確率分布
Seiichi Uchida
8 予測と回帰分析
8 予測と回帰分析
Seiichi Uchida
6 線形代数に基づくデータ解析の基礎
6 線形代数に基づくデータ解析の基礎
Seiichi Uchida
4 データ間の距離と類似度
4 データ間の距離と類似度
Seiichi Uchida
2 データのベクトル表現と集合
2 データのベクトル表現と集合
Seiichi Uchida
「あなたがいま読んでいるものは文字です」~画像情報学から見た文字研究のこれから
「あなたがいま読んでいるものは文字です」~画像情報学から見た文字研究のこれから
Seiichi Uchida
Machine learning for document analysis and understanding
Machine learning for document analysis and understanding
Seiichi Uchida
データサイエンス概論第一=7 画像処理
データサイエンス概論第一=7 画像処理
Seiichi Uchida
An opening talk at ICDAR2017 Future Workshop - Beyond 100%
An opening talk at ICDAR2017 Future Workshop - Beyond 100%
Seiichi Uchida
データサイエンス概論第一 5 時系列データの解析
データサイエンス概論第一 5 時系列データの解析
Seiichi Uchida
Mais de Seiichi Uchida
(13)
9 可視化
9 可視化
12 非構造化データ解析
12 非構造化データ解析
14 データ収集とバイアス
14 データ収集とバイアス
10 確率と確率分布
10 確率と確率分布
8 予測と回帰分析
8 予測と回帰分析
6 線形代数に基づくデータ解析の基礎
6 線形代数に基づくデータ解析の基礎
4 データ間の距離と類似度
4 データ間の距離と類似度
2 データのベクトル表現と集合
2 データのベクトル表現と集合
「あなたがいま読んでいるものは文字です」~画像情報学から見た文字研究のこれから
「あなたがいま読んでいるものは文字です」~画像情報学から見た文字研究のこれから
Machine learning for document analysis and understanding
Machine learning for document analysis and understanding
データサイエンス概論第一=7 画像処理
データサイエンス概論第一=7 画像処理
An opening talk at ICDAR2017 Future Workshop - Beyond 100%
An opening talk at ICDAR2017 Future Workshop - Beyond 100%
データサイエンス概論第一 5 時系列データの解析
データサイエンス概論第一 5 時系列データの解析
データサイエンス概論第一=3-3 回帰分析
1.
1 九州大学大学院システム情報科学研究院 データサイエンス実践特別講座 データサイエンス概論第一 第3回 主成分分析と回帰分析: 3-3 回帰分析 システム情報科学研究院情報知能工学部門 内田誠一
2.
2 データサイエンス概論第一の内容 データとは データのベクトル表現と集合
平均と分散 データ間の距離 データ間の類似度 データのクラスタリング (グルーピング) 線形代数に基づくデータ解析の基礎 主成分分析と因子分析 回帰分析 相関・頻度・ヒストグラム 確率と確率分布 信頼区間と統計的検定 時系列データの解析 異常検出
3.
3 データ集合に関する回帰 主成分分析とちょっと似てますが,分布解析ではありません! 回帰とは,予測手法です.
4.
4 データ集合に関する回帰① 「回帰による予測」の基本的考え方
5.
55 予測とは? 「入力に対する結果を推定する」手法 例 予測器 入力 (原因) 結果 入力(原因) 結果 勉強時間 試験の点数 食事量
糖尿病になる確率 (身長,体重) バスケットボールの得点 画像 その画像がリンゴの写真である確率
6.
6 回帰による予測(ステップ1/3): データ収集 結果 入力
7.
7 回帰による予測(ステップ1/3): データ収集の例 試験の点数 勉強時間 A君の データ B君の データ E君 C君 D君
8.
8 回帰による予測(ステップ2/3): モデルあてはめ 結果 入力 モデル=「条件 or 入力」と「結果」間に成り立つと予想される関係. 上記は「線形モデル」 これ大事
9.
9 回帰による予測(ステップ3/3): 予測 結果 入力 この入力に対する予測値がほしい (ex. 勉強3時間だと何点取れそう?)
10.
10 回帰による予測(ステップ3/3): 予測 結果 入力 この入力に対する予測値がほしい (ex. 勉強3時間だと何点取れそう?) 予測値 (65点)
11.
1111 回帰分析とは いくつかの(入力,結果 )の事例に基づいて, それらの関係をモデル化することで, 新たな入力に対して,その結果を予測する方法. 専門的な用語としては 入力→説明変数 結果→外的変数 とか言ったりしますが,まぁ,気にしない...
12.
12 データ集合に関する回帰② 「モデルあてはめ」の方法 最小二乗法で解く!
13.
13 どういう「あてはめ結果」が望ましい?(1/3) 13 結果 入力
14.
14 どういう「あてはめ結果」が望ましい?(2/3) 14 結果 入力 あてはめ誤差 これが小さいほうがよい 𝑖 第𝑖データのあてはめ誤差 →最小化
15.
15 どういう「あてはめ結果」が望ましい?(3/3) 15 結果 𝑦 入力 𝑥 𝑎と𝑏をいじって 𝑖 𝑦𝑖
− 𝑎𝑥𝑖 + 𝑏 2 を最小化 𝑦 = 𝑎𝑥 + 𝑏 𝑥𝑖, 𝑦𝑖𝑦𝑖 − 𝑎𝑥𝑖 + 𝑏 2 二乗誤差で「あてはめ誤差」を定義
16.
16 これを「最小二乗法」と呼ぶ 16 𝑎と𝑏をいじって 𝑖 𝑦𝑖 − 𝑎𝑥𝑖
+ 𝑏 2 を最小化 二乗誤差を最小にしたいから 最小二乗法 どうやって??
17.
17 参考:最小二乗法,どう解く? まず問題をよく見る(1/2) 17 𝑖 𝑦𝑖 − 𝑎𝑥𝑖
+ 𝑏 2 = 𝑖 𝑦𝑖 − 𝑎𝑥𝑖 + 𝑏 𝑦𝑖 − 𝑎𝑥𝑖 + 𝑏 = 𝑖 𝑥𝑖 2 𝑎2 − 𝑦𝑖 − 𝑏 2𝑎 + 𝑦𝑖 − 𝑏 2 = 𝑖 𝑥𝑖 2 𝑎2 − 2 𝑖 𝑦𝑖 − 𝑏 𝑎 + 𝑖 𝑦𝑖 − 𝑏 2 落ち着いて考えれば 𝑎に関する2次関数 最小化したいもの
18.
18 参考:最小二乗法,どう解く? まず問題をよく見る(2/2) 18 𝑖 𝑦𝑖 − 𝑎𝑥𝑖
+ 𝑏 2 = 𝑖 𝑦𝑖 − 𝑎𝑥𝑖 − 𝑏 𝑦𝑖 − 𝑎𝑥𝑖 − 𝑏 = 𝑖 𝑏2 − 𝑦𝑖 − 𝑎𝑥𝑖 2𝑏 + 𝑦𝑖 − 𝑎𝑥𝑖 2 = 𝑖 1 𝑏2 − 2 𝑖 𝑦𝑖 − 𝑎𝑥𝑖 𝑏 + 𝑖 𝑦𝑖 − 𝑎𝑥𝑖 2 落ち着いて考えれば 𝑏に関しても2次関数 最小化したいもの
19.
19 ここはイマイチ ここがベスト 参考:最小二乗法,どう解く? 要するにこんな形になっています 19 𝑏 𝑎 𝑖 𝑦𝑖 − 𝑎𝑥𝑖
+ 𝑏 2 ベストは1か所→ベストな「モデルあてはめ」は一つ! (by 一か所だけ出っ張った二次関数の美しい特性) 誤差大 誤差最小 誤差
20.
20 参考:最小二乗法,どう解く? 解き方の細かいところ 20 𝜕 𝑖 𝑦𝑖
− 𝑎𝑥𝑖 + 𝑏 2 𝜕𝑎 = 0 𝜕 𝑖 𝑦𝑖 − 𝑎𝑥𝑖 + 𝑏 2 𝜕𝑏 = 0 解き方(要は「極値なら微分してゼロ」という条件) 高校時代 二次関数の 極値問題を 解かされたな... 𝑎と𝑏をいじって 𝑖 𝑦𝑖 − 𝑎𝑥𝑖 + 𝑏 2 を最小化
21.
21 主成分分析と回帰分析の違い: どちらがいい・悪いというものではなく,目的からして全く違う 21 要素 𝑥2 要素 𝑥1 第1主成分= 分布の近似方向 主成分分析 結果
𝑦 入力(原因)𝑥 回帰直線= 入力と結果の関係 (線形)回帰分析 要素 𝑥1, 𝑥2を交換しても同じ 入力 𝑥と結果𝑦を交換すると違う直線
22.
22 データ集合に関する回帰③ 重回帰分析 入力=複数の変数 結果=単一の値
23.
23 重回帰による予測(ステップ1/3): データ収集 バスケット ボールの得点 身長𝑥1 A君の データ B君の データ E君 体重𝑥2 入力が 二次元に
24.
24 重回帰による予測(ステップ2/3): モデルあてはめ バスケット ボールの得点 A君の データ B君の データ E君 → やはり最小二乗法になります 身長𝑥1 体重𝑥2
25.
25 重回帰による予測(ステップ3/3): 予測 バスケット ボールの得点 12点 身長𝑥1 体重𝑥2
26.
2626 余談:なんで「重」回帰? 何か重たいのか? 英語では Multiple
regression analysis このmultipleを「重」と訳した Regression analysis = 回帰分析 Multiple=「複数のものを(同時に)」という意味合いか というわけで「何かが重たい」わけではない
27.
27 データ集合に関する回帰④ より複雑なモデルの利用 多項式モデル
28.
28 回帰分析は「線形モデル」だけじゃない: 2次関数モデル 結果 入力 𝑦 = 𝑎𝑥2 +
𝑏𝑥 + 𝑐
29.
29 回帰分析は「線形モデル」だけじゃない: 𝑁次多項式モデル 結果 入力 𝑦 = 𝑎
𝑛 𝑥 𝑛 + 𝑎 𝑛−1 𝑥 𝑛−1 + ⋯ + 𝑎1 𝑥 + 𝑎0 全データを通過 →誤差ゼロ でも...これOK? (この点,後述)
30.
30 データ集合に関する回帰⑤ 回帰分析で注意したい点 アウトライヤとオーバーフィット
31.
31 アウトライヤ(はずれ値)の悪影響(1/4) 31 結果 𝑦 入力 𝑥 アウトライヤ •
センサの異常 • 測定ミス • イイカゲンな返答
32.
32 アウトライヤ(はずれ値)の悪影響(2/4) 32 結果 𝑦 入力 𝑥 こちらのほうが よさそうだが... アウトライヤも 等しく扱うために こうなる アウトライヤ
33.
3333 アウトライヤ(はずれ値)の悪影響(3/4) 対策:「ロバスト最小二乗法」 結果 𝑦 入力 𝑥 第一回目の あてはめ結果 依然として 誤差大
34.
3434 アウトライヤ(はずれ値)の悪影響(4/4) 対策:「ロバスト最小二乗法」 結果 𝑦 入力 𝑥 第2回目の あてはめ結果 このデータに ついては 誤差があっても 小さめに評価
35.
35 オーバーフィッテイングと汎化能力(1/3) 結果 入力 予測値 (いいの?) 事前に与えられたデータにとってはハッピーだが 未知データにとっては使い物にならない(オーバーフィット)
36.
3636 オーバーフィッテイングと汎化能力(2/3) 汎化能力(generalization)とは? 回帰曲線を求めるときには使わなかったデータについても, ちゃんと妥当な予測結果が得られるか? だから下の例は「汎化能力」がない例
37.
37 オーバーフィッティングと汎化能力(3/3) 37 (良)事前に与えられたデータに 対する誤差小さい (悪)大量に事前データがないと 回帰結果に汎化能力がない恐れ (悪)事前に与えられたデータに 対する誤差大 (良) 事前データ数が少なくても ひどいオーバーフィッティングは少ない 高次多項式モデル 線形モデル
38.
3838 オーバーフィッティングやアウトライヤの影響を 見つける方法:バリデーション(validation) 事前に収集されたデータ集合をランダムにA, Bに分ける 集合Aの中のデータを使って,モデルフィッティングを行う 求まったモデルを使い,集合Bのデータがどれぐらいきちんと 予測できるかを評価する ※集合Bのデータも正解値はわかっている
Baixar agora