SlideShare a Scribd company logo
1 of 40
1
九州大学大学院システム情報科学研究院
データサイエンス実践特別講座
データサイエンス概論第一
第1回 データとベクトル表現:
1-2 データのベクトル表現と集合
システム情報科学研究院情報知能工学部門
内田誠一
2
データサイエンス概論第一の内容
 データとは
 データのベクトル表現と集合
 平均と分散
 データ間の距離
 データ間の類似度
 データのクラスタリング
(グルーピング)
 線形代数に基づくデータ解析の基礎
 主成分分析と因子分析
 回帰分析
 相関・頻度・ヒストグラム
 確率と確率分布
 信頼区間と統計的検定
 時系列データの解析
 異常検出
3
データのベクトル表現
今日最もマスターしてほしいこと!
「あたりまえでしょ!」と思ってもらえるほど,相当丁寧にやりますね
44
なぜいきなり「ベクトル」とやらを学ぶ?
データサイエンスとどんな関係が?
 実データを扱う研究では,実は頻繁に「ベクトル」が出てきます
 例えばデータが「血糖値と体重」のような数字の組なら,もうそれは「ベクトル」
 画像や時系列データも,実は「ベクトル」とみなせます
 アンケートデータでも,いろいろな形で「ベクトル化」できます
 実際,主成分分析や因子分析など多くの有名な解析手法のター
ゲットは,「ベクトル」なんです
 というわけで,高校・大学学部時代に苦い思いをした諸君も,
データ解析の視点から,ベクトルについて再度考えてみましょう
55
「ベクトル=数字の組」
 A君: 体重62kg, 身長173cm
 A君の体格データは,2つの数字の組で表される
(62, 173)
66
「ベクトル=数字の組」
 B君: 体重57kg, 身長164cm
 B君の体格データも,2つの数字の組で表される
(57, 164)
 これがわかれば,もう大丈夫!
 第一段階突破
77
「ベクトル=数字の組」
 A君: 体重62kg, 身長173cm, 腹囲78cm
 A君の体格データは,3つの数字の組でも表される
(62, 173, 78)
88
「ベクトル=数字の組」
 A君: 体重62kg, 身長173cm, 腹囲78cm, 靴のサイズ26cm
 A君の体格データは,4つの数字の組でも表される
(62, 173, 78, 26)
99
「次元」とは?
 組み合わせた数字の数,です
 (62, 173) → 2次元ベクトル
 (62, 173, 78) → 3次元ベクトル
 (62, 173, 78, 26) → 4次元ベクトル
 (62, 173, 78, 26, ......, 9) → 200億次元ベクトル
 特にそれ以上の意味はない
 以下のような物理的な意味づけは,とりあえず忘れましょう
1次元 2次元 3次元 4次元
?
200億個の数字
1010
そんな高い次元なんて必要なの?
→ 画像をベクトルで表現してみる (1/2)
 2値画像の例
 グレースケール画像の例
 1,0,...,0,1,1,0,0,0,0,1,1
 249,...,254,231,92,35,10,245,255
49次元ベクトル
49次元ベクトル
7×7画素
7×7画素
1111
そんな高い次元なんて必要なの?
→ 画像をベクトルで表現してみる (2/2)
 皆さんのスマホ・デジカメ・コンピュータは,いつも超高次元ベクトルを
扱っている
 シャッター押した瞬間に400万次元ベクトルが一つ生まれている
400万画素の
カメラ
400万画素の
画像
各画像は
400万次元
ベクトル
(RGBそれぞれ400万だから,
より正確には1200万次元)
1212






173
62
ベクトルと座標系:
1つの2次元ベクトルは,2本の座標軸を使った平面で表現できる
 みんな高校の時に習ったはず
62
173
第1次元
(体重)
注:これまで(62,173)と横に
数字が並んでいたのに,急に
縦になってる? →気にしない
第2次元
(身長)
1313






173
62
ベクトルと座標系:
別に「矢印」で表現しなくたっていい.点だっていい
 → 1データ(1ベクトル)が1点で表される
62
173
第1次元
(体重)
第2次元
(身長)
14






173
62
ベクトルと座標系:
点にすると複数のデータを同時に図示することもできて便利
62
173
第1次元
(体重)






164
57
A君
B君
第2次元
(身長)
15
ベクトルと座標系:
たくさんデータがあると「点群」になる
第1次元
(体重)
A
B
例えば
3年10組全体
第2次元
(身長)
1616
ベクトルと座標系:
3次元でもOK
 依然として「1データ=1点」
62
173
第1次元
(体重)
78
第3次元
(腹囲)
第2次元
(身長)
A君
62
173
78
17
ベクトルと座標系:
さて4次元. どこに座標軸を書けば...?
第1次元
(体重)
第3次元
(腹囲)
第2次元
(身長)
A君第4次元
(靴のサイズ) 62
173
78
26
1818
ベクトルと座標系:
そんなときは,えいやっと「イイカゲン表現」
 この寛容さ(=抽象的思考)がデータサイエンスではすごく大事
第1次元
(体重)
第3次元
(腹囲)
第2次元
(身長)
第4次元
(靴のサイズ)
どこ向いているのかよく
わからないが,とにかく
第4の座標軸がある
要は「3次元も4次元も,
次元が1つ増えただけで,
大して変わらない」という
気持ちで行こう!
1919
ベクトルと座標系:
「イイカゲン表現」を許してくれれば,やはり「1データ=1点」
 図中での点の位置は「イイカゲン」ではあるが...
第1次元
(体重)
第3次元
(腹囲)
第2次元
(身長)
A君
第4次元
(靴のサイズ)
62
173
78
26
2020
ベクトルと座標系:
4次元を許してくれたのなら,もっと多次元も許して
 「気に入らん!」と思うかもしれませんが,そこを何とか....
第1次元
第2次元
第3次元
第𝑑次元
𝑑個の数字の組
= 𝑑次元ベクトル
62
⋮
5
2121
ベクトルと座標系:
この勢いで,各画像データも1点にしてしまおう
第1次元
第2次元
第3次元
第49次元
ある7x7画素の画像
 𝑑 = 49としたら,7x7画像が1点に!
22
ベクトルと座標系:
この勢いで,各画像データも1点にしてしまおう
第1次元
第2次元
第3次元
第49次元
ある7x7画素の画像
別の7x7画素の画像
原点=すべての画素値が「0」の7x7画像
23
ベクトルと座標系:
もう慣れましたか? 任意の画像についてもOKですよね!
第1次元
第2次元
第3次元
第400万次元
400万画素の画像
24
ベクトルと座標系:
逆に考えれば,任意の1点は何らかのデータに対応
第400万次元
任意の1点
400万次元ベクトル
=400万画素の画像データとして解釈可能
25
ベクトルと座標系:
逆に考えれば,任意の1点は何らかのデータに対応
第400万次元
やはり400万次元ベクトル
=別の400万画素の画像データとして解釈可能
別の1点
2626
ベクトルと座標系:
この座標系の全体を「(𝑑次元)ベクトル空間」と呼ぶ
 (数学で出てくる)空間とは集合のこと
 ベクトル空間=(全ての)ベクトルの集合
この座標系はすべ
ての𝑑次元ベクト
ルがぎっしりつまっ
た集合である
↓
要するに(意味が
あるデータかどうか
は別として,考え
得る)「全データ」
の集合
集合の1要素
2727
余談:数学で出てくる「(ナントカ)空間」とは
何らかの「集合」のことである
 ベクトル空間=ベクトルの集合
 関数空間=関数の集合
 線形空間=aとbがメンバとして入っているならa+bやca (cは定数)
もメンバとして入っている集合
 距離空間=要素間の距離が定義された集合
 内積空間=要素間の内積が計算できるものの集合
 位相空間=位相が定義できるものの集合
 バナッハ空間
 ヒルベルト空間
 などなど...どうぞ好きに作ってください
G. Cantor (1845-1918)
数学の本質は
その自由さにある
The essence of mathematics
is its freedom.
2828
余談:データの表現方法は一意ではない!
 解析に適したようにデータを表現することは,重要なポイント!
 例:
7次元ベクトル
7×7画像
各行の黒画素数をカウント
4
2
1
5
1
1
5
注:横に並べたほうが楽
そうなのに,なんで縦に並
べてる? →気にしない
29
いよいよ数式がちょっと出ます
(この講義ではあまり数式は出しませんのでご安心を)
𝒙 =
𝑥1
𝑥2
𝑥3
⋮
𝑥 𝑑
1つのデータ 𝑑次元ベクトル
再注:横に並べたほうが
楽そうなのに,なんで縦に
並べてる? →気にしない
太字
細字
3030
参考:ちなみに𝑇をつけると横に寝ます
 𝑇:「転置」記号と呼ばれます
 工学や情報学ではよく出てきます
 この講義では,(時々出てくるかもしれませんが)
特に気にしなくてOK!
𝒙 𝑇 = 𝑥1, 𝑥2, 𝑥3, … , 𝑥 𝑑
31
データの集合
「多くのデータ=多くの点」として見る
3232
量的データの集合
=ベクトルの集合=(ベクトル空間内における)点の集合
 再掲: 生徒の(体重,身長)データのクラス全体での集合
第1次元
(体重)
第2次元
(身長)
例えば
3年10組全体
33
また数式がちょっと出ます
(この講義ではなるべく数式は出しませんのでご安心を)
𝒙1, 𝒙2, 𝒙3, … , 𝒙 𝑁
𝑁個のデータ
それぞれが𝑑次元ベクトル
34
身長と体重なら....
𝒙1, 𝒙2, 𝒙3, … , 𝒙 𝑁
𝑁人分のデータ
それぞれが2次元ベクトル






173
62






164
57






171
65






164
75
35
もちろん,こんな感じ
第1次元
(体重)
第2次元
(身長)
𝒙1
𝒙2
𝒙3
𝒙 𝑁
36
画像のような高次元ベクトルの集合でも同様
(𝑑画素)画像の空間
𝒙𝒊
3737
データの分布 (1/4)
=データ集合が空間内でどう広がっているか?
 データ集合が空間内のどのような位置にどれぐらいいるか?
 この性質・傾向をきちっと数値化(定量化)すると,色々わかる!
 「データ解析」の基本的方法の一つ
[Goldstein, Uchida, PLoSONE, 2016]
例えばこれは
「はずれデータ」
(異常かも...)
38
データの分布 (2/4)
似たようなデータは近くにありそう
なぜなら似た画像は
似たベクトルだろうから(𝑑画素)画像の空間
39
データの分布 (3/4)
高次元になると可視化困難に...
2次元なら絵で描きやすく
目で見てもわかる
100次元だと...!?
4040
データの分布 (4/4)
以上より「データ分布,是非解析すべし!」
 データの分布,重要!
 世の中には「高次元ベクトル」で表されるデータが多い
 「パッと絵にして理解」という方法が使えない!
 ゆえに,様々なデータ解析を行い,「データの分布状況」を
何とか理解したい!
 というわけで,しばらくは「データの分布状況」理解のための方法が
続きます
 平均,分散,クラスタリング,主成分分析...

More Related Content

What's hot

What's hot (20)

データサイエンス概論第一 5 時系列データの解析
データサイエンス概論第一 5 時系列データの解析データサイエンス概論第一 5 時系列データの解析
データサイエンス概論第一 5 時系列データの解析
 
画像処理基礎
画像処理基礎画像処理基礎
画像処理基礎
 
データサイエンス概論第一=4-1 相関・頻度・ヒストグラム
データサイエンス概論第一=4-1 相関・頻度・ヒストグラムデータサイエンス概論第一=4-1 相関・頻度・ヒストグラム
データサイエンス概論第一=4-1 相関・頻度・ヒストグラム
 
1 データとデータ分析
1 データとデータ分析1 データとデータ分析
1 データとデータ分析
 
『バックドア基準の入門』@統数研研究集会
『バックドア基準の入門』@統数研研究集会『バックドア基準の入門』@統数研研究集会
『バックドア基準の入門』@統数研研究集会
 
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
 
データサイエンス概論第一=8 パターン認識と深層学習
データサイエンス概論第一=8 パターン認識と深層学習データサイエンス概論第一=8 パターン認識と深層学習
データサイエンス概論第一=8 パターン認識と深層学習
 
深層学習の非常に簡単な説明
深層学習の非常に簡単な説明深層学習の非常に簡単な説明
深層学習の非常に簡単な説明
 
7 主成分分析
7 主成分分析7 主成分分析
7 主成分分析
 
2014 3 13(テンソル分解の基礎)
2014 3 13(テンソル分解の基礎)2014 3 13(テンソル分解の基礎)
2014 3 13(テンソル分解の基礎)
 
Attentionの基礎からTransformerの入門まで
Attentionの基礎からTransformerの入門までAttentionの基礎からTransformerの入門まで
Attentionの基礎からTransformerの入門まで
 
主成分分析
主成分分析主成分分析
主成分分析
 
画像処理応用
画像処理応用画像処理応用
画像処理応用
 
統計分析
統計分析統計分析
統計分析
 
相関分析と回帰分析
相関分析と回帰分析相関分析と回帰分析
相関分析と回帰分析
 
データサイエンス概論第一=3-3 回帰分析
データサイエンス概論第一=3-3 回帰分析データサイエンス概論第一=3-3 回帰分析
データサイエンス概論第一=3-3 回帰分析
 
データサイエンス概論第一 6 異常検出
データサイエンス概論第一 6 異常検出データサイエンス概論第一 6 異常検出
データサイエンス概論第一 6 異常検出
 
3次元レジストレーションの基礎とOpen3Dを用いた3次元点群処理
3次元レジストレーションの基礎とOpen3Dを用いた3次元点群処理3次元レジストレーションの基礎とOpen3Dを用いた3次元点群処理
3次元レジストレーションの基礎とOpen3Dを用いた3次元点群処理
 
ようやく分かった!最尤推定とベイズ推定
ようやく分かった!最尤推定とベイズ推定ようやく分かった!最尤推定とベイズ推定
ようやく分かった!最尤推定とベイズ推定
 
データサイエンス概論第一=4-2 確率と確率分布
データサイエンス概論第一=4-2 確率と確率分布データサイエンス概論第一=4-2 確率と確率分布
データサイエンス概論第一=4-2 確率と確率分布
 

Similar to データサイエンス概論第一=1-2 データのベクトル表現と集合

CVPR2015 reading "Understainding image virality" (in Japanese)
CVPR2015 reading "Understainding image virality" (in Japanese)CVPR2015 reading "Understainding image virality" (in Japanese)
CVPR2015 reading "Understainding image virality" (in Japanese)
Akisato Kimura
 

Similar to データサイエンス概論第一=1-2 データのベクトル表現と集合 (20)

9 可視化
9 可視化9 可視化
9 可視化
 
データサイエンス概論第一=0 まえがき
データサイエンス概論第一=0 まえがきデータサイエンス概論第一=0 まえがき
データサイエンス概論第一=0 まえがき
 
Code for Japan Summit 2019 --- BAD OpenData Kuyodera
Code for Japan Summit 2019 --- BAD OpenData KuyoderaCode for Japan Summit 2019 --- BAD OpenData Kuyodera
Code for Japan Summit 2019 --- BAD OpenData Kuyodera
 
JPA2023_NetworkTutorial_Part1.pdf
JPA2023_NetworkTutorial_Part1.pdfJPA2023_NetworkTutorial_Part1.pdf
JPA2023_NetworkTutorial_Part1.pdf
 
[JAWS2012]CRFを用いた メディア情報の抽出とLinked Data化 ~ ソーシャルメディアとマスメディアの比較事例 ~
[JAWS2012]CRFを用いた メディア情報の抽出とLinked Data化 ~ ソーシャルメディアとマスメディアの比較事例 ~[JAWS2012]CRFを用いた メディア情報の抽出とLinked Data化 ~ ソーシャルメディアとマスメディアの比較事例 ~
[JAWS2012]CRFを用いた メディア情報の抽出とLinked Data化 ~ ソーシャルメディアとマスメディアの比較事例 ~
 
Paper: clinically accuratechestx-rayreport generation_noself
Paper: clinically accuratechestx-rayreport generation_noselfPaper: clinically accuratechestx-rayreport generation_noself
Paper: clinically accuratechestx-rayreport generation_noself
 
Shell shock事件が明らかにするあなたの組織における情報セキュリティ力
Shell shock事件が明らかにするあなたの組織における情報セキュリティ力Shell shock事件が明らかにするあなたの組織における情報セキュリティ力
Shell shock事件が明らかにするあなたの組織における情報セキュリティ力
 
そのデータベース、クラウドで使ってみませんか?
そのデータベース、クラウドで使ってみませんか?そのデータベース、クラウドで使ってみませんか?
そのデータベース、クラウドで使ってみませんか?
 
ae-3. ディープラーニングの基礎
ae-3. ディープラーニングの基礎ae-3. ディープラーニングの基礎
ae-3. ディープラーニングの基礎
 
Word2Vecによる次元圧縮と重回帰分析型協調フィルタリングへの応用
Word2Vecによる次元圧縮と重回帰分析型協調フィルタリングへの応用Word2Vecによる次元圧縮と重回帰分析型協調フィルタリングへの応用
Word2Vecによる次元圧縮と重回帰分析型協調フィルタリングへの応用
 
データ解析
データ解析データ解析
データ解析
 
050830 openforum
050830 openforum050830 openforum
050830 openforum
 
確率統計-機械学習その前に
確率統計-機械学習その前に確率統計-機械学習その前に
確率統計-機械学習その前に
 
セッション「But Maybe All You Need Is Something to Trust」の紹介
セッション「But Maybe All You Need Is Something to Trust」の紹介セッション「But Maybe All You Need Is Something to Trust」の紹介
セッション「But Maybe All You Need Is Something to Trust」の紹介
 
九大_DS実践_距離とクラスタリング
九大_DS実践_距離とクラスタリング九大_DS実践_距離とクラスタリング
九大_DS実践_距離とクラスタリング
 
CVPR2015 reading "Understainding image virality" (in Japanese)
CVPR2015 reading "Understainding image virality" (in Japanese)CVPR2015 reading "Understainding image virality" (in Japanese)
CVPR2015 reading "Understainding image virality" (in Japanese)
 
ITリスク研究会20230722v1.1.pdf
ITリスク研究会20230722v1.1.pdfITリスク研究会20230722v1.1.pdf
ITリスク研究会20230722v1.1.pdf
 
内容的妥当性,構造的妥当性と仮説検定の評価
内容的妥当性,構造的妥当性と仮説検定の評価内容的妥当性,構造的妥当性と仮説検定の評価
内容的妥当性,構造的妥当性と仮説検定の評価
 
Brief introduction of aLeaves (mainly in Japanese)
Brief introduction of aLeaves (mainly in Japanese)Brief introduction of aLeaves (mainly in Japanese)
Brief introduction of aLeaves (mainly in Japanese)
 
機械学習 / Deep Learning 大全 (1) 機械学習基礎編
機械学習 / Deep Learning 大全 (1) 機械学習基礎編機械学習 / Deep Learning 大全 (1) 機械学習基礎編
機械学習 / Deep Learning 大全 (1) 機械学習基礎編
 

More from Seiichi Uchida

More from Seiichi Uchida (14)

13 分類とパターン認識
13 分類とパターン認識13 分類とパターン認識
13 分類とパターン認識
 
12 非構造化データ解析
12 非構造化データ解析12 非構造化データ解析
12 非構造化データ解析
 
0 データサイエンス概論まえがき
0 データサイエンス概論まえがき0 データサイエンス概論まえがき
0 データサイエンス概論まえがき
 
15 人工知能入門
15 人工知能入門15 人工知能入門
15 人工知能入門
 
14 データ収集とバイアス
14 データ収集とバイアス14 データ収集とバイアス
14 データ収集とバイアス
 
10 確率と確率分布
10 確率と確率分布10 確率と確率分布
10 確率と確率分布
 
8 予測と回帰分析
8 予測と回帰分析8 予測と回帰分析
8 予測と回帰分析
 
6 線形代数に基づくデータ解析の基礎
6 線形代数に基づくデータ解析の基礎6 線形代数に基づくデータ解析の基礎
6 線形代数に基づくデータ解析の基礎
 
3 平均・分散・相関
3 平均・分散・相関3 平均・分散・相関
3 平均・分散・相関
 
2 データのベクトル表現と集合
2 データのベクトル表現と集合2 データのベクトル表現と集合
2 データのベクトル表現と集合
 
「あなたがいま読んでいるものは文字です」~画像情報学から見た文字研究のこれから
「あなたがいま読んでいるものは文字です」~画像情報学から見た文字研究のこれから「あなたがいま読んでいるものは文字です」~画像情報学から見た文字研究のこれから
「あなたがいま読んでいるものは文字です」~画像情報学から見た文字研究のこれから
 
Machine learning for document analysis and understanding
Machine learning for document analysis and understandingMachine learning for document analysis and understanding
Machine learning for document analysis and understanding
 
データサイエンス概論第一=7 画像処理
データサイエンス概論第一=7 画像処理データサイエンス概論第一=7 画像処理
データサイエンス概論第一=7 画像処理
 
An opening talk at ICDAR2017 Future Workshop - Beyond 100%
An opening talk at ICDAR2017 Future Workshop - Beyond 100%An opening talk at ICDAR2017 Future Workshop - Beyond 100%
An opening talk at ICDAR2017 Future Workshop - Beyond 100%
 

データサイエンス概論第一=1-2 データのベクトル表現と集合