8. 他分野への適用
• 文字列なら適用可能
R. Cilibrasi, P.M.B. Vitanyi, R. de Wolf, Algorithmic clustering
of music based on string compression, Computer Music J.,
28:4 (2004), 49-67.
なお、ショパンの前奏曲Op.28は、バッハの平均律クラヴィーア曲集に
触発されたと言われている
22. Algorithmic Complexity
• その代表者は、
Kolmogorov, Solomonoff, Chaitin
(from www.solomonoff85thmemorial.monash.edu/) (from cs.umaine.edu/~chaitin/)
(from Wikipedia)
Chaitin’s
Algorithmic Information Theory
Algorithmic Probability 2 ( the size in bits of P )
program P halts
23. それはさておき
• ある数字列(文字列でもよい)の複雑度を、
それを出力するプログラムのうち、最も短
いものの長さ(ビット数で数える)と定義
した
• 計算機 C に基づく、文字列 x の複雑度
HC(x) は、 x を出力する最小のプログラム p
min p
C ( p) x
の長さ:
– HC(x) =
25. 再掲: それはさておき
• ある数字列(文字列でもよい)の複雑度を、
それを出力するプログラムのうち、最も短
いものの長さ(ビット数で数える)と定義 確率
した
• 計算機 C に基づく、文字列 x の複雑度
HC(x) は、 x を出力する最小のプログラム p
min p
C ( p) x
の長さ: HC(x) は、x を一番圧縮したときの、
圧縮ファイルの長さです。
– HC(x) =
このプログラム p は、
「解凍プログラム+圧縮したファイル」
と考えても、ほぼ、よいのです。
26. 理論の展開
• 実は、 HC(x) の C としては universal Turing
machine なら何でもよい TM
条件付き確率
H U ( x) min p p x
U ( p) x
条件付き複雑度
HU ( x | y ) min p min q1 min q2
U ( p, y ) x U ( q1 ) yx U ( q2 ) y
TM
TM
y x
x q1
p y y
q2 y
27. 理論の展開:確率と複雑度
• U に対応したある確率分布 PU があり、
P ( x) 2 HU ( x ) log2 P ( x)
U HU ( x)
U
P ( x | y) 2 HU ( x| y ) log2 P ( x | y)
U HU ( x | y)
U
• ところが、 HU ( x | y) HU ( yx) HU ( y)
であるから、log2 P ( x | y) HU ( yx) HU ( y)
U
注: 「 log (ある事象の生起確率)」 は「その事象の情報量」
28. 分類との関係
• 機械学習による分類を、確率的に考える
と Pr(x | C1 )
Pr(x | C2 ) x Ci
最大値が
:
: Pr(x | Ci )
Pr(x | Ck )
log2 Pr(x | C1 )
log2 Pr(x | C2 ) x Ci
最小値が
:
: log2 Pr(x | Ci )
log2 Pr(x | Ck )
29. テキスト分類との関係
• 記号をサボって、Ci で Ci のテキストを表
す
HU (C1 x) HU (C1 )
HU (C2 x) HU (C2 ) x Ci
: 最大値が
: HU (Ci x) HU (Ci )
HU (Ck x) HU (Ck )
log2 P ( x | y)
U HU ( yx) HU ( y)
30. ちょっと脱線
情報理論的不完全性定理
(Chaitin)
• 形式的システム FA は、公理 A に推論規則
F を適用して得られる定理の集合である。
• 形式的システム FA は、ある文字列が複雑
度 H(A)+cF 以上になることを証明できない。
– 特に、H(s)>n の時に限り A ⊧ F H(s)>n である
なら、 A ⊧ F H(s)>n となるのは n<H(A)+cF の
時に限られる。
31. ちょっと脱線
結果の別表現(Chaitin)
• 算術を含む無矛盾な形式的体系 S (前記 A
と F を併せたもの)に対して次の条件を
満たす整定数 cS N が存在する: 真なる
H(w)>cS が証明できない。
32. ちょっと脱線
結果の拡張
• 集合 {w| H(w)>g(|w|)} は帰納的可算な無限
集合を含まない。
– g は全域的で帰納的な増加関数
• PA が H(w)>c なるどんな形の文も証明でき
なくなるような定数 c が存在する
33. 圧縮プログラムとの関係
• 計算機 C に基づく、文字列 x の複雑度 HC(x)
は、 x を出力する最小のプログラム p の長
さ: min p HC(x) は、x を一番圧縮したとき
C ( p) x
– HC(x) = の、圧縮ファイルの長さです。
このプログラム p は、
「解凍プログラム+圧縮したファイル
• 実は関数 HC(x) は計算 と考えても、ほぼ、よいのです。
不能である
• そこで、できるだけよい圧縮プログラム Z
を用意して、 HC(x) Z(x)の長さ( Z(x) )
思考実験でプログラムを書いてみよう
としてよいのでは?