Estimating Player's Belief in Bayesian Game by Feedback Control

第一回　SICE制御部門マルチシンポジウム
電気通信大学　2014/3/6

ベイジアンナッシュ均衡を構成する信念の推定
○金川　雅和
奈良先端科学技術大学院大学

小木曽公尚
電気通信大学
杉本　謙二
奈良先端科学技術大学院大学

もくじ

• はじめに
• ベイジアンゲーム
• 信念の推定法
• 数値例
• おわりに

背景
標準型ゲーム
プレイヤの効用値が確定的に決まる
プレイヤ１

1. 合理的なプレイヤ：二人
：二種類 (a, a)
2. 行動
3. 効用値

プレイヤ２

a

a
a 4
a

5

4

1

1
2

5

2

標準型ゲーム

均衡解析：ナッシュ均衡[1]
　プレイヤが自身の行動を変更することで

（囚人のジレンマ）

　　　　より高い効用値を得ることができない行動の組

[1] J. Nash 1951

3

背景
プレイヤ２
✓
✓

ベイジアンゲーム[2]

プレイヤの効用値が確率的に決まる
合理的なプレイヤ：二人
：二種類 (a, a)
行動
効用値の候補
タイプ
：二種類 (✓, ✓)
信念（タイプ上の確率分布）

プレイヤ１

1.
2.
3.
4.
5.

a

a

✓

a
a

0

2

0
1

1

2

1

1

a

✓

a
a

均衡解析：ベイジアンナッシュ均衡（BN均衡）
　プレイヤが自身の戦略を変更することで

2
1

2

a
a

0
2

a

0

a

1

5
0

1

a

2

1

5

1
1

a

a
a
a

2
1

0

2

5

5
0

1

0

ベイジアンゲーム

　　　　より高い期待効用を得ることができない戦略の組

ベイジアンナッシュ均衡を計算するためには信念が必要
[2] J.C. Harsanyi 1967

4

ベイジアンゲームの問題点
信念を正確に把握することは困難
✓ 繰り返しゲームを行いプレイヤの行動から信念を推定

例：モバイル端末の周波数割当[3]，アドホックネットワークの侵入検知[4]

信念の推定の課題
✓ 指定したBN均衡に対応する信念の推定は議論されていない
✓ 対応する信念を解析的に求めることは困難

電力需要家の選好を推定への応用

[3] K. Akkarajitsakul et al. 2011 [4] Y. Liu et al 2006

5

目的
目的

指定したBN均衡に対応する信念の推定
"
"
"

アプローチ
✓ 信念の推定問題を追従制御問題に帰着させて解く
• 信念とBN均衡を状態変数とするモデル（制御対象）
• 指定したBN均衡（目標値）に到達する制御系を構築

6

対象とするベイジアンゲーム：定式化
ベイジアンゲームの構成要素：(N ,
1.　プレイヤ i 2 N
a i 2 Ai
2.　行動
ui : A ⇥ ⇥ ! R
3.　効用値
4.　タイプ
✓i 2 ⇥ i
5.　信念
µi 2 ⇧(⇥i )

確率分布の集合

A, u, ⇥, µ)
N := {1, 2}
9
Ai := {a, a}>
>
>
>
=

>
⇥i := {✓, ✓}>
>
>
;

A := A1 ⇥ A2
⇥ := ⇥1 ⇥ ⇥2
8i 2 N

si (✓i ) 2 ⇧(Ai )
　混合戦略　　　　　　　　　　：行動上の確率分布

si (✓
✓確率分布　　　i ) に従い行動　　　　　を選択
a i 2 Ai
7

対象とするベイジアンゲーム：タイプ
タイプの組　　　　毎に標準型ゲームが存在
✓2⇥

⇥i = ✓, ✓
a

a
a
a

2
1

2

5

5
4

a

1

4

標準型ゲーム

[1] J.Nash, (1951)

a

2

1

a

0

2

2

1

0
2 1
5

5

0

a

1

5

1

0

2
1 1
0

8i 2 N

⇥ := ⇥1 ⇥ ⇥2


8

対象とするベイジアンゲーム：タイプ
✓2⇥

⇥i = ✓, ✓
a

a

a

a

a

0

2

a 0

2
1

1

✓, ✓

a

a

0
1
(✓, ✓)

1

1

2

1

a
a

0

a

a

2

5

✓, ✓

1

1

2

1

0

2

5

1

8i 2 N

⇥ := ⇥1 ⇥ ⇥2

0

a

a

a

2 2

5 1

✓,
✓
a

1

5

0

0

9

対象とするベイジアンゲーム：信念
✓2⇥
タイプの組　　　　は信念に従い確定
✓2⇥

µ2 ✓

µ2 (✓)
a

a

⇥i = ✓, ✓
a

a

a

0
1
(✓, ✓)

1

1

2

1

a

µ1 ✓

⇥ := ⇥1 ⇥ ⇥2

a 0

2
1

1

✓, ✓

a

µ1 (✓)

a

0

2

a

0

a

a

2

5

✓, ✓

1

1

2

1

0

2

5

1

0

8i 2 N

µ1 (✓)µ2 ✓

a

a

a

2 2

5 1

✓,
✓
a

1

5

0

0

10

ベイジアンナッシュ均衡
µ2
8
>
>
>
>
>
>
>
>
>
>
>
>
<

1

EUi (si , s i ) :=

X

µi (✓i )µ i (✓ i )

✓2⇥

信念

(

X

a2A

"
""
0

8
>
>
<

a1 aa
2
8
8
>
>

0

0

2

2

> a1
>
<
>

1

>
1
1
>
0
> s (✓)
> 1
>
>
>

1

1

0

1

>
: a2
>
>
1
0
>
2
1
<
a1 aa
a
2
>
8
>
>
>
> a

0

2

>
> a1
2

1

>
<

>
0
1
>
2
5
>
> s1 (✓) >
>
> a2
>

1

1

2

2

: a
:
2
0

s2 (✓)

>
>
:

期待効用

8
>
>
<

µ1

s2 (✓)

>
>
:

si (✓
✓確率分布　　　i ) に従い行動　　　　　を選択
a i 2 Ai

>
>
>
>
>
>
>
>
>
>
>
>
:

si (✓i ) 2 ⇧(Ai )
　混合戦略　　　　　　　　　　：行動上の確率分布

a
a2

a1
a
a1
a
a2
a

1

2

0
0

1

5

2
1

a2
a

1

"

2

1

2

"
0

5

0

1

si (ai |✓i )s i (a i |✓ i )ui (a, ✓)
混合戦略

1

5

1

0

)

"
given µ

1
1

1

1

0

0

a
a2

a1
a
a1
a

1
1

si 2 arg max EUi (si , s i ) 8i 2 N
¯
¯
si

s
¯
➡　混合戦略の組　はベイジアンナッシュ均衡

11

"
"

1

2

0

ベイジアンナッシュ均衡の特徴
"
given µ

si 2 arg max EUi (si , s i ) 8i 2 N
¯
¯
si

s
¯

✓　プレイヤが自身の戦略を変更することで

　　　　より高い期待効用を得ることができない混合戦略の組

µ
✓　ベイジアンナッシュ均衡は信念　に依存
(
EUi (si , s i ) :=

X

✓2⇥

µi (✓i )µ i (✓ i )

X

a2A

si (ai |✓i )s i (a i |✓ i )ui (a, ✓)

µ
✓　信念　を所与として，ベイジアンナッシュ均衡を計算
(µ, s)
均衡対　　　　：あるBN均衡と対応する信念の組
12

)

推定法のアプローチ
µ
¯
s
¯
信念の推定問題：BN均衡　に対応する信念　を推定
µ
¯
s
¯
✓　BN均衡　　を所与として，信念　　を計算

(¯ ¯
　　　　は均衡対　　　　　　仮定：ひとつの均衡対が既知
✓ 　 µ, s)
均衡対

追従制御問題に帰着
1. 均衡遷移モデル（自律系）

µ+

+

µ = diag(A1 , A2 )µ
+

f (s, µ, µ+ )

diag(A1 , A2 )

s+

+

s = f (s, µ, µ )
2. 追従制御系
µ+ = diag(A1 , A2 ) +g(¯
s
+
+
s = f (s, µ, µ )

+ -‐

s
¯

s)

g(¯
s
diag(A1 , A2 )

+
+

z

1

s)

µ+

f (s, µ, µ+ )

s+

13

均衡遷移モデルの実現
効用値行列

(µ, s)
仮定：　　　　が均衡対である

Ui (✓i , ✓ i ) =

定理：ベイジアンゲームに対して
⇥
⇤T
⇥
⇤
　　　　1
1 Ui (✓i , ✓) 0 1
=0



1 0
1 1

(8✓i 2 ⇥i 8i 2 N )

f で求まる　　　　　) は均衡対である
(µ+ , s+

ならば，遷移モデル　
+

fi (si (✓), µ, µ ) =



2

fi (si (✓), µ, µ ) = 4
+

1 0
0 1
c
c

1

si (✓)

i (✓)
i (✓)
c i (✓)

c

ci (✓i ) =

i (✓)

0
1

+
µi (✓i )

µi (✓i )

3

8i 2 N

5 si (✓)
8✓i 2 ⇥i

14

>
>
>
>
;

9
>
>
>
>
=

追従制御系の設計：信念の推定
+ -‐

s
¯

追従制御系
+
µ = diag(A1 , A2 ) +g(¯
s
s+ = f (s, µ, µ+ )

s)

g(¯
s
diag(A1 , A2 )

コントローラ(PI制御器)

g(¯
s

s) := KP (¯
s

s) + KI

P制御器

KP := ↵ I2 ⌦ ⌘

KI :=

I2 ⌦ ⌘

⌘ :=



X

(¯
s

+
+

z

1

s)

µ+

f (s, µ, µ+ )

s+

s)

I制御器

0
0

0
0

1 0
1 0

制御系の安定性は今後の課題
15

数値例

s2 (✓)
8
>
>
<

1

>
>
:

8
>
>
<

>
>
:

0

a1

a2

1
0

2
a1
0
a2

0
1

s2 =
¯

⇥

a2

1

1

1
1

1

0

a1 a2
a1 a2
>
8
>
>
>
> a
>
> 1
2

1
a1
1

2

>
<
>
>
0
1
1
1
> s1 (✓)
>
>
>
> a2
>
:
2

2
a2
0

0

:
2
0
0
1

0.5 0.5

0.8 0.2
0.2 0.8

⇢

8
>
>
>
>
>
>
>
>
>
>
>
>
<

>
>
>
>
>
>
>
>
>
>
>
>
:

µ1

8
8
>
>
> a1
>
<
>
>
> s1 (✓)
1
>
>
>
>
> a
>
: 2
>
>
>
1
<

0.5 0.5

s1 =
¯

s2 (✓)
a1

¯
目標値 s
⇥

⇤
⇤

⇢

ベイジアンゲームの数値例
µ2

si (✓)

si (✓)

A1 , A2 が列確率行列
↵ = 0.3, = 0.08
µ
¯
対応する信念（答え）
µ1 =
¯
µ2 =
¯

⇥
⇥

0.6154 0.3846
0.2857 0.7143

⇤
⇤

16

シミュレーション結果
A1 =



0.6 0.3
0.4 0.7

, A2 =



0.4
0.6

0.3
0.7

↵ = 0.3,

= 0.08

¯
推定結果 µ1

目標値 s
¯
⇥
⇤
µ1 = 0.6154 0.3846
¯
⇥
⇤
µ2 = 0.2857 0.7143
¯

¯
推定結果 µ2
推定結果が答えと一致
17

おわりに
まとめ
• 指定したBN均衡に対応する信念の推定法の提案
• BN均衡の遷移モデルの導出
• 数値例を用いて信念の推定が可能であることを確認
"
"

今後の課題
• 安定性解析
• 仮定と遷移モデルのパラメタライゼーション
• 繰り返しゲームへと遷移モデルの拡張

18

均衡遷移モデルの導出
f
帰納法を用いて，BN均衡の十分条件を満たすモデル　を導出
帰納法
前提： (µ, s) がBN均衡の十分条件を満たす均衡対
命題：

(µ+ , s+ ) がBN均衡の十分条件を満たす

BN均衡の十分条件

BN均衡の定義

si "2 arg max EUi (si , s i ) 8i 2 N
¯
¯
si

s
¯

期待効用を目的関数とする線形計画問題の最適解

given µ, s

i

arg max EUi (si , s i )
si
s.t gi (si )  0 hi (si ) = 0

8i 2 N

確率分布が満たす条件

i2N
BN均衡なら全ての　　　　でKarush-Kuhn-Tucker(KKT)条件を満たす

KKT条件からBN均衡になる十分条件を導出

19

仮定と均衡遷移モデルのパラメタライゼーション
本発表の仮定とモデル
仮定

⇥

1

1

⇤

⇥

Ui (✓i , ✓)
+

モデル fi (si (✓), µ, µ ) =



他の仮定とモデル
仮定

⇥

モデル

1

1

⇤

Ui (✓i , ✓)
+

fi (si (✓), µ, µ ) =

0



1

1 0
0 1

⇥

⇤T

=0

si (✓)

1 0

1 0
0 1

⇤T

=0

si (✓)

(8✓i 2 ⇥i 8i 2 N )
2

fi (si (✓), µ, µ ) = 4
+

c
c

1

(8✓i 2 ⇥i 8i 2 N )
2

fi (si (✓), µ, µ+ ) = 4

仮定

1

1

⇤

Ui (✓i , ✓)

⇥

1



⇤T

1 0
fi (si (✓), µ, µ+ ) =
si (✓)
モデル
0 1
8 2
3
c i (✓)
<
0
c i (✓)
+
4
5 + (1
fi (si (✓), µ, µ ) =
c i (✓)
:
1 c (✓) 1

1
0

i

)4

1
0

1

c i (✓)
c i (✓)
c i (✓)
c i (✓)

1

5 si (✓)

1

c i (✓)
c i (✓)
c i (✓)
c i (✓)

3

5 si (✓)

8i 2 N

= 0 (8✓i 2 ⇥i 8i 2 N )
2

0

3

8i 2 N

パラメタライゼーションした仮定とモデル
⇥

i (✓)
i (✓)
c i (✓)
c i (✓)

2 [0, 1]

39
8i 2 N
=
5 si (✓)
;

20

Estimating Player's Belief in Bayesian Game by Feedback Control

Recomendados

Recomendados

Mais conteúdo relacionado

Último

Último (12)

Destaque

Destaque (20)

Estimating Player's Belief in Bayesian Game by Feedback Control