Mais conteúdo relacionado 差分プライバシーとは何か? (定義 & 解釈編)4. スライドの趣旨
取り扱う話題
• 差分プライバシー (en: Differential Privacy)
という概念を紹介
1. 何をするためのものか?
2. どの程度有益か?
3. どの程度有益ではないか?
4. 研究上の一般的課題は何か?
スライド作成動機
• 筆者は差分プライバシーを研究
• 概念そのものが根本的にわかりづらく,お茶の間の話題にしづらい
• 「これさえ読めばわかる」資料を用意したい
4
10. C. Federighiの発言@WWDC2016
“Differential privacy is a research topic in the area of
statistics and data analytics that uses hashing, subsampling,
and noise injection to enable this kind of crowdsourced
learning while keeping the information of each individual
user completely private.”
差分プライバシーは:
1. 統計学およびデータ解析の研究領域であり
2. サブサンプリングやノイズ付加を利用することで
3. ユーザーの個人情報を完全に保護したまま
学習を行うことを可能にする!
10
14. C. Federighiの発言@WWDC2016
“Differential privacy is a research topic in the area of
statistics and data analytics that uses hashing, subsampling,
and noise injection to enable this kind of crowdsourced
learning while keeping the information of each individual
user completely private.”
差分プライバシーは:
1. 統計学およびデータ解析の研究領域であり
2. サブサンプリングやノイズ付加を利用することで
3. ユーザーの個人情報を完全に保護したまま
学習を行うことを可能にする!
14
29. データ解析タスク
タスク 𝑫 = (𝑿 𝟏, 𝑿 𝟐, … , 𝑿 𝒏) 公開したい量 𝜽
平均値
線形回帰
分類
29
𝑋1 𝑋2 𝑋 𝑛
⋯
ユーザーのデータ 𝐷 データ収集/解析者 統計量 𝜃
47. 例: Laplaceメカニズム
観察
• 密度が互いに𝑒 𝜀倍以下なら 𝜀-差分プライバシーを達成:
Laplace Mechanism1 [DMNS06]
• 𝑋𝑖 ∈ {0, 1}
• 平均にLaplaceノイズを加えたものは 𝜀-DP
47
( 𝑓𝐷(𝜃) は 𝜌 𝐷 の確率密度)
1: 本来はもう少し一般的な主張
54. 定義の正当性
• 𝜀 や 𝛿 が小さいほどデータは強く保護される
のはまあわかる
• 定義の不等式:
• 𝜀 や 𝛿 が小さいほど不等式はタイトであり,
𝜌 𝐷と𝜌 𝐷′が大きく変化できない
54
55. 定義の正当性
• 𝜀 や 𝛿 が小さいほどデータは強く保護される
のはまあわかる
• 定義の不等式:
• 𝜀 や 𝛿 が小さいほど不等式はタイトであり,
𝜌 𝐷と𝜌 𝐷′が大きく変化できない
• しかし,特定の (𝜀, 𝛿) が使われたとして,
「あなたのデータ」は結局どの程度安全か?
55
56. 定義の正当性
• 𝜀 や 𝛿 が小さいほどデータは強く保護される
のはまあわかる
• 定義の不等式:
• 𝜀 や 𝛿 が小さいほど不等式はタイトであり,
𝜌 𝐷と𝜌 𝐷′が大きく変化できない
• しかし,特定の (𝜀, 𝛿) が使われたとして,
「あなたのデータ」は結局どの程度安全か?
56
Q. 情報の復元不可能性という意味で,
別の基準(統計学 or 情報理論)からの
意味づけを考えることはできるか?
60. 仮説検定による解釈 [WZ10][BD14]
• 敵対者は 𝜃~𝜌 𝐷 𝑗
を観測して,判断 𝜓( 𝜃) を行う
定理 ([WZ10] Thm 2.4, 少し改変)
• 𝜌 𝐷 が 𝜀, 0 -DP のとき,次が成り立つ
• 特に,有意水準 𝛼 の検定で,検出力が 𝛼𝑒 𝜀 以上
であるものを作ることはできない
• 注: 検出力=Pr(𝜓 = 1 ∣ 𝐻1) = 1 − Pr(𝜓 = 0 ∣ 𝐻1)
60
第1種過誤第2種過誤
62. 仮説検定による解釈 [WZ10][BD14]
数値感
• 検出力 = 本当はデータセットが 𝐷1 であるときに,
「𝐷 = 𝐷0である」という仮説を正しく棄却できる確率
大きい方がよい
• 𝜃 が 𝜀 = 0.1-差分プライバシーを満たすとき
𝜃 を見て判断を行う敵対者は,
有意水準5%で検出力5.6%以上の検定を作れない
• 𝜃 が(𝜀, 𝛿) = (0.1, 0.001)-差分プライバシーを満たすとき
𝜃 を見て判断を行う敵対者は,
有意水準5%で検出力10.05%以上の検定を作れない
62
63. 解釈性に関するメッセージ
• 例: (Yes, No)-値個人情報
• 当然ながら,
「コインを投げて表ならYesと決めつける」
という戦略で50%の確率で個人情報が漏洩
• 差分プライバシーでいくら保護しても
「当てずっぽう」で漏洩する可能性はある
「邪推したら当たっていた」というタイプの
情報漏洩は絶対に防げない
63
77. 研究上の課題
• (𝜀, 𝛿) を固定して,達成可能な中での
最適値の性質について考える:
• 2006年から研究が進められてきたものの,
依然として未解決な部分が多い
• どのようなタスクであればプライバシーを充分に
保護したままで実行できるか?
77
78. 研究上の課題
• (𝜀, 𝛿) を固定して,達成可能な中での
最適値の性質について考える:
• 2006年から研究が進められてきたものの,
依然として未解決な部分が多い
• どのようなタスクであればプライバシーを充分に
保護したままで実行できるか?
• 平均などの統計値の算出
• 線形回帰
• 2値分類 (SVM, Logistic回帰,etc.)
• Deep learning (?)
• … 78
研究動向のまとめも
いずれ作りたいです…
(生命力があれば)
80. 参考文献
論文
[BD14] Barber and Duchi. Privacy and statistical risk:
formalisms and minimax bounds. Arxiv preprint, 2014.
[DMNS06] Dwork, McSherry, Nissim and Smith.
Calibrating noise to sensitivity in private data analysis. In
Theory of Criptography Conference, 2006.
[WZ10] Wasserman and Zhou. A statistical framework
for differential privacy. The Journal of the American
Statistical Association, 105:375--289, 2010
画像
いらすとや [http://www.irasutoya.com]
80
Notas do Editor 009F91 頻繁に変動あり.1月には50%超だった.iPhone率の正確な推定は今回の本題でないので省略
スマホユーザーの約半数に潜在的に影響のある話をこれからする 全く新しい圧倒的なプライバシーを提供 全く新しい圧倒的なプライバシーを提供 (\because) \Pr_{\theta \sim \rho_D}[\theta \in A]
&= \int_A f_D(\theta) \dd \theta \\
&\leq \int_A \ee^\vep f_{D^\prime}(\theta) \dd \theta \\
& = \ee^\vep \Pr_{\theta \sim \rho_D}[\theta \in A] \mathrm{Pr}_{\theta \sim \rho_D} [\theta \in A]
\leq {\color{red} \ee^\vep} \mathrm{Pr}_{\theta \sim \rho_{D^\prime}} [\theta \in A]
+ {\color{red} \delta} \mathrm{Pr}_{\theta \sim \rho_D} [\theta \in A]
\leq {\color{red} \ee^\vep} \mathrm{Pr}_{\theta \sim \rho_{D^\prime}} [\theta \in A]
+ {\color{red} \delta} \mathrm{Pr}_{\theta \sim \rho_D} [\theta \in A]
\leq {\color{red} \ee^\vep} \mathrm{Pr}_{\theta \sim \rho_{D^\prime}} [\theta \in A]
+ {\color{red} \delta} \Pr (\psi(\hat{\theta}) = 1 \mid H_0) + \mathrm{e}^\varepsilon \Pr (\psi(\hat{\theta}) = 0 \mid H_1) \geq 1 - \delta \Pr (\psi(\hat{\theta}) = 1 \mid H_0) + \mathrm{e}^\varepsilon \Pr (\psi(\hat{\theta}) = 0 \mid H_1) \geq 1 - \delta \forall D, D^\prime, \quad \mathrm{Pr}_{\rho_D}(\theta \in A) &= e^0 \cdot \mathrm{Pr}_{\rho_{D^\prime}}(\theta \in A) + 0 \\
\Longrightarrow \forall D, D^\prime, \quad \rho_D &= \rho_{D^\prime} \equiv \rho \forall D, D^\prime, \quad \mathrm{Pr}_{\rho_D}(\theta \in A) &= e^0 \cdot \mathrm{Pr}_{\rho_{D^\prime}}(\theta \in A) + 0 \\
\Longrightarrow \forall D, D^\prime, \quad \rho_D &= \rho_{D^\prime} \equiv \rho \forall D, D^\prime, \quad \mathrm{Pr}_{\rho_D}(\theta \in A) &= e^0 \cdot \mathrm{Pr}_{\rho_{D^\prime}}(\theta \in A) + 0 \\
\Longrightarrow \forall D, D^\prime, \quad \rho_D &= \rho_{D^\prime} \equiv \rho \forall D, D^\prime, \quad \mathrm{Pr}_{\rho_D}(\theta \in A) &= e^0 \cdot \mathrm{Pr}_{\rho_{D^\prime}}(\theta \in A) + 0 \\
\Longrightarrow \forall D, D^\prime, \quad \rho_D &= \rho_{D^\prime} \equiv \rho \forall D, D^\prime, \quad \mathrm{Pr}_{\rho_D}(\theta \in A) &= e^0 \cdot \mathrm{Pr}_{\rho_{D^\prime}}(\theta \in A) + 0 \\
\Longrightarrow \forall D, D^\prime, \quad \rho_D &= \rho_{D^\prime} \equiv \rho \left .
\begin{aligned}
L(\theta, D) &\\
R(\theta) = & \; \mathbb{E}_{D \sim P^{\otimes n}} [L(\theta, D)]
\end{aligned}
\right \}
\quad (\to \text{min.} )