Mais conteúdo relacionado Semelhante a Learning to Solve Hard Minimal Problems (20) Mais de Takuya Minagawa (18) Learning to Solve Hard Minimal Problems2. 自己紹介
2
株式会社ビジョン&ITラボ 代表取締役
皆川 卓也(みながわ たくや)
博士(工学)
「コンピュータビジョン勉強会@関東」主催
株式会社フューチャースタンダード 技術顧問
略歴:
1999-2003年
日本HP(後にアジレント・テクノロジーへ分社)にて、ITエンジニアとしてシステム構築、プリ
セールス、プロジェクトマネジメント、サポート等の業務に従事
2004-2009年
コンピュータビジョンを用いたシステム/アプリ/サービス開発等に従事
2007-2010年
慶應義塾大学大学院 後期博士課程にて、コンピュータビジョンを専攻
単位取得退学後、博士号取得(2014年)
2009年-現在
フリーランスとして、コンピュータビジョンのコンサル/研究/開発等に従事(2018年法人化)
http://visitlab.jp
3. 紹介する論文
3
Learning to Solve Hard Minimal Problems
Petr Hruby (ETH Zurich),Timothy Duff (University ofWashington),
Anton Leykin (Georgia Institude ofTechnology),Tomas Pajdla (Czech
Technical University in Prague)
Best Paper
選んだ理由:
9. カメラポーズ推定(=各点の奥行推定)
9
𝑣𝑘,𝑖 =
𝑥𝑘,𝑖
𝑦𝑘,𝑖
1
x
y
z
𝑋𝑘 = 𝜆𝑘,𝑖𝑣𝑘,𝑖
= 𝜆𝑘,𝑖
𝑥𝑘,𝑖
𝑦𝑘,𝑖
1
𝐶𝑖
𝐶𝑖: 𝑖番目のカメラ
𝑣𝑖,𝑘: 𝑘番目の点の𝑖番目のカメラ画像上の座標(既知)
𝜆𝑘,𝑖:𝑘番目の点の𝑖番目のカメラから見た奥行(未知)
𝑋𝑘: 𝑘番目の点の三次元座標
11. Scrantonアルゴリズム
11
4点中任意の2点𝑘、𝑚を選択し、距離を比較
𝜆1,1 = 1の制約をパラメータ𝑙で緩和
𝜆𝑘,1𝑣𝑘,1 − 𝜆𝑚,1𝑣𝑚,1
2
= 𝜆𝑘,2𝑣𝑘,2 − 𝜆𝑚,2𝑣𝑚,2
2
𝑣1,1 + 𝑙[0; 1; 0] − 𝜆𝑚,1𝑣𝑚,1
2
= 𝜆1,2𝑣1,2 − 𝜆𝑚,2𝑣𝑚,2
2
272個程度の幾何学的にも整合性の取れた似の解が現れる
18. 5点アルゴリズムの問題𝑝と解𝑠の定義
18
𝑣𝑘,𝑖 =
𝑥𝑘,𝑖
𝑦𝑘,𝑖
1
x
y
z
𝑋𝑘 = 𝜆𝑘,𝑖𝑣𝑘,𝑖
= 𝜆𝑘,𝑖
𝑥𝑘,𝑖
𝑦𝑘,𝑖
1
𝐶𝑖
𝐶𝑖: 𝑖番目のカメラ
𝑣𝑖,𝑘: 𝑘番目の点の𝑖番目のカメラ画像上の座標(既知)
𝜆𝑘,𝑖:𝑘番目の点の𝑖番目のカメラから見た奥行(未知)
𝑋𝑘: 𝑘番目の点の三次元座標
𝑝 = (𝑥1,1, 𝑥2,1, 𝑥3,1, 𝑥4,1, 𝑥5,1,
𝑦1,1, 𝑦2,1, 𝑦3,1, 𝑦4,1, 𝑦5,1,
𝑥1,2, 𝑥2,2, 𝑥3,2, 𝑥4,2, 𝑥5,2,
𝑦1,2, 𝑦2,2, 𝑦3,2, 𝑦4,2, 𝑦5,2)
𝑠 = (𝜆1,1, 𝜆2,1, 𝜆3,1, 𝜆4,1, 𝜆5,1,
𝜆1,2, 𝜆2,2, 𝜆3,2, 𝜆4,2, 𝜆5,2)
5点の座標x2カメラ→20パラメータ
5点の奥行x2カメラ –1 →9パラメータ
ただし𝝀𝟏,𝟏 = 𝟏
19. Scrantonアルゴリズムの問題𝑝と解𝑠の定義
19
𝑣𝑘,𝑖 =
𝑥𝑘,𝑖
𝑦𝑘,𝑖
1
x
y
z
𝑋𝑘 = 𝜆𝑘,𝑖𝑣𝑘,𝑖
= 𝜆𝑘,𝑖
𝑥𝑘,𝑖
𝑦𝑘,𝑖
1
𝐶𝑖
𝐶𝑖: 𝑖番目のカメラ
𝑣𝑖,𝑘: 𝑘番目の点の𝑖番目のカメラ画像上の座標(既知)
𝜆𝑘,𝑖:𝑘番目の点の𝑖番目のカメラから見た奥行(未知)
𝑋𝑘: 𝑘番目の点の三次元座標
𝑝 = (𝑥1,1, 𝑥2,1, 𝑥3,1, 𝑥4,1,
𝑦1,1, 𝑦2,1, 𝑦3,1, 𝑦4,1,
𝑥1,2, 𝑥2,2, 𝑥3,2, 𝑥4,2,
𝑦1,2, 𝑦2,2, 𝑦3,2, 𝑦4,2,
𝑥1,3, 𝑥2,3, 𝑥3,3, 𝑥4,3,
𝑦1,3, 𝑦2,3, 𝑦3,3, 𝑦4,3)
𝑠 = (𝜆1,1, 𝜆2,1, 𝜆3,1, 𝜆4,1,
𝜆1,2, 𝜆2,2, 𝜆3,2, 𝜆4,2,
𝜆1,3, 𝜆2,3, 𝜆3,3, 𝜆4,3)
4点の座標x3カメラ→24パラメータ
4点の奥行x3カメラ –1 →11パラメータ
ただし 𝝀𝟏,𝟏= 𝟏
26. 学習データの作成
26
カメラと3D Model上の点のサン
プリング
• 5pt Algorithm:
• Camera x2, Point x5
• Scranton:
• Camera x3, Point x4
ETH 3D Dataset
サンプリングした点を各
カメラへ投影し、問題と
解のペア(𝑝, 𝑠)を生成
サンプリングした 𝑝𝑖,𝑠𝑖
から他のペア(𝑝𝑗, 𝑠𝑗)へ
追跡可能か調査
追跡可能な場合、
𝑝𝑖, 𝑠𝑖 と(𝑝𝑗, 𝑠𝑗)間に
エッジを生成
(𝑝, 𝑠)を頂点、追跡
可能性をエッジとし
たグラフ生成
グラフ全体をカ
バーする頂点
をアンカー𝐴と
する
27. アンカーの選択
27
ETH 3D DatasetのOfficeおよびTerrainsから1K, 4K, 10K,
40Kの問題/解をサンプリングして学習データセット𝐷を作
成
何個のアンカーでデータセット𝐷のどれだけの割合をカ
バーできるか
31. 始点識別器σ(𝑝)の学習
31
カメラと3D Model上の点のサン
プリング
• 5pt Algorithm:
• Camera x2, Point x5
• Scranton:
• Camera x3, Point x4
ETH 3D Dataset
サンプリングした点を各
カメラへ投影し、問題と
解のペア(𝑝, 𝑠)を生成
アンカー𝐴の各問題/解
𝑝0, 𝑠0 から、サンプリ
ングした 𝑝𝑖, 𝑠𝑖 へ追跡
可能か調査
𝑝𝑖へ追跡可能なすべて
のアンカーを𝑝𝑖のラベ
ルとする。追跡可能な
アンカーが無い場合
TRASHラベルをつける
入力が𝑝𝑖 、出力が 𝐴 +
1クラスのMLPを学習
32. 始点識別器σ(𝑝)の学習
32
識別器の評価
評価データ:
delivery_area
facade
学習データ
上記以外の23シーケンス
始点 𝑝0, 𝑠0 の選択
B1:すべてのアンカー
(𝑚 = 𝐴 )
B2: ユークリッド距離が最
も近いアンカー (𝑚 = 1 )
B3: マハラノビス距離が最
も近いアンカー (𝑚 = 1 )
MLP: MLPの出力上位m個
MLPT: MLPの出力上位1
個
Recall
アンカーの学習
データカバー率
34. ホモトピー継続
34
問題のパスが 𝑝 𝑡 = 1 − 𝑡 𝑝0 + 𝑡𝑝 で与えられた
ときの解𝑠 𝑡 を𝑠0からステップΔ𝑡毎に求めていく(追跡)
問題のパス
解のパス
𝑠0
𝑝0
ルンゲ=クッタ法で予測
(predictor)
ニュートン法で修正
(corrector)
𝑠
𝑝