O slideshow foi denunciado.
Utilizamos seu perfil e dados de atividades no LinkedIn para personalizar e exibir anúncios mais relevantes. Altere suas preferências de anúncios quando desejar.

CVPR 2019 report (30 papers)

7.791 visualizações

Publicada em

2019/06/15〜2019/06/20にアメリカロサンゼルスで開催されたコンピュータビジョン分野の世界最大の国際会議CVPR2019に、DeNAのAI研究開発エンジニア7名(加藤直樹、葛岡宏祐、洪嘉源、鈴木智之、中村遵介、林俊宏、李天琦)が参加しました。
今回、参加メンバーのスペシャリティを活かした情報収集を現地で実施し、注目度の高い論文や有益性の高い論文30本について解説資料を作成しました。

Publicada em: Tecnologia
  • Seja o primeiro a comentar

CVPR 2019 report (30 papers)

  1. 1. 2019 / 07 / 01 AI本部 AIシステム部 CVチーム 加藤 直樹,葛岡 宏祐,洪 嘉源,鈴木 智之,中村 遵介,林 俊宏,李 天琦
  2. 2. ● ● ● ● ● ● ● ●
  3. 3. Detection
  4. 4. 最近,キーポイント系の検出手法や ,弱教師あり学習が 増えてきているので,今回はそのような論文を 本紹介します
  5. 5. ● ( )に着想を得た物体検出手法 ● 物体の上下左右の端及び中心位置をヒートマップで予測し, 位置関係に基づいてそれらの点をグルーピングする
  6. 6. ● 物体の上下左右の点をヒートマップで予測する ● ではコーナー点の対応づけを を使って学習していたが,中心 点も予測することで,位置関係だけで対応づけできるようにしている ● での学習の際は, は マスクを利用して 生成している
  7. 7. 既存手法と同様に,ヒートマップでの予測に加えて, グリッドからのオフセットも予測し,ダウンサンプルによる誤差を補正する.
  8. 8. 物体の端点が垂直 水平なエッジになっている場合にレスポンスが弱くなるという 問題があるため,極大点からエッジに沿ってレスポンスが単調減少している範囲で足し込 む工夫を入れる.
  9. 9. と同一の で を上回る性能
  10. 10. ● 上下左右の端点を予測しているため,単純に の辺の長さの を 端点から延長し繋ぐことで, 角形による粗い も可能 ● 更に,端点情報を入力に する既存手法 ( ) と組 み合わせることでそれなりの性能も得られる
  11. 11. Grid R-CNN
  12. 12. ステージの物体検出器で,通常回帰で を出すところを, ヒートマップによるグリッド点の予測に置き換えることで大幅に性能向上
  13. 13. ● グリッド点同士が互いに特定の位置関係にあることを利用し, より良い特徴抽出をする ● 具体的には隣接するグリッド点に対応する特徴マップに変換をかけたものを 足しこむ形で行う
  14. 14. ステージ検出器の場合,第一段階の から物体がはみ出す可能性があるため ヒートマップでグリッド点を予測する際に の 倍の範囲の座標を予測する ようにすることで対処する.
  15. 15. 物体検出の 構造に を適用 ● 通常の では各特徴マップに をかけてチャネル数を揃えた上で, ダウンサンプルされた方から順にアップサンプルして足し込むが, より複雑な混ぜ合わせ方を により獲得する ● 段階の特徴マップから同じだけの特徴マップを出すようにし, それを複数回繰り返すことで性能が向上するように学習する
  16. 16. ● 「 つの特徴マップと出力サイズ,合成方法を順に選び適用する」という 操作を繰り返す コントローラを学習する ● 出力された特徴マップは特徴マップのリストに追加し, 次以降選ばれ得るようにする ● コントローラの学習の際は, を小さくしたりエポック数を減らし 時間で 終わるプロキシタスクにして実行する ● を 回繰り返した時の性能を向上させるように学習する
  17. 17. ● 下記の 構造が得られた 黄色の 段階の特徴マップが入力で 青の 段階の特徴マップが出力 ● トップダウンの繋がりだけでなくボトムアップの繋がりも含んだ合成に なっている
  18. 18. の取り替えなどにより,よい速度と精度のトレードオフを実現
  19. 19. ● は を 必要とせず検出器を学習させる手法だが、 に収束する原因の追究と を段階的に難しくしていくことによって、 に 収束する方法を提案 ● で既存 に対して提案手法を試したところ が大幅に向上された
  20. 20. ● 左の ( )は の既存手法で損失関数の デザインに問題があるため でスタックすることが多い ● 右の提案手法は最初から複雑な問題を解くのでなく,損失関数を にして に難しい問題へとしていくことで にたどり着く ● 初期の段階では複数の ( )の平均をとって正解の を探 すと言うよりかは正解の領域を探すようにして,最終的に正解の を 探すようにしている
  21. 21. ● 入力画像と で得た ( )で した後 層で を抽出 ● 各 に対して をだす ● の をパラメータ λ( )を元に作る ● λ だと画像中の 全てを含む一つの ができ, λ だと各 が一つの になる ● の信頼度は に含まれている の の平均
  22. 22. ● 後 の が一番 が に使われる ● 選ばれた 中 一番高いやつとその他の の をとり各 に ラベルをつけ を計算する ● この時 の には同じ λ を使う
  23. 23. 低コストの点アノテーションデータセットを学習するだけで, 同時に混雑人数カウンティングと頭の位置とサイズを検出する手法を提案する
  24. 24. ネットワーク構造 の を元に構築する 頭の 距離で して, のアスペクト比を決める の出力をそれぞれ (各自に異なる の を持ち)に入力し の形で出力する( は , は , は , は に対する ) つの出力は加算して を出力する
  25. 25. ● オンライン 更新 ● 初期 の の は 各アノテーション点と との距離 の正方形にする ● 学習後,一番高得点で,サイズは 以下の で を 置き換える
  26. 26. ● ● 中心 gx, gy のロスは はアノテーション点との距離で計算 ● 擬似 が正確ではないが,同じ水平線上の頭のサイズが大体同じ という観察から, の のロスは, i-1 : i+1 1 : W 範囲 ( 中心がいるが行と上下二行)内のすべての擬似 の 平均と標準偏差でロスを計算する
  27. 27. ● 人が混雑すぎる場合初期の頭の が小さくて検出しづらい.一方で 人が過疎だと初期の頭が実際のサイズよりはるか大きい. 上記のサンプルが非常に学習しにくい ● カリキュラム学習で,頭の初期 が中程度の画像のセットから学習する ● 学習難易度によってデータセットを し,難易度低いのセットから学習し,だんだん 難易度が高いセットを追加して学習する
  28. 28. 混雑人数カウンティング結果
  29. 29. での検出結果
  30. 30. 各データセットでのアノテーションと検出結果
  31. 31. や,自動運転への応用など, 最近 は注目を集めています. 今回はその中から論文4本を紹介します.
  32. 32. Mask Scoring R-CNN
  33. 33. 現状( )の において,マスクの は だけで評価していて,下記 〜 番のように の質が悪いが高得 点になるケースがある. 提案した手法で,適切な を定義した上, に を回帰 で計算する を追加することで の性能を向上する.
  34. 34. 定義 予測した と の の
  35. 35. の構造は下記通りで, に を予測する を追加することだけ と予測した を しブランチに入力して, と を通して を出力する 学習時, で出力した は の閾値で して, と の を として を計算する 推論時, と の乗積を とする
  36. 36. より くらいの を向上する.推論速度は と あまり変わらない
  37. 37. UPSNet: A Unified Panoptic Segmentation Network
  38. 38. ● を単一化した ネットワーク ● と のヘッドで抽出した特徴から を使って結果をマージする手法を提案 ● と で既存手法より高速で高精度
  39. 39. ● 他の は と で を変えている のに対して,提案手法は単一の ● を として使用 ● の は
  40. 40. ● の出力を入力に ● の後に各サイズの特徴マップを して ,最後に ● クラスの性能を向上させ,かつ を正しく認識するのが目的 ● と ● で クラスを識別・検出 ● 同様 とクラスを予測 ● な特徴を抽出することで クラスの性能を向上させるのが目的
  41. 41. ● は を予測する でそのまま出力 にマッピング ● は の クラスを予測する の特徴マップを使 用して, の の座標をもとに抽出する ● と の特徴マップを同じサイズにして足して各 の結果を得る ● 方向に を取ってカテゴリーを決める ● だと クラス, だったら の結果と の結果をマージしてクラスを決める
  42. 42. SQ(Segmentation Quality) mean IoU over # of TP RQ(Recognition Quality)F1 score
  43. 43. ● を単一化した ネットワーク ● に な を作って に応用した話 ● をちょっと改良するだけで, が 作れるよというお話
  44. 44. ● を として使用 ● で ● 入力画像比の は ● 出力を と の入力として使う
  45. 45. ● の出力が の入力 ● 各サイズの特徴マップに対して を行う ● と同じデザイン ● 各サイズの特徴マップをマージして 一つの出力を出す ● で を行い, のサイズにする ● 各特徴マップを同じサイズと 数にし た後 を行い, と で入力画像のサイズに戻す
  46. 46. ● ( )を評価指標として に を追加したものを評価 ● に と を追加して と ( )を評価 ● 最終的に ( )を評価指標として全体の性能評価
  47. 47. Auto-DeepLab: Hierarchical Neural Architecture Search for Semantic Image Segmentation
  48. 48. ● ( )は には有効だが のような解像度に なタスクではそこまで効かない ● セルの探索だけでなく,ネットワークレベルでの探索を行い のタスクで高精度を出した ● 結果的に なしで で しているやつと同じくらいの 精度が出た
  49. 49. ● ほとんどの モ デルで前後の層の解像度の差は であり,一番小さい 特徴マップのサイズは ● ↑の範囲内で最適な を探 す ● 最初の 層は で 出力のサイズは になる ● それ以外の層は によって から の幅でサイズが変わる ● を 使用している(微分可能)
  50. 50. ● 全体を論文中 と呼んでい 構造で できている ● 各 内に があり, 内で入とする 特徴マップと を探す ● 最終的に全ての出力を して 出力とする ● 探索する には などがある ● を使用してい(微分可能)
  51. 51. ● を用いて最適な を学習した後評価 ● と で を用いて評価 ● で してないんだぜを主張
  52. 52. Action & Video
  53. 53. 動画ベースの行動認識・検出タスクで流行っている, 機構の動画への応用を中心に 本の論文を紹介します
  54. 54. Long-Term Feature Banks for Detailed Video Understanding
  55. 55. 動画ベース行動認識 検出 の基本的なモデルは,動画からサンプリングされた な を に入力し,各 に対する出力を時間方向に結合する ことで動画単位の出力とするが,動画内の行動理解には な文脈情報も 必要だと仮定 そこで,動画単位の から注目時刻ごとに 機構を用い選択的に情 報抽出する ( )を提案. 複数の動画ベース行動認識 検出タスクで効果を示した ( ) 動画内の各時刻において人物の検出と各人物の行動ラベルを推定するタスク
  56. 56. ● などの で抽出された各 の時空間特徴に対し,各人物矩形 を 元に し,各 人物ごとの同一次元のNt 個の St を抽出 ● 同様にして各 で得た特徴量を動画全体で蓄積したものが ( )L ● から,注目時刻を中心に一定の 幅で Lt を抽出 ● Lt と St を に入力し,その出力とSt を して最終出力層に流す などの既存物体検出手法を使用して検出
  57. 57. ( )では以下のような処理が行われる ● St Lt の各人物矩形の特徴量を線形層に入力 ● それらの行列積を取って 関数をかけ, St の各人物矩形に対する Lt の各人物矩形の 行列を算出 ● 行列を St の各人物矩形に対する Lt の各人物矩形の特徴量の重み付け平均を計算 ● 上記を非線形に入力しその出力とStを する ● に近いが, ではなく 間の Wang+, Non-local Neural Networks, CVPR, 2018
  58. 58. 各出力をする際に考慮する時間の長さ 提案手法 ベースライン ● の で 達成 ● 考慮する時間が長くなると精度が向上
  59. 59. 各データセット タスクによって最適な考慮時間は異なる
  60. 60. Video Action Transformer Network
  61. 61. 動画の理解には時空間的な文脈情報が必要だが, では畳み込み処理の 特性から局所的な情報が支配的であることを指摘 そこで,自然言語処理で有効な を動画認識モデルに導入し, 注目領域との時空間的な相対位置に依存せずに重要な情報を取得する を提案. で を達成. Vaswani +, Attention is all you need, NIPS, 2018
  62. 62. ● 構成は ベースの前段部分( )と を含む 後段部分( )に分かれる ● の物体検出モデルと類似していて, では特徴抽出と入力 の 中心フレームにおける人物候補領域の検出, では された 候補領域の特徴 と 前の大域的な特徴を元に各候補領域の行動推定 と矩形回帰 ● 以上が各 に対して行われる
  63. 63. ● の では, された特徴 と 前の動画 の大域特徴に対して をして得る二つの時空間特徴 を使用 ● と の行列積を 関数に入力し, の各時空間座標における重みを計算し 重み付け平均をとったものを とする ● と の要素和に , を含む図のような処理を行う ● 上記を と呼び,実際には複数の を直列 並列に
  64. 64. の で 達成
  65. 65. と はいずれも 機構を用いており 類似しているが,主な違いは以下 ● の算出方法 は(注目人物領域の特徴 時空間特徴の各要素)間で を算出するのに対し, は(注目人物領域の 特徴 内の人物領域の特徴)間で を算出 ● 考慮される時間領域 で考慮される時間領域は入力された の時間方向の長さのみ では から抽出する 幅分の時 間領域を考慮できる. (上述)との相違
  66. 66. の行動検出モデルでは (時空間的に直方体の )を 用いてフレーム単位の人物矩形を回帰するが,人物の動きが激しい動画(下図) では の矩形は各フレームで大きく異なるため,適切ではない. そこで,進歩的に回帰と の修正を繰り返す手法を提案し,特に な入力 の際に効果を確認した.
  67. 67. 最初に下のような粗い を設定. 以下を複数ステップ繰り返す. ● を元にモデル(後述)で 人物矩形を回帰 ● 回帰した人物矩形を次の とする ● を時間方向に外挿
  68. 68. ● を用いて各入力フレームの時空間特徴を抽出 ● 上記特徴を を元にフレームごとに ( 特徴) これを時間方向に して に入力し 特徴を得る ● 各 特徴と 特徴を元に矩形回帰 ● 特徴を元に行動ラベル推定 各 に対して次の処理のような処理を行う
  69. 69. 数が多くなるほど が上昇 ( ) 時間方向に進歩的に外挿する方が, 最初から長フレーム入力するより良い( ) 最初の が粗くても, を経るごとに の 進歩的な によって,大きく修正できる
  70. 70. 動画を扱うモデルの計算コスト削減を で行う. 疎フレーム入力として計算コストを下げた生徒モデル, 密なフレーム入力の教師モデルとする. においてわずかな精度低下で推論時間を , 数を 削減
  71. 71. ● 密なフレーム入力で教師モデルを の最小化により学習 ● その後,教師モデルと同一構造の生徒モデルを以下の三種類のロスを 最小化するよう学習 ● LCE との ● Lrep 最終層への入力特徴における教師モデルとの二乗距離 ● Lpred 最終出力の教師モデルとの
  72. 72. (教師モデルを学習した後に生徒モデル学習),全てのロスを使用した モデルが最も精度が良い. フレームのサンプリングは に行なっているので蒸留の効果の確認は と比較することでわかる. は教師モデル( ) 計算コスト削減
  73. 73. 3D Multiview
  74. 74. 入力からの人の深度推定や手の メッシュ推定など 実応用範囲の広そうな興味深い手法が出てきています. 今回はそのような論文を紹介します.
  75. 75. マネキンチャレンジ動画を使い 大規模で多様な人 データセットを作成 それを用いた学習で,移動カメラで撮影した動く人間の深度推定を高精度に実現
  76. 76. ● 等は屋外で利用できないこともあり,人の大規模 データセットを作るの は容易でない ● しかし, 年後半から,人が色々なポーズをしたままマネキンのように 静止し,それを移動カメラで撮影するマネキンチャレンジというものが でブー ムになった ● これらの動画では人を静止物として扱えるため, で深度データを 求めることができ,学習に利用できる
  77. 77. ● データセットの作成 ● カメラ姿勢を で求める ● で深度画像を作成 ● 運動視差で求めた深度と の深度で整合が取れない部分を除去 ● 不適切な動画を除去 人が動いてしまっている レンズ歪みが大きい, ● このようにして最終的に 万枚以上の 画像―深度画像のペアを作成
  78. 78. ● 単一画像からの深度推定は難しいため, で人マスクを作り, かつ既知のカメラ姿勢を使って人領域以外の深度を出しておく その際, 深度の信頼度マップも作る ● これらの画像を入力とし,全体の深度画像を予測するモデルを学習する
  79. 79.
  80. 80. 画像から手の 姿勢と メッシュを同時推定する手法を提案 で で動作する
  81. 81. 合成画像による大規模 データセットでの学習 の実画像で 弱教師あり
  82. 82. 合成画像なのでGTを 用意できる
  83. 83. で ヒートマップを推定
  84. 84. ヒートマップと画像特徴を合わせた ものを特徴ベクトルに変換
  85. 85. 変換した特徴ベクトルから でメッシュ推定 メッシュデータは 自然にグラフ構造を持つの で, が有効
  86. 86. メッシュから線形 で キーポイント推定
  87. 87. で 深度画像にレンダリングしたも のと の 普通のヒートマップ (要 アノテーション) 一度推論したものから離 れすぎないように を かける
  88. 88. ● メッシュ生成は既存手法がないが,素朴なベースラインを超える性能 ● 姿勢推定では データセット, データセットで既存手法を上回る性能
  89. 89. Pose Estimation
  90. 90. 人物ポーズ推定トピックの中から, ポーズ推定に関する 論文を 本, ポーズ推定に関する論文を 本紹介します
  91. 91. 人物が重なりあった混雑シーンに対応できるポーズ推定手法と 混雑度をコントロールした データセットの提案
  92. 92. ポーズ推定手法( ) のフレームワーク 人領域( )の検出器として を用い,それぞれの 内の ポーズ推定は ( ,単一人物姿勢推定)で行い, 高性能な従来手法である を修正して使用
  93. 93. ポーズ推定手法( ) 本来, では,人検出器で画像の中に各人物の領域( )を検出した後,その人 に属する関節点のみを正解関節点としてロスを計算する. 本論文では,各人物の領域( )に対して,その人物に属するかどうかを問わず 内に 存在する全ての関節点を正解関節点として を計算する. 人物と同一の関節点 人物と別の関節点
  94. 94. ポーズ推定手法( ) 全 の関節点を入力画像にマッピングし,距離が近い同種類の関節点をクルーピング し関節点ノードとする. これによって, で重複して検出された関節点を一つのノードとしてまとめる.
  95. 95. ポーズ推定手法( ) 全ての関節点ノードを ステップで各人物のノードに割り当て, 統合する.これにより,画像全体の視点から各人の関節点をより正確に割り当てることが できる.
  96. 96. に対する各デファクト手法の精度を見ると(左), の大小で が ポイントも変化することがわかる.一方,各データセットにおける の分布 (中央・右)によると,新たに作成した は様々な 混雑度の画像をまんべんなく含んでいる. 図 : とランドマーク精度の関係(左) と データセットにおける の分布(中央,右)
  97. 97. データセットを用いた,提案モデルのベンチマーク結果は図 のようになっ た. らの手法を上回っている.
  98. 98. データセットを用いたベンチマークにおいても高い精度となった. やはり らの手法を上回っている.
  99. 99. 複数スケールの特徴マップを同時に保持し,それらの結合を密に行う を提案し, ポーズ推定タスクで高い認識性能を達成 推定結果例
  100. 100. ● 画像中の複数人物の外接矩形を物体検出器で取得し,検出された個々の人物の ポーズ推定を別個に行うトップダウン型のアプローチを採用 ● ベースライン手法である のアーキテクチャを改良 B Xiao+, Simple Baselines for Human Pose Estimation and Tracking, in ECCV 2018. 既存手法のモデル構造
  101. 101. ● モデルは のようなステージ構造を持つ ● 後段のステージへ移行する際にスケール の特徴マップを元の特徴マップと平行 して出力する ● 各ステージではそれぞれの解像度の特徴マップ同士の相互結合を行う
  102. 102. ● モデルは のようなステージ構造を持つ ● 後段のステージへ移行する際にスケール の特徴マップを元の特徴マップと平行 して出力する ● 各ステージではそれぞれの解像度の特徴マップ同士の相互結合を行う 最終層では最も解 像度の高い特徴 マップを用いて出 力を計算 入力画像の 1/4スケール 実験では4ステージ のモデルを使用
  103. 103. ● 各スケールの特徴マップの結合を行うユニット ● 前段の特徴マップを出力特徴マップのサイズに合わせて和を出力する ● アップサンプリング 畳み込み,またはストライド の畳み込みにより 解像度を揃える ● スケール毎に出力を計算し,複数解像度の特徴マップを保持する
  104. 104. ● モデルの学習 ● アノテーションされた人物外接矩形を元に固定アスペクト比率で人物領域をク ロップし,モデルに入力 ● モデルの学習対象は各関節点座標を中心とする正規分布により生成されたヒー トマップであり,二乗誤差を用いてモデルを学習する ● 推論 ● を人物検出器として利用 ● 検出された人物を固定アスペクト比でクロップし,モデルに入力 ● 推定する関節点の種類毎にヒートマップを出力し,ヒートマップにおいて値の最 も大きい座標を対応する関節点の推定座標とする
  105. 105. 既存手法を上回る認識性能を達成( データセット)
  106. 106. 出力解像度による精度変化 大きいほどよい 認識性能と計算量のトレードオフを改善
  107. 107. ● ポーズ推定において, 次元の関節点座標ラベルを持ったデータセット ( など)はスタジオ内でモーションキャプチャシステムを用いて作成され るのが一般的だが,このようなデータセットは見えの多様性が低く,学習されたモデ ルの汎化性能を損なう問題がある ● そこで, ラベルを持ったスタジオ内画像と共に,アノテーションが容易な ラベル 持った実画像を併用して学習可能な ポーズ姿勢推定アルゴリズムを提案 C Ionescu+, Simple Baselines for Human Pose Estimation and Tracking, in TPAMI 2014. データセットの画像例
  108. 108. システム構成 中間的に2次元関節点の ヒートマップを推定し,二乗 誤差で学習
  109. 109. システム構成 3次元人物姿勢を回帰により 推定し,二乗誤差で学習 ボーンのベクトルまたは長さを Ground truth に近づける ようロスをかける
  110. 110. システム構成 推定したカメラパラメータを用い て 3D ポーズを画像空間に射 影し,二乗誤差で学習 カメラの内部パラメータを 推定
  111. 111. 見えの多様性の低い データセットでは既存手法と同等程度の性能 テストデータの多様性に富む データセットで既存手法を上回る認識性能を達成
  112. 112. ラベルを持った の利用,また から への射影が特に性能向上に寄 与している
  113. 113. 次元の関節点座標アノテーションを持つ,複数視点のカメラで取得された 人物画像ペアを用いて 型のモデルを学習することで,人物の 次元の幾何 学的意味合いを持つ潜在表現を獲得する
  114. 114. システム構成
  115. 115. ● 人物の 画像を入力とし,それぞれの画像に対し で ポーズ推定を行う ● ポーズ推定結果から人物姿勢を表現する を生成 ● 関節点種類数のチャネルを持つ 値のマップ ● 関節点座標を中心にヒートマップを生成
  116. 116. カメラ i, j のパラメータを用いて一方の視点の人物画像の から もう片方の視点の を 型のモデルで復元し, 二乗誤差を用いてモデルを学習する 回転行列
  117. 117. 二つの視点の人物画像から得られた潜在表現 G 同士の距離を近づけるよう 二乗誤差を用いてモデルを学習する
  118. 118. これら手順により, 次元ベクトルの集合で表される の潜在表現 G が の形態をとった人物の 次元的な幾何表現となる (と主張しているが,潜在表現の可視化結果は論文に記載されていない) 人物姿勢が変化していったときの と推定された ポーズの例
  119. 119. 推論時は学習された潜在表現に対して を適用する 少量の ラベルで学習が可能
  120. 120. ● 獲得された潜在表現を既存の 次元姿勢推定手法に付加 (特徴ベクトル同士の和)することでそれらの認識性能の底上げが可能 ● データセットにおける ● ( ): → ● ( ) : →
  121. 121. 単眼カメラ画像と ラベルのみを用いて ポーズ推定モデルを学習する方法を提案
  122. 122. : ポーズを入力とし ポーズを推定
  123. 123. : 推定された ポーズに対しランダムな変換を施した後で 次元空間に射影
  124. 124. 射影されたポーズと の ポーズを見分けるような を 用意し, を用いて を学習
  125. 125. 射影後の ポーズから逆変換により元の ポーズを復元するよう, 二乗誤差を与える
  126. 126. 既存の教師なし学習手法を上回る性能を達成 の使用が特に性能向上に寄与
  127. 127. GAN & Synthesis
  128. 128. 今回の 発表にあった,構造情報を踏まえた な生成で面白かった論文を 本紹介します.
  129. 129. Textured Neural Avatars
  130. 130. ● ニューラルネットを使ったアバター画像レンダリングの手法 ● 古典的な レンダリングとニューラルネットのハイブリッド ● 特定の人物の画像 少量の動画 を予め学習させておく事で, モデルを介さずに任意のポーズ カメラビューでレンダリング可能
  131. 131. ● 通常 モデル表面に貼る用の を で予測する一方で, 明示的な モデリングを介す事なく,直接目的画像をレンダリングする ● はカメラ空間に された 情報 ( ごとに チャンネル) 加えて を構成する つの 間の深度を チャンネルで加える ● はパーツごとの と,それに対応した の値
  132. 132. ● わかりやすく言うと出力は とほぼ同じで,入力が違うだけ ● モデルの も を使う ● 画像から 検出して, を提案モデルに入れた時の出力と 画像をそのまま に入れた時の結果を近づけるよう学習
  133. 133. ● モデルを使って,目的人物の画像に適用した時に 得られた から, を逆算する ● 目的人物の全画像に対しこれを行いその平均を の初期値とする
  134. 134. ● された と の初期値を使って, 新しい を入力した時のレンダリング画像を合成する ● 正解画像との ,マスクの も取る ● で も更新されるので,少しずつ されていく
  135. 135. ● ( )と比較 ● 手法( を使わずに 入力で直接 画像出力)とも比較 ● のうち 人分を使用 ● カメラ約 分( フレーム)で, カメラと カメラアングルで実験 ● では提案手法は低かったものの, では一番高い ● 人による定性評価( にどれだけ近いか)では提案手法が最も高かった
  136. 136. ● の派生研究 ● を入力とし, な画像生成タスク ● という正規化層を加えることで,生成クォリティを大きく向上 ● 更に と を分離できるようになり, で多様な生成を実現
  137. 137. ● ● 通常の 層での の情報量が落ちる問題を解決 ● 出力を でチャンネルごとに正規化する ● を にかけて に落とし込んでから 更に別々の で補正パラメータ γ と β を求める(h × w の ) これをスケーリング,バイアスの として正規化後の出力にかける
  138. 138. ● パラメータ γ と β は学習によって得られ, の情報を含む ● 各 層の代わりに を使う事で,意味情報を合成画像に付与可能 ● ネットワークの途中に を埋め込めるようになった事で, の入 力部にランダム分布を取り付け可能となった ● を捉える用の を取り付ける事でシンプルで多様な生成を実現
  139. 139. ● を少し変形すると既存の各種論文で提案された正規化層になる ● をラベル情報に置き換え,γ と β を空間的に不変にする → になる ● を別の画像に,γ と β を空間的に不変, 内サンプル数を にする → になる ● 従来手法と比較すると,例えば一様な を入力した時, 従来の 層だと平均と標準偏差を引いたら全部 になる の場合補正パラメータ γ と β は正規化されないので意味情報が残る
  140. 140. ● のデータセットを 使った実験 ● 生成結果と正解画像をそれぞれ のモデルにかけて, マスク予測精度を比較( , ) ● 合成画像と本物画像の分布の距離を測るため も比較 ● ベースライン手法として と比較 ● では本物画像のパッチをつなぎ合わせて画像合成しているので, 生成分布は本物画像の分布と合致しやすい → だけ高い
  141. 141. ● 人間( )による定性的評価 ● 枚を見せて, と適切に対応している方を選ぶ ● 全てのケースにおいて提案手法が最も高確率で選ばれた
  142. 142. ● な のフレームワーク ● 任意のオブジェクトが描かれている静止画 と, 類似のオブジェクトが動いている動画 を与えると, 静止画に描かれているオブジェクトが動画と同じように動き出す
  143. 143. ● からは外観の特徴情報を抽出 ● からはモーションパターンを抽出 ● これをフレームごとに合成して動画生成する ● 学習時は のみを使って, に の動きを予測する ● の頭文字で
  144. 144. は つのネットワークで構築される Δ: 画像から, に有用な を予測 : 枚の画像の 差分から密な を予測 : 及び 差分から合成画像を生成
  145. 145. Δ ● 構造のネットワークで, 画像を入力して, 枚の を出力 ( 数,各 は入力画像と同じ W × H の大きさ) ● の最終層に を入れて,出力 の値域を [ ]に制限 ● 更に各 に対して 関数をかけて正規化
  146. 146. Δ ● 枚の 画像 (X, X’) をそれぞれ Δ に入れて 得られた 枚の (H, H’) からその差分 H˙ = H’ - H を予め計算しておく ● H˙ は ごとの移動ベクトルを表す.
  147. 147. ● 全部で 層で構築された を使う ● 画像を に入力した時の各層の出力を ξr = ( ξ1, ξ2,... ξR ) とする ● 各 ξr を を使って 関数 fwで予め させておく (各 ξr の解像度に合わせて をダウンサンプルさせる) ( 関数はここでは を使う) ● した結果の に,同じくダウンサンプルしたH˙を 方向で結合して へ入力 ● はX’を復元するよう学習する
  148. 148. ● まずは各 の周辺領域を変形しない剛体と仮定し,粗い を予測 ● 各 ごとの移動ベクトルH˙k( )を,同一ベクトルを 全ピクセルに する演算子 ρ(・) を定義する.これを各 に適用し ρ(hk) を得る. ※この時 ρ(hk) は全部で( 数 )枚存在し,最後の 枚は背景を表す. ● 各 ρ(hk) ごとに変形すべき領域のマスクMk がわかれば大雑把な を作れる
  149. 149. ● では,このマスク情報 Mk を予測する ● それに加え,粗い を合成した後,それを洗練するための残差 Fresidual も合わ せて予測する.Fcoarse と Fresidual を合成したものが最終的な ● への入力時にも ρ(hk) を使い, 画像 X を させた画像( 枚)を作成 ● これと元の 画像,及びH˙kを 方向に結合して,ネットワークへ入力
  150. 150. ● ネットワークは で学習を行う ● は 種類使用し, と ● は のものを採用 ● がモーションの識別に集中できるよう,変形先の H’ も ヒントとして与える ● は外部ネットワークを必要とせず の各中間層を使用
  151. 151. ● 最終的な ● 係数 λ は基本 に設定( を の 倍の比率)
  152. 152. ● 訓練終了後, する時には, から切り出した 枚の 画像に 加え, も入力する ● を Δ に入力して得られた に対し, の フレーム間の 差分を加えたものを,相対的な 情報とする ● 以降はこれを学習時と同じように, 及び に 入れていけば自在に動作変形できる ● 似通っているオブジェクト同士であれば,任意なドメインの画像に適用可能 ※ と が全く似ていないと物理的に 変換不可能
  153. 153. ● 既存手法( ) との比較 ● は 解像度の の つ ● についてそれぞれ正解画像との 距離を比較 ● 生成画像と正解画像を 検出した時の ( ) を比較.加えて ( )も比較 ● 生成画像と正解画像を 空間での距離 ( )も 比較
  154. 154. 物体の親要素・子要素の関係を に得ながら学習する生成モデル ベースは 生成モデルとしてだけではなく真の画像をクラスタリングするための手法も考案
  155. 155. 生成部分 背景コード b と乱数 z から画像らしさ・背景らしさで背景の生成器を訓練 親要素生成器は乱数 z 親埋め込み p からマスクと画像を生成 生成結果から のように p を推定しその誤差で学習 子要素生成器は親要素情報 子埋め込み c からマスクと画像を生成 と同じく c の推定誤差と,さらに最終画像の で学習 注意すべきは,p, c ともに適当に設定したコードで,教師はない
  156. 156. クラスタリング部分 ● 親要素 p・子要素 c を指定すれば画像 x’ を生成できるようになったので, x’ から p c を推定する φp φc を訓練できる ● 真の画像 x に対して φp φc から px cx を推定する ● px cx を して にかけて画像を分類し可視化
  157. 157. クラスタリングについて既存手法との 比較 生成について既存手法との 比較
  158. 158. 親要素 p は物体の形状を, 子要素 c はテクスチャを 決 めるようになったのが 分 かる また,z には物体の 位 置・向きを決める役 割が 確認できる
  159. 159. ● ある人物画像について,指定した姿勢通りに画像を変換することを 教師なしで学習 ● 指定した姿勢で,空間的な歪みのない生成ができる ● 入力は「ソース画像 ソースの姿勢情報 ターゲットの姿勢情報」で 出力が「ターゲット画像」
  160. 160. 1. 入力画像を何らかの手法で Semantic segmentation し,その画像を ターゲットの姿勢画像に変換する 2. ターゲットの姿勢 Segmentation 画像と入力画像からテクスチャ部分を生成
  161. 161. 人物画像 Is を既存手法で し, Es によって姿勢情報と 合わせてエンコードする Ep によってターゲットの姿勢情報をエンコードする からターゲットの姿勢 を で生成し, Hs を学習 と Is Is のセグメンテーション結果,ソース・ターゲットの姿勢情報から で最終 結果を出力 の と, から逆にソース画像を生成し,元の画像に戻せるかの再構 築誤差で HA を学習 人物画像と姿勢情報があればそこからランダムにペアを作り上記を学習できる (実際は服の形状が似て異なる姿勢のものをペアにする) に解くために, [ ]の考えを適用する
  162. 162. 生成例比較
  163. 163. を 手作業編集して 生成画像の服を変更
  164. 164. の正確性が求められるのが分かる
  165. 165. Super Resolution
  166. 166. カーネルが(一部)不明,任意倍率など,現実世界に即した 超解像手法が多く登場しました.その中から 本紹介します .
  167. 167. ● でぼかした後に で縮小した画像を元のサイズに戻す ● の幅 σ は不明という設定(厳密には ではない) ● 適用された σ より大きな値を推定して超解像したときはエッジが目立ち, 小さな値を推定して超解像するとぼやけた画像になることより, 超解像結果から σ の値を修正していけるという手法 左が推定した σ 上が実際の σ の値 実際の σ が大きいほど ぼやけが強いが,それより 大きな値で推定するとエッジが際 立ち(左下), 小さな値で推定するとボケが取 れずぼやける(右上)
  168. 168. 低画質画像から推定器 で を推定 (k0) k0 と低画質画像から によって超解像を行う(I’0) 超解像画像 I’0 と k0 から修正器 が k0 を k1 にアップデート k1 と低画質画像から によって超解像を行う(I’1 ) 超解像画像 I’1 と k1 から修正器 が k1 を k2 にアップデート 上記手法は が であることを仮定しないように見えるが, 修正器 が修正を学習できるのは超解像結果から σ の大小を推定できるという 仮定に基づいている 論文中では完全に不明な に対しても実験を行っている
  169. 169. 推定した が 超解像時は を直接利用するのではなく, の 係数算出に利用
  170. 170. 他の 系との比較 σを変えても性能が落ちない
  171. 171. への適用
  172. 172. 従来の単一画像超解像の多くは(例えマルチスケールであっても) 予め倍率を定めたモデルを学習するが, は拡大カーネルを学習するため テスト時に倍率を指定できる また,指定する倍率も整数である必要はない [ ]や [ ]のように予め で超解像したものを するのではなく, 内部で任意倍率超解像を行う
  173. 173. 通常は拡大部分 か が 用いられるが,これらは拡大カーネルを学習する は倍率を受け取ると,その倍率に拡大するためのカーネルを予測する が拡大を担う
  174. 174. 低画質画像をエンコードするのは既存手法で良い( [ ]を選択) r 倍の拡大後の画像の画素 i, j を決めるのは低画質画像をエンコードした FLR([i/r], [j/r]) の周辺部分と拡大カーネル wi, j であると仮定 画素 i, j に対して が (i/r - [i/r], j/r - [j/r], 1/r) から wi, j を生成する 下が高画質画像の画素で上が低画質特徴の画素 高画質画像の各画素に対して 対応する低画質特徴画素の選択と それにかける各カーネル w の予測を行う
  175. 175. 任意倍率での超解像結果と … で拡大した後, で … 倍に 拡大して求めるサイズに    縮小拡大する必要がある時は事前に拡大 … 倍に 拡大して求めるサイズに縮小
  176. 176. 単独訓練にも劣らないスコアが出ている
  177. 177. Datasets
  178. 178. 初の害虫データセットおよび で使用した 大規模の交通画像データセットの論文を紹介します そのほか、強化学習で を 自動選択する手法の論文を紹介します
  179. 179. 農業に大きく関わっている害虫のデータセット を構築する. このデータセットは合計 枚以上, 種類の害虫の画像を含んでいる. 害虫が主に影響している作物によって,階層的なラベルが付けられている. さらに,その中の 枚は 用の は付けられている.
  180. 180. 下記手順で構築する 分類システムの設立 農業の専門家によって,主に影響している 種類作物の と 種類の害虫の の階層的な構造を作る. 画像収集 専門な農業と昆虫のウェブサイト,害虫のビデオのキャプチャーリングから収集 事前のデータフィルタリング 害虫の各段階のフォーム(卵・幼虫・蛹・成虫)を含まない画像,もしくは二種類以上害虫がある画像を除外 専門家によるアノテーション 独立アノテーション段階では,各種類の作物のエキスパート合計 名は,まずそれぞれメイン研究分野の作物を害する 害虫の に分類する. 協力アノテーション段階では,すべてのエキスパートは上記段階で に分類された画像を の に分類する. 人以上が同じクラスにアノテートしないと削除する.
  181. 181. ● 他の害虫と関係があるデータセットと比較 ● 各クラスのサンプル数の分布( )
  182. 182. ● 深層学習モデルの分類性能(左 右 ) ● 深層学習モデルの検出性能 精度が悪い原因: ● データ不均衡 ● 種類の害虫は 種類の フォームを含む
  183. 183. 大規模の交通監視カメラのデータセット を構築する. このデータセットは広範囲なシーン,いろんな視角,交通条件,車両種類を含み,総計 個以上の がアノテートされている. その他,各カメラの幾何学とキャリブレーション情報も提供される. (多目標多カメラ)トラッキング, (多目標単カメラ)トラッキング,物体検出,車 両 などのタスクで利用できる.
  184. 184. 基本情報: ● 撮影場所はアメリカの中規模の町 ● 合計 時間のビデオ( ) ● 交差点の 台交通カメラから撮影 ● 二台のカメラの最大距離は ● シナリオに分ける ● 合計 台車両 ● 用の を構築, 合計
  185. 185. ● の手法で初歩的なアノテーションをする (単カメラ多目標 ) ● 手動でトラッキングエラー,検出エラーを修正 ● 手動でカメラ間のトラッキングを連結 ● 手動でキャリブレーションの画像を修正して,画像平面情報と 座標で Homography matrix を算出
  186. 186. 現存の人 車両データセットと比較
  187. 187. で各モデルと損失関数の性能 での性能
  188. 188. での性能
  189. 189. AutoAugment: Learning Augmentation Strategies From Data
  190. 190. の 種類の操作に対して「適用確率」「適用強度」をそれぞれ 段階で用意 (前操作,後操作)のペアを強化学習を用いて セット学習する. は で構成され,選択した セットで小さなモデルを訓練し その を報酬として を学習する. に適用される は ペアの中からランダムに選ばれる. 最も が上がるセットを 個選出( ペアの操作が存在)し , として用いる(適用する際はランダムに ペアの中から ペア選ぶ)
  191. 191. 正規化 ( )を に使用した と, それに加えて を使用した場合の精度比較
  192. 192. 既存の 発見系の比較
  193. 193. で学習した が他のデータセットで使用できるかの検証
  194. 194. データセットごとの固有な操作を可視化 色・コントラスト調整が目立つ 空間的操作と色反転が目立つ

×