SlideShare uma empresa Scribd logo
1 de 35
Baixar para ler offline
論文紹介
dhSegment:
文書セグメンテーションのための、包括的なディープラーニングアプローチ
2019-02-13 作成:寺田英雄(オープンストリーム)
https://www.facebook.com/hideo.terada.5
原著
https://arxiv.org/pdf/1804.10371.pdf
タイトル: "dhSegment: A generic deep-learning
approach for document segmentation"
2
問題設定
● やりたいこと
○ ヨーロッパ圏の古文書(歴史的文書)の画像セグメンテーション
○ 複数の課題を同時に扱う:
■ ページ抽出
■ ベースライン抽出
■ レイアウト分析
■ イラスト・写真の抽出と分類
● やりかた
○ 統一のCNNと、課題別の後処理ブロックを使う
○ ピクセル単位のセマンティック・セグメンテーション
3
dhSegment の構造
4
アウトライン
システムは、2つの連続したステップに基づく。(図1)
5
図1
ステップ2:
後処理
ステップ1:
アウトライン
● ステップ1:
○ 完全畳み込みニューラルネットワーク( FCN)
■ 入力:文書の画像;
■ 出力:各ピクセルについて予測された属性の確率のマップ
■ 学習:各ピクセルの属性 IDを示すマスク画像
● ステップ2:(後処理)
○ 予測マップを各々のタスクの目的の出力に変換
○ タスクに依存する手作り画像処理を使用(単純・標準的な範囲のアルゴリズムに限定)
● 実装
○ TensorFlow を使用。GitHubに公開
6
ネットワークアーキテクチャ(ステップ1)
7
全て Conv/Deconv 層
ネットワークアーキテクチャ(ステップ1)
8
縮小パス
(contracting path)
ResNet-50 に従った構成
拡張パス
(expansive path)
入力の解像度
まで戻す
ネットワークアーキテクチャ(ステップ1)
● 縮小パス
○ ImageNetで事前学習したResNet-50は固定→その他をファインチューニング(転移学習)
○ ResNetにはボトルネック型を使用
● 拡張パス
○ Deconv層で特徴マップを拡大
○ アップサンプリングはバイリニア補間
○ 入力と同じ解像度まで戻す
○ 縮小パスの途中段階の Feature Mapを各々バイパスさせて入力(図 1の点線)
■ →高解像度、中解像度、低解像度の特徴を強調して反映 →局所的特徴と、広域の特徴 を
ネットワークに上手く参照させる狙い
9
ステップ2:(後処理)
単純かつ標準的な画像処理だけ使用
● 2値化
○ 固定しきい値
○ 大津の方法
● モルフォロジー
○ 基本演算:膨張(dilation)・収縮(erosion)→開・閉演算子(opening, closing op.)
● 連結成分分析(CCA:Connected Component Analysis)
○ 2値化、モルフォロジーの後に実施
○ 面積の小さなブロブの除去に使う
● 形状ベクトル化
○ CCAで抽出した連結画素の外周の多角形の頂点座標(位置ベクトル)列に変換
○ 面積のない線分も多角形に含む、とする
10
訓練方法
● ロス関数:L2正則化(weight decay 10-6
)を適用
● 学習率:指数関数的減衰(0.95)、初期値範囲[10-5
, 10-4
]
● 重み初期化:Xavier の初期化法
● 最適化制御:Adam optimizer
● 学習安定化:Batch Normalization 使用
● 画像のサイズ調整:
○ 総画素数範囲:6x105
〜106
の範囲
○ さらに300x300サイズにクロップ
○ 『境界効果』を避けるため、マージンを追加
● データ拡張(Augmentation)
○ on-the-fly での実行
■ 画像回転:角度範囲: [-0.2, 0.2] (rad.)
■ スケーリング:拡縮比率範囲: [08, 1.2]
■ ミーラリング
11
実験結果
12
実験結果(タスク別)
● タスク:
○ ページ抽出
○ ベースライン検出
○ 文書レイアウト解析
○ オーナメント(装飾)
○ 写真集の抽出
13
ページ抽出
14
ページ抽出
● 目的:文書画像の背景を除去して、ページ部分だけにする
○ ページ部分に該当する 2値マスク画像を得ること
● 訓練:1635枚の画像、バッチサイズ=1、30エポック
○ 画像は、アスペクト比維持下で、 6x105
画素にリサイズしている。
● 後処理:
○ (1)ステップ1のネットワーク出力に対し、大津の方法で2値化を実施 →(A)
○ (2)opening-closing を使って、(A)の2値画像の点状のゴミを消去 →(B)
○ (3)2値画像(B)の画素領域を包絡する四辺形を見つける。
■ =4つのもっとも極端な角を探索する。
15
ページ抽出:結果 表Ⅰ
数値は、Ground Truth に対する mIoU 値
16
ページ抽出:結果 図3 画像例
17
緑色:Ground Truth、青色:dhSegment の検出結果 (データ: cBADテストセット)
不正確 わずかに不正確 正確
ベースライン検出
18
ベースライン検出
● 目的:ベースラインの検出
○ ベースラインとは?
■ 画像上の仮想的な線分で、その上にほとんどの文字が乗っており、またディセンダ分がその
下に拡張されるもの。
■ ※ディセンダ=アルファベットの小文字表記において「 g」のように下に伸びた部分
● 検出方法
○ ネットワークは、ベースラインから半径5ピクセル以内にある画素を予測するように訓練する(訓練
データをそのように与える)
● 訓練:画像は106
サイズにリサイズ、30エポック、約50分
19
ベースライン検出:結果 表Ⅱ
20
文書レイアウト解析
21
文書レイアウト解析
● 目的:文書画像を意味のある領域に分割(画素ラベリング)すること
○ 分割クラス:テキスト、装飾、コメントと背景、およびそれらの複合(例:テキスト領域かつ装飾)
● 訓練:3つの文書群(文書内訳:30の訓練画像、10の評価画像、10のテスト画像)
○ 各文書群ごとに独立にモデルを訓練、30エポック
○ 画像リサイズなし、バッチ学習のためのクロッピングは実施
○ バッチサイズ=8、画像サイズ 400x400(一部はバッチサイズ=4、 600x600)
○ 学習時間:2〜4時間
● 後処理:
○ ラベリング結果の各クラスごとに 2値マスクを作成、面積 50ピクセル未満の小ブロブを除去
○ 前述のページ抽出の結果を利用して、画像の境界上のテキスト検出の FPを減らす
22
文書レイアウト解析の結果: 表Ⅲ
23
中世写本写本のレイアウト分析ータスク1 (IoU)に関するICDAR2017コンペティションの結果
文書レイアウト解析の結果: 図5
24
左側はオリジナルの原稿画像、中央は、 dhSegmentでピクセル単位でラベル付けされたクラス、そして
右側は、Ground Truth との比較(色の意味の評価ツールによる)
オーナメント(装飾)検出
25
オーナメント検出
● 目的:文書画像から、オーナメント(装飾部分)を検出する
● 訓練:
○ データ:
■ オーナメントを矩形でアノーテーションした訓練データ。計 912ページ分の
アノテーションつき画像、うち 612ページに1個以上のオーナメントが含まれる。
● 訓練用610ページ(オーナメントつき 427ページ)
● 評価用92ページ(同上 92ページ)
● テスト用183ページ(同上 123ページ)
● 画像サイズ:8x105
にリサイズ
○ 学習:バッチサイズ= 16、30エポック、2時間未満
● 後処理:
○ 2値化により、バイナリマスク画像を生成
○ モルフォロジー開閉 (Opening/Closing)処理
○ バウンディングボックスのあてはめ
○ 極小のボックスは除去(画像サイズ比 0.5%未満のもの)
26
オーナメント検出の結果: 表Ⅳ
27
オーナメント検出タスクの結果。参考文献 [23]の方法によるもの。
それぞれのテストセットについて、異なる IoU閾値により評価した。
オーナメント検出の結果: 図6
28
左の画像は部分的に検出された装飾の場合を示し、中央のものはイラストの検出を示していますがバナーの誤検出も示して
います。右の画像は複数の装飾の抽出の正しい例です。
写真集(フォトコレクション)抽出
29
写真集抽出
● 目的:
○ カードボード(厚紙)台紙に貼り付けられた写真の画像について、写真部分と、厚紙部分、背景部分
の3クラスに分離(領域分割)する
● 訓練:
○ 上記の3クラスに応じて画像を3色に色分け注釈したものを教師データとして訓練。
○ モデルは、各ピクセルの所属クラスを予測する。
○ 訓練用データ:100個
○ 評価用データ:20個
○ テスト用データ:150個
○ 40エポックの訓練、所要時間: 20分
● 後処理:
○ 予測クラス画素のモルフォロジーオープニング。
○ 連結領域の最小の包絡矩形を抽出。 Prior制約:厚紙は写真の外側でなければならない。
○ 得られた矩形をGround Truthと比較
30
写真集抽出の結果: 表Ⅴ
31
テストセットでのmIoUの評価、および0.85と0.95のIoU閾値でのいくつかのリコール値
写真群抽出の結果: 図7
32
オーナメントの場合とは反対に、抽出されるゾーンはより明確に定義されているため、
より正確な抽出が可能となっている。
ディスカッション
33
ディスカッション
● 同一ネットワーク、ほぼ同じトレーニング構成を使用しながら、5つのタスクの結果
は、SOTA(最先端性能)と競争力があるか又は凌駕している
● 一般的で柔軟性のあるアプローチにもかかわらず、トレーニングのスピードは速く
(場合によっては1時間未満)、必要なトレーニングデータ量も少ない
○ →ネットワークの事前トレーニング済みの部分のおかげ
● 一般化されたディープラーニング型アプローチが、従来の個別専用システムより優
れていることによる帰結:
○ 非専門家でも訓練できる
○ この機能のプログラミングモジュール化が可能 →ビジュアルプログラミング等に対応
● 本論文では、タスクごとに別々に学習したが、複数のタスクを一つのネットワークで
同時に学習させたほうが、性能が向上する可能性があり、今後の研究課題であ
る。
34
以上
35

Mais conteúdo relacionado

Semelhante a 論文紹介 dhSegment:文書セグメンテーションのための包括的ディープラーニングアプローチ

An efficient framework for learning sentence representations
An efficient framework for learning sentence representationsAn efficient framework for learning sentence representations
An efficient framework for learning sentence representationsYuya Soneoka
 
論文紹介:OneFormer: One Transformer To Rule Universal Image Segmentation
論文紹介:OneFormer: One Transformer To Rule Universal Image Segmentation論文紹介:OneFormer: One Transformer To Rule Universal Image Segmentation
論文紹介:OneFormer: One Transformer To Rule Universal Image SegmentationToru Tamaki
 
畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化Yusuke Uchida
 
[DL輪読会]Deep Face Recognition: A Survey
[DL輪読会]Deep Face Recognition: A Survey[DL輪読会]Deep Face Recognition: A Survey
[DL輪読会]Deep Face Recognition: A SurveyDeep Learning JP
 
AIがAIを生み出す?
AIがAIを生み出す?AIがAIを生み出す?
AIがAIを生み出す?Daiki Tsuchiya
 
Deep learningの概要とドメインモデルの変遷
Deep learningの概要とドメインモデルの変遷Deep learningの概要とドメインモデルの変遷
Deep learningの概要とドメインモデルの変遷Taiga Nomi
 

Semelhante a 論文紹介 dhSegment:文書セグメンテーションのための包括的ディープラーニングアプローチ (6)

An efficient framework for learning sentence representations
An efficient framework for learning sentence representationsAn efficient framework for learning sentence representations
An efficient framework for learning sentence representations
 
論文紹介:OneFormer: One Transformer To Rule Universal Image Segmentation
論文紹介:OneFormer: One Transformer To Rule Universal Image Segmentation論文紹介:OneFormer: One Transformer To Rule Universal Image Segmentation
論文紹介:OneFormer: One Transformer To Rule Universal Image Segmentation
 
畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化
 
[DL輪読会]Deep Face Recognition: A Survey
[DL輪読会]Deep Face Recognition: A Survey[DL輪読会]Deep Face Recognition: A Survey
[DL輪読会]Deep Face Recognition: A Survey
 
AIがAIを生み出す?
AIがAIを生み出す?AIがAIを生み出す?
AIがAIを生み出す?
 
Deep learningの概要とドメインモデルの変遷
Deep learningの概要とドメインモデルの変遷Deep learningの概要とドメインモデルの変遷
Deep learningの概要とドメインモデルの変遷
 

Mais de Hideo Terada

2021 09 豆寄席:(公開用)長く生き残るitエンジニアの”リベラル・アーツ”
2021 09 豆寄席:(公開用)長く生き残るitエンジニアの”リベラル・アーツ”2021 09 豆寄席:(公開用)長く生き残るitエンジニアの”リベラル・アーツ”
2021 09 豆寄席:(公開用)長く生き残るitエンジニアの”リベラル・アーツ”Hideo Terada
 
画像処理AIを用いた異常検知
画像処理AIを用いた異常検知画像処理AIを用いた異常検知
画像処理AIを用いた異常検知Hideo Terada
 
B-DCGAN Slides for ICONIP2019
B-DCGAN Slides for ICONIP2019B-DCGAN Slides for ICONIP2019
B-DCGAN Slides for ICONIP2019Hideo Terada
 
FPGA, AI, エッジコンピューティング
FPGA, AI, エッジコンピューティングFPGA, AI, エッジコンピューティング
FPGA, AI, エッジコンピューティングHideo Terada
 
ディープラーニングの2値化(Binarized Neural Network)
ディープラーニングの2値化(Binarized Neural Network)ディープラーニングの2値化(Binarized Neural Network)
ディープラーニングの2値化(Binarized Neural Network)Hideo Terada
 
機械学習のための数学のおさらい
機械学習のための数学のおさらい機械学習のための数学のおさらい
機械学習のための数学のおさらいHideo Terada
 
スパースモデリング入門
スパースモデリング入門スパースモデリング入門
スパースモデリング入門Hideo Terada
 
データ中心の時代を生き抜くエンジニアに知ってほしい10?のこと
データ中心の時代を生き抜くエンジニアに知ってほしい10?のことデータ中心の時代を生き抜くエンジニアに知ってほしい10?のこと
データ中心の時代を生き抜くエンジニアに知ってほしい10?のことHideo Terada
 
技術系文書作成のコツ
技術系文書作成のコツ技術系文書作成のコツ
技術系文書作成のコツHideo Terada
 

Mais de Hideo Terada (9)

2021 09 豆寄席:(公開用)長く生き残るitエンジニアの”リベラル・アーツ”
2021 09 豆寄席:(公開用)長く生き残るitエンジニアの”リベラル・アーツ”2021 09 豆寄席:(公開用)長く生き残るitエンジニアの”リベラル・アーツ”
2021 09 豆寄席:(公開用)長く生き残るitエンジニアの”リベラル・アーツ”
 
画像処理AIを用いた異常検知
画像処理AIを用いた異常検知画像処理AIを用いた異常検知
画像処理AIを用いた異常検知
 
B-DCGAN Slides for ICONIP2019
B-DCGAN Slides for ICONIP2019B-DCGAN Slides for ICONIP2019
B-DCGAN Slides for ICONIP2019
 
FPGA, AI, エッジコンピューティング
FPGA, AI, エッジコンピューティングFPGA, AI, エッジコンピューティング
FPGA, AI, エッジコンピューティング
 
ディープラーニングの2値化(Binarized Neural Network)
ディープラーニングの2値化(Binarized Neural Network)ディープラーニングの2値化(Binarized Neural Network)
ディープラーニングの2値化(Binarized Neural Network)
 
機械学習のための数学のおさらい
機械学習のための数学のおさらい機械学習のための数学のおさらい
機械学習のための数学のおさらい
 
スパースモデリング入門
スパースモデリング入門スパースモデリング入門
スパースモデリング入門
 
データ中心の時代を生き抜くエンジニアに知ってほしい10?のこと
データ中心の時代を生き抜くエンジニアに知ってほしい10?のことデータ中心の時代を生き抜くエンジニアに知ってほしい10?のこと
データ中心の時代を生き抜くエンジニアに知ってほしい10?のこと
 
技術系文書作成のコツ
技術系文書作成のコツ技術系文書作成のコツ
技術系文書作成のコツ
 

論文紹介 dhSegment:文書セグメンテーションのための包括的ディープラーニングアプローチ