SlideShare uma empresa Scribd logo
1 de 12
Baixar para ler offline
自然言語による画像編集を目指して

Expressing Visual Relationships via Language

Agenda

■ Summary

■ Method

○ Data

○ Model

■ Evaluation

■ Impression

■ References

Summary

■ 既存のImage Captionは単一の画像を対象にしている。

■ 実際のアプリケーションでは、2画像間(Source/Target)の関係記述も有用。

○ 画像の編集などに使える(Aの画像に人を追加、など)。

■ そこで・・・

○ 1. データセットを作成して公開した。

○ 2. タスクを解くモデルを作成して、自動/人手評価を行なった。

○ 3. Basicな手法にくらべ優良な評価が得られた。



Method: Data (1/2)

データセットの内容

■ 編集前後の画像ペアと、編集内容の記述から構成される。

○ Source画像、Target画像、Captionの3組み。





Method: Data (2/2)

Redditの投稿サンプル

後ろに写っているバス
マットを消して欲しい

Done

データセット作成のプロセス

1. 投稿の収集

a. Redditの画像編集掲示板

b. 画像編集コミュニティZhopped

2. 編集内容を書き起こし by MTurk

a. 元のテキストはノイズが多い

b. 関係ない画像のフィルタも実施

3. 編集内容のチェック by Expert

a. MTurkは画像専門でないので

b. Expert自身の書き起こしも実施



Method: Model (1/5)

Basic含め、計4種類のモデルを作成 

Method: Model (2/5)

Basic Model

1. Source画像、Target画像の特徴を結合
してFlatten

a. 特徴抽出はResNet

2. 画像特徴にAttentionを貼りながら
LSTMで生成。

Method: Model (3/5)

Multi-Head Attention

Flatに結合しては雑なので(画像間の特徴
参照が弱い)、SourceとTargetを分けて処理
する。

1. SourceにAttentionを貼ってhiddenを計
算

2. 1のhiddenでTargetにAttentionを貼って
計算

Multi-Head(Source & Target)だが段階的
(Sequential)に計算を行なう。

Method: Model (4/5)

Static Relational Attention

画像特徴のレベルで関連を見ておく。

1. Source/Targetの特徴で双方向に
Attentionを貼って特徴を計算。

2. その上で、前述のMulti-Head
Attentionで処理



Method: Model (5/5)

Dynamic Relational Attention

1. hidden/Source/Target間のAttentionを
動的に計算する。



3ベクトル間のAttention計算 

Evaluation

■ Static < Dynamic Attention

■ ただ普通のmulti-headでもそこそこいく

自動評価指標
 人間評価

Spot-the-DiffとNLVR2は、画像変化に関するアノ
テーションがされた似たようなデータセット。 

Impression

■ タスクが明確なデータセット。

○ Adobeが絡んでいるというのもあるが、「何をしたいのか」が明確。

○ 最近「常識を獲得させる〜」とか謎な感じなのが多いので新鮮だった。

■ ベースラインを超えたモデルを提示。

○ モデルをかなり作り込んでいる。

○ ただ、本当にやりたい逆変換からはちょっと遠いかも(Image Featureを、Image
自体のFeatureとTransformによるFeatureとに分けないといけないのでは?)。

○ 最近「シンプルなベースラインでは〜」とか多いので(以下略)

目的がはっきりしている+実現するためのモデルをガチに考えているという点でとても面
白かった。




Mais conteúdo relacionado

Mais de Takahiro Kubo

画像認識モデルを自動的に作る。1日以内に。~Simple And Efficient Architecture Search for Convolutio...
画像認識モデルを自動的に作る。1日以内に。~Simple And Efficient Architecture Search for Convolutio...画像認識モデルを自動的に作る。1日以内に。~Simple And Efficient Architecture Search for Convolutio...
画像認識モデルを自動的に作る。1日以内に。~Simple And Efficient Architecture Search for Convolutio...
Takahiro Kubo
 

Mais de Takahiro Kubo (20)

Reinforcement Learning Inside Business
Reinforcement Learning Inside BusinessReinforcement Learning Inside Business
Reinforcement Learning Inside Business
 
あるべきESG投資の評価に向けた、自然言語処理の活用
あるべきESG投資の評価に向けた、自然言語処理の活用あるべきESG投資の評価に向けた、自然言語処理の活用
あるべきESG投資の評価に向けた、自然言語処理の活用
 
nlpaper.challenge NLP/CV交流勉強会 画像認識 7章
nlpaper.challenge NLP/CV交流勉強会 画像認識 7章nlpaper.challenge NLP/CV交流勉強会 画像認識 7章
nlpaper.challenge NLP/CV交流勉強会 画像認識 7章
 
Curiosity may drives your output routine.
Curiosity may drives  your output routine.Curiosity may drives  your output routine.
Curiosity may drives your output routine.
 
モデルではなく、データセットを蒸留する
モデルではなく、データセットを蒸留するモデルではなく、データセットを蒸留する
モデルではなく、データセットを蒸留する
 
EMNLP2018 Overview
EMNLP2018 OverviewEMNLP2018 Overview
EMNLP2018 Overview
 
2018年12月4日までに『呪術廻戦』を読む理由
2018年12月4日までに『呪術廻戦』を読む理由2018年12月4日までに『呪術廻戦』を読む理由
2018年12月4日までに『呪術廻戦』を読む理由
 
Graph Attention Network
Graph Attention NetworkGraph Attention Network
Graph Attention Network
 
ACL2018の歩き方
 ACL2018の歩き方 ACL2018の歩き方
ACL2018の歩き方
 
機械学習で泣かないためのコード設計 2018
機械学習で泣かないためのコード設計 2018機械学習で泣かないためのコード設計 2018
機械学習で泣かないためのコード設計 2018
 
TISにおける、研究開発の方針とメソッド 2018
TISにおける、研究開発の方針とメソッド 2018TISにおける、研究開発の方針とメソッド 2018
TISにおける、研究開発の方針とメソッド 2018
 
感情の出どころを探る、一歩進んだ感情解析
感情の出どころを探る、一歩進んだ感情解析感情の出どころを探る、一歩進んだ感情解析
感情の出どころを探る、一歩進んだ感情解析
 
機械学習の力を引き出すための依存性管理
機械学習の力を引き出すための依存性管理機械学習の力を引き出すための依存性管理
機械学習の力を引き出すための依存性管理
 
画像認識モデルを自動的に作る。1日以内に。~Simple And Efficient Architecture Search for Convolutio...
画像認識モデルを自動的に作る。1日以内に。~Simple And Efficient Architecture Search for Convolutio...画像認識モデルを自動的に作る。1日以内に。~Simple And Efficient Architecture Search for Convolutio...
画像認識モデルを自動的に作る。1日以内に。~Simple And Efficient Architecture Search for Convolutio...
 
技術文書を書く際の、心技体<改訂版>
技術文書を書く際の、心技体<改訂版>技術文書を書く際の、心技体<改訂版>
技術文書を書く際の、心技体<改訂版>
 
kintone evangelist meetup 2017
kintone evangelist meetup 2017kintone evangelist meetup 2017
kintone evangelist meetup 2017
 
深層学習の判断根拠を理解するための 研究とその意義 @PRMU 2017熊本
深層学習の判断根拠を理解するための 研究とその意義 @PRMU 2017熊本深層学習の判断根拠を理解するための 研究とその意義 @PRMU 2017熊本
深層学習の判断根拠を理解するための 研究とその意義 @PRMU 2017熊本
 
機械学習を活用するための、3本の柱~教育型の機械学習ツールの必要性~
機械学習を活用するための、3本の柱~教育型の機械学習ツールの必要性~機械学習を活用するための、3本の柱~教育型の機械学習ツールの必要性~
機械学習を活用するための、3本の柱~教育型の機械学習ツールの必要性~
 
kintone Café 大阪 Vol.13 〜karuraで学ぶ、機械学習の活かし方〜
kintone Café 大阪 Vol.13 〜karuraで学ぶ、機械学習の活かし方〜kintone Café 大阪 Vol.13 〜karuraで学ぶ、機械学習の活かし方〜
kintone Café 大阪 Vol.13 〜karuraで学ぶ、機械学習の活かし方〜
 
言葉のもつ広がりを、モデルの学習に活かそう -one-hot to distribution in language modeling-
言葉のもつ広がりを、モデルの学習に活かそう -one-hot to distribution in language modeling-言葉のもつ広がりを、モデルの学習に活かそう -one-hot to distribution in language modeling-
言葉のもつ広がりを、モデルの学習に活かそう -one-hot to distribution in language modeling-
 

Expressing Visual Relationships via Language: 自然言語による画像編集を目指して