Cross-modality meta-survey of dataset

Cross-modality
meta-survey of dataset
鈴木亮太，沖本祐典，千葉直也，山本晋太郎，Ryuichi Nakahara，片
岡裕雄
cvpaper.challenge 2021 メタサーベイ

データセット
あらゆる分野での機械的な認識の研究において，学習と評価に必要であり，「良い手
法」を定義する極めて重要な要素．
かつ，やりたいことをできるようにするための基礎としても重要．
AIの機能を定義するもの，人間の認識する世界を代表するものとして，AI時代において
は極めて重要なインタフェースでもある．
しかし，作成はコストがかかるので，なるべく効率的に効果の高いデータを作成したい．
疑問：どう作るのが良い？

データセットの事例に学ぶ
これまでにあらゆる研究者が，実践したいタスクを考慮し，必要な分のデータ作成をそ
れぞれ行ってきたと思われる．
データセットの作成事例の調査により，以下がうかがい知れると期待できる．
● いつ，どのような規模のデータが求められ，作成されてきたか？
● データ作成を可能にした要素とは？どのようなノウハウがある？

コンテンツ
● 複数のタスクにおける代表的なデータセットのリストアップ
● データセットのピックアップ概説
● 代表的なデータセットの様相を踏まえた
データセット作成の兆候，問題に関する考察

Contributors
● 鈴木亮太　産業技術総合研究所／画像処理，HCI
● 沖本祐典　Yahoo! ／画像処理，HCI
● 千葉直也　早稲田大学・OSX ／ 3D画像処理
● 山本晋太郎　早稲田大学／画像処理・自然言語処理
● Ryuichi Nakahara　岡山大学病院／医療画像処理
● 片岡裕雄　産業技術総合研究所／画像処理

Papers with Code
有効なデータセットを探すのに有用なサイト．2020年7月API公開．
The mission of Papers with Code is to create a free and open resource with
Machine Learning papers, code and evaluation tables.
https://paperswithcode.com/

Hugging Face
自然言語処理のTransformerのモデルとデータセットが集う
https://huggingface.co/

タスク別データセット
代表例

一般物体認識(classiﬁcation)
名称年クラス数枚数備考
Caltech101/256 2003/2006 101/256 10,404/30,607
Pascal VOC07 2007 20 9,963
ImageNet 2009 21,841 14,197,122 要ログイン(2021～)
ILSVRC2012 2012 1,000 1.28M ImageNetのsubset
Places365 2014 434 10,624,928 風景
JFT-300M 2017 375M+ 300,000,000 Google，非公開
Tencent
ML-Images
2018 11,166 17,698,491
Instagram 3.5B 2018 #hashtags
1.5k/8.5k/17k
3,500,000,000 Facebook，非公開
OpenImages 2017(V1) 2020(V6) 19,957 59,919,574 Google

物体検出(object detection)
名称年クラス数枚数画像サイズ画像あたりの
物体数
PASCAL
VOC05
2005 20 11,540 470X380 2.4
ILSVRC2017
(ImageNet)
2017 200 476,668 500X400 1.5
MS COCO 2014 80 328,000 640X480 7.3
Places 2014 434 10,000,000 256X356 -
Open Images 2017 6,000+ 9,000,000 多様 8.3
参考文献
Liu+, 進矢訳, Deep Learning for Generic Object Detection: A Survey, 2020,
https://shinya7y.github.io/note/detection/ObjectDetectionSurvey_jp.pdf

NYU Depth v2 2012 894 1,449 RGB-Depth
MS COCO 2015 80 330,000
Cityspaces 2016 30 5,000
(fine)
20,000
(course)
都市の屋外
Mapillary Vistas
Dataset
2017 100 25,000 都市の屋外
LVIS v1.0 2019 1,200 159,623
OpenImages V6 2020 350 2,785,498
Instance Segmentation

MSRC v2 2005 23 591
Stanford background
dataset
2009 8 720
SUN dataset 2010 21,182(屋内)
24,494(屋外)
SIFT-flow dataset 2011 33 2488(training)
200(test)
PASCAL VOC 2012 20 2,913
KITTI Road 2013 2 (Road or not) 579 レーザ距離あり
Cityscapes 2016 30 5,000(fine)
20,000(course)
ADE20K 2017 250+ 27,574
Semantic Segmentation
参考文献: Semantic Segmentationについて https://www.slideshare.net/takmin/semantic-segmentation

3Dモデル
3DNet 2012 10/60/200 CAD+RGBD
PASCAL3D+ 2014 12 Avg. # Instances per Category
∼3,000
PASCAL VOC
2012+CAD
ShapeNetCore 2015 55 51,300
ModelNet40 2015 40 12,311 No color
ObjectNet3D 2016 100 44,147 For Object Recog.
Thingi10K 2016 (tags) 10,000+ 3D Printing Models
ABC 2019 1,000,000+ CAD Models
ScanObjectNN 2019 15 ～15,000 Real
Objectron 2020 9 15,000 Real, Video Clips

3Dシーン
NYU Depth
Dataset V2
2012 40 1,449 RGB-D
KITTI 2013 (Original)
2017 (3D Object)
6 14,999 (frames) 交通シーン
SUN RGB-D 2015 19 13,215 RGB-D
ScanNet 2017 1,500+ 部屋レベル
Matterport3D 2017 194,400 家レベル
SceneNN 2018 100+ (scenes)

医療画像
LUNA2016 2016 1 888 肺がんの胸部CT画像
＋患部領域ラベル
ChestX-ray8 2017 8 108,948 胸部X線画像

コーパス
WMT 2006~ 年による
wmt14は11言語
年，言語による
(wmt14のen-de
は205MByte)
Machine Translation
ワークショップ用に継続作成
複数機関によるデータの集合体
Europerlがメイン？
CNN/Daily Mail 2016 300k Summarization
SQuAD2.0 2018 150k Question Answering
SWAG 2019 113k Commonsense inference

データセット
ピックアップ概説

Caltech101
101カテゴリの写真データ．1カテゴリ40～200枚，概ね50枚．画
像サイズは300x200程度．平均画像が分かる程度に，位置が
センタリングされ，典型的なポーズで映っている．おそらくシング
ルインスタンス．
カテゴリは辞書からランダムに決定．名称でGoogle画像検索．”
シマウマ柄のシャツ”のようなものは手動で除去．さらに，向きが
が合うようにフリップand回転．
きれいさを念頭に置いて作られたデータの模様．クラス内のバリ
エーションは小さく，「簡単」なデータセットとして使いやすい．
概要
作成方法
備考
図など
平均画像．カテゴリが分かりやすい．
FeiFei Li, Marco Andreetto, and Marc 'Aurelio Ranzato. Caltech. 2004.
src: http://www.vision.caltech.edu/Image_Datasets/Caltech101/
info: https://authors.library.caltech.edu/5407/1/LIFieeetpam06.pdf
評価方法
平均画像による典型性の表示．自らの物体認識手法に用いた
データの学習・評価用に使用．

ImageNet
質と量を兼ね備えた大規模画像DB．ImageNetをもとに，大規模
画像認識コンペILSVRCが例年開催された．AlexNet，深層学習
を有名にした立役者．ILSVRC2012で用いられたサブセットが現
在も評価用，事前学習用データセットとしてよく使われる．
カテゴリは概念辞書 WordNetの名詞を対象とし，同義語群 synsetにより定
義．synsetで画像を検索して収集． AMTに，Wikipediaへのリンクを付けた
synset名と画像のペアの妥当性判定を投げる．判定基準は多様性が出る
ようにした．正確性は投票により担保．
同研究チームではFATEの問題を早期から意識していたようで
，20XX年から人に関係するクラスが制限され，2021年3月から
Publicな公開が停止になった（フルアクセスは要ログイン
，ILSVRCデータセットはKaggle上でアクセス可能）．
この前には小解像度(32x32)，大規模(80M)のTinyImagesが
あったが，あまり奮わなかった．解像度（質）も重要と考えたと思
われる．
概要
作成方法
備考
図など
Fei-Fei, L. Deng, J. Li, K., Princeton University, 2009
Stanford Vision Lab, Stanford University, Princeton University
src: http://www.image-net.org/
評価方法
平均画像によればバリエーションが高いとされている．サンプリ
ングによるエラーレート検証では99.7%とのこと．
平均画像とサンプル．
Caltech101に比べて平均画像は見た目ではカ
テゴリ判別できないくらい均されているように見える．

VisualGenome
コンピューターによる画像理解を実現するため重要な，物体同
士の関係をモデリングするためのデータセット．物体同士の
relationについてのアノテーションや，VQAのためのQAのペアが
付与されている．
　次の3ステージ制でAMTを使用．①一人が3つのBoundingBoxと
文章による説明を付けるのを繰り返し，50個付ける．重複を避け
るため上位7個の類似キャプションを表示．② ①で言及された物
体のBBoxを4pix精度で付与．③ ①の文章を参考に物体の属性
やペアの関係性を付与．
　更にQAをAMTで作成．5W1HでQを，かつ一意に解釈可能なQA
を要求．フリーフォーム・領域指定の2タイプを実施．
　3者による多数決と，100msで正否判断する手法もの２検証手法
もAMTで実施．
シーングラフタスクにおいて，デファクトなデータセットになってい
る模様．詳細なラベル付けの方面への移行が見える．込み入っ
たデータなだけあって，かなりのアノテーションの工夫がうかがえ
る．
概要
作成方法
備考
図など
Ranjay Krishna· Yuke Zhu· Oliver Groth · Justin Johnson · Kenji Hata Joshua Kravitz ·
Stephanie Chen · Yannis Kalantidis · Li-Jia Li · David A. Shamma · Michael S. Bernstein ·
Li Fei-Fei. 2017.
src: http://visualgenome.org/
評価方法
属性数，ラベル・関係対データ数分布等の stats，表現のバリエーション
を表示．いくつかの想定タスクへのベンチマークも．

SUN RGB-D
Scene UNderstanding dataset. SUN Datasetはシーンレベル
のデータの複数のバージョンがあるが，SUN RGB-Dは4種の
RGBDカメラデータに対し，右図のアノテーションが付されたデー
タセット．3次元のポーズ付き領域がアノテーションされていると
ころが新規的．
RealSense, XTION, Kinect v1/v2で撮影．2Dポリゴン推定を
AMTで，3DのアノテーションはoDeskのフリーランスを雇って実
行．
概要
作成方法
備考
図など
S. Song, S. Lichtenberg, and J. Xiao. 2017.
src: https://rgbd.cs.princeton.edu/
評価方法
シーンカテゴリ推定，セマンティックセグメンテーション，物体検
出，物体方向推定，部屋レイアウト推定のベンチマークを実施．

Matterport3D
Matterport社のスキャンサービスによって家1件単位でスキャン
したデータセット．
スキャナで約2.25m間隔で撮影，マージしてテクスチャ付き3D
メッシュを作成．アノテーションはScanNetのツールを使いAMTと
10人の専門アノテータが実施．
Matterport3Dの公開により，ロボットが仮想的に動き回るような
シチュエーションを対象にしやすくなった．データの権利自体は
Matterport社による．
概要
作成方法
備考
図など
Matterport, Princeton University, Stanford University, Technical University of Munich
src: https://niessner.github.io/Matterport/
評価方法
定量的には各物体を計測した回数による計測密度を評価．更に
，キーポイントマッチング精度，観測オーバラップ推定，法線推
定，オブジェクトクラス分類を試行．

ShapeNet
data: https://shapenet.org
paper: https://arxiv.org/abs/1512.03012
3D CADモデルからなる大規模データセット．ModelNetがこの中から
選択されて構築されたり，セマンティックセグメンテーションやパーツセ
グメンテーション用のデータの提供など後の3Dデータセットに大きく影
響を与えた．自然言語によるアノテーションを加えたデータセット
ShapeGlotなど未だ拡張が進められている．
既存の3Dデータセットの統合，WordNetに紐付いたラベリング
概要
作成方法
評価方法
ShapeNetや派生データセットを用いてクラス分類タスクやセマン
ティック/パーツセグメンテーションが行われる

LUNA2016
info: https://luna16.grand-challenge.org/
paper: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3041807/
肺がんの胸部CT画像のデータセット。888症例。
ラドバウド大学が主催した胸部 CT画像から肺がんを自動検出する AIコン
ペ（LUNA2016）で公開された。
様々な医療画像研究のベースデータセットとして利用されている。
4人の経験豊富な専門医が肺結節のラベル付けを行ったため、
世界的に評価が高い。
概要
作成方法
評価方法
4人の医者の間の肺結節の規模に対する判定基準の分布の表
示。

ChestX-ray8
data: https://nihcc.app.box.com/v/ChestXray-NIHCC
胸部X線画像のデータセット。11万2120例の画像。
8種類の疾患のラベルが付与されている。
8つの疾病ラベルをテキストマイニングでラベル付け。そのうち
16,000例を放射線科医が手動でBouningBox付け。
概要
作成方法
評価方法
複数の多クラス認識モデルで分類を試行、ResNet50で最大
0.81のAUC on ROC。
深層学習時代における、深層学習手法を用いたデータセットの
大規模化が医療にも進出した例。
備考

CNN/Daily Mail Dataset
data: https://github.com/abisee/cnn-dailymail
paper: https://www.aclweb.org/anthology/K16-1028/
概要
作成方法
ニュース記事要約のためのデータセット．ニュース配信サイトである
CNNとDaily Mailに掲載されている記事を含んでいる．元はQuestion
Answeringのデータセットとして提案され，要約に応用している．
サイト上で要点が箇条書きで書かれているので，各項目を1つの文と
して扱い要約とする．
評価方法
要約で一般に用いられるROUGEを利用することが多い．
統計情報
training: 286,817 pairs
validation: 13,368 pairs
test: 11,487 pairs
文章長(元文章): 766 words (29.74 sentences)
文章長(要約文): 53 words (3.72 sentences)

SQuAD
data: https://rajpurkar.github.io/SQuAD-explorer/
paper: https://arxiv.org/abs/1606.05250 (1.1)
https://arxiv.org/abs/1806.03822 (2.0)
概要
作成方法
Question Answeringタスク用のデータセット．SQuAD1.1では
，paragraph中に含まれている答えを探すタスクとなっている．これに
対してSQuAD2.0では，答えが必ずしもparagraph中に存在しないと
いう設定になっている．
Wikipediaの文章に対して，クラウドワーカーに質問と回答を作成する
タスクを与える．
評価方法
Ground truthと一致するかを測るExact MatchとF1 Scoreを利
用．

SWAG
data: https://github.com/rowanz/swagaf
概要
作成方法
Commonsense inferenceのためのデータセット．タスクとしては，与え
られた文章の続きを選択肢の中から一つ選ぶ問題となっている．
Video captioningのデータセットを利用．負例を言語モデルによって
生成し，クラウドワーカーに評価してもらう．
評価方法
選択式問題となるため，accuracyで評価．

消えるデータ
データの倫理として，アップロード者が自由にデータの公開を停止できるようにすべきと
いう考えの元，今日公開されるデータセットの，Webソースのデータはほとんど（全部？）
Creative Commonsで公開されているURLの公開になっています．
データは削除され，次第に再現性を失っていく．．．
コンペ用データも開催中に削除されて問題になることも！
対策：
①公開即ダウンロード
②著者に貰う

データセット作成者の倫理
著作権，肖像権，個人情報保護権 etc. を侵害しないようにしなければならない．
現在までに統一的なルールは制定されていないが，各機関で独自の倫理審査を実行し
ているものと思われる．
参考：ImageNetのStanford AI Lab. 出身者による提唱 Datasheet for Dataset
ImageNetの人の顔にモザイク処理をかける動きもある（A Study of Face Obfuscation
in ImageNet）．
日本の法律においては，公開されているデータ（＝だれでもアクセスできるデータ）を学
習用途に用いることは適法であるとされている（著作権法30条の4）．が，Web上のリソースは
日本の法律の範囲外に触れる可能性が非常に高いので，適切な判断が必要と思われ
る．

倫理問題
J. L. Leidner and V. Plaschouras: Ethical by Design: Ethics Best Practices for Natural
Language Processing, Workshop on Ethics in Natural Language Processing (2017)
プライバシー問題
British National CorpusやCollins COBUILD corpus，Penn Treebankなど名前などの個人情報が含まれたコー
パスが存在．
フェアネス問題
対話システムが都市部の標準語使いには機能するが，地方の人は (方言がデータに少ないため )使えないなど
の問題が生じえる．
クラウドソーシング問題
研究者とクラウドワーカーが互いに見えないので，信頼関係を構築できず質やモラルに問題が危惧される．

データセットの閉鎖化，不可視化
企業によるコストを掛けた大規模なデータセットがアクセス不可能な潮流
● JFT-300M (Google)，Instagram 3.5B/65M (Facebook)，YFCC-100M(Yahoo!) ...
社内だけで利用し，論文で効果が報告されるが，検証不可能という批判がある．
事前学習モデルが公開されるが，論文で報告されたモデルは利用不可能なことも．

近年のデータセットを変えた技術
①センサ — Kinect (2012)
Pre-Kinect : Laser Scanner/Stereoで疎なPointCloud
Post-Kinect : とりあえずRGBDで密なColored PointCloud
低コスト化（高価だったDense depthがゲーム機価格に）
②機械学習ー Deep Learning (AlexNet (2012))
Pre-Deep : 2桁カテゴリ，10kデータ数
Post-Deep : 4桁カテゴリ，1Mデータ数
高コスト化（ビッグデータをリッチな計算資源で）
同時期発生
両方の裏には…
　GPUの発展？
● Xbox360のデバイスと
してのKinect
(CGでは3Dが当然に)
● ゲーム用途でのGPUの
一般化＋
GPGPU流行による
並列計算の一般化
ゴールドラッシュに
ツルハシを売るNVidia/ATI

③CG，シミュレーション
フォトリアルな2D画像や実環境に近い3Dデータを
大量に生成しデータセットとして公開する事例が多数
例：House3D, i2THOR, UnrealCV, InteriorNet, Structured3D, 3D-FRONT,
　　TDWなど
環境そのものを公開し，Embodiment Q&Aのような
エージェントを含む対話的なタスクへも発展
一方でCGの元にするべきデータはCADや3Dモデリングによる．
スキャンされた3Dデータ自体はあまり増えていないが，
ビデオシーケンスや時系列3Dなどのリッチなデータも現れつつある

④Amazon Mechanical Turk (AMT)
2005年サービス開始のクラウドワーキングプラットフォームの最大手．某SNSの影響で
有名になり，あらゆる大規模データセットがAMTを用いて作成された．
時給5ドル程度．参加者の多様性が高い（アメリカ人と中国人が多いが）．
参加者の条件設定が可能（Facebookアカウント所持者，大学生，Masters階位 etc.）
AMT紹介スライド：実践 Amazon Mechanical Turk
ただし，データの正確さは担保されないので，検証やデータの扱いに工夫が必要．

データセット内の分散
Caltech101 ＞カテゴリ内分散を小さく
ImageNet ＞カテゴリ内分散は小さくとどめない
深層学習（CNN）は後者をうまく扱える所が興味深い（内部でクラスを類似度別に分割し
て扱っている説）．むしろデータ平滑化として有効とも考えられている．
深層学習
Caltech101 ImageNet
※Jia Deng et.al., ImageNet: A Large-Scale Hierarchical Image Database, in CVPR2019
出典：論文※ Figure 5

データセット作成のアクティビティ
近年では，報告・注目されている画像関連データセット
の数は毎年80～100程と，継続的に出現している様子．
※規模や扱うタスクのばらつきの潜在に注意
Papers with Code内の年間Dataset数
Imagesカテゴリを含む
Imagesカテゴリのみ
※APIを用いたデータより作成

Cross-modality meta-survey of dataset

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Semelhante a Cross-modality meta-survey of dataset

Semelhante a Cross-modality meta-survey of dataset (20)

Cross-modality meta-survey of dataset