Mais conteúdo relacionado Semelhante a Cross-modality meta-survey of dataset (20) Cross-modality meta-survey of dataset5. Contributors
● 鈴木亮太 産業技術総合研究所 / 画像処理,HCI
● 沖本祐典 Yahoo! / 画像処理,HCI
● 千葉直也 早稲田大学・OSX / 3D画像処理
● 山本晋太郎 早稲田大学 / 画像処理・自然言語処理
● Ryuichi Nakahara 岡山大学病院 / 医療画像処理
● 片岡裕雄 産業技術総合研究所 / 画像処理
10. 一般物体認識(classification)
名称 年 クラス数 枚数 備考
Caltech101/256 2003/2006 101/256 10,404/30,607
Pascal VOC07 2007 20 9,963
ImageNet 2009 21,841 14,197,122 要ログイン(2021~)
ILSVRC2012 2012 1,000 1.28M ImageNetのsubset
Places365 2014 434 10,624,928 風景
JFT-300M 2017 375M+ 300,000,000 Google,非公開
Tencent
ML-Images
2018 11,166 17,698,491
Instagram 3.5B 2018 #hashtags
1.5k/8.5k/17k
3,500,000,000 Facebook,非公開
OpenImages 2017(V1) 2020(V6) 19,957 59,919,574 Google
11. 物体検出(object detection)
名称 年 クラス数 枚数 画像サイズ 画像あたりの
物体数
PASCAL
VOC05
2005 20 11,540 470X380 2.4
ILSVRC2017
(ImageNet)
2017 200 476,668 500X400 1.5
MS COCO 2014 80 328,000 640X480 7.3
Places 2014 434 10,000,000 256X356 -
Open Images 2017 6,000+ 9,000,000 多様 8.3
参考文献
Liu+, 進矢訳, Deep Learning for Generic Object Detection: A Survey, 2020,
https://shinya7y.github.io/note/detection/ObjectDetectionSurvey_jp.pdf
12. 名称 年 クラス数 枚数 備考
NYU Depth v2 2012 894 1,449 RGB-Depth
MS COCO 2015 80 330,000
Cityspaces 2016 30 5,000
(fine)
20,000
(course)
都市の屋外
Mapillary Vistas
Dataset
2017 100 25,000 都市の屋外
LVIS v1.0 2019 1,200 159,623
OpenImages V6 2020 350 2,785,498
Instance Segmentation
13. 名称 年 クラス数 枚数 備考
MSRC v2 2005 23 591
Stanford background
dataset
2009 8 720
SUN dataset 2010 21,182(屋内)
24,494(屋外)
SIFT-flow dataset 2011 33 2488(training)
200(test)
PASCAL VOC 2012 20 2,913
KITTI Road 2013 2 (Road or not) 579 レーザ距離あり
Cityscapes 2016 30 5,000(fine)
20,000(course)
ADE20K 2017 250+ 27,574
Semantic Segmentation
参考文献: Semantic Segmentationについて https://www.slideshare.net/takmin/semantic-segmentation
14. 3Dモデル
名称 年 クラス数 枚数 備考
3DNet 2012 10/60/200 CAD+RGBD
PASCAL3D+ 2014 12 Avg. # Instances per Category
∼3,000
PASCAL VOC
2012+CAD
ShapeNetCore 2015 55 51,300
ModelNet40 2015 40 12,311 No color
ObjectNet3D 2016 100 44,147 For Object Recog.
Thingi10K 2016 (tags) 10,000+ 3D Printing Models
ABC 2019 1,000,000+ CAD Models
ScanObjectNN 2019 15 ~15,000 Real
Objectron 2020 9 15,000 Real, Video Clips
15. 3Dシーン
名称 年 クラス数 枚数 備考
NYU Depth
Dataset V2
2012 40 1,449 RGB-D
KITTI 2013 (Original)
2017 (3D Object)
6 14,999 (frames) 交通シーン
SUN RGB-D 2015 19 13,215 RGB-D
ScanNet 2017 1,500+ 部屋レベル
Matterport3D 2017 194,400 家レベル
SceneNN 2018 100+ (scenes)
16. 医療画像
名称 年 クラス数 枚数 備考
LUNA2016 2016 1 888 肺がんの胸部CT画像
+患部領域ラベル
ChestX-ray8 2017 8 108,948 胸部X線画像
17. コーパス
名称 年 クラス数 枚数 備考
WMT 2006~ 年による
wmt14は11言語
年,言語による
(wmt14のen-de
は205MByte)
Machine Translation
ワークショップ用に継続作成
複数機関によるデータの集合体
Europerlがメイン?
CNN/Daily Mail 2016 300k Summarization
SQuAD2.0 2018 150k Question Answering
SWAG 2019 113k Commonsense inference
22. SUN RGB-D
Scene UNderstanding dataset. SUN Datasetはシーンレベル
のデータの複数のバージョンがあるが,SUN RGB-Dは4種の
RGBDカメラデータに対し,右図のアノテーションが付されたデー
タセット.3次元のポーズ付き領域がアノテーションされていると
ころが新規的.
RealSense, XTION, Kinect v1/v2で撮影.2Dポリゴン推定を
AMTで,3DのアノテーションはoDeskのフリーランスを雇って実
行.
概要
作成方法
備考
図など
S. Song, S. Lichtenberg, and J. Xiao. 2017.
src: https://rgbd.cs.princeton.edu/
評価方法
シーンカテゴリ推定,セマンティックセグメンテーション,物体検
出,物体方向推定,部屋レイアウト推定のベンチマークを実施.
27. CNN/Daily Mail Dataset
data: https://github.com/abisee/cnn-dailymail
paper: https://www.aclweb.org/anthology/K16-1028/
概要
作成方法
ニュース記事要約のためのデータセット.ニュース配信サイトである
CNNとDaily Mailに掲載されている記事を含んでいる.元はQuestion
Answeringのデータセットとして提案され,要約に応用している.
サイト上で要点が箇条書きで書かれているので,各項目を1つの文と
して扱い要約とする.
評価方法
要約で一般に用いられるROUGEを利用することが多い.
統計情報
training: 286,817 pairs
validation: 13,368 pairs
test: 11,487 pairs
文章長(元文章): 766 words (29.74 sentences)
文章長(要約文): 53 words (3.72 sentences)
33. 倫理問題
J. L. Leidner and V. Plaschouras: Ethical by Design: Ethics Best Practices for Natural
Language Processing, Workshop on Ethics in Natural Language Processing (2017)
プライバシー問題
British National CorpusやCollins COBUILD corpus,Penn Treebankなど名前などの個人情報が含まれたコー
パスが存在.
フェアネス問題
対話システムが都市部の標準語使いには機能するが,地方の人は (方言がデータに少ないため )使えないなど
の問題が生じえる.
クラウドソーシング問題
研究者とクラウドワーカーが互いに見えないので,信頼関係を構築できず質やモラルに問題が危惧される.
35. 近年のデータセットを変えた技術
①センサ — Kinect (2012)
Pre-Kinect : Laser Scanner/Stereoで疎なPointCloud
Post-Kinect : とりあえずRGBDで密なColored PointCloud
低コスト化(高価だったDense depthがゲーム機価格に)
②機械学習 ー Deep Learning (AlexNet (2012))
Pre-Deep : 2桁カテゴリ,10kデータ数
Post-Deep : 4桁カテゴリ,1Mデータ数
高コスト化(ビッグデータをリッチな計算資源で)
同時期発生
両方の裏には…
GPUの発展?
● Xbox360のデバイスと
してのKinect
(CGでは3Dが当然に)
● ゲーム用途でのGPUの
一般化+
GPGPU流行による
並列計算の一般化
ゴールドラッシュに
ツルハシを売るNVidia/ATI
37. 近年のデータセットを変えた技術
④Amazon Mechanical Turk (AMT)
2005年サービス開始のクラウドワーキングプラットフォームの最大手.某SNSの影響で
有名になり,あらゆる大規模データセットがAMTを用いて作成された.
時給5ドル程度.参加者の多様性が高い(アメリカ人と中国人が多いが).
参加者の条件設定が可能(Facebookアカウント所持者,大学生,Masters階位 etc.)
AMT紹介スライド:実践 Amazon Mechanical Turk
ただし,データの正確さは担保されないので,検証やデータの扱いに工夫が必要.
38. データセット内の分散
Caltech101 > カテゴリ内分散を小さく
ImageNet > カテゴリ内分散は小さくとどめない
深層学習(CNN)は後者をうまく扱える所が興味深い(内部でクラスを類似度別に分割し
て扱っている説).むしろデータ平滑化として有効とも考えられている.
深層学習
Caltech101 ImageNet
※Jia Deng et.al., ImageNet: A Large-Scale Hierarchical Image Database, in CVPR2019
出典:論文※ Figure 5