Enviar pesquisa
Carregar
Object as Points
•
3 gostaram
•
6,376 visualizações
H
harmonylab
Seguir
リアルタイム物体認識の論文 物体の中心をキーポイント推定で 探知,様々なオブジェクトプロパ ティに回帰
Leia menos
Leia mais
Tecnologia
Denunciar
Compartilhar
Denunciar
Compartilhar
1 de 21
Baixar agora
Baixar para ler offline
Recomendados
[DL輪読会]Objects as Points
[DL輪読会]Objects as Points
Deep Learning JP
[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報
Deep Learning JP
Overcoming Catastrophic Forgetting in Neural Networks読んだ
Overcoming Catastrophic Forgetting in Neural Networks読んだ
Yusuke Uchida
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII
[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object Detection
Deep Learning JP
[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について
Deep Learning JP
[DL輪読会]画像を使ったSim2Realの現況
[DL輪読会]画像を使ったSim2Realの現況
Deep Learning JP
【CVPR 2019】DeepSDF: Learning Continuous Signed Distance Functions for Shape R...
【CVPR 2019】DeepSDF: Learning Continuous Signed Distance Functions for Shape R...
cvpaper. challenge
Recomendados
[DL輪読会]Objects as Points
[DL輪読会]Objects as Points
Deep Learning JP
[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報
Deep Learning JP
Overcoming Catastrophic Forgetting in Neural Networks読んだ
Overcoming Catastrophic Forgetting in Neural Networks読んだ
Yusuke Uchida
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII
[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object Detection
Deep Learning JP
[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について
Deep Learning JP
[DL輪読会]画像を使ったSim2Realの現況
[DL輪読会]画像を使ったSim2Realの現況
Deep Learning JP
【CVPR 2019】DeepSDF: Learning Continuous Signed Distance Functions for Shape R...
【CVPR 2019】DeepSDF: Learning Continuous Signed Distance Functions for Shape R...
cvpaper. challenge
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
Deep Learning JP
Deeplearning輪読会
Deeplearning輪読会
正志 坪坂
Generative Models(メタサーベイ )
Generative Models(メタサーベイ )
cvpaper. challenge
[DL輪読会]Temporal Abstraction in NeurIPS2019
[DL輪読会]Temporal Abstraction in NeurIPS2019
Deep Learning JP
【ECCV 2022】NeDDF: Reciprocally Constrained Field for Distance and Density
【ECCV 2022】NeDDF: Reciprocally Constrained Field for Distance and Density
cvpaper. challenge
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
Deep Learning JP
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
Deep Learning JP
画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ
cvpaper. challenge
コンピュータビジョン分野メジャー国際会議 Award までの道のり
コンピュータビジョン分野メジャー国際会議 Award までの道のり
cvpaper. challenge
オープンワールド認識 (第34回全脳アーキテクチャ若手の会 勉強会)
オープンワールド認識 (第34回全脳アーキテクチャ若手の会 勉強会)
Takuma Yagi
生成モデルの Deep Learning
生成モデルの Deep Learning
Seiya Tokui
[DL輪読会]MetaFormer is Actually What You Need for Vision
[DL輪読会]MetaFormer is Actually What You Need for Vision
Deep Learning JP
Deep Learningによる超解像の進歩
Deep Learningによる超解像の進歩
Hiroto Honda
畳み込みニューラルネットワークの研究動向
畳み込みニューラルネットワークの研究動向
Yusuke Uchida
[DL輪読会]Live-Streaming Fraud Detection: A Heterogeneous Graph Neural Network A...
[DL輪読会]Live-Streaming Fraud Detection: A Heterogeneous Graph Neural Network A...
Deep Learning JP
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
Deep Learning JP
Semantic segmentation
Semantic segmentation
Takuya Minagawa
Noisy Labels と戦う深層学習
Noisy Labels と戦う深層学習
Plot Hong
[DL輪読会] MoCoGAN: Decomposing Motion and Content for Video Generation
[DL輪読会] MoCoGAN: Decomposing Motion and Content for Video Generation
Deep Learning JP
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
Deep Learning JP
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究 千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究 千坂知也
harmonylab
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
harmonylab
Mais conteúdo relacionado
Mais procurados
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
Deep Learning JP
Deeplearning輪読会
Deeplearning輪読会
正志 坪坂
Generative Models(メタサーベイ )
Generative Models(メタサーベイ )
cvpaper. challenge
[DL輪読会]Temporal Abstraction in NeurIPS2019
[DL輪読会]Temporal Abstraction in NeurIPS2019
Deep Learning JP
【ECCV 2022】NeDDF: Reciprocally Constrained Field for Distance and Density
【ECCV 2022】NeDDF: Reciprocally Constrained Field for Distance and Density
cvpaper. challenge
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
Deep Learning JP
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
Deep Learning JP
画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ
cvpaper. challenge
コンピュータビジョン分野メジャー国際会議 Award までの道のり
コンピュータビジョン分野メジャー国際会議 Award までの道のり
cvpaper. challenge
オープンワールド認識 (第34回全脳アーキテクチャ若手の会 勉強会)
オープンワールド認識 (第34回全脳アーキテクチャ若手の会 勉強会)
Takuma Yagi
生成モデルの Deep Learning
生成モデルの Deep Learning
Seiya Tokui
[DL輪読会]MetaFormer is Actually What You Need for Vision
[DL輪読会]MetaFormer is Actually What You Need for Vision
Deep Learning JP
Deep Learningによる超解像の進歩
Deep Learningによる超解像の進歩
Hiroto Honda
畳み込みニューラルネットワークの研究動向
畳み込みニューラルネットワークの研究動向
Yusuke Uchida
[DL輪読会]Live-Streaming Fraud Detection: A Heterogeneous Graph Neural Network A...
[DL輪読会]Live-Streaming Fraud Detection: A Heterogeneous Graph Neural Network A...
Deep Learning JP
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
Deep Learning JP
Semantic segmentation
Semantic segmentation
Takuya Minagawa
Noisy Labels と戦う深層学習
Noisy Labels と戦う深層学習
Plot Hong
[DL輪読会] MoCoGAN: Decomposing Motion and Content for Video Generation
[DL輪読会] MoCoGAN: Decomposing Motion and Content for Video Generation
Deep Learning JP
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
Deep Learning JP
Mais procurados
(20)
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
Deeplearning輪読会
Deeplearning輪読会
Generative Models(メタサーベイ )
Generative Models(メタサーベイ )
[DL輪読会]Temporal Abstraction in NeurIPS2019
[DL輪読会]Temporal Abstraction in NeurIPS2019
【ECCV 2022】NeDDF: Reciprocally Constrained Field for Distance and Density
【ECCV 2022】NeDDF: Reciprocally Constrained Field for Distance and Density
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ
コンピュータビジョン分野メジャー国際会議 Award までの道のり
コンピュータビジョン分野メジャー国際会議 Award までの道のり
オープンワールド認識 (第34回全脳アーキテクチャ若手の会 勉強会)
オープンワールド認識 (第34回全脳アーキテクチャ若手の会 勉強会)
生成モデルの Deep Learning
生成モデルの Deep Learning
[DL輪読会]MetaFormer is Actually What You Need for Vision
[DL輪読会]MetaFormer is Actually What You Need for Vision
Deep Learningによる超解像の進歩
Deep Learningによる超解像の進歩
畳み込みニューラルネットワークの研究動向
畳み込みニューラルネットワークの研究動向
[DL輪読会]Live-Streaming Fraud Detection: A Heterogeneous Graph Neural Network A...
[DL輪読会]Live-Streaming Fraud Detection: A Heterogeneous Graph Neural Network A...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
Semantic segmentation
Semantic segmentation
Noisy Labels と戦う深層学習
Noisy Labels と戦う深層学習
[DL輪読会] MoCoGAN: Decomposing Motion and Content for Video Generation
[DL輪読会] MoCoGAN: Decomposing Motion and Content for Video Generation
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
Mais de harmonylab
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究 千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究 千坂知也
harmonylab
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
harmonylab
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
harmonylab
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
harmonylab
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
harmonylab
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
harmonylab
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
harmonylab
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
harmonylab
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
harmonylab
Voyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language Models
harmonylab
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
harmonylab
ReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language Models
harmonylab
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
harmonylab
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
harmonylab
灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究
harmonylab
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
harmonylab
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
harmonylab
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
harmonylab
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
harmonylab
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
harmonylab
Mais de harmonylab
(20)
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究 千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究 千坂知也
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
Voyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language Models
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
ReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language Models
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
Último
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
iPride Co., Ltd.
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
Toru Tamaki
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Hiroshi Tomioka
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
atsushi061452
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
Hiroshi Tomioka
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
CRI Japan, Inc.
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
iPride Co., Ltd.
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NTT DATA Technology & Innovation
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
CRI Japan, Inc.
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
Toru Tamaki
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
iPride Co., Ltd.
Último
(11)
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Object as Points
1.
Objects as Points 論文URL
: https://arxiv.org/pdf/1904.07850v2.pdf コード : https://github.com/xingyizhou/CenterNet [v1] Tue, 16 Apr 2019 17:54:26 UTC [v2] Thu, 25 Apr 2019 16:20:02 UTC DLゼミ M2 木戸口 稜 2019/5/22 2019/5/22
2.
概要 • リアルタイム物体認識の論文 • 物体の中心をキーポイント推定で 探知,様々なオブジェクトプロパ ティに回帰 2019/5/22 2
3.
物体検出 • 従来の方法 1. バウンディングボックスの決定⇒分類器は画像内容 が特定のオブジェクトか背景かを決定 •
1-stage detector : アンカーをスライドさせ無数に作成 • 2-stage detector : 潜在的ボックスについて特徴を再計算 2. 境界ボックスのIoUを計算する 2019/5/22 3
4.
物体検出 • 従来の方法 1. バウンディングボックスの決定⇒分類器は画像内容 が特定のオブジェクトか背景かを決定 •
1-stage detector : アンカーをスライドさせ無数に作成 • 2-stage detector : 潜在的ボックスについて特徴を再計算 2. 境界ボックスのIoUを計算する • 問題点 • end-to-endの検出ができない • 全ての有り得る物体の位置および寸法を列挙するの は無駄が多い 2019/5/22 4
5.
物体検知 • 提案手法 • 物体をバウンディングボックスの中心の1点で表す •
物体検出を標準的なキーポイント推定問題に変える • 様々なオブジェクトプロパティに中心位置の画像の 特徴量から直接回帰 2019/5/22 5
6.
中心点の導出 • 𝐼 ∈
𝑅 𝑊×𝐻×3 : 幅W,高さHの入力画像 • 𝑌 ∈ 0,1 𝑊 𝑅 × 𝐻 𝑅 ×𝐶 : キーポイントヒートマップ • C : キーポイントタイプの数. 姿勢推定(C=17),物体認識(C=80) • R :ストライド. 文献[4,40,42]のデフォルトを使用(R=4) • 係数Rだけ出力予測をダウンサンプリングしている • 𝑌𝑥,𝑦,𝑐 = 1 : キーポイント, 𝑌𝑥,𝑦,𝑐 = 0 : 背景 • 𝐼から𝑌を予測するために,Hourglass, ResNet, DLAを使用 • Cクラスの真値キーポイント𝑝 ∈ ℛ2それぞれに対して等価な低解像度 𝑝 = [ 𝑝 𝑅 ]を 計算⇒ガウシアンカーネルを用いてヒートマップを作製 • 同じクラスが重複した時は要素ごとの最大値を取る 2019/5/22 6 ガウシアンカーネル を用いたヒートマップ
7.
中心点の導出 • キーポイント学習用の損失関数 • 焦点損失を伴うペナルティを削減したピクセル単位ロジスティック回帰 •
オフセット学習用の損失関数 • 出力ストライドによる離散化誤差を回復するために、各中心点に対して ローカルオフセットをさらに予測 • 教師は位置 𝑝においてのみ作用し他の位置は無視 2019/5/22 7 オフセット
8.
中心点の導出 • サイズ学習用の損失関数 • スケールは正規化せず、生のピクセル座標を直接用いる •
代わりに損失を定数𝜆 𝑠𝑖𝑧𝑒でスケーリング 2019/5/22 8 損失関数全体 指定しない限り 全ての実験で以下に設定 • 𝜆 𝑠𝑖𝑧𝑒 = 0.1 • 𝜆 𝑜𝑓𝑓 = 1 • キーポイント𝑌, オフセット 𝑂, サイズ መ𝑆を求めるために単一のネットワークを使用 • 全ての位置でC+4の出力 (𝑥1 𝑘 , 𝑦1 𝑘 , 𝑥2 𝑘 , 𝑦2 𝑘 ) をカテゴリー 𝑐 𝑘 の物体 𝑘 のバウンディングボックスとすると、 中心は𝑝 𝑘 = ( 𝑥1 𝑘 +𝑥2 𝑘 2 , 𝑦1 𝑘 +𝑦2 𝑘 2 )で、サイズは𝑠 𝑘 = (𝑥2 𝑘 − 𝑥1 𝑘 , 𝑦2 𝑘 − 𝑦1 𝑘 )
9.
中心点からバウンディングボックスに • キーポイント値 𝑌𝑥
𝑖 𝑦 𝑖 𝑐を検出信頼度の尺度として使用 • バウンディングボックスの位置 2019/5/22 9 IoUに基づく非最大値抑 制(NMS)または他の後 処理を必要とせずに、すべ ての出力がキーポイント推 定から直接生成される
10.
中心点から3D検出に • 3D検出では、物体ごとに3次元の境界ボックスが推定され、中心点ごとに3つの 追加属性(深度、3次元位置、方向)が必要 • 深さdは中心点ごとに単一のスカラー •
奥行きを直接回帰させることは困難なため,Eigen[13]と𝑑 = 1 𝜎 𝑑 − 1を使用 • キーポイント推定量の追加の出力チャネル𝐷 ∈ 0,1 𝑊 𝑅 × 𝐻 𝑅として深度を計算 • 3次元位置は3つのスカラ • 個別のヘッドΓ ∈ ℛ 𝑊 𝑅 × 𝐻 𝑅 ×3 とL1損失を使用して直接回帰 • 方向は単一のスカラ • 直接の回帰は難しいため, Mousavian[38]に従い,方向をビン内回帰を有す る2つのビンとして表す • 向きは、各ビンに対して4つのスカラーを有する8つのスカラーを使用して符号化 • 1つのビンに対して、2つのスカラーがsoftmax分類に使用され、残りの2つのスカラーは 各ビン内の角度に回帰 2019/5/22 10 σ:シグモイド関数
11.
中心点から姿勢推定に • 画像内のすべての人間のインスタンスについてk個の2D人間関節位置を 推定する(COCOならk=17) • 姿勢を中心点のk×2次元の特性と見なし、中心点へのオフセットで各キー ポイントをパラメータ化 •
L1損失の骨格オフセット(ピクセル単位)መ𝐽 ∈ ℛ 𝑊 𝑅 × 𝐻 𝑅 ×𝑘×2 に直接回帰 • キーポイントを洗練するために、さらに標準的なボトムアップ型の複数人 姿勢推定を使用してk個の人間の骨格ヒートマップを推定 • ヒートマップで検出された最も近いキーポイントに初期予測をスナップ • 中心オフセットはグループ化の手がかりとして機能させる • 個々のキーポイント検出を最も近い人物インスタンスに割り当て 2019/5/22 11
12.
中心点から姿勢推定に • 実装 • (ො𝑥,
ො𝑦)を検出した中心点とする • 𝑙𝑗 = ො𝑥, ො𝑦 + መ𝐽ො𝑥 ො𝑦𝑗 (for 𝑗 ∈ 1 … 𝑘)に関節位置を回帰 • 対応するヒートマップΦ..𝑗から各骨格タイプjについて信頼度>0.1となるキー ポイント位置𝐿𝑗 = ሚ𝑙𝑗𝑖 𝑖=1 𝑛 𝑗 を抽出 • 検出された物体の境界ボックス内の同時検出のみを考慮して,各回帰位置𝑙𝑗 をその最も近い検出されたキーポイント𝑎𝑟𝑔𝑚𝑖𝑛𝑙∈𝐿 𝑗 (𝑙 − 𝑙𝑖)2に割り当てる 2019/5/22 12
13.
実装の詳細 • 訓練 • 512×512の入力解像度で訓練(全てのモデルで128×128の出力解像度) •
Augmentation: ランダムフリップ、ランダムスケーリング(0.6から1.3の間)、 トリミング、カラージッタ • Optimation : Adam • 3D推定ブランチの訓練には拡張を使用しない • ResNet,DLA-34:140エポック,バッチサイズ128(8 GPU),学習率5e-4.学習 率は90エポックと120エポックで10分の1.2.5日訓練. • Hourglass-104:ExtremeNet [61]に従い,バッチサイズ29(5 GPU,マスター GPUバッチサイズ4),学習速度2.5e-4を50エポックで使用し、10分の1にして 40エポック.ExtremeNetからのHourglass-104をFinetune.5日訓練. • テスト • 拡張なし,フリップ,フリップとマルチスケール(0.5, 0.75, 1, 1.25, 1.5) • 反転については、境界ボックスを復号化する前にネットワーク出力を平均. マルチスケールの場合は、NMSを使用して結果をマージ 13
14.
実験(物体認識) • MS COCOデータセット[34]を使用 •
MS COCOデータセットには、118kのtrain画像(train2017)、5kの val画像(val2017)、および20kのhold-out test画像(test-dev) • IOUしきい値0.5(AP50),0.75(AP75),全て(AP)でAPに対する平均 精度を提示 • Intel Core i7-8086K CPU, Titan Xp GPU, Pytorch 0.4.1, CUDA 9.0, CUDNN 7.1 • 比較する手法はhttps://github.com/facebookresearch/Detectronから モデルとコードをコピー 2019/5/22 14
15.
実験(物体認識) 2019/5/22 15 拡張無し フリップ フリップ +マルチスケールバックボーンとテストオプションを使用したCOCO検証 Hourglass-104 : 最高の精度を実現 ResNet-101
: RetinaNet[33]と同程度の精度で2倍速い ResNet-18 : 28.1%mAPを保ちつつ142FPSを達成 DLA-34 : 最高の速度と精度のトレードオフを提供
16.
実験(物体認識) 2019/5/22 16 • 他のキーポイント推定を用いたものよ り速度,精度ともに上回る • 精度が高いほど、中心点は角や極端 な点よりも検出が容易 •
2段検出器に精度で劣るが圧倒的に高 速に検出 • 他のリアルタイム1段検出器よりは速 度、精度ともに高い
17.
実験(3D検出) • KITTIデータセット[17]を使用 • 7841の訓練画像を文献[10,54]に従い,標準的なトレーニング とバリデーションの分割を行う •
2Dバウンディングボックス(AP),方向(AOP) ,バードアイビュー バウンディングボックス(BEV AP)に基づいてIOUを評価 • 訓練とテストの両方で,元の画像の解像度を1280×384に保つ • 実験詳細 • 訓練は70エポックで収束し,学習率はそれぞれ45エポックと60 エポックに低下させる • DLA-34バックボーンを使用し,深さ,方向,および寸法の損失 重みを1に設定する 2019/5/22 17
18.
実験(3D検出) 2019/5/22 18 Slow-RCNNベース Faster-RCNNベース 同程度の精度 やや優れた精度 ※ただし、CenterNetはどちらの方法よりも2倍速い
19.
実験(姿勢推定) • MS COCOデータセット[34]を使用 •
キーポイントAPで評価 • バウンディングボックスAPのバウンディングボックスIoUをオブ ジェクトのキーポイントの類似性に置き換え • COCO test-devで他の方法と比較 • 実験詳細 • 中心点検出のDLA-34とHourglass-104からFinetune • DLA-34は320エポック(8 GPU:約3日)で収束し、Hourglass-104は 150エポック(5 GPU:約8日)で収束します。 • 追加の全ての損失重みは1に設定.他の全てのハイパーパラメー タはオブジェクト検出と同じ 2019/5/22 19
20.
実験(姿勢推定) 2019/5/22 20 最先端技術と競合できる精度 を実現 CenterNetは一般的で新しいタ スクに容易に適応できる
21.
結論 • 「物体の新しい表現方法:ポイント」を提案 • CenterNet物体検出器は、キーポイント推定ネットワークにより中心 点を見つけ,そしてサイズに回帰する •
NMS後処理なし,簡単,高速,正確,かつend-to-endで区別できる • 一般的であり,単純な二次元検出を超えた広い用途を有する • ポーズ,3D方向,奥行き,広がりなど、さまざまな物体プロパ ティを推定できる • リアルタイムの物体認識とそれに関連したタスクのための新しい方向 性を奨励している 2019/5/22 21
Baixar agora