Enviar pesquisa
Carregar
Gpu vs fpga
•
34 gostaram
•
18,727 visualizações
Yukitaka Takemura
Seguir
Tecnologia
Denunciar
Compartilhar
Denunciar
Compartilhar
1 de 28
Baixar agora
Baixar para ler offline
Recomendados
いまさら聞けない!CUDA高速化入門
いまさら聞けない!CUDA高速化入門
Fixstars Corporation
FPGAをロボット(ROS)で「やわらかく」使うには
FPGAをロボット(ROS)で「やわらかく」使うには
Hideki Takase
分散深層学習 @ NIPS'17
分散深層学習 @ NIPS'17
Takuya Akiba
FPGAのトレンドをまとめてみた
FPGAのトレンドをまとめてみた
Takefumi MIYOSHI
CPU / GPU高速化セミナー!性能モデルの理論と実践:理論編
CPU / GPU高速化セミナー!性能モデルの理論と実践:理論編
Fixstars Corporation
CUDAプログラミング入門
CUDAプログラミング入門
NVIDIA Japan
PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜
PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜
Preferred Networks
Tensor flow usergroup 2016 (公開版)
Tensor flow usergroup 2016 (公開版)
Hiroki Nakahara
Recomendados
いまさら聞けない!CUDA高速化入門
いまさら聞けない!CUDA高速化入門
Fixstars Corporation
FPGAをロボット(ROS)で「やわらかく」使うには
FPGAをロボット(ROS)で「やわらかく」使うには
Hideki Takase
分散深層学習 @ NIPS'17
分散深層学習 @ NIPS'17
Takuya Akiba
FPGAのトレンドをまとめてみた
FPGAのトレンドをまとめてみた
Takefumi MIYOSHI
CPU / GPU高速化セミナー!性能モデルの理論と実践:理論編
CPU / GPU高速化セミナー!性能モデルの理論と実践:理論編
Fixstars Corporation
CUDAプログラミング入門
CUDAプログラミング入門
NVIDIA Japan
PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜
PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜
Preferred Networks
Tensor flow usergroup 2016 (公開版)
Tensor flow usergroup 2016 (公開版)
Hiroki Nakahara
ARM CPUにおけるSIMDを用いた高速計算入門
ARM CPUにおけるSIMDを用いた高速計算入門
Fixstars Corporation
プログラムを高速化する話Ⅱ 〜GPGPU編〜
プログラムを高速化する話Ⅱ 〜GPGPU編〜
京大 マイコンクラブ
いまさら聞けないarmを使ったNEONの基礎と活用事例
いまさら聞けないarmを使ったNEONの基礎と活用事例
Fixstars Corporation
Verilator勉強会 2021/05/29
Verilator勉強会 2021/05/29
ryuz88
Ultra96ボードでYOLOを高速化
Ultra96ボードでYOLOを高速化
Hiroyuki Okuhata
プログラムを高速化する話
プログラムを高速化する話
京大 マイコンクラブ
2値化CNN on FPGAでGPUとガチンコバトル(公開版)
2値化CNN on FPGAでGPUとガチンコバトル(公開版)
Hiroki Nakahara
2015年度GPGPU実践プログラミング 第7回 総和計算
2015年度GPGPU実践プログラミング 第7回 総和計算
智啓 出川
研究者のための Python による FPGA 入門
研究者のための Python による FPGA 入門
ryos36
開発者が語る NVIDIA cuQuantum SDK
開発者が語る NVIDIA cuQuantum SDK
NVIDIA Japan
2015年度GPGPU実践基礎工学 第13回 GPUのメモリ階層
2015年度GPGPU実践基礎工学 第13回 GPUのメモリ階層
智啓 出川
Deep Learningのための専用プロセッサ「MN-Core」の開発と活用(2022/10/19東大大学院「 融合情報学特別講義Ⅲ」)
Deep Learningのための専用プロセッサ「MN-Core」の開発と活用(2022/10/19東大大学院「 融合情報学特別講義Ⅲ」)
Preferred Networks
組み込み関数(intrinsic)によるSIMD入門
組み込み関数(intrinsic)によるSIMD入門
Norishige Fukushima
PyOpenCLによるGPGPU入門
PyOpenCLによるGPGPU入門
Yosuke Onoue
FPGAを用いたEdge AIの現状
FPGAを用いたEdge AIの現状
Yukitaka Takemura
Google Edge TPUで TensorFlow Liteを使った時に 何をやっているのかを妄想してみる 2 「エッジAIモダン計測制御の世界」オ...
Google Edge TPUで TensorFlow Liteを使った時に 何をやっているのかを妄想してみる 2 「エッジAIモダン計測制御の世界」オ...
Mr. Vengineer
Hopper アーキテクチャで、変わること、変わらないこと
Hopper アーキテクチャで、変わること、変わらないこと
NVIDIA Japan
モデル高速化百選
モデル高速化百選
Yusuke Uchida
LUT-Network ~本物のリアルタイムコンピューティングを目指して~
LUT-Network ~本物のリアルタイムコンピューティングを目指して~
ryuz88
第9回ACRiウェビナー_セック/岩渕様ご講演資料
第9回ACRiウェビナー_セック/岩渕様ご講演資料
直久 住川
FPGAによる津波シミュレーション -- GPUを超える高性能計算の手法
FPGAによる津波シミュレーション -- GPUを超える高性能計算の手法
Kentaro Sano
15.06.27 実録 ソフトウェア開発者が FPGAを独習した最初の3歩@RTLを語る会(9)
15.06.27 実録 ソフトウェア開発者が FPGAを独習した最初の3歩@RTLを語る会(9)
Kei Nakazawa
Mais conteúdo relacionado
Mais procurados
ARM CPUにおけるSIMDを用いた高速計算入門
ARM CPUにおけるSIMDを用いた高速計算入門
Fixstars Corporation
プログラムを高速化する話Ⅱ 〜GPGPU編〜
プログラムを高速化する話Ⅱ 〜GPGPU編〜
京大 マイコンクラブ
いまさら聞けないarmを使ったNEONの基礎と活用事例
いまさら聞けないarmを使ったNEONの基礎と活用事例
Fixstars Corporation
Verilator勉強会 2021/05/29
Verilator勉強会 2021/05/29
ryuz88
Ultra96ボードでYOLOを高速化
Ultra96ボードでYOLOを高速化
Hiroyuki Okuhata
プログラムを高速化する話
プログラムを高速化する話
京大 マイコンクラブ
2値化CNN on FPGAでGPUとガチンコバトル(公開版)
2値化CNN on FPGAでGPUとガチンコバトル(公開版)
Hiroki Nakahara
2015年度GPGPU実践プログラミング 第7回 総和計算
2015年度GPGPU実践プログラミング 第7回 総和計算
智啓 出川
研究者のための Python による FPGA 入門
研究者のための Python による FPGA 入門
ryos36
開発者が語る NVIDIA cuQuantum SDK
開発者が語る NVIDIA cuQuantum SDK
NVIDIA Japan
2015年度GPGPU実践基礎工学 第13回 GPUのメモリ階層
2015年度GPGPU実践基礎工学 第13回 GPUのメモリ階層
智啓 出川
Deep Learningのための専用プロセッサ「MN-Core」の開発と活用(2022/10/19東大大学院「 融合情報学特別講義Ⅲ」)
Deep Learningのための専用プロセッサ「MN-Core」の開発と活用(2022/10/19東大大学院「 融合情報学特別講義Ⅲ」)
Preferred Networks
組み込み関数(intrinsic)によるSIMD入門
組み込み関数(intrinsic)によるSIMD入門
Norishige Fukushima
PyOpenCLによるGPGPU入門
PyOpenCLによるGPGPU入門
Yosuke Onoue
FPGAを用いたEdge AIの現状
FPGAを用いたEdge AIの現状
Yukitaka Takemura
Google Edge TPUで TensorFlow Liteを使った時に 何をやっているのかを妄想してみる 2 「エッジAIモダン計測制御の世界」オ...
Google Edge TPUで TensorFlow Liteを使った時に 何をやっているのかを妄想してみる 2 「エッジAIモダン計測制御の世界」オ...
Mr. Vengineer
Hopper アーキテクチャで、変わること、変わらないこと
Hopper アーキテクチャで、変わること、変わらないこと
NVIDIA Japan
モデル高速化百選
モデル高速化百選
Yusuke Uchida
LUT-Network ~本物のリアルタイムコンピューティングを目指して~
LUT-Network ~本物のリアルタイムコンピューティングを目指して~
ryuz88
第9回ACRiウェビナー_セック/岩渕様ご講演資料
第9回ACRiウェビナー_セック/岩渕様ご講演資料
直久 住川
Mais procurados
(20)
ARM CPUにおけるSIMDを用いた高速計算入門
ARM CPUにおけるSIMDを用いた高速計算入門
プログラムを高速化する話Ⅱ 〜GPGPU編〜
プログラムを高速化する話Ⅱ 〜GPGPU編〜
いまさら聞けないarmを使ったNEONの基礎と活用事例
いまさら聞けないarmを使ったNEONの基礎と活用事例
Verilator勉強会 2021/05/29
Verilator勉強会 2021/05/29
Ultra96ボードでYOLOを高速化
Ultra96ボードでYOLOを高速化
プログラムを高速化する話
プログラムを高速化する話
2値化CNN on FPGAでGPUとガチンコバトル(公開版)
2値化CNN on FPGAでGPUとガチンコバトル(公開版)
2015年度GPGPU実践プログラミング 第7回 総和計算
2015年度GPGPU実践プログラミング 第7回 総和計算
研究者のための Python による FPGA 入門
研究者のための Python による FPGA 入門
開発者が語る NVIDIA cuQuantum SDK
開発者が語る NVIDIA cuQuantum SDK
2015年度GPGPU実践基礎工学 第13回 GPUのメモリ階層
2015年度GPGPU実践基礎工学 第13回 GPUのメモリ階層
Deep Learningのための専用プロセッサ「MN-Core」の開発と活用(2022/10/19東大大学院「 融合情報学特別講義Ⅲ」)
Deep Learningのための専用プロセッサ「MN-Core」の開発と活用(2022/10/19東大大学院「 融合情報学特別講義Ⅲ」)
組み込み関数(intrinsic)によるSIMD入門
組み込み関数(intrinsic)によるSIMD入門
PyOpenCLによるGPGPU入門
PyOpenCLによるGPGPU入門
FPGAを用いたEdge AIの現状
FPGAを用いたEdge AIの現状
Google Edge TPUで TensorFlow Liteを使った時に 何をやっているのかを妄想してみる 2 「エッジAIモダン計測制御の世界」オ...
Google Edge TPUで TensorFlow Liteを使った時に 何をやっているのかを妄想してみる 2 「エッジAIモダン計測制御の世界」オ...
Hopper アーキテクチャで、変わること、変わらないこと
Hopper アーキテクチャで、変わること、変わらないこと
モデル高速化百選
モデル高速化百選
LUT-Network ~本物のリアルタイムコンピューティングを目指して~
LUT-Network ~本物のリアルタイムコンピューティングを目指して~
第9回ACRiウェビナー_セック/岩渕様ご講演資料
第9回ACRiウェビナー_セック/岩渕様ご講演資料
Destaque
FPGAによる津波シミュレーション -- GPUを超える高性能計算の手法
FPGAによる津波シミュレーション -- GPUを超える高性能計算の手法
Kentaro Sano
15.06.27 実録 ソフトウェア開発者が FPGAを独習した最初の3歩@RTLを語る会(9)
15.06.27 実録 ソフトウェア開発者が FPGAを独習した最初の3歩@RTLを語る会(9)
Kei Nakazawa
FPGAことはじめ
FPGAことはじめ
Takahiro Nakayama
ソフトウェア技術者はFPGAをどのように使うか
ソフトウェア技術者はFPGAをどのように使うか
なおき きしだ
$30で始めるFPGA
$30で始めるFPGA
Yukitaka Takemura
Zynq + Vivado HLS入門
Zynq + Vivado HLS入門
narusugimoto
増え続ける情報に対応するためのFPGA基礎知識
増え続ける情報に対応するためのFPGA基礎知識
なおき きしだ
電子回路の民主化とその実践
電子回路の民主化とその実践
Junichi Akita
Polyphony: Python ではじめる FPGA
Polyphony: Python ではじめる FPGA
ryos36
cocos2d-x で PlugAir を 使えるようにしてみた
cocos2d-x で PlugAir を 使えるようにしてみた
Hideyuki TAKEI
IkaLog: Data Collector for Splatoon and Machine Learning (Jan 2017 @ Softbank)
IkaLog: Data Collector for Splatoon and Machine Learning (Jan 2017 @ Softbank)
Takeshi HASEGAWA
Beatroboでのハードウェアプロトタイピング
Beatroboでのハードウェアプロトタイピング
Hideyuki TAKEI
Cortex-M0プロセッサから自作してLチカをやってみた
Cortex-M0プロセッサから自作してLチカをやってみた
Junichi Akita
IkaLog: Data Collector for Splatoon and Machine Learning
IkaLog: Data Collector for Splatoon and Machine Learning
Takeshi HASEGAWA
ゆるふわコンピュータ (IPSJ-ONE2017)
ゆるふわコンピュータ (IPSJ-ONE2017)
Shinya Takamaeda-Y
集積回路が真の道具になるために
集積回路が真の道具になるために
Junichi Akita
IkaLog20170316pynq_dist
IkaLog20170316pynq_dist
Takeshi HASEGAWA
2017年のFPGA Community活動について
2017年のFPGA Community活動について
Mr. Vengineer
Klabの梅雨対策
Klabの梅雨対策
Hideyuki TAKEI
Golang, make and robotics #gocon
Golang, make and robotics #gocon
Hideyuki TAKEI
Destaque
(20)
FPGAによる津波シミュレーション -- GPUを超える高性能計算の手法
FPGAによる津波シミュレーション -- GPUを超える高性能計算の手法
15.06.27 実録 ソフトウェア開発者が FPGAを独習した最初の3歩@RTLを語る会(9)
15.06.27 実録 ソフトウェア開発者が FPGAを独習した最初の3歩@RTLを語る会(9)
FPGAことはじめ
FPGAことはじめ
ソフトウェア技術者はFPGAをどのように使うか
ソフトウェア技術者はFPGAをどのように使うか
$30で始めるFPGA
$30で始めるFPGA
Zynq + Vivado HLS入門
Zynq + Vivado HLS入門
増え続ける情報に対応するためのFPGA基礎知識
増え続ける情報に対応するためのFPGA基礎知識
電子回路の民主化とその実践
電子回路の民主化とその実践
Polyphony: Python ではじめる FPGA
Polyphony: Python ではじめる FPGA
cocos2d-x で PlugAir を 使えるようにしてみた
cocos2d-x で PlugAir を 使えるようにしてみた
IkaLog: Data Collector for Splatoon and Machine Learning (Jan 2017 @ Softbank)
IkaLog: Data Collector for Splatoon and Machine Learning (Jan 2017 @ Softbank)
Beatroboでのハードウェアプロトタイピング
Beatroboでのハードウェアプロトタイピング
Cortex-M0プロセッサから自作してLチカをやってみた
Cortex-M0プロセッサから自作してLチカをやってみた
IkaLog: Data Collector for Splatoon and Machine Learning
IkaLog: Data Collector for Splatoon and Machine Learning
ゆるふわコンピュータ (IPSJ-ONE2017)
ゆるふわコンピュータ (IPSJ-ONE2017)
集積回路が真の道具になるために
集積回路が真の道具になるために
IkaLog20170316pynq_dist
IkaLog20170316pynq_dist
2017年のFPGA Community活動について
2017年のFPGA Community活動について
Klabの梅雨対策
Klabの梅雨対策
Golang, make and robotics #gocon
Golang, make and robotics #gocon
Semelhante a Gpu vs fpga
1070: CUDA プログラミング入門
1070: CUDA プログラミング入門
NVIDIA Japan
Myoshimi extreme
Myoshimi extreme
Masato Yoshimi
FPGA+SoC+Linux実践勉強会資料
FPGA+SoC+Linux実践勉強会資料
一路 川染
なにわTech20161215
なにわTech20161215
Natsutani Minoru
FPGA・リコンフィギャラブルシステム研究の最新動向
FPGA・リコンフィギャラブルシステム研究の最新動向
Shinya Takamaeda-Y
FPGAで遊んでみた
FPGAで遊んでみた
Akira Kaneda
20170421 tensor flowusergroup
20170421 tensor flowusergroup
ManaMurakami1
プログラム説明 kgPhotonMapping v0-1-0
プログラム説明 kgPhotonMapping v0-1-0
Takahiro KOGUCHI
ACRi_webinar_20220118_miyo
ACRi_webinar_20220118_miyo
Takefumi MIYOSHI
2015年度GPGPU実践基礎工学 第11回 GPUでの並列プログラミング(ベクトル和)
2015年度GPGPU実践基礎工学 第11回 GPUでの並列プログラミング(ベクトル和)
智啓 出川
FPGAスタートアップ資料
FPGAスタートアップ資料
marsee101
FPGAでベンチマークしたときに苦労した話@fpgax#12
FPGAでベンチマークしたときに苦労した話@fpgax#12
Jun Ando
(JP) GPGPUがPostgreSQLを加速する
(JP) GPGPUがPostgreSQLを加速する
Kohei KaiGai
仮想FPGAクラウド
仮想FPGAクラウド
Eric Fukuda
Halide, Darkroom - 並列化のためのソフトウェア・研究
Halide, Darkroom - 並列化のためのソフトウェア・研究
Yuichi Yoshida
20221116_DBTS_PGStrom_History
20221116_DBTS_PGStrom_History
Kohei KaiGai
PL/CUDA - Fusion of HPC Grade Power with In-Database Analytics
PL/CUDA - Fusion of HPC Grade Power with In-Database Analytics
Kohei KaiGai
機械学習 / Deep Learning 大全 (6) Library編
機械学習 / Deep Learning 大全 (6) Library編
Daiyu Hatakeyama
20170726 py data.tokyo
20170726 py data.tokyo
ManaMurakami1
High-speed Sorting using Portable FPGA Accelerator (IPSJ 77th National Conven...
High-speed Sorting using Portable FPGA Accelerator (IPSJ 77th National Conven...
Takuma Usui
Semelhante a Gpu vs fpga
(20)
1070: CUDA プログラミング入門
1070: CUDA プログラミング入門
Myoshimi extreme
Myoshimi extreme
FPGA+SoC+Linux実践勉強会資料
FPGA+SoC+Linux実践勉強会資料
なにわTech20161215
なにわTech20161215
FPGA・リコンフィギャラブルシステム研究の最新動向
FPGA・リコンフィギャラブルシステム研究の最新動向
FPGAで遊んでみた
FPGAで遊んでみた
20170421 tensor flowusergroup
20170421 tensor flowusergroup
プログラム説明 kgPhotonMapping v0-1-0
プログラム説明 kgPhotonMapping v0-1-0
ACRi_webinar_20220118_miyo
ACRi_webinar_20220118_miyo
2015年度GPGPU実践基礎工学 第11回 GPUでの並列プログラミング(ベクトル和)
2015年度GPGPU実践基礎工学 第11回 GPUでの並列プログラミング(ベクトル和)
FPGAスタートアップ資料
FPGAスタートアップ資料
FPGAでベンチマークしたときに苦労した話@fpgax#12
FPGAでベンチマークしたときに苦労した話@fpgax#12
(JP) GPGPUがPostgreSQLを加速する
(JP) GPGPUがPostgreSQLを加速する
仮想FPGAクラウド
仮想FPGAクラウド
Halide, Darkroom - 並列化のためのソフトウェア・研究
Halide, Darkroom - 並列化のためのソフトウェア・研究
20221116_DBTS_PGStrom_History
20221116_DBTS_PGStrom_History
PL/CUDA - Fusion of HPC Grade Power with In-Database Analytics
PL/CUDA - Fusion of HPC Grade Power with In-Database Analytics
機械学習 / Deep Learning 大全 (6) Library編
機械学習 / Deep Learning 大全 (6) Library編
20170726 py data.tokyo
20170726 py data.tokyo
High-speed Sorting using Portable FPGA Accelerator (IPSJ 77th National Conven...
High-speed Sorting using Portable FPGA Accelerator (IPSJ 77th National Conven...
Último
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
Toru Tamaki
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
iPride Co., Ltd.
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
taisei2219
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
Toru Tamaki
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
Ryo Sasaki
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Yuma Ohgami
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システム
sugiuralab
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
Toru Tamaki
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
Hiroki Ichikura
Último
(9)
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システム
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
Gpu vs fpga
1.
GPU vs FPGA @yukitaketake 竹村幸尚@DMP
2.
がっかりポイント • 私は「組み込み」GPUを設計しています – CUDAとか関係ないです –
OpenCL全然盛り上がってないです • FPGAはあまり触ってません – 指示出す側です – FPGAと格闘していたのは10年以上前です • Altera FLEX10Kとか…
3.
DMP グラフィックスIPソリューション 組込み機器向け高性能・低消費電力グラフィックスIP
コア 高性能2D/3DグラフィックスIP 低電力モバイルから高性能アミューズメントまでサポート ビルディング・ブロック構造によるスケーラブルなアーキテクチャ OpenVG 1.1対応 PICA200Lite (OpenGLES 1.1 ) ベクターグラフィックスIPコア フォトリアリスティック 3DグラフィックスIPコア 標準3DグラフィックスIPコア (OpenGL ES 1.1 互換 + 独自拡 張) SMAPH-S (OpenGLES 2.0 ) PICA200 SMAPH-F
4.
GPUの初歩 • 材料 – 頂点データ –
Indexデータ – テクスチャ – シェーダ • パラメタ/テーブル等をレジスタへ void main() { #if defined MASK vec4 mask = texture2D( texture_unit2, out_texcoord0); #else const vec4 mask = vec4( 1.0, 1.0, 1.0, 1.0); #endif #if defined ALPHA_TEST if( mask.x < 0.6) discard; #endif vec3 color = texture2D( texture_unit0, out_texcoord0).xyz; color = planar_reflection2( color);
5.
GPUの初歩 • 頂点データ処理 Position0 – 頂点ごとにデータ整形 –
FP32bit化 – Index arrayに従って整列 Color 0 Position1 Color 1 Position2 Color 2 : : Color0 : : Palette indexx 0 3 4 16 : : x Index array Position0 Palette index0 Texture0 FixedColor Color3 全てfloat24/vec4 Texturex FixedColor Position3 Palette index3 Texture3 Position4 Palette index2 FixedColor : : Palette index0 Palette index1 Color4 Texture2 Texture4 Texture1 Palette index4 Colorx Texture0 FixedColor Positionx VPへ
6.
GPUの初歩 • 頂点シェーダプロセッサ – 頂点テクスチャリード –
M-V変換 • 頂点バッファ – 頂点シェーダ処理後のデータをストア テクスチャ ユニット 頂点データ 頂点データ 処理 頂点プロセサ 頂点バッファ
7.
GPUの初歩 • トライアングルセットアップ – 頂点をプリミティブ化 –
クリッピング – カリング • ラスタライズ テクスチャ – 演算器の塊 • プロセッサでやるとかw テクスチャ ユニット 頂点データ 頂点データ 処理 頂点プロセサ 頂点バッファ トライアングル セットアップ ラスタライザ
8.
GPUの初歩 テーブル パラメタ • ピクセル(フラグメント)シェーダ – テクスチャリード 頂点データ 処理 頂点バッファ トライアングル セットアップ ラスタライザ スケジューラ 頂点データ ユニファイド シェーダ テクスチャユニット テクスチャデータ •
ピクセルシェーダと頂点シェー ダは同じプロセッサで動作させ る – 元々は別プロセッサ – ユニファイドシェーダ
9.
GPUの初歩 • ROP(Rendering Output Pipeline
/ Rasterize OPeration) – – – – – – シェーダから1pixelのカラーを受け取って Zバッファを読んでそのピクセルを描画すべきか判定して そのpixelが一番手前ならZバッファを更新して (フレームバッファから既に書かれているカラーを読んで) (シェーダからのアルファ値に従ってブレンドして) フレームバッファに書き込む 頂点データ テーブル/パラメタ 頂点データ 処理 Zバッファ トライアングル セットアップ スケジューラ ユニファイドシェーダと テクスチャユニットだけを使うのが GPGPU 頂点バッファ ユニファイド シェーダ ROP フレームバッファ ラスタライザ テクスチャユニット テクスチャデータ
10.
GPUの初歩 • まとめ図
11.
GPUの特徴 • スループットコンピューティング – グラフィックスはmsの世界 –
CPUはレイテンシコンピューティング? – FPGAはどちらにも振れる • 最短のレイテンシを得るならFPGA • 浮動小数点演算重視 – 圧倒的なFLOPS値 • もはやTFLOPSに • ただし電力食い – 整数無視と言っても良いぐらい • 最近はそうでもないけど – GPUで整数演算をするのはもったいないかも • 電力効率最悪かも • 整数ならFPGA大活躍の可能性
12.
GPU性能を上げるために • 可能なら固定パイプラインで – やることが決まっていればプロセッサより高効率 •
出来るだけ沢山演算器を詰める – 最低限の精度で • 各演算器の使用率を出来るだけ高く – 沢山入れても動いてないんじゃ意味が無い • 動作周波数を高く – パイプライン演算器 • 浮動小数点演算だと必須 – ちょっと古いGPUだと4stage – 最近のは多分8stageとか • 整数・固定少数でも32bitなら必要 • 段数深くすれば高周波数対応可能 – 効率良く動かすのは難しくなる
13.
パイプライン演算器 • GPUはなぜパイプライン演算器を使いこなせる のか – 各パイプラインに別々のスレッドが走っている •
GPUが性能出せる秘密はこれ – このように動けないアプリケーションでは性能が出な い • FPGAでも性能を出すには、同じようにパイプライ ン演算器にデータを詰めないといけない – レイテンシに特化するならその限りではない?
14.
GPUのほうが有利な場合 • • • • 大量の浮動小数点演算 電力気にしない データ並列性 レイテンシ気にしない
15.
FPGAのほうが有利な場合 • Float/int精度が不要 – 小さい演算器使える • • • • • 消費電力重要 レイテンシ重要 パイプラインを深く出来る 少ないリソースで足りるアプリケーション 苦労を厭わない –
HW屋でもFPGAツールにはハマること多いです • FPGAアーキテクチャに合う回路が作れる • 特殊なメモリアーキテクチャが必要 – 大きな帯域は必ずしも必要ない • 帯域だけで勝負したらGPUが上になる
16.
特徴比較 CPU GPU FPGA ASIC コスト ○ ○ △ ? 電力 ☓ ☓ ○ ◎ メモリ帯域 ○ ◎ △ ◎ 自由度 △ △ ○ ◎ Op/sec ○ ◎ △ ○ 開発容易性 ◎ ○ △ ☓☓ ASIC化 △ ☓ ◎ - データ制御 ○ ☓ ◎ ◎
17.
事例その1 - GPU •
FPGAにGPUを入れてみる。 – 使ったもの • TED社製FPGAボード – Xilinx Virtex7使用(XC7V2000T) » ハイエンドもいいところ – お値段約xxx万円(当時) – 入れたもの • DMP OpenGLES3.0準拠GPU – SMAPH-S – 4 shaders » 4SIMD x 4
18.
FPGAボード例
19.
FPGAボード例
20.
FPGAボード例
21.
事例その1 - GPU •
結果 – Slice LUT:70% – Slice reg: 15% – BRAM:20% – たかが4つのSIMDプロセッサで割といっぱいということ • GPUは配線が多いので、あまり詰まらない • 現時点ではFPGAで浮動小数点演算を扱うのはメリット少ない? – これでもかなりましになった » Virtex6とかひどかった • ハズレ世代に注意しましょう
22.
事例その2 – 演算器アレイ •
目的 – FPGAにどれぐらい浮動小数点演算器が詰まるか確 かめてみる • 格安FPGAでどれぐらいのFLOPS値まで行けるか – 浮動小数点演算アクセラレータとして使うイメージ • 環境 – Xilinx Zynq-7000 • XC7Z020CLG484 • f:50MHz – 速い浮動小数点演算機が用意できませんで – 頑張れば200MHzぐらいまでは行けるかと
23.
ブロック図 • 動作フローは以下の通り AXI Interconnect master – DMAC – – FP
Unit Array IBUF1 SW OBUF0 SW IBUF0 – OBUF1 • IBUFへの書き込み及び OBUFからの読み出しは、ダ ブルバッファにより計算中 にも行う。 • FP Unit Arrayの規模をどこ まで増やせるか Configuration Register AXI Interconnect slave ARMからモード等をレジス タ設定 DMACでARM側メモリから IBUF0又は1へ計算データ 転送 起動。計算結果をOBUF0 又は1に書き込み DMACでOBUFからARM側 へ書き戻し
24.
ブロック図 MAD MAD INP MAD MAD UNIT • 基本ユニット – Fp32
multiply and add x 4 – Fp32 x 8 variable input – Fp32 x 4 constant input – 4stage pipeline
25.
ブロック図 1set IBUF0 UNIT FIFO UNIT SFU UNIT FIFO UNIT SFU UNIT FIFO FIFO FIFO OBUF0 FIFO Constant register • UNIT2つとSFU1つをセットに数珠つなぎ – SFU •
RCP/RSQ/SIN/COS/EXP/LOG • Fp32bit x 1 • あくまで評価のための回路 – 多少なりとも使い物にしようとするなら、UNITの入力及びバッファを増やさな いといけないが… • 配線使い過ぎるとFPGAには入らない • ホントはUNIT内部に比較器等入れて、簡単な分岐が出来るようにしたい
26.
FPGA構成 • AXIバスでARM側と つなぐだけ – レジスタ設定用ス レーブポートも AXIで
27.
事例その2 – 演算器アレイ • 結果 –
Slice LUT: 94.91% – Slice Reg: 35.57% – 入ったもの • IBUF0 UNIT FIFO UNIT SFU UNIT これだけ→ – 33 FP units FIFO • 1.65GFLOPS • 200MHzなら6.6GFLOPS FIFO – もちろん実際こんなに出ませんが Constant register – 1ランク上のFPGAの場合 • • • XC7Z030CLG484 93FP units 29.65GFLOPS – 200MHzなら118.6GFLOPS – Artixクラスだと制御系でかなりリソース食ってしまい、計算にリソースが回らない? • Z030はKintexクラスだそうで OBUF0
28.
まとめ • 安価なFPGAではやれることが少ない – 特に演算系 –
演算系ならGPUオススメ • ASIC化を見据えたプロトタイプ作成用に魅力
Baixar agora