SlideShare uma empresa Scribd logo
1 de 45
Baixar para ler offline
CUDA	
    東京工業大学 4年	
     千葉 滋 研究室	
        穂積 俊平	




                  1
CUDA	

【NVIDIA】の	
【GPU】に対する、	
【GPGPU】を目的とした	
統合開発環境	
              2
NVIDIA	
•  本社:アメリカ合衆国カリフォルニア州サンタクララ	
•  主な製品:GPU	
•  ライバル:	




             VS.	




                                3
NVIDIA	
•  本社:アメリカ合衆国カリフォルニア州サンタクララ	
•  主な製品:GPU	
•  ライバル:AMD	




             VS.	




                                4
NVIDIA	
•  本社:アメリカ合衆国カリフォルニア州サンタクララ	
•  主な製品:GPU	
•  ライバル:AMD	




             VS.	

 CUDAはNVIDIAのGPUでのみ動作する!	

                                5
GPU	
コンピュータにおける画像処理の需要の高まり	
	
	
	
	




                          6
GPU	
コンピュータにおける画像処理の需要の高まり	
	
	
画像処理専用のプロセッサを作ろう	
	
	




                          7
GPU	
コンピュータにおける画像処理の需要の高まり	
	
	
画像処理専用のプロセッサを作ろう	
	
	

GPUの誕生!!!!!	
                          8
GPUのアーキテクチャ	
SM : SPを複数個含む	
SP : 最小単位の演算処理ユニット	

                       SM	
     ビデオカード	
        GPU	
       SP	
   SP	

      SM	
   SM	
                    SP	
   SP	

     ビデオメモリ	
                                  9
GPUとCPUの違い	
•  SMはSIMDで動作する。	




                     10
GPUとCPUの違い	
•  SMはSIMDで動作する。	

     Single Instruction Multi Data	




                                       11
GPUとCPUの違い	
•  SMはSIMDで動作する。	

     Single Instruction Multi Data	

 SM内のSPは異なる処理をする事はできない。	




                                       12
GPUのアーキテクチャ	
どのくらいの演算処理ユニット(SP)があるのか?	




  




                             13
GPUのアーキテクチャ	
どのくらいの演算処理ユニット(SP)があるのか?	
比較対象:Intel Corei7
     HyperThreadingが4つ。実質8個	

  




                                14
GPUのアーキテクチャ	
どのくらいの演算処理ユニット(SP)があるのか?	
比較対象:Intel Corei7
     HyperThreadingが4つ。実質8個	
例:GT200
  




                                15
GPUのアーキテクチャ	
どのくらいの演算処理ユニット(SP)があるのか?	
比較対象:Intel Corei7
     HyperThreadingが4つ。実質8個	
例:GT200
   SM数30個




                                16
GPUのアーキテクチャ	
どのくらいの演算処理ユニット(SP)があるのか?	
比較対象:Intel Corei7
     HyperThreadingが4つ。実質8個	
例:GT200
   SM数30個
   各SMに含まれるSPの数8個

  30×8 = 	



                                17
GPUのアーキテクチャ	
どのくらいの演算処理ユニット(SP)があるのか?	
比較対象:Intel Corei7
     HyperThreadingが4つ。実質8個	
例:GT200
   SM数30個
   各SMに含まれるSPの数8個

  30×8 = 240個	



                                18
GPUのアーキテクチャ	
どのくらいの演算処理ユニット(SP)があるのか?	
比較対象:Intel Corei7
     HyperThreadingが4つ。実質8個	
例:GT200
   SM数30個
   各SMに含まれるSPの数8個

  30×8 = 240個	
   30倍	
                                19
GPGPU	
GPUの演算処理能力はとても高い	




                     20
GPGPU	
GPUの演算処理能力はとても高い	


より汎用的な目的でGPUを使おう!	




                     21
CUDA	

【NVIDIA】の	
【GPU】に対する、	
【GPGPU】を目的とした	
統合開発環境	
              22
CUDA	
CUDAはCPUとGPU両方扱う!	
 o  CPU => ホスト	
 o  GPU => デバイス	




                      23
CUDA	
CUDAはCPUとGPU両方扱う!	
 o  CPU => ホスト	
 o  GPU => デバイス	



ホストとデバイスの間で通信が必要	



                      24
典型的な処理の流れ	
1.  デバイスメモリ上に領域を確保
2.  データをホストメモリからデバイスメモリにコピー
3.  GPUで処理を実行
4.  結果をデバイスメモリからホストメモリにコピー	


     GPU	
           CPU	


  デバイスメモリ	
       ホストメモリ	
                               25
典型的な処理の流れ	
1.  デバイスメモリ上に領域を確保
2.  データをホストメモリからデバイスメモリにコピー
3.  GPUで処理を実行
4.  結果をデバイスメモリからホストメモリにコピー	


     GPU	
           CPU	


  デバイスメモリ	
       ホストメモリ	
                               26
典型的な処理の流れ	
1.  デバイスメモリ上に領域を確保
2.  データをホストメモリからデバイスメモリにコピー
3.  GPUで処理を実行
4.  結果をデバイスメモリからホストメモリにコピー	


     GPU	
           CPU	


  デバイスメモリ	
       ホストメモリ	
                               27
典型的な処理の流れ	
1.  デバイスメモリ上に領域を確保
2.  データをホストメモリからデバイスメモリにコピー
3.  GPUで処理を実行
4.  結果をデバイスメモリからホストメモリにコピー	


     GPU	
           CPU	


  デバイスメモリ	
       ホストメモリ	
                               28
典型的な処理の流れ	
1.  デバイスメモリ上に領域を確保
2.  データをホストメモリからデバイスメモリにコピー
3.  GPUで処理を実行
4.  結果をデバイスメモリからホストメモリにコピー	


     GPU	
           CPU	


  デバイスメモリ	
       ホストメモリ	
                               29
実際のCUDAコード	
例	
 for(int i = 0;i < 1024;i++){	
    C[i] = A[i] + B[i];	
 }	




                                  30
実際のCUDAコード	
1.  デバイスメモリ上に領域を確保




                     31
実際のCUDAコード	
float *A_d, *B_d, *C_d
cudaMalloc(&A_d,sizeof(float)*N)




                                   32
実際のCUDAコード	
float *A_d, *B_d, *C_d
cudaMalloc(&A_d,sizeof(float)*N)
2.  データをホストメモリからデバイスメモリにコピー




                                   33
実際のCUDAコード	
float *A_d, *B_d, *C_d
cudaMalloc(&A_d,sizeof(float)*N)
cudaMemcpy(A_d,A_h,sizeof(float)*N,hostToDevise)




                                             34
実際のCUDAコード	
float *A_d, *B_d, *C_d
cudaMalloc(&A_d,sizeof(float)*N)
cudaMemcpy(A_d,A_h,sizeof(float)*N,hostToDevise)
3.  GPUで処理を実行




                                             35
実際のCUDAコード	
float *A_d, *B_d, *C_d
cudaMalloc(&A_d,sizeof(float)*N)
cudaMemcpy(A_d,A_h,sizeof(float)*N,hostToDevise)
dim3 Dg(2,1,1) Db(512,1,1)
vec_add<<Dg,Db>>(A_d,B_d,C_d)




                                             36
実際のCUDAコード	
float *A_d, *B_d, *C_d
cudaMalloc(&A_d,sizeof(float)*N)
cudaMemcpy(A_d,A_h,sizeof(float)*N,hostToDevise)
dim3 Dg(2,1,1) Db(512,1,1)
vec_add<<Dg,Db>>(A_d,B_d,C_d)
4.  結果をデバイスメモリからホストメモリにコピー




                                             37
実際のCUDAコード	
float *A_d, *B_d, *C_d
cudaMalloc(&A_d,sizeof(float)*N)
cudaMemcpy(A_d,A_h,sizeof(float)*N,hostToDevise)
dim3 Dg(2,1,1) Db(512,1,1)
vec_add<<Dg,Db>>(A_d,B_d,C_d)
cudaMemcpy(C_h,C_d,sizeof(float)*N,deviseToHost)




                                             38
実際のCUDAコード	
float *A_d, *B_d, *C_d
cudaMalloc(&A_d,sizeof(float)*N)
cudaMemcpy(A_d,A_h,sizeof(float)*N,hostToDevise)
dim3 Dg(2,1,1) Db(512,1,1)
vec_add<<<Dg,Db>>>(A_d,B_d,C_d)
cudaMemcpy(C_h,C_d,sizeof(float)*N,deviseToHost)

dim3って何?
vec_addの中身は?	
                                             39
CUDAにおけるスレッド管理	
•  グリッドとブロックという概念を導入し、3次元的にス
   レッドを管理している。	
        グリッド	
     ブロック	
 ブロック	
     ブロック	
 ブロック	
	
	



                           40
CUDAにおけるスレッド管理	
•  グリッドとブロックという概念を導入し、3次元的にス
   レッドを管理している。	
        グリッド	
    ブロック	
 ブロック	
    ブロック	
 ブロック	
	
•  dim3変数はグリッド、ブロックのサイズを指定している。	
 o  Dg(2,1,1) Db(512,1,1)	



                              41
カーネル関数	
__global__ void vec_add(float *A_d, *B_d, *C_d){	
   int i = blockDim.x*blockIdx.x + threadIdx.x;	
   C_d[i] = A_d[i] + B_d[i];	
}	




                                                     42
カーネル関数	
__global__ void vec_add(float *A_d, *B_d, *C_d){	
   int i = blockDim.x*blockIdx.x + threadIdx.x;	
   C_d[i] = A_d[i] + B_d[i];	
}	

ビルトイン変数
 カーネル関数内で宣言せずに使用できる変数
	
blockDim : blockの大きさの情報
blockIdx : 何番目のblockを参照しているか
threadIdx : 何番目のthreadを参照しているか	
                                                     43
カーネル関数	
__global__ void vec_add(float *A_d, *B_d, *C_d){	
   int i = blockDim.x*blockIdx.x + threadIdx.x;	
   C_d[i] = A_d[i] + B_d[i];	
}	

ビルトイン変数
 カーネル関数内で宣言せずに使用できる変数
	
blockDim : blockの大きさの情報
blockIdx : 何番目のblockを参照しているか
threadIdx : 何番目のthreadを参照しているか	
各スレッドと配列の要素を結びつけている。	
                               44
CUDA4.1	
•  LLVMをベースにしたコンパイラを導入	
  o  最大で10%の速度アップ	
•  自動でパフォーマンス測定を行うVisual Profiler	
•  CUDA_GDB 	
  o  カーネル関数におけるデバッグ、アサート	
•  CUDA_MEMCHECK 	
  o  カーネル関数におけるアウトオブバウンズを検知	




                                      45

Mais conteúdo relacionado

Mais procurados

NVIDIA TESLA V100・CUDA 9 のご紹介
NVIDIA TESLA V100・CUDA 9 のご紹介NVIDIA TESLA V100・CUDA 9 のご紹介
NVIDIA TESLA V100・CUDA 9 のご紹介NVIDIA Japan
 
Pythonによる並列プログラミング -GPGPUも-
Pythonによる並列プログラミング   -GPGPUも- Pythonによる並列プログラミング   -GPGPUも-
Pythonによる並列プログラミング -GPGPUも- Yusaku Watanabe
 
20170329_BigData基盤研究会#7
20170329_BigData基盤研究会#720170329_BigData基盤研究会#7
20170329_BigData基盤研究会#7Kohei KaiGai
 
(JP) GPGPUがPostgreSQLを加速する
(JP) GPGPUがPostgreSQLを加速する(JP) GPGPUがPostgreSQLを加速する
(JP) GPGPUがPostgreSQLを加速するKohei KaiGai
 
1072: アプリケーション開発を加速するCUDAライブラリ
1072: アプリケーション開発を加速するCUDAライブラリ1072: アプリケーション開発を加速するCUDAライブラリ
1072: アプリケーション開発を加速するCUDAライブラリNVIDIA Japan
 
Chainer で Tensor コア (fp16) を使いこなす
Chainer で Tensor コア (fp16) を使いこなすChainer で Tensor コア (fp16) を使いこなす
Chainer で Tensor コア (fp16) を使いこなすNVIDIA Japan
 
OpenCLに触れてみよう
OpenCLに触れてみようOpenCLに触れてみよう
OpenCLに触れてみようYou&I
 
20210731_OSC_Kyoto_PGStrom3.0
20210731_OSC_Kyoto_PGStrom3.020210731_OSC_Kyoto_PGStrom3.0
20210731_OSC_Kyoto_PGStrom3.0Kohei KaiGai
 
Flow in VR Funhouse MOD Kit
Flow in VR Funhouse MOD KitFlow in VR Funhouse MOD Kit
Flow in VR Funhouse MOD KitNVIDIA Japan
 
プログラムを高速化する話Ⅱ 〜GPGPU編〜
プログラムを高速化する話Ⅱ 〜GPGPU編〜プログラムを高速化する話Ⅱ 〜GPGPU編〜
プログラムを高速化する話Ⅱ 〜GPGPU編〜京大 マイコンクラブ
 
[20170922 Sapporo Tech Bar] 地図用データを高速処理!オープンソースGPUデータベースMapDってどんなもの?? by 株式会社...
[20170922 Sapporo Tech Bar] 地図用データを高速処理!オープンソースGPUデータベースMapDってどんなもの?? by 株式会社...[20170922 Sapporo Tech Bar] 地図用データを高速処理!オープンソースGPUデータベースMapDってどんなもの?? by 株式会社...
[20170922 Sapporo Tech Bar] 地図用データを高速処理!オープンソースGPUデータベースMapDってどんなもの?? by 株式会社...Insight Technology, Inc.
 
SQL+GPU+SSD=∞ (Japanese)
SQL+GPU+SSD=∞ (Japanese)SQL+GPU+SSD=∞ (Japanese)
SQL+GPU+SSD=∞ (Japanese)Kohei KaiGai
 
DGX-2 を取り巻く GPU 最新技術情報
DGX-2 を取り巻く GPU 最新技術情報DGX-2 を取り巻く GPU 最新技術情報
DGX-2 を取り巻く GPU 最新技術情報NVIDIA Japan
 
PL/CUDA - Fusion of HPC Grade Power with In-Database Analytics
PL/CUDA - Fusion of HPC Grade Power with In-Database AnalyticsPL/CUDA - Fusion of HPC Grade Power with In-Database Analytics
PL/CUDA - Fusion of HPC Grade Power with In-Database AnalyticsKohei KaiGai
 
関東GPGPU勉強会資料
関東GPGPU勉強会資料関東GPGPU勉強会資料
関東GPGPU勉強会資料Kimikazu Kato
 
EnrootとPyxisで快適コンテナ生活
EnrootとPyxisで快適コンテナ生活EnrootとPyxisで快適コンテナ生活
EnrootとPyxisで快適コンテナ生活Kuninobu SaSaki
 
pgconfasia2016 lt ssd2gpu
pgconfasia2016 lt ssd2gpupgconfasia2016 lt ssd2gpu
pgconfasia2016 lt ssd2gpuKohei KaiGai
 
GPU クラウド コンピューティング
GPU クラウド コンピューティングGPU クラウド コンピューティング
GPU クラウド コンピューティングNVIDIA Japan
 
1000: 基調講演
1000: 基調講演1000: 基調講演
1000: 基調講演NVIDIA Japan
 
C#, C/CLI と CUDAによる画像処理ことはじめ
C#, C/CLI と CUDAによる画像処理ことはじめC#, C/CLI と CUDAによる画像処理ことはじめ
C#, C/CLI と CUDAによる画像処理ことはじめNVIDIA Japan
 

Mais procurados (20)

NVIDIA TESLA V100・CUDA 9 のご紹介
NVIDIA TESLA V100・CUDA 9 のご紹介NVIDIA TESLA V100・CUDA 9 のご紹介
NVIDIA TESLA V100・CUDA 9 のご紹介
 
Pythonによる並列プログラミング -GPGPUも-
Pythonによる並列プログラミング   -GPGPUも- Pythonによる並列プログラミング   -GPGPUも-
Pythonによる並列プログラミング -GPGPUも-
 
20170329_BigData基盤研究会#7
20170329_BigData基盤研究会#720170329_BigData基盤研究会#7
20170329_BigData基盤研究会#7
 
(JP) GPGPUがPostgreSQLを加速する
(JP) GPGPUがPostgreSQLを加速する(JP) GPGPUがPostgreSQLを加速する
(JP) GPGPUがPostgreSQLを加速する
 
1072: アプリケーション開発を加速するCUDAライブラリ
1072: アプリケーション開発を加速するCUDAライブラリ1072: アプリケーション開発を加速するCUDAライブラリ
1072: アプリケーション開発を加速するCUDAライブラリ
 
Chainer で Tensor コア (fp16) を使いこなす
Chainer で Tensor コア (fp16) を使いこなすChainer で Tensor コア (fp16) を使いこなす
Chainer で Tensor コア (fp16) を使いこなす
 
OpenCLに触れてみよう
OpenCLに触れてみようOpenCLに触れてみよう
OpenCLに触れてみよう
 
20210731_OSC_Kyoto_PGStrom3.0
20210731_OSC_Kyoto_PGStrom3.020210731_OSC_Kyoto_PGStrom3.0
20210731_OSC_Kyoto_PGStrom3.0
 
Flow in VR Funhouse MOD Kit
Flow in VR Funhouse MOD KitFlow in VR Funhouse MOD Kit
Flow in VR Funhouse MOD Kit
 
プログラムを高速化する話Ⅱ 〜GPGPU編〜
プログラムを高速化する話Ⅱ 〜GPGPU編〜プログラムを高速化する話Ⅱ 〜GPGPU編〜
プログラムを高速化する話Ⅱ 〜GPGPU編〜
 
[20170922 Sapporo Tech Bar] 地図用データを高速処理!オープンソースGPUデータベースMapDってどんなもの?? by 株式会社...
[20170922 Sapporo Tech Bar] 地図用データを高速処理!オープンソースGPUデータベースMapDってどんなもの?? by 株式会社...[20170922 Sapporo Tech Bar] 地図用データを高速処理!オープンソースGPUデータベースMapDってどんなもの?? by 株式会社...
[20170922 Sapporo Tech Bar] 地図用データを高速処理!オープンソースGPUデータベースMapDってどんなもの?? by 株式会社...
 
SQL+GPU+SSD=∞ (Japanese)
SQL+GPU+SSD=∞ (Japanese)SQL+GPU+SSD=∞ (Japanese)
SQL+GPU+SSD=∞ (Japanese)
 
DGX-2 を取り巻く GPU 最新技術情報
DGX-2 を取り巻く GPU 最新技術情報DGX-2 を取り巻く GPU 最新技術情報
DGX-2 を取り巻く GPU 最新技術情報
 
PL/CUDA - Fusion of HPC Grade Power with In-Database Analytics
PL/CUDA - Fusion of HPC Grade Power with In-Database AnalyticsPL/CUDA - Fusion of HPC Grade Power with In-Database Analytics
PL/CUDA - Fusion of HPC Grade Power with In-Database Analytics
 
関東GPGPU勉強会資料
関東GPGPU勉強会資料関東GPGPU勉強会資料
関東GPGPU勉強会資料
 
EnrootとPyxisで快適コンテナ生活
EnrootとPyxisで快適コンテナ生活EnrootとPyxisで快適コンテナ生活
EnrootとPyxisで快適コンテナ生活
 
pgconfasia2016 lt ssd2gpu
pgconfasia2016 lt ssd2gpupgconfasia2016 lt ssd2gpu
pgconfasia2016 lt ssd2gpu
 
GPU クラウド コンピューティング
GPU クラウド コンピューティングGPU クラウド コンピューティング
GPU クラウド コンピューティング
 
1000: 基調講演
1000: 基調講演1000: 基調講演
1000: 基調講演
 
C#, C/CLI と CUDAによる画像処理ことはじめ
C#, C/CLI と CUDAによる画像処理ことはじめC#, C/CLI と CUDAによる画像処理ことはじめ
C#, C/CLI と CUDAによる画像処理ことはじめ
 

Destaque

Destaque (20)

Slidecast
SlidecastSlidecast
Slidecast
 
To+pancen+oye
To+pancen+oyeTo+pancen+oye
To+pancen+oye
 
프레젠테이션1
프레젠테이션1프레젠테이션1
프레젠테이션1
 
Memoirs of WWII
Memoirs of WWIIMemoirs of WWII
Memoirs of WWII
 
Wind Turbines
Wind TurbinesWind Turbines
Wind Turbines
 
Question 2 new
Question 2 newQuestion 2 new
Question 2 new
 
Zara
ZaraZara
Zara
 
Ordenanza
OrdenanzaOrdenanza
Ordenanza
 
Electroquimica
ElectroquimicaElectroquimica
Electroquimica
 
Efa using spss
Efa using spssEfa using spss
Efa using spss
 
Microsoft Romania Christmas Campaign
Microsoft Romania Christmas CampaignMicrosoft Romania Christmas Campaign
Microsoft Romania Christmas Campaign
 
Ingenieria web
Ingenieria webIngenieria web
Ingenieria web
 
Hijab
HijabHijab
Hijab
 
Prezentacia
PrezentaciaPrezentacia
Prezentacia
 
apple PPT module
apple PPT moduleapple PPT module
apple PPT module
 
Merger control provisions - A step in the right direction
Merger control provisions - A step in the right directionMerger control provisions - A step in the right direction
Merger control provisions - A step in the right direction
 
NorDigi mobile process analyst white paper
NorDigi mobile process analyst white paperNorDigi mobile process analyst white paper
NorDigi mobile process analyst white paper
 
Scrappers pitch
Scrappers pitchScrappers pitch
Scrappers pitch
 
Mamma
MammaMamma
Mamma
 
Redesigning local news
Redesigning local newsRedesigning local news
Redesigning local news
 

Semelhante a Cuda

NVIDIA Japan Seminar 2012
NVIDIA Japan Seminar 2012NVIDIA Japan Seminar 2012
NVIDIA Japan Seminar 2012Takuro Iizuka
 
Hello, DirectCompute
Hello, DirectComputeHello, DirectCompute
Hello, DirectComputedasyprocta
 
GPGPUによるパーソナルスーパーコンピュータの可能性
GPGPUによるパーソナルスーパーコンピュータの可能性GPGPUによるパーソナルスーパーコンピュータの可能性
GPGPUによるパーソナルスーパーコンピュータの可能性Yusaku Watanabe
 
PyOpenCLによるGPGPU入門
PyOpenCLによるGPGPU入門PyOpenCLによるGPGPU入門
PyOpenCLによるGPGPU入門Yosuke Onoue
 
GPGPU deいろんな問題解いてみた
GPGPU deいろんな問題解いてみたGPGPU deいろんな問題解いてみた
GPGPU deいろんな問題解いてみたRyo Sakamoto
 
続・PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜 #2
続・PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜 #2続・PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜 #2
続・PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜 #2Preferred Networks
 
Lisp Meet Up #19, cl-cuda: a library to use NVIDIA CUDA in Common Lisp
Lisp Meet Up #19, cl-cuda: a library to use NVIDIA CUDA in Common LispLisp Meet Up #19, cl-cuda: a library to use NVIDIA CUDA in Common Lisp
Lisp Meet Up #19, cl-cuda: a library to use NVIDIA CUDA in Common Lispmasayukitakagi
 
NVIDIA GRID が実現する GPU 仮想化テクノロジー
NVIDIA GRID が実現する GPU 仮想化テクノロジーNVIDIA GRID が実現する GPU 仮想化テクノロジー
NVIDIA GRID が実現する GPU 仮想化テクノロジーNVIDIA Japan
 
PF部第19回資料 poor man's JTAG
PF部第19回資料 poor man's JTAGPF部第19回資料 poor man's JTAG
PF部第19回資料 poor man's JTAGdaye001
 
PF部2011年12月勉強会.androidsola
PF部2011年12月勉強会.androidsolaPF部2011年12月勉強会.androidsola
PF部2011年12月勉強会.androidsolaandroid sola
 
OpenStackを使用したGPU仮想化IaaS環境 事例紹介
OpenStackを使用したGPU仮想化IaaS環境 事例紹介OpenStackを使用したGPU仮想化IaaS環境 事例紹介
OpenStackを使用したGPU仮想化IaaS環境 事例紹介VirtualTech Japan Inc.
 
2015年度GPGPU実践プログラミング 第4回 GPUでの並列プログラミング(ベクトル和,移動平均,差分法)
2015年度GPGPU実践プログラミング 第4回 GPUでの並列プログラミング(ベクトル和,移動平均,差分法)2015年度GPGPU実践プログラミング 第4回 GPUでの並列プログラミング(ベクトル和,移動平均,差分法)
2015年度GPGPU実践プログラミング 第4回 GPUでの並列プログラミング(ベクトル和,移動平均,差分法)智啓 出川
 
CPU / GPU高速化セミナー!性能モデルの理論と実践:実践編
CPU / GPU高速化セミナー!性能モデルの理論と実践:実践編CPU / GPU高速化セミナー!性能モデルの理論と実践:実践編
CPU / GPU高速化セミナー!性能モデルの理論と実践:実践編Fixstars Corporation
 
【A-1】AIを支えるGPUコンピューティングの今
【A-1】AIを支えるGPUコンピューティングの今【A-1】AIを支えるGPUコンピューティングの今
【A-1】AIを支えるGPUコンピューティングの今Developers Summit
 
45分で理解する 最近のスパコン事情 斉藤之雄
45分で理解する 最近のスパコン事情 斉藤之雄45分で理解する 最近のスパコン事情 斉藤之雄
45分で理解する 最近のスパコン事情 斉藤之雄Yukio Saito
 
コンピューティングとJava~なにわTECH道
コンピューティングとJava~なにわTECH道コンピューティングとJava~なにわTECH道
コンピューティングとJava~なにわTECH道なおき きしだ
 
関東GPGPU勉強会 LLVM meets GPU
関東GPGPU勉強会 LLVM meets GPU関東GPGPU勉強会 LLVM meets GPU
関東GPGPU勉強会 LLVM meets GPUTakuro Iizuka
 

Semelhante a Cuda (20)

NVIDIA Japan Seminar 2012
NVIDIA Japan Seminar 2012NVIDIA Japan Seminar 2012
NVIDIA Japan Seminar 2012
 
Hello, DirectCompute
Hello, DirectComputeHello, DirectCompute
Hello, DirectCompute
 
GPGPUによるパーソナルスーパーコンピュータの可能性
GPGPUによるパーソナルスーパーコンピュータの可能性GPGPUによるパーソナルスーパーコンピュータの可能性
GPGPUによるパーソナルスーパーコンピュータの可能性
 
PyOpenCLによるGPGPU入門
PyOpenCLによるGPGPU入門PyOpenCLによるGPGPU入門
PyOpenCLによるGPGPU入門
 
GPGPU deいろんな問題解いてみた
GPGPU deいろんな問題解いてみたGPGPU deいろんな問題解いてみた
GPGPU deいろんな問題解いてみた
 
GTC Japan 2017
GTC Japan 2017GTC Japan 2017
GTC Japan 2017
 
続・PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜 #2
続・PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜 #2続・PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜 #2
続・PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜 #2
 
Lisp Meet Up #19, cl-cuda: a library to use NVIDIA CUDA in Common Lisp
Lisp Meet Up #19, cl-cuda: a library to use NVIDIA CUDA in Common LispLisp Meet Up #19, cl-cuda: a library to use NVIDIA CUDA in Common Lisp
Lisp Meet Up #19, cl-cuda: a library to use NVIDIA CUDA in Common Lisp
 
NVIDIA GRID が実現する GPU 仮想化テクノロジー
NVIDIA GRID が実現する GPU 仮想化テクノロジーNVIDIA GRID が実現する GPU 仮想化テクノロジー
NVIDIA GRID が実現する GPU 仮想化テクノロジー
 
PF部第19回資料 poor man's JTAG
PF部第19回資料 poor man's JTAGPF部第19回資料 poor man's JTAG
PF部第19回資料 poor man's JTAG
 
PF部2011年12月勉強会.androidsola
PF部2011年12月勉強会.androidsolaPF部2011年12月勉強会.androidsola
PF部2011年12月勉強会.androidsola
 
OpenStackを使用したGPU仮想化IaaS環境 事例紹介
OpenStackを使用したGPU仮想化IaaS環境 事例紹介OpenStackを使用したGPU仮想化IaaS環境 事例紹介
OpenStackを使用したGPU仮想化IaaS環境 事例紹介
 
2015年度GPGPU実践プログラミング 第4回 GPUでの並列プログラミング(ベクトル和,移動平均,差分法)
2015年度GPGPU実践プログラミング 第4回 GPUでの並列プログラミング(ベクトル和,移動平均,差分法)2015年度GPGPU実践プログラミング 第4回 GPUでの並列プログラミング(ベクトル和,移動平均,差分法)
2015年度GPGPU実践プログラミング 第4回 GPUでの並列プログラミング(ベクトル和,移動平均,差分法)
 
NVIDIA 入門
NVIDIA 入門NVIDIA 入門
NVIDIA 入門
 
CPU / GPU高速化セミナー!性能モデルの理論と実践:実践編
CPU / GPU高速化セミナー!性能モデルの理論と実践:実践編CPU / GPU高速化セミナー!性能モデルの理論と実践:実践編
CPU / GPU高速化セミナー!性能モデルの理論と実践:実践編
 
【A-1】AIを支えるGPUコンピューティングの今
【A-1】AIを支えるGPUコンピューティングの今【A-1】AIを支えるGPUコンピューティングの今
【A-1】AIを支えるGPUコンピューティングの今
 
45分で理解する 最近のスパコン事情 斉藤之雄
45分で理解する 最近のスパコン事情 斉藤之雄45分で理解する 最近のスパコン事情 斉藤之雄
45分で理解する 最近のスパコン事情 斉藤之雄
 
コンピューティングとJava~なにわTECH道
コンピューティングとJava~なにわTECH道コンピューティングとJava~なにわTECH道
コンピューティングとJava~なにわTECH道
 
関東GPGPU勉強会 LLVM meets GPU
関東GPGPU勉強会 LLVM meets GPU関東GPGPU勉強会 LLVM meets GPU
関東GPGPU勉強会 LLVM meets GPU
 
Let's play with Goldfish
Let's play with GoldfishLet's play with Goldfish
Let's play with Goldfish
 

Último

Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Yuma Ohgami
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdftaisei2219
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...Toru Tamaki
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略Ryo Sasaki
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものですiPride Co., Ltd.
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNetToru Tamaki
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A surveyToru Tamaki
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)Hiroki Ichikura
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムsugiuralab
 

Último (9)

Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システム
 

Cuda