CUDA/Open CL

CUDA/OpenCL
Arquiteturas Avancadas de Computadores
Krissia de Zawadzki
Instituto de F´ısica de S˜ao Carlos - Universidade de S˜ao Paulo
06 de Maio 2014
Krissia de Zawadzki CUDA/OpenCL 1 / 61

CUDA - Introdu¸c˜ao GPU e CUDA Programando em CUDA OpenCL Caos Conclus˜ao
Outline
1 CUDA - Introduc~ao
2 GPU e CUDA
3 Programando em CUDA
4 OpenCL
5 Caos
6 Conclus~ao

CUDA - Introdu¸c˜ao
CUDA
Compute Uni

ed Device Architecture
3 Plataforma de computac~ao paralela e
modelo de programac~ao
3 Desenvolvido pela NVIDIA e
implementada para GPU's NVIDIA
3 Conjunto de instruc~oes e memoria
diretamente acessveis ao programador

Background hist´orico
2002: Stanford University
Steam processing
Prototipo e arquitetura muito parecida
com GPU
Baseline programmable
stream processor

2002: GeForce 3 e ATI Radeon 9700
3 Shaders programaveis

2006: GeForce 8
Arquitetura uni

cada → CUDA!

2006: GeForce 8
3 Programabilidade realmente
exvel
3 Revolucionou os conceitos de
pipeline de pixel e vertices
3 Cadeia de processadores

GPU’s com suporte para CUDA
GeForce 8
3 8, 9, 100, 200, 400, 500 e
600-series (m´ın 256MB memloc)
3 1.0, 1.1, 1.2, 1.3, 2.0, 2.1, 3.0,
3.5 e 5.0
GeForce GTX-750 (5.0)
NVS
3 Quadro 295, 420, 450
3 NVIDIA NVS 300, 315, 510
3 1.1, 1.2, 2.1 e 3.0
NVIDIA NVS 510 (3.0)

QUADRO
3 Quadro NVS, Quadro FX, Quadro K
3 1.0, 1.1, 1.2, 1.3, 2.0, 2.1, 3.0 e
3.5
QUADRO K600 (3.5)
Tesla
3 D780, C870, C1060, C2050/2070,
C2075
3 K20, K40
3 1.0, 1.3, 2.0, 3.5
Tesla K20 (3.5)

Aplica¸cões
Além de processamento gráfico

Aplica¸c˜oes

Aplica¸c˜oes
Ganho de desempenho em aplica¸c˜oes cient´ıficas

GPU
GPU vs. CPU
CPU
3 Códigos sequenciais
3 Baixa latência
3 Controle complexo
GPU
3 Paralelismo de dados
3 Alto throughtput
3 Aritmética com pouco controle

GPU
GPU vs. CPU
CPU
3 Fluxo iterativo
7 Tempo de computa¸cão
7
GPU
3 Opera¸cões simultâneas
7 Desvio de fluxo
7

GPU
CPU vs. GPU

Linguagens e modelos de programa¸cão paralela
Linguagens e modelos de programa¸cão paralela
OpenMP
shared memory
limite de centenas de nós
CUDA
alta escalabilidade
portabilidade é mais simples!
MPI
capacidade de nós 100.000
esfor¸co para portar o código
OpenCL
modelo de programa¸cão padronizado
suporte para AMD/ATI, NVIDIA,
Apple e Intel

Arquitetura da GPU
GPU - Unified processor array (GeForce 8800 GTX)

Estrutura de um programa CUDA
Trechos seriais ou com fraco paralelismo no codigo C do host
Porc~ao altamente paralela no codigo C do kernel associado ao device

CUDA Threads paralelas
// de dados: Todas as threads rodam o mesmo codigo
threadIdx: identi

cador da thread → de memoria e controle

CUDA Thread Blocks
Thread Blocks: Array (dim 2x2) the threads que cooperam entre si
bloco: memoria compartilhada, operac~oes at^omicas e
barreiras de sincronizac~ao
blockIdx: identi

cador do bloco em um grid

CUDA Id’s
Ids são úteis para identificar os
dados sob os quais cada thread irá
trabalhar
Conveniente para simplificar o
de memória em dados
multidimensionais
blockIdx:
1D (blockIdx.x)
2D (blockIdx.x, blockIdx.y)
threadIdx:
1D (threadIdx.x),
2D (threadIdx.x, threadIdx.y),
3D (threadIdx.x, threadIdx.y, threadIdx.z)

Par^ametros de configura¸c˜ao
block:
dimBlock ( Widthx , Widthy , , Widthz )
grid:
dimGrid (Wgridx , Wgridy , Wgridz )
Kernel launching
// Setup the execution configuration
dim3 dimBlock (Width , Width , 1);
dim3 dimGrid (1, 1, 1);
// Launch the device computation threads !
MyKernelFunction dimGrid , dimBlock ( args );

Modelo de Memória CUDA
Memoria Global:
comunica¸cão host-device
R/W
conteúdo vis´ıvel por todas as
threads
tipicamente implementada
como DRAM
acesso de longa latência
(400-800 ciclos)
7 congestionamento
throughput limitado (a 177
GB/s na GTX8800)

Memoria Constante:
read only
baixa lat^encia e alta largura
de banda quando todas as
threadas acessam o mesmo
local

Memoria Compartilhada:
3 rapida
altamente paralela
apenas um bloco tem acesso

Registradores
3 o componente da memoria
da GPU mais rapido
acess´ıvel por uma threada

Variáveis CUDA
Variáveis CUDA
kernel: a variável deve ser declarada no escopo da fun¸cão kernel → fica
dispon´ıvel somente no kernel
application: a variável deve ser declarada fora de qualquer fun¸cão
constant: a variável deve ser declarada fora de qualquer fun¸cão →
limitado (a 64KB na GTX8800)

CUDA Kernel Functions
Kernel functions:
implementam o trecho
paralelo de codigo a ser
executado no device
Sua chamada pode ser feita
com as con

gurac~oes de
blocos e de threads

Atribui¸c˜ao de threads
base block-by-block
7 Runtime system
coordena os blocos e as
threads a serem
executadas: mantem a
lista de blocos e associa
novos blocos a SM's
livres
recursos do SM
unidades aritmeticas
numero de threads que
podem ser rastreadas e
escalonadas
simultaneamente

CUDA Warps
Warps : conjunto de threads com
ndices consecutivos
A capacidade do warp (num.
de threads) e dependente da
implementac~ao
Warp e a unidade para
escalonar threads no SM
SIMD
ordem qualquer entre warps
7 diverg^encia causada por branchs

Compilador NVCC
Baseado no Open64
(opensource originario do
MIPSPro - SGI).
Implementado em C e C++.
NVidia atualmente investindo
no LLVM.
Existe um utilit´ario que
converte LLVM IR (gerado
por qualquer frontend de
compilador LLVM) em PTX,
que pode ser programado nas
GPUs NVidia.

Defici^encias
Equipe preferiu implementar codigo para o desa

o ECC2K-130
diretamente em codigo de maquina.
BERNSTEIN, D. J. et al. Usable Assembly Language for GPUs: A
Success Story. In: Workshop Records of Special-Purpose Hardware
for Attacking Cryptographic Systems – SHARCS 2012. [s.n.], 2012.
p. 169–178.
Compilador NVCC muito lento para lidar com kernels contendo
muitas instruc~oes.
Registradores alocados de forma pouco e

ciente { muitas variaveis
acabaram tendo de ser alocadas pelo NVCC na memoria
compartilhada.
Varios truques necessarios para obter uma implementac~ao em C
aceitavel. Implementac~ao em Assembly 148% mais rapida que
melhor implementac~ao em C.

Programando em CUDA: exemplo
Multiplica¸c˜ao Matricial: o Hello World do CUDA
푃 = 푀 * 푁
Σ︁
푃푖푗 =
푘
푀푖,푘푁푘,푗
3 Paralelismo de dados!
Cada elemento 푃푖푗 de 푃 pode ser
calculado simultaneamente aos
demais!

Representa¸c˜ao matricial em C
Alocac~ao de memoria no C para arrays bidimensionais:

C´odigo main C sequencial (host)
int main ( void ){
// 1. Alocamos e inicializamos as matrizes M, N e P
// Funcoes I/O leem as matrizes M e N
...
// 2. Multiplicacao M * N
MatMul (M,N,P, Width );
...
// 3. Funcao I/O para escrever a saida P
// Liberamos a memoria de M, N e P
return 0;
}

Fun¸c˜ao C sequencial (host)
void MatMul ( float *M; float *N, float *P, int Width )
{
for ( int i = 0; i Width ; ++i)
for (int j = 0; j Width ; ++j){
float sum = 0;
for ( int k = 0; k Width ; ++k){
float m = M[i* Width + k];
float n = N[k* width + j];
sum += m * n;
}
P[i * Width + j] = sum ;
}
}

Portando o código para CUDA - aloca¸cão de memória
cudaMalloc()
aloca um objeto na
Memoria Global
parâmetros: endereco de
um ponteiro para o objeto
alocado, tamanho do objeto
cudaFree()
libera um objeto na
Memoria Global
parâmetro: ponteiro para o
objeto

Portando o c´odigo para CUDA - aloca¸c˜ao
Exemplo:
int Width =64;
float * Md , Nd;
int size = Width * Width * sizeof ( float );
cudaMalloc (( void **) Md , size );
cudaMalloc (( void **) Nd , size );
...
cudaFree (Md );
cudaFree (Nd );

Portando o código para CUDA - transferência de dados
cudaMemcpy()
transfere dados entre o host
e o device
Assncrona
parâmetros:
ponteiro para o destino
ponteiro para a fonte número
de bytes a serem copiados
tipo de transferência
tipos:
Host to Host
Host to Device
Device to Host
Device to Device

Portando o c´odigo para CUDA - transfer^encia de dados
Exemplo:
...
...
cudaMemcpy (Md , M, size , cudaMemcyHostToDevice );
cudaMemcpy (Nd , N, size , cudaMemcyHostToDevice );
...
cudaMemcpy (Pd , P, size , cudaMemcyDeviceToHost );

Portando o c´odigo para CUDA - fun¸c˜ao MatMul no device
void MatMul ( float *M; float *N, float *P, int Width ){
float * Md , Nd , Pd;
// 1. Alocamos memoria no device para M, N e P
cudaMalloc (( void **)) Md , size );
cudaMemcpy (Md , M, size , cudaMemcyHostToDevice );
cudaMalloc (( void **)) Nd , size );
cudaMemcpy (Nd , N, size , cudaMemcyHostToDevice );
cudaMalloc (( void **)) Pd , size );
// 2. Evocamos a funcao kernel para a multiplicacao
// 3. Copiamos o resultado P para a memoria do host
cudaMemcpy (Pd , P, size , cudaMemcyDeviceToHost );
// Liberamos as memorias de M, N e P no device
cudaFree (Md ); cudaFree (Nd ); cudaFree (Pd );
}

Fun¸c˜ao kernel MatMul

Kernel function - um pouco mais sobre especifica¸c˜oes
global de

ne uma func~ao kernel
device e host podem ser usadas simultaneamente
7 recurs~oes
7 variaveis estaticas
7 chamadas indiretas de func~oes por ponteiros

Configura¸c˜ao de execu¸c˜ao
Exemplo: De

nir a multiplicac~ao matricial quando 푊푖푑푡ℎ = 32 em
blocos Grids 2D com (2x2) blocos Blocos 2D com (16x16) threads

Configura¸cão de execu¸cão
A configura¸cão define a dimensão do problema!!!! No exemplo anterior, usando blocos
1D podemos apenas trabalhar com 푊푖푑푡ℎ = 16 !
Solu¸cão: Manipular dimGrid e dimBlock e dividir o cálculo de peda¸cos da matriz
resultado entre threads e blocos!

Usando blockIdx e threadIdx
Solu¸c˜ao: tiles!

Usando blockIdx e threadIdx: nova fun¸c˜ao kernel
__global__ void MatMulK ( float *Md , float *Nd , float *Pd , int Width )
{
// linha e colunas do elemento de Pd
int Row = blockIdx .y* TILE_WIDTH + threadIdx .y;
int Col = blockIdx .x* TILE_WIDTH + threadIdx .x;
float Pvalue = 0;
// cada thread calcula um elemento da sub - matriz no bloco
for ( int k = 0; k Width ; ++k)
Pvalue += Md[ Row * Width +k] * Nd[k* Width +Col ];
Pd[ Row * Width + Col ] = Pvalue ;
}

Usando blockIdx e threadIdx: par^ametros de configura¸c˜ao
// configuracao para varios blocos
dim3 dimBlock ( Width / TILE_WIDTH , Width / TILE_WIDTH );
dim3 dimGrid ( TILE_WIDTH , TILE_WIDTH );
// Lancamento do Kernel
MatMulK dimGrid , dimBlock (Md , Nd , Pd , Width );

Sincroniza¸c˜ao
syncthreads()
primitiva chamada por uma
func~ao kernel
o kernel que chamou

ca em
espera ate que todas as threads
terminem sua execuc~ao
7 conditionals if-then-else
7 threads em blocos diferentes
n~ao podem sincronizar

Escalabilidade Transparente
3 Potencial para executar o mesmo codigo no hardware com um
numero diferente de recursos de execuc~ao e escalabilidade
transparente.

Usando a mem´oria para obter performance
3 reduzir o tra

co de dados da
memoria global evita
congestionamento
3 podemos aproveitar a localidade
de dados para otimizar o acesso
a dados na memoria da GPU
3 Threads que usam dados
comuns podem colaborar!
3 Soluc~ao:
tiling + shared memory

3 Threads 푃1,0 e 푃1,1 compartilham o elemento 푁1,0
3 Threads 푃0,0 e 푃1,0 compartilham o elemento 푁1,0
3 threads com elementos em comum devem estar associadas ao
mesmo bloco e, assim, os dados comuns podem ser guardados na
memoria compartilhada!

3 reduc~ao de tra

co de
dados na mem. global
∝ TILE WIDTH
3 P/ NxN blocos, a
reduc~ao ∝ N
3 num. de fases e Width/
TILE WIDTH

Kernel MatMul com mem´oria compartilhada
__global__ voidMatMulK ( float *Md , float *Nd , float *Pd , int Width )
{
__shared__ float Mds [ TILE_WIDTH ][ TILE_WIDTH ];
__shared__ float Nds [ TILE_WIDTH ][ TILE_WIDTH ];
int bx = blockIdx .x; int by = blockIdx .y;
int tx = threadIdx .x; int ty = threadIdx .y;
// Identificamos a linha e a coluna do elemento de Pd
int Row = by * TILE_WIDTH + ty;
int Col = bx * TILE_WIDTH + tx;
float Pvalue = 0;
// Loop sobre os tiles Nd e Md
for ( int m = 0; m Width / TILE_WIDTH ; ++){
Mds [ty ][ tx] = Md[Row * Width + (m* TILE_WIDTH + tx )];
Nds [ty ][ tx] = Nd [(m+ TILE_WIDTH + ty )* Width + Col ];
_syncthreads ();
for ( int k = 0; k TILE_WIDTH ; ++k)
Pvalue += Mds [ty ][k] * Nds[k][ tx]
_syncthreads ();
}
Pd[ Row * Width + Col ] = Pvalue ;
}

OpenCL
OpenCL
extens~ao de linguagem e API's
p/ GPU's
applicac~oes OpenCL s~ao
portaveis para todos os
processadores com suporte
3 sintaxe e primitivas semelhantes
ao CUDA
7 performance ≈ CUDA

OpenCL - arquitetura do device
OpenCL - arquitetura do device

OpenCL e CUDA
OpenCL e CUDA
OpenCL API call Explica¸c˜ao equivalente em CUDA
get global id(0); ´ındice global do work item blockIdx.x ×blocDim.x + threadIdx.x
get local id(0); ´ındice local do work group threadIdx.x
get global size(0); tamanho do range ND gridDim.x ×blocDim.x
get local size(0); tamanho de cada work group blockDim.x
OpenCL conceito de paralelismo equivalente em CUDA
Kernel Kernel
programa Host programa Host
ND range (espa¸co de ´ındice) Grid
work item Thread
work group Block
__kernel void vadd ( __global const float *a, __global const float *b,
__global float * result ){
int id = get_global_id (0) ;
result [id] = a[id ]+b[id ];
}

Exemplo de código OpenCL: multiplica¸cão matricial
Exemplo de código OpenCL: multiplica¸cão matricial
# define BLOCK_SIZE 16
__kernel void
matrixMul ( __global float * P, __global float * M, __global float * N, int Width )
{
int bx = get_group_id (0) , by = get_group_id (1);
int tx = get_local_id (0) , ty = get_local_id (1);
int mBegin = Width * BLOCK_SIZE * by;
int mEnd = aBegin + Width - 1;
int mStep = BLOCK_SIZE ;
int nBegin = BLOCK_SIZE * bx;
int nStep = BLOCK_SIZE * Width ;
for (int m = mBegin , n = nBegin ; m = mEnd ; m += mStep , n += nStep )
{
__local float Ms[ BLOCK_SIZE ][ BLOCK_SIZE ];
__local float Ns[ BLOCK_SIZE ][ BLOCK_SIZE ];
Ms[ty ][ tx] = M[m + Width * ty + tx ];
Ns[ty ][ tx] = N[n + Width * ty + tx ];
barrier ( CLK_LOCAL_MEM_FENCE );
for (int k = 0; k BLOCK_SIZE ; ++k)
Psub += Ms[ty ][k] * Ns[k][ tx ];
barrier ( CLK_LOCAL_MEM_FENCE );
}
int p = Width * BLOCK_SIZE * by + BLOCK_SIZE * bx;
P[p + Width * ty + tx] = Psub ;
}

Equa¸c˜ao diferencial com caos
¨푥 + 푥3 = sin(Ω푡) (Ω1,Ω2,Ω3, · · · ,Ω푁−1)
푑푥 (푡1, 푡2, · · · , 푡푓 )
= 푢
푑푡
푥0 푢0
integrac~ao
Runge-Kutta 4
· · ·
푑푡1 푑푡
푡0 푡푓
Expoente de Lyapunov
|훿Z(푡)| ≈ 푒휆푡|훿Z0|

GPU
CUDA version: v5050
CUDA Devices: 1
0: GeForce GTX 650: 3.0
Global memory: 2047mb
Shared memory: 48kb
Constant memory: 64kb
Block registers: 65536
Multiprocessors: 2
Max threads per multiprocessor:
2048
Warp size: 32
Threads per block: 1024
Max block dimensions: [ 1024,
1024, 64 ]
Max grid dimensions: [
2147483647, 65535, 65535 ]

Caos - resultados
푥 e 푢 como func~ao de 푡

Caos - resultados
Espaco de fase 푢 por 푥

Caos - resultados
Expoente de Lyapunov

Caos - an´alise de desempenho

Conclus˜oes
3 Uso de GPU's e altamente recomendado em aplicac~oes com
paralelismo de dados
3 Cada vez mais aplicac~oes exigir~ao alta performance e fomentar~ao o
desenvolvimento de GPU's e de modelos de programac~ao paralelos
3 CUDA e um modelo de programac~ao inteligvel e permite explorar
e

cientemente o paralelismo de aplicac~oes e os recursos da GPU
3 Parallel Thinking: antes de portar um codigo para rodar na GPU e
importante reconhecer quais os trechos sequenciais e os paralelos e
explorar ao maximo este usando os recursos GPU

Refer^encias
3 Kirk, D. ; Hwu, W.W. Programming massively parallel processors
3 www.nvidia.com/object/gpu-applications.html
3 https://developer.nvidia.com/cuda-gpus
3 http://cs.nyu.edu/courses/spring12/CSCI-GA.3033-012/

CUDA/Open CL

Mais conteúdo relacionado

Destaque

Semelhante a CUDA/Open CL

CUDA/Open CL