(ACH2055) Arquitetura de Computadores - Aula 11

Arquitetura de Computadores
ACH2055
Aula 11 – Processadores Multicore, Multithread
e Vetoriais
Norton Trevisan Roman
(norton@usp.br)
6 de dezembro de 2019
Norton Trevisan Roman (norton@usp.br) 6 de dezembro de 2019 1 / 40

Arquiteturas Paralelas
Paralelismo em N´ıvel de Tarefa
At´e agora vimos casos de paralelismo em n´ıvel de
instru¸c˜ao
Base para pipeline e multiescalar

instru¸cão
Há contudo um outro tipo de paralelismo: o
paralelismo em n´ıvel de tarefa
O ato de rodar uma tarefa (em vez de uma única instru¸cão)
em paralelo a outra

instru¸cão
Há contudo um outro tipo de paralelismo: o
paralelismo em n´ıvel de tarefa
O ato de rodar uma tarefa (em vez de uma única instru¸cão)
em paralelo a outra
Para que esta seja implementado, precisamos
replicar recursos do hardware

Classifica¸cão dos Sistemas (Taxonomia de Flynn)
SISD (single instruction, single data stream)
Um único processador executa um único fluxo de instru¸cões
operando em um único fluxo de dados
Ex: Um uniprocessador (já visto)

SISD (single instruction, single data stream)
Um único processador executa um único fluxo de instru¸cões
operando em um único fluxo de dados
Ex: Um uniprocessador (já visto)
SIMD (single instruction, multiple data stream)
Um único fluxo de instru¸cões, em que a mesma instru¸cão é
aplicada a múltiplos fluxos de dados
Ex: Processadores vetoriais (mais adiante veremos)

MISD (multiple instruction, single data stream)
Um conjunto de processadores executa diferentes sequências
de instru¸cões, operando na mesma sequência de dados
Essa estrutura não foi implementada comercialmente

MISD (multiple instruction, single data stream)
Um conjunto de processadores executa diferentes sequências
de instru¸cões, operando na mesma sequência de dados
Essa estrutura não foi implementada comercialmente
MIMD (multiple instruction, multiple data stream)
Um conjunto de processadores simultaneamente executa
diferentes sequências de instru¸cões em diferentes conjuntos
de dados
Arquiteturas multicore atuais

Multiple Instruction,
Multiple Data (MIMD)

Processadores MIMD
SMP – Shared Memory Processors
Exemplo de MIMD são
os processadores de
memória
compartilhada
Shared Memory
Processors (SMPs), pois
compartilham uma
memória comum
Também conhecidos como
Symmetric
Multiprocessors
Fonte: [2]

Caracter´ısticas
Possuem 2 ou mais
processadores similares
Fonte: [2]

Caracter´ısticas
Possuem 2 ou mais
processadores similares
Estes compartilham da
mesma memória e E/S
Via barramento ou outro
esquema de interconexão
Tempo de acesso à
memória
aproximadamente igual
para cada processador
Fonte: [2]

Caracter´ısticas
Todos os processadores
podem executar as
mesmas fun¸c˜oes
Da´ı o termo “sim´etrico”
Fonte: [2]

Caracter´ısticas
Todos os processadores
podem executar as
mesmas fun¸cões
Da´ı o termo “simétrico”
Com isso, a falha de um
processador não para o
sistema
Os demais podem continuar
o trabalho
Naturalmente, com
desempenho reduzido
Fonte: [2]

Caracter´ısticas
O S.O. deve fornecer o
ferramental necess´ario
para explorar o
paralelismo
Cabe ao S.O. escalonar
processos ou threads
dentre os processadores
Fonte: [2]

Problema
Em sua organiza¸cão
com barramento (ao
lado), há redu¸cão de
desempenho
Como toda referência à
memória passa pelo
barramento, o tempo de
seu ciclo (seu per´ıodo)
limita a velocidade do
sistema
Fonte: [2]

Solu¸c˜ao
Para melhorar o
desempenho,
adicionamos um cache
a cada processador
Tipicamente em 2 n´ıveis,
um no mesmo chip do
processador (L1) e outro
(L2) dentro ou fora desse
chip Fonte: [2]
Alguns processadores tamb´em utilizam um 3o
cache (L3)

Coerência de Cache
Cada cache local
contém uma imagem
de uma por¸cão da
memória
Se uma palavra for
alterada em um dos
caches, pode invalidar sua
cópia no outro
Problema da coerência
de cache
Fonte: [2]

Coerência de Cache
Nesse caso, o hardware
precisa avisar os demais
processadores que uma
atualiza¸cão aconteceu
Solu¸cões baseadas em
hardware são conhecidas
como protocolos de
coerência de cache
Ex: MESI (Modified,
Exclusive, Shared, Invalid)
Fonte: [2]

Comunica¸cão
A comunica¸cão entre
processadores se dá via
variáveis
compartilhadas na
memória
Com todos os
processadores capazes de
acessar qualquer
localiza¸cão na memória Fonte: [2]

Comunica¸cão
Isso contudo não os
impede de rodar tarefas
independentes
Cada uma acessando sua
própria região do espa¸co
de endere¸camento virtual
Vide ACH2044 – Sistemas
Operacionais Fonte: [2]

Sincroniza¸c˜ao
Esse compartilhamento
traz um problema
Um processador pode
come¸car a trabalhar com
um dado antes do outro
ter terminado
Fonte: [2]

Sincroniza¸cão
Esse compartilhamento
traz um problema
Um processador pode
come¸car a trabalhar com
um dado antes do outro
ter terminado
É necessário então um
mecanismo de
coordena¸cão
Fonte: [2]
Também chamado de sincroniza¸cão

Sincroniza¸cão
A sincroniza¸cão é feita
por meio de instru¸cões
fornecidas pelo
hardware
Na forma de variáveis de
trava (lock) para exclusão
mútua
Estas precisam ser
capazes de ler e modificar
um local de memória de
forma atômica
Fonte: [2]

Sincroniza¸cão
Em geral feita via troca
atômica
atomic swap
Troca de valores entre um
registrador e um local de
memória, feita como se
fossem uma única
opera¸cão
Fonte: [2]

Sincroniza¸cão
Em geral feita via troca
atômica
atomic swap
Troca de valores entre um
registrador e um local de
memória, feita como se
fossem uma única
opera¸cão
Em MIPS, isso é feito
Fonte: [2]
via load linked (ll) e store conditional (sc)

Troca Atômica
Usamos então um par de instru¸cões no qual a
segunda retorna um valor que diz se o par foi
executado como se fosse atômico

Troca Atˆomica
ll $r1, desl($r2)
Carrega o conte´udo de desl($r2) em $r1

Troca Atômica
ll $r1, desl($r2)
Carrega o conteúdo de desl($r2) em $r1
sc $r3, desl($r2)
Armazena $r3 no endere¸co desl($r2)
Se o conteúdo de desl($r2) mudou antes de sc armazenar,
então ele falha e $r3 ← 0, do contrário, $r3 ← 1

Troca Atˆomica: Exemplo
la¸co: add $t0,$zero,$s4
ll $t1,0($s1)
sc $t0,0($s1)
beq $t0,$zero,la¸co
add $s4,$zero,$t1

$s1 cont´em o en-
dere¸co de nossa vari´avel
compartilhada. Quere-
mos intercambiar seu
valor com o de $s4
ll $t1,0($s1)
sc $t0,0($s1)
add $s4,$zero,$t1

Carregamos $t0 com o va-
lor de $s4, que queremos
armazenar na vari´avel
ll $t1,0($s1)
sc $t0,0($s1)
add $s4,$zero,$t1

Copiamos o conte´udo
da vari´avel compar-
tilhada para $t1
ll $t1,0($s1)
sc $t0,0($s1)
add $s4,$zero,$t1

Tentamos armazenar o
conte´udo de $s4 nela. Se
conseguirmos, $t0 ← 1,
se falharmos, $t0 ← 0
ll $t1,0($s1)
sc $t0,0($s1)
add $s4,$zero,$t1

Veriﬁcamos ent˜ao se
conseguimos, tentando no-
vamente em caso de falha
ll $t1,0($s1)
sc $t0,0($s1)
add $s4,$zero,$t1

Ao conseguirmos, copi-
amos o valor que estava
na vari´avel para $s4
ll $t1,0($s1)
sc $t0,0($s1)
add $s4,$zero,$t1

Podemos agora usar
$s4 como quisermos
ll $t1,0($s1)
sc $t0,0($s1)
add $s4,$zero,$t1

Ao final dessa sequência,
o conteúdo de $s4 e da
variável compartilhada
foram trocados sem
ter havido interven¸cão
de outro processador
ll $t1,0($s1)
sc $t0,0($s1)
add $s4,$zero,$t1

Com a vantagem de não
precisarmos travar o
acesso à memória pelos
demais processadores
ll $t1,0($s1)
sc $t0,0($s1)
add $s4,$zero,$t1

Processadores MIMD
Sistemas Multiprocessadores
SMPs são uma forma comum de sistema
multiprocessador
Sistemas com múltiplos processadores e um método para
comunica¸cão entre eles

Processadores MIMD
multiprocessador
Esses processadores podem estar organizados na
forma de chips separados dentro do sistema
Como vimos nas ilustra¸c˜oes at´e agora...

Processadores MIMD
multiprocessador
Esses processadores podem estar organizados na
forma de chips separados dentro do sistema
Como vimos nas ilustra¸cões até agora...
Ou na forma de múltiplos núcleos no mesmo chip
Processadores assim são denominados multicore

Processadores MIMD
Sistemas Multicore
Consistem de múltiplas cópias de um processador
dentro de um mesmo chip
Cada cópia sendo denominada um núcleo ou core
Interconectadas por um barramento ou outro mecanismo de
comunica¸cão

Processadores MIMD
Sistemas Multicore
Consistem de múltiplas cópias de um processador
dentro de um mesmo chip
Cada cópia sendo denominada um núcleo ou core
Interconectadas por um barramento ou outro mecanismo de
comunica¸cão
Usados para rodar diferentes tarefas de forma
simultânea, ou uma mesma tarefa mais rápido
Com a vantagem de consumirem menos energia que
alternativas mais complexas, como superescalar por exemplo

Sistemas Multicore
Organiza¸c˜ao
Cache L1 Dedicada
Ex: ARM11 MPCore
Fonte: [2]
L1-D → Dados
L1-I → Instru¸c˜oes

Sistemas Multicore
Organiza¸c˜ao
Cache L1 Dedicada
Ex: ARM11 MPCore
Cache L2 Dedicada
Ex: AMD Opteron
Fonte: [2]
L1-D → Dados
L1-I → Instru¸c˜oes Fonte: [2]

Sistemas Multicore
Organiza¸c˜ao
L2 Compartilhada
Ex: Intel Core Duo
Fonte: [2]

Sistemas Multicore
Organiza¸c˜ao
L2 Compartilhada
Ex: Intel Core Duo
L3 Compartilhada
Ex: Intel Core i7
Fonte: [2] Fonte: [2]

Processadores MIMD
Sistemas Multithread
Um conceito alternativo relacionado a MIMD é o de
multithreading
O compartilhamento de unidades funcionais, em um único
processador, por múltiplas linhas de execu¸cão (threads)

Processadores MIMD
multithreading
Para isso, devemos replicar alguns componentes do
processador
Seu PC, arquivos de registradores, ponteiro da pilha etc
Um conjunto separado para cada thread

Processadores MIMD
multithreading
Para isso, devemos replicar alguns componentes do
processador
Seu PC, arquivos de registradores, ponteiro da pilha etc
Um conjunto separado para cada thread
Al´em de permitir a r´apida mudan¸ca entre threads

Funcionamento
Em essência, o fluxo de
instru¸cões é dividido em
vários fluxos menores
As threads, que então são
executadas em paralelo
Fonte: https://www.tutorialspoint.com/
operating_system/os_multi_threading.htm

Funcionamento
Em essência, o fluxo de
instru¸cões é dividido em
vários fluxos menores
As threads, que então são
executadas em paralelo
As múltiplas threads
em um processo
compartilham dos
mesmos recursos
Fonte: https://www.tutorialspoint.com/

Paralelismo em N´ıvel de Thread
O grau com que um
processo pode ser
quebrado em múltiplas
threads simultâneas
define seu n´ıvel de
Paralelismo em N´ıvel
de Thread Fonte: https://www.tutorialspoint.com/

Abordagens para multithreading
Entrela¸cada (ou ﬁne-grained multighreading)
O processador troca de thread a cada ciclo de clock (ou
seja, a cada instru¸c˜ao)
Fonte: [4]

Frequentemente usa Round-Robin para selecionar as threads,
pulando quem estiver parada (stall) naquele ciclo de clock
Fonte: [4]

Fonte: [4]
A thread selecionada pode
ent˜ao ser decodiﬁcada,
e seguir na pipeline

Fonte: [4]
Note que cada uma
acessa um conjunto
distinto de registradores

Vantagem: aumenta a vaz˜ao, executando outras threads
quando uma estiver parada
Fonte: [4]

Desvantagem: reduz a velocidade de threads individuais,
pois cada thread ser´a atrasada pela execu¸c˜ao das demais
Fonte: [4]

Bloqueada (ou coarse-grained multighreading)
O processador executa a mesma thread at´e ocorrer um
evento que cause grande atraso, como um cache miss
Fonte: [4]

Vantagem: não necessita de mudan¸ca rápida a cada ciclo,
nem atrasa a execu¸cão de threads individuais
Fonte: [4]

Desvantagem: pequenos stalls atrasam o processo, exigindo
que o processador esvazie a pipeline
Fonte: [4]

Simultânea (SMT)
Em um único ciclo, as instru¸cões são expedidas, a partir de
múltiplas threads, para as múltiplas unidades funcionais de
um processador superescalar
Combina assim multithreading de hardware com arquitetura
superescalar

Simultânea (SMT)
superescalar
Das 3, a única abordagem realmente simultânea
As demais envolvem a mudan¸ca de uma thread a outra, usando
diferentes registradores, mas indo para a mesma ALU

Simultânea (SMT)
superescalar
Das 3, a única abordagem realmente simultânea
As demais envolvem a mudan¸ca de uma thread a outra, usando
diferentes registradores, mas indo para a mesma ALU
Paralelismo assim só é visto com multiprocessadores

Exemplo
Considere 4 threads rodando em 4 processadores
superescalares
Fonte: [1]

Exemplo
Ou, alternativamente, em um quadricore, sem
multithreading, com 4 n´ucleos superescalares
Fonte: [1]

Exemplo
Fonte: [1]
A cada ciclo, cada núcleo é capaz
de rodar 4 instru¸cões simultâneas

Exemplo
Fonte: [1]
Embora a falta de paralelismo
em n´ıvel de instru¸c˜ao n˜ao per-
mita sempre haver 4 rodando

Exemplo
Fonte: [1]
Existem pequenos stalls, devidos
a dependˆencias entre instru¸c˜oes

Exemplo
Fonte: [1]
E grandes stalls, decorrentes,
por exemplo, de cache miss

Exemplo
Fonte: Adaptado de [1]
Agora considere as mes-
mas 4 threads rodando
em um processador su-
perescalar com suporte
multithread

Exemplo
Na abordagem bloque-
ada, apenas grandes
stalls for¸cam a troca da
thread

Exemplo
A pipeline ´e esvaziada e
a nova thread rodada

Exemplo
Como estava vazia, a
nova thread gasta um
tempo para preencher
a pipeline (custo de
inicializa¸c˜ao)

Exemplo
Na abordagem en-
trela¸cada, a cada ciclo
de clock uma thread
diferente ´e escalonada

Exemplo
Eliminando assim cus-
tos advindos de stalls,
embora mantendo o
advindo da falta de pa-
ralelismo em n´ıvel de
instru¸c˜ao

Exemplo
Al´em de adicionar um
custo de troca de th-
read a cada ciclo, n˜ao
mostrado aqui

Exemplo
Na abordagem si-
multânea, são explora-
dos tanto o paralelismo
em n´ıvel de instru¸cão
quanto da thread

Exemplo
Com m´ultiplas threads
usando os espa¸cos de
expedi¸c˜ao no mesmo
ciclo de clock

Multicore com Multithread
Implementa¸c˜ao de Sistemas Multicore
Superescalar
Cada n´ucleo corresponde a um processador superescalar
Ex: Intel Core Duo

Multicore com Multithread
Implementa¸cão de Sistemas Multicore
Superescalar
Cada núcleo corresponde a um processador superescalar
Ex: Intel Core Duo
SMT
Cada núcleo implementa multithreading simultânea
Ex: Intel Core i7

Single Instruction, Multiple
Data (SIMD)

Processadores SIMD
Processadores SIMD operam em vetores de dados
Uma única instru¸cão pode, por exemplo, adicionar 64
números enviando-os a 64 ALUs num único ciclo de clock
Essa mesma tarefa, em um computador de propósito geral,
exigiria a itera¸cão sobre cada elemento do arranjo

Processadores SIMD
Processadores SIMD operam em vetores de dados
Uma única instru¸cão pode, por exemplo, adicionar 64
números enviando-os a 64 ALUs num único ciclo de clock
Essa mesma tarefa, em um computador de propósito geral,
exigiria a itera¸cão sobre cada elemento do arranjo
Da´ı sua denomina¸cão “vetorial”
Originalmente, de arranjo, embora a arquitetura em arranjo
não inclu´ısse processamento escalar, sendo um dispositivo
periférico
Processadores vetoriais fazem tanto processamento vetorial
quanto escalar, ainda que sejam otimizados para vetorial

Processadores SIMD
Nesse tipo de arquitetura, a execu¸cão em paralelo
responde a uma única instru¸cão
E esta trabalha com vetores de dados

Processadores SIMD
Nesse tipo de arquitetura, a execu¸cão em paralelo
responde a uma única instru¸cão
E esta trabalha com vetores de dados
Dependem, contudo, da existência de paralelismo
em n´ıvel de dados
A possibilidade de se executar a mesma opera¸cão em dados
independentes

Processadores SIMD
Implementa¸cões atuais de SIMD
Extensões Multim´ıdia
Multimedia Extension (MMX)
Não cobriremos aqui

Processadores SIMD
Implementa¸cões atuais de SIMD
Extensões Multim´ıdia
Multimedia Extension (MMX)
Não cobriremos aqui
Arquitetura Vetorial
Nasceram em supercomputadores, ainda hoje presentes
Ex: X86 - AVX-512

Arquitetura Vetorial – Organiza¸cão
ALU com Pipeline
Decompõe as opera¸cões de ponto flutuante em
estágios
Fonte: [2]

ALU com Pipeline
De modo a que diferentes est´agios operem em
diferentes conjuntos de dados
Fonte: [2]

ALU com Pipeline
Assim, dois vetores de números são apresentados
sequencialmente ao primeiro estágio
Fonte: [2]Fonte: [1]

ALU com Pipeline
Na medida em que procede na pipeline, diferentes
conjuntos operar˜ao concorrentemente

ALU com Pipeline
O ganho só ocorre com vetores, pois não há ganho
em opera¸cões individuais

ALUs Paralelas
A unidade de controle direciona os dados a cada
ALU, de modo a que rodem em paralelo
Fonte: [2]

ALUs Paralelas
Isso ´e feito via Round-Robin, at´e que todos os
elementos dos vetores sejam processados
Fonte: [1]

ALUs Paralelas
Tamb´em ´e poss´ıvel usar pipelining em cada ALU
paralela
Fonte: [2]

Referˆencias
1 Patterson, D.A.; Hennessy, J.L. (2013): Computer Organization and
Design: The Hardware/Software Interface. Morgan Kaufmann. 5a
ed.
2 Stallings, W (2010): Computer Organization and Architecture: Designing
for Performance. Prentice Hall. 8a
ed.
3 Harris, D.M.; Harris, S.L.: Digital Design and Computer Architecture.
Morgan Kaufmann. 2a
ed.
4 CS203 – Advanced Computer Architecture. UC-Riverside
https://slideplayer.com/slide/12804206/
5 Kopp, C.: Vector Processing Futures
https://www.ausairpower.net/OSR-0600.html

(ACH2055) Arquitetura de Computadores - Aula 11

Recomendados

Recomendados

Mais conteúdo relacionado

Semelhante a (ACH2055) Arquitetura de Computadores - Aula 11

Semelhante a (ACH2055) Arquitetura de Computadores - Aula 11 (20)

Mais de Norton Trevisan Roman

Mais de Norton Trevisan Roman (20)

Último

Último (20)

(ACH2055) Arquitetura de Computadores - Aula 11