PBL1-v1-007j.pptx

CPU GPU
Ultimate CGRA w/ high-speed compiler
CGRA for Energy-efficient Cryptography
Beyond-Neuromorphic Systems
Non-Deterministic Computing
1
ナレータ VOICEVOX:もち子(cv 明日葉よもぎ)
はらぺこエンジニアに贈るCGRAの世界2022
（7. 逆行列編）
スパコンからIoTまで省エネ社会に
AI+BCだけじゃない超効率計算手法

20220202
2
逆行列は、連立一次方程式の特殊ケースで求まる
連立一次方程式
LU分解
前進消去
後退代入

20220202
3
逆行列は、連立一次方程式の特殊ケースで求まる
連立一次方程式：Ax=bを解く
逆行列：bの列数を増やして単位行列にする
xの列数が増えたものが逆行列
/* LU分解 */
for (i=0; i<M+1; i++)
p[i] = i;
for (i=0; i<M; i++) {
pmax = 0.0;
k = -1;
for (j=i; j<M; j++) {
if (pmax < fabsf(A[p[j]*M+i])) {
pmax = fabsf(A[p[j]*M+i]);
k = j;
}
}
if (k == -1) {
fprintf(stderr, "can't solven");
exit(1);
}
j = p[k]; p[k] = p[i]; p[i] = j;
A[p[i]*M+i] = 1.0/A[p[i]*M+i];
for (j=i+1; j<M; j++) {
A[p[j]*M+i] *= A[p[i]*M+i];
for (k=i+1; k<M; k++)
A[p[j]*M+k] -= A[p[j]*M+i]*A[p[i]*M+k];
}
}
/* 逆行列求める */
for (i=0; i<M; i++) {
for (j=0; j<M; j++)
b[p[j]] = (i==j)?1.0:0.0;
/*for (j=1; j<M; j++) { *//* 通常の連立一時方程式の場合*/
for (j=i+1; j<M; j++) { /* 逆行列(b[]=E)の場合,k<iではb[]==0なのでj=i+1から開始 */
/*for (k=0; k<j; k++) *//* 通常の連立一時方程式の場合*/
for (k=i; k<j; k++) /* 逆行列(b[]=E)の場合,k<iではb[]==0なのでk=iから開始 */
b[p[j]] -= A[p[j]*M+k]*b[p[k]];
}
for (j=M-1; j>=0; j--) {
for (k=M-1; k>j; k--)
b[p[j]] -= A[p[j]*M+k]*x[k];
inv0[j*M+p[i]] = x[j] = b[p[j]]*A[p[j]*M+j];
}
}

20220202
4
逆行列には、ローカルメモリ自己更新
/* LU分解 */
for (i=0; i<M+1; i++)
p[i] = i;
for (i=0; i<M; i++) { /* 列方向 */
pmax = 0.0;
k = -1;
for (j=i; j<M; j++) { /* 行方向に探索 */
if (pmax < fabsf(A[j*M+i])) {
pmax = fabsf(A[j*M+i]);
k = j;
}
}
if (k == -1) {
fprintf(stderr, "can't solven");
exit(1);
}
j = p[k]; p[k] = p[i]; p[i] = j;
for (j=0; j<M; j++) { /* real pivotting */ /*★*/
tmp = A[k*M+j]; A[k*M+j] = A[i*M+j]; A[i*M+j] = tmp;/*★*/
} /*★*/
A[i*M+i] = 1.0/A[i*M+i]; /*★*/
for (j=i+1; j<M; j++) /* 行方向 */
A[j*M+i] *= A[i*M+i];
Uint *top = &A[i*M+i];
Uint *topw = (Ull)top;
Uint len = M-i;
Uint len2 = len+(RMGRP-1)*M;
Uint grp;
/* FPGA実機でj-loopの最終(len=1)が動かないので,ついでにARMのほうが速そうなlenをARMで実行 */
if (len < 16) { /* len<1でも正常なので性能最大化で決めてよい */
for (j=i+1; j<M; j+=NCHIP*H*RMGRP) { /* 行方向 */
for (CHIP=0; CHIP<NCHIP; CHIP++) {
for (h=0; h<H; h++) { /* vertical (parallel) execution */
for (grp=0; grp<RMGRP; grp++) {
for (k=0; k<M-(i+1); k++) { /* 最内列方向 */
if (j+h*NCHIP*RMGRP+CHIP*RMGRP+grp<M) A[(j+h*NCHIP*RMGRP+CHIP*RMGRP+grp)*M+i+1+k]
-= A[(j+h*NCHIP*RMGRP+CHIP*RMGRP+grp)*M+i]*A[i*M+i+1+k];
}
}
}
}
}
}
else {
//EMAX5A begin inv_x1 mapdist=0
for (INIT1=1,LOOP1=RMGRP,rofs=0-M*4; LOOP1--; INIT1=0) { /* stage#0 *//* mapped to FOR() on BR[63][1][0] */
for (INIT0=1,LOOP0=M-(i+1),cofs=0; LOOP0--; INIT0=0) { /* stage#0 *//* mapped to FOR() on BR[63][0][0] */
exe(OP_ADD, &cofs, INIT0?cofs:cofs, EXP_H3210, 4LL, EXP_H3210, 0LL, EXP_H3210, OP_AND, 0x00000000ffffffffLL, OP_NOP, 0LL); /* stage#0 */
exe(OP_ADD, &rofs, rofs, EXP_H3210, INIT0?M*4:0, EXP_H3210, 0LL, EXP_H3210, OP_NOP, 0LL, OP_NOP, 0LL); /* stage#0 */
exe(OP_ADD, &oofs, rofs, EXP_H3210, cofs, EXP_H3210, 0LL, EXP_H3210, OP_AND, 0x00000000ffffffffLL, OP_NOP, 0LL); /* stage#1 */
/***************************/
/* + - - - - - - - - - - - */ /* A[p[i]] 先頭行 */ /* 先頭行はi更新まで再利用可能 */
/* | * > > > > > > > > > > */ /* A[p[j]] 次行から引く */ /* 1行をLMMに写像 */
/* | v + - - - - - - - - - */
/* | v | * > > > > > > > > */ /* M/60を収容してi更新までj+=60を繰り返す *//* 行番号比較とcstによる端数制御 */
/* | v | v + - - - - - - - */ /* + CHIP#0 h=0 grp=0 */
/* | v | v - + - - - - - - */ /* + CHIP#0 h=0 grp=1 */
/* | v | v - - + - - - - - */ /* + CHIP#1 h=0 grp=0 */
/* | v | v - - - + - - - - */ /* + CHIP#1 h=0 grp=1 */
/* | v | v - - - - + - - - */ /* + CHIP#0 h=1 grp=0 */
/* | v | v - - - - - + - - */ /* + CHIP#0 h=1 grp=1 */
/* | v | v - - - - - - + - */ /* + CHIP#1 h=1 grp=0 */
/* | v | v - - - - - - - + */ /* + CHIP#1 h=1 grp=1 */
/***************************/ /* 最大60行まで写像可能 */
/* FOLDING時は,少なくとも第0列がFOLDINGであることが必要(conv-c2c仕様) */
/* CEXEにも関わらずSTWRの無意味なLMM入れ換えが発生するため,A[M][*](枠外領域)を使用 */ /* OK exe-loop */
exe(OP_CMP_LT, &cc0, l00[CHIP], EXP_H3210, M, EXP_H3210, 0LL, EXP_H3210, OP_NOP, 0LL, OP_NOP, 0); /* stage#1 LD */
mop(OP_LDWR, 1, &BR[2][2][1], top, cofs, MSK_W0, topw, len, 0, 0, NULL, len); /* A[p[i]*M+k] stage#2 | */
mop(OP_LDWR, 1, &BR[2][0][1], d00[CHIP], oofs, MSK_W0, d00w[CHIP], len2,0, 1, NULL, len2); /* A[p[j+h*NCHIP+CHIP]*M+k] stage#2 +-> | */
mop(OP_LDWR, 1, &BR[2][1][1], d00[CHIP], rofs, MSK_W0, d00w[CHIP], len2,0, 1, NULL, len2); /* A[p[j+h*NCHIP+CHIP]*M+k] stage#2 +-> | */
exe(OP_FMS, &AR[2][0], BR[2][0][1], EXP_H3210, BR[2][1][1], EXP_H3210, BR[2][2][1], EXP_H3210, OP_NOP, 0LL, OP_NOP, 0); /* stage#2 | ■■■ | 1.0 */
cex(OP_CEXE, &ex0, 0, 0, 0, cc0, 0xaaaa); /* stage#2 | AR[1] | */
mop(OP_STWR,ex0, &AR[2][0], oofs, d00[CHIP], MSK_D0, d00w[CHIP], len2, 0, 1, NULL, len2); /* stage#2 | + ST v */
#if (H>1) /* *--------- BR[2] */
#if (H>2) /* *--------- BR[3] */
mop(OP_LDWR, 1, &BR[4][2][1], top, cofs, MSK_W0, topw, len, 0, 0, NULL, len); /* A[p[i]*M+k] stage#1 stage#4 | */
#if (H>3) /* *--------- BR[4] */
mop(OP_LDWR, 1, &BR[5][2][1], top, cofs, MSK_W0, topw, len, 0, 0, NULL, len); /* A[p[i]*M+k] stage#1 stage#5 | */
#endif
#endif
#endif
}
}
}
//EMAX5A end
} /* j-loop */
//EMAX5A drain_dirty_lmm
} /* else */
}

20220202
5
for (INIT1=1,LOOP1=RMGRP,rofs=0-M*4; LOOP1--; INIT1=0) { /* stage#0 *//* mapped to FOR() on BR[63][1][0] */
for (INIT0=1,LOOP0=M-(i+1),cofs=0; LOOP0--; INIT0=0) { /* stage#0 *//* mapped to FOR() on BR[63][0][0] */
exe(OP_ADD, &cofs, INIT0?cofs:cofs, EXP_H3210, 4LL, EXP_H3210, 0LL, EXP_H3210, OP_AND, 0x00000000ffffffffLL, OP_NOP, 0LL); /* stage#0 */
exe(OP_ADD, &rofs, rofs, EXP_H3210, INIT0?M*4:0, EXP_H3210, 0LL, EXP_H3210, OP_NOP, 0LL, OP_NOP, 0LL); /* stage#0 */
exe(OP_ADD, &oofs, rofs, EXP_H3210, cofs, EXP_H3210, 0LL, EXP_H3210, OP_AND, 0x00000000ffffffffLL, OP_NOP, 0LL); /* stage#1 */
/***************************/
/* + - - - - - - - - - - - */ /* A[p[i]] 先頭行 */ /* 先頭行はi更新まで再利用可能 */
/* | * > > > > > > > > > > */ /* A[p[j]] 次行から引く */ /* 1行をLMMに写像 */
/* | v + - - - - - - - - - */
/* | v | * > > > > > > > > */ /* M/60を収容してi更新までj+=60を繰り返す *//* 行番号比較とcstによる端数制御 */
/* | v | v + - - - - - - - */ /* + CHIP#0 h=0 grp=0 */
/* | v | v - + - - - - - - */ /* + CHIP#0 h=0 grp=1 */
/* | v | v - - + - - - - - */ /* + CHIP#1 h=0 grp=0 */
/* | v | v - - - + - - - - */ /* + CHIP#1 h=0 grp=1 */
/* | v | v - - - - + - - - */ /* + CHIP#0 h=1 grp=0 */
/* | v | v - - - - - + - - */ /* + CHIP#0 h=1 grp=1 */
/* | v | v - - - - - - + - */ /* + CHIP#1 h=1 grp=0 */
/* | v | v - - - - - - - + */ /* + CHIP#1 h=1 grp=1 */
/***************************/ /* 最大60行まで写像可能 */
/* FOLDING時は,少なくとも第0列がFOLDINGであることが必要(conv-c2c仕様) */
/* CEXEにも関わらずSTWRの無意味なLMM入れ換えが発生するため,A[M][*](枠外領域)を使用 */ /* OK exe-loop */
#if (H>1) /* *--------- BR[2] */
#if (H>2) /* *--------- BR[3] */
if (j+h*NCHIP*RMGRP+CHIP*RMGRP+grp<M)
A[(j+h*NCHIP*RMGRP+CHIP*RMGRP+grp)*M+i+1+k]
-= A[(j+h*NCHIP*RMGRP+CHIP*RMGRP+grp)*M+i]*A[i*M+i+1+k];

20220202
6
条件付きストア機能を使う
exe(OP_CMP_LT, &cc0, l00[CHIP], EXP_H3210, M, EXP_H3210, 0LL,
mop(OP_LDWR, 1, &BR[2][2][1], top, cofs, MSK_W0, topw, len, 0, 0, NULL, len);
mop(OP_LDWR, 1, &BR[2][0][1], d00[CHIP], oofs, MSK_W0, d00w[CHIP], len2,0, 1, NULL, len2);
mop(OP_LDWR, 1, &BR[2][1][1], d00[CHIP], rofs, MSK_W0, d00w[CHIP], len2,0, 1, NULL, len2);
exe(OP_FMS, &AR[2][0], BR[2][0][1], EXP_H3210, BR[2][1][1], EXP_H3210, BR[2][2][1],
cex(OP_CEXE, &ex0, 0, 0, 0, cc0, 0xaaaa );
mop(OP_STWR, ex0, &AR[2][0], oofs, d00[CHIP], MSK_D0, d00w[CHIP], len2, 0, 1, NULL, len2);
1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0

20220202
7
/* 前進消去 */
for (i=0; i<M; i++) { /* 列方向 */
for (j=0; j<M; j++) /* 行方向 */
b[i*M+j] = (i==j)?1.0:0.0;
}
for (i=0; i<M; i+=NCHIP*H) { /* 列方向 */
/*for (j=1; j<M; j++) { *//*通常の連立一時方程式の場合*/
for (j=i+1; j<M; j++) { /* 逆行列(b[]=E)の場合,k<iではb[]==0なのでj=i+1から開始 */
Uint *top = &A[j*M+i]; /* A[p[j]*M+k] */
/*Uint len = (j+1)/2;*/
Uint len = j-i;/* bが単位行列の場合,k<iではb[]==0なのでk=iから開始 */
/********************************************/
/*for (k=0; k<j; k++) { *//*通常の連立一時方程式の場合*/
for (k=i; k<j; k++) { /* 逆行列(b[]=E)の場合,k<iではb[]==0なのでk=iから開始 */
b[(i+CHIP*H+h)*M+j] -= A[j*M+k]*b[(i+CHIP*H+h)*M+k];
}
}
}
}
else {
Uint jc = j-i;
for (INIT0=1,LOOP0=jc,cofs=0-4; LOOP0--; INIT0=0) { /* stage#0 *//* mapped to FOR() on BR[63][0][0] */
exe(OP_ADD, &cofs, cofs, EXP_H3210, 4LL, EXP_H3210, 0LL, EXP_H3210, OP_AND, 0x00000000ffffffffLL, OP_NOP, 0LL); /* stage#0 */
mop(OP_LDWR, 1, &Ajk, top, cofs, MSK_W0, topw, len, 0, 0, NULL, len); /* A[p[j]*M+k] *//* stage#1.0 */
mop(OP_LDWR, 1, &BR[1][3][1], t000[CHIP], cofs, MSK_W0, t000w[CHIP], len, 0, 1, NULL, len); /* b[(i+CHIP*W*H+h*W+0)*M+k] *//* stage#1.3 +->xxx LD */
mop(OP_LDWR, 1, &b000, d000[CHIP], 0, MSK_W0, d000w[CHIP], 1, 0, 1, NULL, 1); /* b[(i+CHIP*W*H+h*W+0)*M+j] *//* stage#2.0 | ■■■ | */
exe(OP_FMS, &b000, b000, EXP_H3210, Ajk, EXP_H3210, BR[1][3][1], EXP_H3210, OP_NOP, 0LL, OP_NOP, 0LL); /* stage#2.0 +- xxx+ST v */
mop(OP_STWR, 1, &b000, 0, d000[CHIP], MSK_D0, d000w[CHIP], 1, 0, 1, NULL, 1); /* stage#2.0 +--------- xxx */
#if (H>1)
mop(OP_LDWR, 1, &BR[2][3][1], t010[CHIP], cofs, MSK_W0, t010w[CHIP], len, 0, 1, NULL, len); /* b[(i+CHIP*W*H+h*W+0)*M+k] *//* stage#2.3 +->xxx LD */
#if (H>2)
：
#endif
#endif
}
}
//EMAX5A end
} /* else */
/********************************************/
} /* j-loop */
}

20220202
8
/* 後退代入 */
for (i=0; i<M; i+=NCHIP*H) { /* 列方向 */
for (j=M-1; j>=0; j--) { /* 行方向 */
if (j<M-1) {
Uint *top = &A[j*M+j+1]; /* A[p[j]*M+k] */
Uint len = M-j-1;
/********************************************/
for (k=M-1; k>j; k--) { /* 最内列方向 */
b[(i+CHIP*H+h)*M+j] -= A[j*M+k]*x[(i+CHIP*H+h)*M+k];
}
}
}
}
else {
Uint jc = M-j-1;
for (INIT0=1,LOOP0=jc,cofs=jc*4; LOOP0--; INIT0=0) { /* stage#0 *//* mapped to FOR() on BR[63][0][0] */
exe(OP_ADD, &cofs, cofs, EXP_H3210, -4, EXP_H3210, 0LL, EXP_H3210, OP_AND, 0x00000000ffffffffLL, OP_NOP, 0LL); /* stage#0 */
mop(OP_LDWR, 1, &Ajk, top, cofs, MSK_W0, topw, len, 0, 0, NULL, len); /* A[p[j]*M+k] *//* */
mop(OP_LDWR, 1, &BR[1][3][1], t000[CHIP], cofs, MSK_W0, t000w[CHIP], len, 0, 1, NULL, len); /* b[(i+CHIP*W*H+h*W+0)*M+k] *//* stage#1.3 +->xxx LD *//*read-modify-w*/
#if (H>1)
mop(OP_LDWR, 1, &BR[2][3][1], t010[CHIP], cofs, MSK_W0, t010w[CHIP], len, 0, 1, NULL, len); /* b[(i+CHIP*W*H+h*W+0)*M+k] *//* stage#2.3 +->xxx LD *//*read-modify-w*/
#if (H>2)
：
#endif
#endif
}
}
//EMAX5A end
} /* else */
/********************************************/
} /* if (j<M-1) */
inv1[j*M+p[i+CHIP*H+h]] = x[(i+CHIP*H+h)*M+j] = A[j*M+j]*b[(i+CHIP*H+h)*M+j]; /* PIOにてLMMのx[i*M+j]を直接更新 *//* iはそのままで,jを切替え */
}
}
} /* j-loop */
}

20220202
9
コンパイル結果

20220202
10
今回のおさらい

PBL1-v1-007j.pptx

Recomendados

Recomendados

Mais conteúdo relacionado

Semelhante a PBL1-v1-007j.pptx

Semelhante a PBL1-v1-007j.pptx (20)

Mais de NAIST

Mais de NAIST (15)

PBL1-v1-007j.pptx

Notas do Editor