Anúncio

PBL1-v1-001j.pptx

NAIST
NAIST
27 de Dec de 2022
Anúncio

Mais conteúdo relacionado

Último(20)

Anúncio

PBL1-v1-001j.pptx

  1. CPU GPU Ultimate CGRA w/ high-speed compiler CGRA for Energy-efficient Cryptography Beyond-Neuromorphic Systems Non-Deterministic Computing 1 ナレータ VOICEVOX:もち子(cv 明日葉よもぎ) はらぺこエンジニアに贈るCGRAの世界2022 (1. 導入編) スパコンからIoTまで 省エネ社会に AI+BCだけじゃない超効率計算手法 20220202
  2. 20220202 2 20180716 2 電力需要の60%が情報機器 実効為替レートが低下し CPU/GPUが買えない未来 AIもクラウドもスパコンも 増やせない未来 CO2が減らないSociety 5.0 電力需要の10%が情報機器 非ノイマン型を 自給・輸出する未来 身の丈に合ったAIとスパコン と電力消費 低炭素社会 202X年 ノイマン型の段階的削減!?
  3. 電力無し、購買力無し、持続可能計算基盤が必要と思う人は… 5. CPU/GPU FPU Matrix Mult. 6. CGRA FPU MM+Convolution 4. Ternary CAM 2. Mem Capacitor 3. Stochastic Logic 1. Special Purpose Circuit 20220202 3 Accuracy Power consumption Programmability ×
  4. Insn.1 Insn.2 Insn.3 Insn.4 Insn.5 Insn.6 Insn.7 Insn.8 80-loops ALUALU I-Cache ALU ALU D-Cache Registers I-Cache ALU ALU D-Cache Regs. Regs. D-Cache Insn.1 Insn.2 Insn.3 Insn.4 Insn.5 Insn.6 Insn.7 Insn.8 All instructions are executed. I-Cache ALU ALU D-Cache Registers 4 Vect.Insn.1 Vect.Insn.2 Vect.Insn.3 Vect.Insn.4 Vect.Insn.5 Vect.Insn.6 Vect.Insn.7 Vect.Insn.8 Vector Registers Register File 20220202 4 ノイマン型(ぬるま湯)を捨て、非ノイマン型土俵で頭を使えということ "GoogleのTPUにも使われたシストリックアレイアー キテクチャとDeep Learningについて", 富士通研究 所技術講演会, Jul. (2017) "プログラマビリティを維持できる限界に向けて”, SONY本社研究紹介, Mar. (2020) "Deep Learningに向けたApproximate Computingと シストリックアレイアーキテクチャ", 革新的コン ピューティングの研究開発戦略検討会, CRDS/JST, Jul. (2017) "Approximate Computingとシストリックアレイ", ジス クソフト技術講演会, Dec. (2017) "99%メモリなアクセラレータIMAX(In Memory Accelerator eXtension)", CAE計算環境研究会@関 西シスラボ 第8回シンポジウム, Mar. (2017) "Systolic Arrays as The Last Frontiers", Invited talk in IPB Seminar and UI seminar @ Indonesia, Jan. (2019) “IMAX2: A CGRA with FPU+Multithreading+Chiplet", Panel: CGRA and their Opportunities as Application Accelerators, ASAP2021, invited panel, Jul. (2021) “コンピュータ(データセンタ)の消費電力低減策 意見交換会”, LCS/JST, Jul. (2021) "非ノイマン型の世界 -CGRAを含む最近の研究紹 介-", JEITAデバイス技術分科会招待講演, Nov. (2021) "CGRAのJITコンパイル化と高機能化の魔法教え ます", 回路とシステムワークショップ招待講演, Aug. (2022)
  5. Insn.1 Insn.2 Insn.3 Insn.4 Insn.5 Insn.6 Insn.7 Insn.8 Insn.1 Insn.2 Insn.3 Insn.4 Insn.5 Insn.6 Insn.7 Insn.8 Insn.1 Insn.2 Insn.3 Insn.4 Insn.5 Insn.6 Insn.7 Insn.8 Insn.1 Insn.2 Insn.3 Insn.4 Insn.5 Insn.6 Insn.7 Insn.8 Insn.1 Insn.2 Insn.3 Insn.4 Insn.5 Insn.6 Insn.7 Insn.8 Insn.1 Insn.2 Insn.3 Insn.4 Insn.5 Insn.6 Insn.7 Insn.8 for { iter=0 iter=1 iter=2 iter=3 iter=4 iter=5 iter=6 iter=7 } Insn.1 Insn.2 Insn.3 Insn.4 Insn.5 Insn.6 Insn.7 Insn.8 Insn.1 Insn.2 Insn.3 Insn.4 Insn.5 Insn.6 Insn.7 Insn.8 Super Scalar, VLIW I-Cache ALU ALU D-Cache Registers EAG EAG 20220202 5
  6. for { iter=0 iter=1 iter=2 iter=3 iter=4 iter=5 iter=6 iter=7 } Insn.3 Insn.4 Insn.5 Insn.6 Insn.7 Insn.8 Insn.3 Insn.4 Insn.5 Insn.6 Insn.7 Insn.8 Insn.3 Insn.4 Insn.5 Insn.6 Insn.7 Insn.8 Insn.3 Insn.4 Insn.5 Insn.6 Insn.7 Insn.8 Insn.3 Insn.4 Insn.5 Insn.6 Insn.7 Insn.8 Insn.3 Insn.4 Insn.5 Insn.6 Insn.7 Insn.8 Insn.3 Insn.4 Insn.5 Insn.6 Insn.7 Insn.8 Insn.3 Insn.4 Insn.5 Insn.6 Insn.7 Insn.8 VECTOR Insn.1 Insn.1 Insn.1 Insn.1 Insn.1 Insn.1 Insn.1 Insn.1 I-Cache ALU ALU D-Cache / Main Memory Registers EAG V-insn.1 ALU ALU ALU ALU ALU ALU V-insn.2 Insn.2 Insn.2 Insn.2 Insn.2 Insn.2 Insn.2 Insn.2 Insn.2 20220202 6
  7. for { iter=0 iter=1 iter=2 iter=3 iter=4 iter=5 iter=6 iter=7 } CGRA Insn.1 Insn.2 Insn.3 Insn.4 Insn.5 Insn.6 Insn.7 Insn.8 Insn.1 Insn.2 Insn.3 Insn.4 Insn.5 Insn.6 Insn.7 Insn.8 Insn.1 Insn.2 Insn.3 Insn.4 Insn.5 Insn.6 Insn.7 Insn.8 Insn.1 Insn.2 Insn.3 Insn.4 Insn.5 Insn.6 Insn.7 Insn.8 Insn.1 Insn.2 Insn.3 Insn.4 Insn.5 Insn.6 Insn.7 Insn.8 Insn.1 Insn.2 Insn.3 Insn.4 Insn.5 Insn.6 Insn.7 Insn.8 Insn.1 Insn.2 Insn.3 Insn.4 Insn.5 Insn.6 Insn.7 Insn.8 Insn.1 Insn.2 Insn.3 Insn.4 Insn.5 Insn.6 Insn.7 Insn.8 Local Memory Registers EAG ALU ALU Local Memory Registers EAG ALU ALU Local Memory Registers EAG ALU ALU Local Memory Registers EAG ALU ALU Insn.1 Insn.2 Insn.3 Insn.4 Insn.1 Insn.2 Insn.1 Insn.2 Insn.5 Insn.6 Insn.3 Insn.4 Insn.1 Insn.2 Insn.3 Insn.4 Insn.1 Insn.2 Insn.1 Insn.2 Insn.7 Insn.8 Insn.5 Insn.6 Insn.3 Insn.4 Insn.1 Insn.2 Insn.5 Insn.6 Insn.3 Insn.4 Insn.1 Insn.2 Insn.3 Insn.4 Insn.1 Insn.2 Insn.1 Insn.2 20220202 7
  8. 20220202 8 Scalar, SIMD and CGRA time I1 L2 VST L2 VLD VLD VFMA I1 L2 VST L2 VLD VLD VFMA I1 L2 VST L2 VLD VLD VFMA I1 L2 VST L2 VLD VLD VFMA MM LD LM MM LD LM FMA LM ST LD LM LD LM FMA LM ST LD LM MM LD LM FMA LM ST LD LM LD LM FMA LM ST LD LM MM LD LM FMA LM ST LD LM LD LM FMA LM ST LD LM MM LD LM FMA LM ST LD LM LD LM FMA LM ST LD LD FMA ST D1 D1 D1 I1 I1 I1 L2 L2 LD LD FMA ST D1 D1 D1 I1 I1 I1 L2 L2 LD LD FMA ST D1 D1 D1 I1 I1 I1 L2 L2 LD LD FMA ST D1 D1 D1 I1 I1 I1 L2 L2 LD LD FMA ST D1 D1 D1 I1 I1 I1 L2 L2 LD LD FMA ST D1 D1 D1 I1 I1 I1 L2 L2 LD LD FMA ST D1 D1 D1 I1 I1 I1 L2 L2 LD LD FMA ST D1 D1 D1 I1 I1 I1 L2 L2 MM I1 I1 I1 I1 VST VST VST VST VFMA VFMA VFMA VFMA VLD VLD VLD VLD VLD VLD VLD VLD MM Scalar (VL=32) Vector1 (VL=256) Vector2 (VL=2048) CGRA (VL=16K)
  9. 20220202 9 従来のプログラムは手順を書く A B C D for (i=0; i<128; i++) D[i]=A[i]+B[i]*C[i]; D[256] A[256] B[256] C[256] float A[256],B[256],C[256],D[256]; for (i=0; i<128; i++) D[i+128]=A[i+128]+B[i]*C[i+128]; Main memory
  10. D A B C B D A C 20220202 10 キャッシュメモリが頑張る A B C D for (i=0; i<128; i++) D[i]=A[i]+B[i]*C[i]; D[256] A[256] B[256] C[256] for (i=0; i<128; i++) D[i+128]=A[i+128]+B[i]*C[i+128]; Main memory Cache memory
  11. 20220202 11 データフローを書くと明示的に分散配置できる D A B C D A B C D A B C Load Ai (top=A,len=64) Load Bi (top=B,len=64) Load Ci (top=C,len=64) Di=Ai+Bi*Ci Store Di (top=D,len=64) Similar to assembly language, but has DMA info. j=i+64; Load Aj (top=A+64,len=64) Load Bi (top=B, len=64) Load Cj (top=C+64,len=64) Dj=Aj+Bi*Cj Store Dj (top=D+64,len=64) k=i+128;Load Ak (top=A+128,len=64) Load Bi (top=B, len=64) Load Ck (top=C+128,len=64) Dk=Ak+Bi*Ck Store Dk (top=D+128,len=64) Can broadcast
  12. ただし、ノイマン型に学ばない非ノイマン型には、汎用性も未来もない 20220202 12 例えば、FPGAを真似ただけのCGRAは、コンパイルに1時間 これをコンピュータと呼ぶのは無理がある プログラムやデータの変換に長時間がかかる 新原理非ノイマン型に存在価値はない
  13. Start of IMAX 20220202 13 CPUのレジスタファイルに該当 (32bit x 2waySIMD = 64bit幅) CPUの条件判定器、 浮動小数点パイプライン演算器、 (32bit x 2wayFMA = 64bit幅) SAD等メディア演算、 32要素確率的積和演算、 SHA256用ハッシュ計算、 アドレス生成器に該当 CPUのローカルメモリに該当 (64KB) CPUのレジスタファイルに該当 ノイマン型に学ばない非ノ イマン型には、汎用性も未 来もない。 CPUから始めることで、類 似の汎用性を自然に獲得。
  14. 4列⇒1列に重畳 20220202 14 4列分のダブルバッファ・ レジスタファイル 4列分をマルチスレッド実行 メモリ空間を最大4分割 (64KB, 32KB, 16KB, 混在) 4列分のダブルバッファ・ レジスタファイル 大部分のCGRAは、浮動小 数点演算器を搭載しない。 浮動小数点累算が、CGRA のパイプライン動作を止め てしまうから。 そこで、マルチスレッディン グの知恵を借りた。 あとで、汎用性向上に役立 つことになる。
  15. Slave型外部IF 20220202 15 演算しながら、次データを 4列分の空間へ自律的受信 256bit/cycle 演算しながら、 HOSTの読み出しDMAに対し、 自律的に読み出し合流 256bit/cycle 次のUNITへ 豪華な外部メモリIFは、大 電力消費の主犯。 貧弱なメモリIFでも高性能 を出せるように頭を使う。 Slave型かつ自律アドレス フィルタにより、ブロード キャストやギャザを自然に 実現。 データ入れ替えはコンパイ ラが判断し最適化。
  16. 20220202 16 Folding機能 CPUの通常データパスに該当
  17. 20220202 17 Dual port導入 8ワードロードx4、2ワードロードx8、 2ワードロードx4⇒演算x4⇒ストアx4 を収容 メモリ空間は最大4分割 ダブルバッファとしても利用
  18. 20220202 18 伝搬レジスタ 物理4本、論理16本の UNIT間バイパスによる データ伝搬
  19. 20220202 19 アドレス同調機構 疎行列の圧縮、 圧縮済疎行列どうしの行列積、 マージソートに対応
  20. 40ops/1unit, 2560ops/64units, 10240ops/4chips 20220202 20 load store octa-ld Add/sub/mul And/or/xor Shift +FPU +Media octa-ld Add/sub/mul And/or/xor Shift +FPU +Media For 1st column Double buffer for write for read
  21. 20220202 21 For 2nd column load store octa-ld Add/sub/mul And/or/xor Shift +FPU +Media octa-ld Add/sub/mul And/or/xor Shift +FPU +Media Double buffer for write for read 40ops/1unit, 2560ops/64units, 10240ops/4chips
  22. 20220202 22 For 3rd column load store octa-ld Add/sub/mul And/or/xor Shift +FPU +Media octa-ld Add/sub/mul And/or/xor Shift +FPU +Media Double buffer for write for read 40ops/1unit, 2560ops/64units, 10240ops/4chips
  23. 20220202 23 For 4th column load store octa-ld Add/sub/mul And/or/xor Shift +FPU +Media octa-ld Add/sub/mul And/or/xor Shift +FPU +Media Double buffer for write for read 40ops/1unit, 2560ops/64units, 10240ops/4chips
  24. ノイマン型に学んだ論理UNITを並べていく 20220202 24 F F A A F F A A F F M M C C M M R R R R R
  25. 論理UNITを4つ並べる、最後には、これが1基の物理UNITになる 20220202 25 R F F A A F F A A F F M M C C M M R R R R F F A A F F A A F F M M C C M M R R R R F F A A F F A A F F M M C C M M R R R R F F A A F F A A F F M M C C M M R R R R
  26. さらに縦に並べて全体のデータ流は上から下へ 20220202 26 F F A A F F A A F F M M C C M M R R R R F F A A F F A A F F M M C C M M R R R R F F A A F F A A F F M M C C M M R R R R F F A A F F A A F F M M C C M M R R R R F F A A F F A A F F M M C C M M R R R R F F A A F F A A F F M M C C M M R R R R F F A A F F A A F F M M C C M M R R R R F F A A F F A A F F M M C C M M R R R R F F A A F F A A F F M M C C M M R R R R F F A A F F A A F F M M C C M M R R R R F F A A F F A A F F M M C C M M R R R R F F A A F F A A F F M M C C M M R R R R
  27. さらにマルチチップ拡張として、横に増やす
  28. ここで、論理4UNITを物理1UNITに重畳
  29. 演算位置とローカルメモリ位置の同調制御のため、リング構造化 20220202 29 F F A A F F A A F F M M C C M M R R R R F F A A F F A A F F M M C C M M R R R R F F A A F F A A F F M M C C M M R R R R F F A A F F A A F F M M C C M M R R R R F F A A F F A A F F M M C C M M R R R R F F A A F F A A F F M M C C M M R R R R
  30. A B C D E A B C D E A B C D E 物理64UNITx4を基本構造としてプログラム(最大2560オペレーション) 64bit ARM AXIIF 2560op x 4 64KB x 64 x 4 20220202 30
  31. メモリバスに応じて並列接続、この図では8万オペレーションを写像 A B C D E H B M 2 A B C D E A B C D E A B C D E A B C D E A B C D E A B C D E A B C D E A B C D E A B C D E A B C D E A B C D E A B C D E A B C D E A B C D E A B C D E A B C D E A B C D E A B C D E A B C D E A B C D E A B C D E A B C D E A B C D E A B C D E A B C D E A B C D E A B C D E A B C D E A B C D E A B C D E A B C D E 2560op x 32 = 81920op 20220202 31
  32. HOST 20220202 32 演算ネットワークとメモリネットワーク 演算器はリング構造 メモリネットワークは8並列
  33. 20220202 33 論理的プログラミングモデルは4列 ⇒ 物理構造は1列
  34. 20220202 34 非ノイマン型で重要なのは、演算器を並べることではない 書き込み後にロード or 書き込みながらロード
  35. 20220202 35 いかに、データフローを途切れなく埋め込むか ストア後に読み出す or ストアしながら読み出す
  36. 20220202 36 CGRA的パイプライン処理に加え、上位のパイプライン処理も重要 LogN個のUNITを使い、 O(N)のマージソート O(N)のFFT 結果をストアしながら、前回結果を読み出す(double buffering)
  37. 20220202 37 外部メモリとも協調させ、途切れないデータフローを作る C O N F R E G s A D D R Overlapping post-drain, burst-exec, pre-fetch L M M L M M L M M Burst exec. R E G s A D D R L M M L M M L M M Burst exec. C O N F A D D R R E G s Sequential execution L M M L M M L M M Burst exec. A D D R R E G s L M M time L M M L M M Burst exec. PIO/DMA External Memory PIO/DMA External Memory R E G s A D D R L M M L M M L M M Burst exec.
  38. 演算器とローカルメモリのサンドイッチ構造により様々な応用 More complicated memory access for light field, graph, string search, AI, … 20220202 38
  39. 39 ・中島康彦, 木村睦, 張任遠: "制御装置(スパイクメモリ構成方法)", 特願2021- 27859 (2021. 2. 24) ・トランティホン, 中島康彦: "処理要素、その制御方法および制御プログラム、並びに処理装置(BC)", 特願2021-009164 (2021. 1. 22) ・中島康彦, 高前田伸也: "データ処理装置(メモリ内蔵アクセラレータの構成方法)", 中国ZL201680019602 (2020. 12. 11) ・中島康彦: "データ処理装置(高効率アクセラレータ構成方法)", PCT/JP2020/025123 (2020. 6. 26) ・中島康彦, 木村睦, 張任遠: "データ処理装置(メムキャパシタ構成方法)", 特願2020-91392 (2020. 5. 26) ・中島康彦: "データ処理装置(高効率アクセラレータ構成方法)", 特願2019-517698 (2019. 9. 19) ・Yasuhiko Nakashima, Shinya Takamaeda: "Data processing Device", United States Patent 10,275,392 (2019.4.30) ・中島康彦: "データ処理装置(NCHIP制御方法)", 特願2019-121853 (2019. 6. 28) ・Yasuhiko Nakashima, Takashi Nakada: "Data processing Device for Performing a Plurality of Calculation Processes in Parallel", European Patent Application No.09820420.9 (H31. 1. 18) ・中島康彦: "データ処理装置(高効率アクセラレータ構成方法)", PCT/JP2018/018169 (H30. 5. 10) ・中島康彦: "データ処理装置(高効率アクセラレータ構成方法)", 特願2017-96061 (H29. 5. 12) ・Jun Yao, Yasuhiko Nakashima, Tao Wang, Wei Zhang, Zuqi Liu, Shuzhan Bi: "METHOD FOR ACCESSING MEMORY OF MULTI-CORE SYSTEM, RELATED APPARATUS, SYSTEM, AND STORAGE MEDIUM", PCT/CN2017/083523 (2017. 5. 8) ・中島康彦, 高前田伸也: "データ処理装置(メモリ内蔵アクセラレータの構成方法)", PCT/JP2016/061302 (H28. 4. 6) ・中島康彦, 高前田伸也: "データ処理装置(メモリ内蔵アクセラレータの構成方法)", 特願2015-079552 (H27. 4. 8) ・中島康彦: "エミュレーション方式", 特願2013-055660 (H25. 3. 18) ・中島康彦, 姚駿: "データ供給装置及びデータ処理装置", PCT/JP2013/057503 (H25. 3. 15) ・中島康彦, 姚駿: "データ供給装置及びデータ処理装置", 特願2012-061110 (H24. 3. 16) 20220202 39 28nmLSI : 200x performance/area compared with GPGPU 現有最大規模のプロトタイプは10240オペレーション
  40. 20220202 40 各種GPUとの比較 Kernel CPU ARMv8 1.2GHz GPU 256core JetsonTX2 1.3GHz DDR4 480Gbps 16nm 43.6mm² CGRA 64core*4 IMAX2 140MHz DDR4 40Gbps [28nm想定 14.6mm² *4] 8nm想定 1.2mm² *4 GPU 3584core GTX1080Ti 1.5GHz GDDR5 3872Gbps 16nm 471mm² GPU 10496core RTX3090 1.4GHz GDDR6X 7490Gbps 8nm 628mm² DDR bandwidth 12 1 97 187 Power 7.5W ARM 0.6W + [31W] 2.7W 250W 350W MM 3160msec 170 16 [3msec] [EDP=284] EDP=30 12 EDP=36K 1.2 EDP=504 CNN 2080msec 280 EDP=588K 23 [4msec] [EDP=505] EDP=53 18 EDP=81K 2.9 EDP=2943 Lightfield 14500msec 1190 EDP=10.6M 754 [126msec] [EDP=501K] EDP=52K 43 EDP=462K 35 EDP=428K Sparse MM 32002 - - 333+469 [134ms] [EDP=567K] EDP=59K Cusparse使用 2044 EDP=1045M Cusparse使用 280 EDP=27.4M Sparse MM 40002 - - 2378+734 [519ms] [EDP=8.51M] EDP=889K Cusparse使用 3492 EDP=3049M Cusparse使用 350 EDP=43.1M
  41. 20220202 41 レイアウトはこんな感じ CGRA 64core*4 IMAX2 140MHz DDR4 40Gbps 8nm想定 1.2mm² *4 GPU 10496core RTX3090 1.4GHz GDDR6X 7490Gbps 8nm 628mm² 75%がDP-SRAM https://thinkcomputers.org/renowned-ir-photographer-fritzchens-fritz- shares-die-shots-of-nvidia-3000-series-ga-102-silicon/ DP SRAM Logic DP SRAM Logic DP SRAM Logic DP SRAM Logic DP SRAM Logic DP SRAM Logic DP SRAM Logic DP SRAM Logic DP SRAM Logic DP SRAM Logic DP SRAM Logic DP SRAM Logic DP SRAM Logic DP SRAM Logic DP SRAM Logic DP SRAM Logic DP SRAM Logic DP SRAM Logic DP SRAM Logic DP SRAM Logic DP SRAM Logic DP SRAM Logic DP SRAM Logic DP SRAM Logic DP SRAM Logic DP SRAM Logic DP SRAM Logic DP SRAM Logic DP SRAM Logic DP SRAM Logic DP SRAM Logic DP SRAM Logic DP SRAM Logic DP SRAM Logic DP SRAMLogic DP SRAM Logic DP SRAM Logic DP SRAM Logic DP SRAM Logic DP SRAM Logic DP SRAM Logic DP SRAM Logic DP SRAM Logic DP SRAM Logic DP SRAM Logic DP SRAM Logic DP SRAM Logic DP SRAM Logic DP SRAM Logic DP SRAM Logic DP SRAM Logic DP SRAM Logic DP SRAM Logic DP SRAM Logic DP SRAM Logic DP SRAM Logic DP SRAM Logic DP SRAM Logic DP SRAM Logic DP SRAM Logic DP SRAM Logic DP SRAM Logic DP SRAM Logic DP SRAM Logic External interface DP SRAM
  42. 20220202 42 ボードだけ買えば(50万~1650万)CGRA遊べる
  43. 20220202 43 Blockchain用もあり
  44. 仕様書、ファイル一式は公開済 20220202 44
Anúncio