PBL1-v1-002j.pptx

NAIST
27 de Dec de 2022
PBL1-v1-002j.pptx
PBL1-v1-002j.pptx
PBL1-v1-002j.pptx
PBL1-v1-002j.pptx
PBL1-v1-002j.pptx
PBL1-v1-002j.pptx
PBL1-v1-002j.pptx
PBL1-v1-002j.pptx
PBL1-v1-002j.pptx
PBL1-v1-002j.pptx
PBL1-v1-002j.pptx
PBL1-v1-002j.pptx
1 de 12

Mais conteúdo relacionado

Similar a PBL1-v1-002j.pptx

Mango64 u boot 업데이트 하기Mango64 u boot 업데이트 하기
Mango64 u boot 업데이트 하기종인 전
ExperiencesSharingOnEmbeddedSystemDevelopment_20160321ExperiencesSharingOnEmbeddedSystemDevelopment_20160321
ExperiencesSharingOnEmbeddedSystemDevelopment_20160321Teddy Hsiung
Codigo fuenteCodigo fuente
Codigo fuenteBlackD10
3D-DRESD Lorenzo Pavesi3D-DRESD Lorenzo Pavesi
3D-DRESD Lorenzo PavesiMarco Santambrogio
C++ amp on linuxC++ amp on linux
C++ amp on linuxMiller Lee
Windbg랑 친해지기Windbg랑 친해지기
Windbg랑 친해지기Ji Hun Kim

Mais de NAIST

PBL1-v1-200j.pptxPBL1-v1-200j.pptx
PBL1-v1-200j.pptxNAIST
PBL1-v1-200e.pptxPBL1-v1-200e.pptx
PBL1-v1-200e.pptxNAIST
PBL1-v1-100j.pptxPBL1-v1-100j.pptx
PBL1-v1-100j.pptxNAIST
PBL1-v1-100e.pptxPBL1-v1-100e.pptx
PBL1-v1-100e.pptxNAIST
PBL1-v1-012j.pptxPBL1-v1-012j.pptx
PBL1-v1-012j.pptxNAIST
PBL1-v1-012e.pptxPBL1-v1-012e.pptx
PBL1-v1-012e.pptxNAIST

PBL1-v1-002j.pptx

Notas do Editor

  1. 導入編が終わった人向けに、これから、アイマックスの具体的なプログラミング過程を説明していきます。 第2回は、画像フィルタです。
  2. 色を入れ換えるだけの簡単な画像処理から始めます。左画像を入力すると、右画像のように、色が変わります。色をどのように変換するかは、RGB成分ごとの変換表をひとつにまとめた配列tで定義します。まず、C言語で書きます。画像は2次元構造ですが、画素はメモリ上で一列に並んでいるので1次元配列を使い、プログラムの構造は、あとでステンシル計算に対応できるよう、2重ループにします。インが入力画素、ピックスが処理中の1画素、tが色変換表、アウトが出力画素です。RGBの色成分は8ビットなので、シフトとマスク演算を使ってピックスから各8ビットを取り出します。そして、各成分を使って色変換表を引き、最後に3色をつなぐと、出力のでき上がりです。
  3. まず、アイマックスで実行する範囲をビギンとエンドで括ります。最初は、最内ループのみを対象とします。アイマックスは、各ユニット自身がループ制御も行います。ユニット内の単純な演算器に写像できるよう、最内ループは、ループ0という予約語を使って変形します。そして、Colを整数配列の添え字から、バイトアドレスに変更し、更新結果を後続ユニットが参照できるようにします。具体的には、初期値をマイナス4にして、ループ内部の先頭で4を加算するようにします。これで、先頭ユニットが、初期値マイナス4のcolを毎サイクルインクリメントし、後続ユニットが、元のプログラム通りにcolを参照できるようになります。もちろん、colを整数配列の添え字に使っている部分は、わる4が必要です。
  4. 次に、最内ループの中を少しづつ、アイマックス用の関数形式に書き換えていきます。ここでは、ピックス、RGBの代入部分のみを書き換えました。インロウWD、TR、TG、TBは、それぞれ、画像各ぎょうの先頭アドレス、赤成分、緑成分、青成分変換表の先頭アドレス、つまりベースアドレスです。LDUBRは、ロードしたピクセルちから、指定したバイト位置を切り出したものをオフセットとして、ベースアドレスに加えて1バイトをロードします。マスクB3は、右から4バイト目、マスクB2は、右から3バイト目、マスクB1は、右から2バイト目の各1バイトを意味します。元のC言語にあったシフトとマスク演算が、このように高機能ロード関数に吸収され、僅か4関数に置き換わりました。また、最初のロード関数末尾の、inとWDは、必要とするデータの先頭と長さです。今は画像1行分を扱うので、ワード数にWDを指定します。同様に、RGBの変換では、共通の配列tを使うので、先頭はt、ワード数は256かける3わる4です。さて、ここまで書き換えたら、コンパイルして、動作を確認することができます。実際に実行できるだけでなく、ロード関数の中で、ベースアドレスとオフセットが、指定した範囲を逸脱していないかがチェックされます。アイマックス用の関数形式は、途中の状態でも、普通のCコンパイラでコンパイルし、実行できます。途中にプリントエフを挿入しながら、少しづつ書き換えて、アルゴリズムのデバッグを進めていける点が大きな特長です。
  5. 残りの部分も、書き換えていきます。MMRGを使うと、変換後のRGBを1つにまとめることができます。最後のストアも、末尾に、先頭アドレスと長さを書いて、ベースアドレスとオフセットの逸脱をチェックします。以上で、元の最内ループが、わずか7関数に変換されました。最初、アイマックスの書き方が、アセンブラのようだと思ったことでしょう。確かにアセンブラに似ていますが、高機能ハードウェアを余すことなく使うためには、このような高機能関数として記述するほうが、無駄がなく、また、コンパイル時間を大幅に短縮できます。ノイマン型は、複雑なプログラムには、命令数を増やすことで対応しますが、CGRAは、高効率である代わりに、ハードウェア資源に制約があり、命令数をいくらでも増やすことはできません。自由記述のプログラムをコンパイラに丸投げすることをいくら繰り返しても、最適解にはたどり着けませんし、デバッグも不可能です。これが、アイマックスのプログラミングに高機能関数を使う理由です。ところで、CGRAをある程度知っている人は、これは逐次実行プログラムではないかと思うことでしょう。その通りです。逐次実行プログラムとしてアルゴリズムをデバッグし、最後は、アイマックス専用コンパイラでCGRAに写像し、同じ実行結果と、高効率処理を手に入れる。これが、アイマックスのプログラミング思想です。
  6. では、データの流れに着目して、プログラムを見直します。青いぎょうは、入力画像を必要とします。CGRAでは、最も上に配置されるべきです。次に、緑のぎょうは、RGB変換表を必要とします。入力画像をロードした後に使うので、CGRAでは、入力画像よりも下のユニットにしか配置できません。ただし、RGBの変換表は、一度に引くことができるので、同じ位置に配置できます。同様に、出力画像は最後に配置されます。このように、アイマックスコンパイラは、変数の依存関係を解析して、どのユニットに、どのデータを配置するかを決めます。
  7. アイマックスコンパイラは、このように、コンパイル結果を可視化してくれます。右うえはじが第0行0列です。ここには、最内ループのカウンタ初期値と、ALUを使う減算がセットされます。カウンタが0になったら、下のユニットに停止指示を出します。後続ユニットの動作が、順に止まっていきます。第0行1列には、colの加算、第1行0列には、最初のピックスロードがセットされています。右から2番目のレジスタに,pixという名前が見えます。これが、ロード結果が入るレジスタです。第2行0列から2列に、LDUBRがセットされています。そして,第3行0列に,紫のMMRGと、ストアがセットされます。このプログラムでは、アイマックスを起動すると、コンパイラが自動生成するDMA機能を使って、第1行0列に入力画像,第2行0列から2列に色変換表が用意された後、第3行0列のメモリに、毎サイクル1つの出力画素を格納します。演算器内部だけでなく、ユニット間もパイプライン化されているので、毎サイクル結果が出てくるわけです。実行が終わったら、同様にDMAでホストの主記憶に書き戻されます。これで、画像の1行だけを加速するアイマックスプログラムの完成です。でも、色がついている部分がまばらですね。ハードウェアは、64行4列分あります。まだ、ほんの小手調べです。
  8. では、高性能化していきます。さっきのプログラムは,64ビットレジスタの半分しか使っていません。もったいないですね。アイマックスの演算器はツーウェイシムディーです。32ビットの画素値を2つロードすることで,処理速度を2倍に上げた64ビット版プログラムです。また、最初の1行を節約するために、フォー文の代わりにワイル文を使い、ロードストアにオートインクリメントを使っています。最初のLDRは,先頭ユニットのローカルメモリから,32ビットの画素値を2つロードして,BRゼロイチイチに格納します。続く6行のLDUBRは,色変換表の先頭をベースアドレス,最初にロードした画素値の合計6箇所の色成分をオフセットとして,1バイトをロードし,各々BRに格納します。3つのシーキャットは,同色の2つの1バイトデータを各々1つのレジスタにまとめ,MMRGが,3つのレジスタの内容をまとめて2つの画素値に戻し,最後のSTRが,64ビットデータを2つの出力画素としてメモリに書き込みます。アイマックスの実行回数も、画像の横幅、WDの半分になるので、ループ初期値はWDわる2になっています。
  9. コンパイル結果です。右うえはじが第0行0列です。第0行は、さっきの32ビット版と同じですが、オートインクリメントを使うことで、最初のロードも第0行に配置できています。第1行1列から3列に、LDUBRが2つずつセットされています。デュアルポートメモリのおかげです。第2行0列から2列に、シーキャットがセットされています。そして、第3行0列に、MMRGとSTRがセットされます。第3行0列のメモリに、毎サイクル2つの出力画素を格納するので、性能が2倍になりました。たしかに実装密度は上がりました。でも、まだたくさん余っています。
  10. アイマックスには、1基あたり、64個の物理ユニットが入っていますが、今までの2つの例では、4個しか使っていません。また、アイマックスは、画像1行を処理するだけなので、起動回数は、画像の高さHTイコール240でした。いろいろもったいないです。そこで、同じ処理を残りのユニットにも割り当て、多くのユニットを使うことで、アイマックスの起動回数を減らすことを考えます。32ビット版で作ったプログラムを10倍に増やしたのが、このプログラムです。長いので、途中は省略です。また、プログラムの構造が、ワイル文の単純ループではなく、3重ループになっています。アイマックスが4基参加し、10個の物理ユニットが各々2重ループにより、幅方向WD、高さ方向6の画像を一度に処理するようにします。これで、アイマックスの起動回数は何回になったでしょう。240わる4基わる10ユニットわる6は1です。起動回数はわずか1回になりました。
  11. コンパイル結果です。左側の第0行と第1行は,3重ループの制御とアドレス計算に使われています。第2行から第4行に,さっきの32ビット版が埋め込まれているのがわかります。10倍にふやしたので,物理ユニットは,3掛ける10の30必要でしょうか。いいえ,違います。よく見ると,第2行から第4行に対応するデータフローと同じ形が,第5行から第7行ではなく,1つ手前の,第4行から第6行にあります。つまり,コードを10倍に増やしても,論理ユニットに空きがあれば,一部オーバラップできるということです。全体では,22個の物理ユニットにおさまります。まだまだ物理ユニットが空いていますね。4バイトの1画素は,320掛ける6でも8キロバイト未満しかないので,64キロバイトのローカルメモリも大部分が余っています。物理ユニット数64というのは,少ないように感じるかもしれませんが,まだまだ余力があります。ところで、導入編で、コンパイル時間が長いのはコンピュータじゃないと言いました。このプログラムのCGRA写像に要する時間は、1秒未満です。これなら、何度でも試すことができます。
  12. ここまで、ただ色を入れ替えるだけの簡単なプログラムを説明してきました。アイマックスの機能も能力も、まだ5パーセントくらいしか使っていませんが、プログラミングスタイルとポテンシャルを理解できたことと思います。この動画の視聴者が増えてきたら、のこりの95パーセントも解説していくことにします。まあ、でも、99.99パーセントの、おなか一杯技術者は、別に、こんなの知らなくても、それなりに給料もらえるはずだと思ってることでしょう。あるいは、どこかのメーカーが、自由記述のプログラムをなんとかしてくれる、完全自動コンパイラを作ってくれると、見なかったことにすることでしょう。まだいるかもしれない、0.01パーセントのはらぺこ技術者のために、そのうち、残り95パーセントの解説動画を作ることにします。そういえば、画像フィルタ編のはずでしたが、色変換しか説明できませんでした。画像フィルタ編の続きは、メディアンフィルタ、アンシャープマスク、エッジ検出、フレーム補間、超解像、ステレオマッチングを予定しています。では、今回はここまでです。