2月 25, 2014

ボトルネック分析によってOpenMPの潜在能力を開放する

HPCwire Japan

Carlo del Mundo, Contributing Editor

並列プロセッサーの潜在的計算能力を実現するためには、アプリケーションを制限するボトルネックを、プログラマーが確認する必要がある。これらのボトルネックは、アプリケーションの完全な潜在能力を妨げ、性能を鎖でつないでいる。性能分析は、プログラムの最適化の機会を確認するために、必要なデータと洞察を一般的に提供する。

Inderprastha工科大学の研究者は、OpenMPプログラミング・モデルを使って、マルチコアCPUのために、一般的なボトルネックを確認する。Intdeprastha工科大学の教員であるAlok Katiyer氏は、次のように注意する。「OpenMPプログラムの作成は簡単ですが、単にディレクティブを挿入するだけでは充分でありません。得られたプログラムは期待される性能に届かないかもしれませんし、どのように状況を直すべきか明らかでない場合もあります。」

International Journal of Computer Scienseに最近掲載された論文において、Katiyar氏はOpenMPプログラムのためのボトルネック分析に関する一般的な規則とヒントを提案した。要約すると、次に集中するようにプログラマーに勧めている。(1) 同期 (2) 記憶アクセス・パターン (3) ロード・アンバランス。

以下は、OpenMPプログラマーへのtipsの概要である。

「critical region」を避けるか、取り除きなさい。同期において、「critical」と「barrier」は、アプリケーションのオーバーヘッドに大きく影響する。可能な場合はいつでも、領域中のコードを減らすか取り除くことによって、大きな「critical region」を避けなさい。「critical region」は、他のスレッドが何もしていない間に、マスター・スレッドだけが実行する。この技法によって、「critical region」がアトミックに実行されると保証される。貧弱な性能は、しばしば、「critical region」の数と大きさに相関している。

ループの回し方を変えて、アクセス・パターンを最適化しなさい。最適なアクセス・パターンは、記憶階層の有効利用によって特徴付けられる。ループの入れ換え、アンローリング、融合、分割は、アプリケーションの性能を向上させられるかもしれない、ループの変更例である。交換は、内側のループと外側のループの入れ換えに集中し、記憶レイアウトを利用して、性能を改善できることがある。例えば、列方向(row-major)アクセス・パターンは、同一のキャッシュ・ラインにある複数のデータ要素にまとめてアクセスできることがある。(訳注：多次元配列を多重ループで処理する際に、Fortranならば左側、Cならば右側の添え字を、内側のループで回せということである。逆にすると、複数のスレッドが同一のキャッシュ・ラインにアクセスする偽共有(false sharering)が発生して速度が落ちる。)アンローリングは、ループ変数と関連するオーバーヘッドを減らす。融合は、連続するループを一つにまとめることで、分割はその逆である。個々の技法を使うべきかどうかは、アプリケーションに依存する。

(訳注：ループの融合と分割については、理化学研究所の青山氏幸也氏が執筆した「チューニング技法入門」いわゆる「虎の巻」が詳しい。http://accc.riken.jp/secure/4467/tuning-technique_main.pdf)

ワークロードをバランスさせなさい。より多くの作業をするスレッドがより長時間実行されるために、ワークロードのアンバランスが起きる。chunkごとの作業量の違いが少なくなるように、プログラマーは作業を分割できる必要がある。どれだけの作業量があるか事前に解っている場合には、「static」なスケジュールは完全に妥当である。しかし、例えば、作業量が入力データに依存して実行時に動的に決まる場合には、「dynamic」なスケジュールがより適切である。プログラマーは、OpenMP指示行で「static」と「dynamic」を選択できる。

Katiyer氏の注釈によると、これらの最適化をOpenMPによる行列積に適用し、改良前より相当な性能向上をできた。

順位	機関名	システム名	ピーク性能(TFLOPS)
1	理化学研究所	富岳	537,212
2	産業技術総合研究所	ABCI 3.0	181,490
3	ソフトバンク株式会社	CHIE-4	151,880
4	ソフトバンク株式会社	CHIE-3	138,320
5	ソフトバンク株式会社	CHIE-2	138,320
6	産業技術総合研究所	ABCI-Q	99,350
7	最先端共同HPC基盤施設	Miyabi-G	72,800
8	FPTジャパンホールディングス	FPT AI Factory	67,440
9	東京科学大学	TSUBAME 4.0	61,600
10	さくらインターネット	SAKURAONE	47,790

すべての国内スパコンリストはこちらから。

西克也
西克也はフェアチャイルド社、クレイ・リサーチ社、ベストシステムズ社など、30年以上に渡ってHPCに関する仕事に従事している。Hpcwire Japanの編集長として記事の作成と翻訳を行っている。

島田佳代子
1999年～2007年まで英国在住。2001年よりスポーツ、旅、ビジネス、映画など幅広いジャンルで執筆活動を開始し、Hpcwire Japanでは主に日本のHPC業界が世界に誇る研究者、開発者の方々のインタビューを担当。

小柳義夫
小柳義夫氏は40年以上に亘ってHPCに携わってきた研究者であり、日本のHPC業界における生き字引として有名。現在　高度情報科学技術研究機構に所属し、産業界のHPC推進にあたっている。

小西史一
小西史一は、理化学研究所、東京工業大学においてHPCおよびバイオインフォマティクスに関する研究と教育に携わってきた研究者。2012年からフォトグラファーとしての活動を開始し、現在はIT技術・セキュリティのコンサルティング業務に携わっている。

eNewsletter

検索

PLUTNUM

GOLD

SILVER

HPCの歩み50年記事一覧

スパコンリスト日本

記事寄稿について

ボトルネック分析によってOpenMPの潜在能力を開放する

調達情報

ニュース記事

お知らせ

特別イベント

ISC 2026

International Conference for High Performance Computing, Networking, Storage & Analysis (SC26)

技術資料ダウンロードサービス

スパコン調達手続き中

国内スパコン上位10システム(TOP500順)

近日開催国内イベント

【RIST】第47回HPCプログラミングWebセミナー: 並列プログラミング入門（MPI編）

【東京大学】第274回お試しアカウント付き並列プログラミング講習会「OpenFOAM初級・自動車空力解析」

【東京大学】第275回お試しアカウント付き並列プログラミング講習会「HAIRDESC GPUプログラミング教材によるGPUプログラミング入門 –OpenACC編–」

【PCCC】PCCワークショップin 神戸 2026 「AIによるHPC／AI-driven HPC」

【RIST】第48回HPCプログラミングWebセミナー: チューニング技法入門

【CAE懇話会】第45回中部CAE懇話会　CAEを導入して、できる事、できない事

【CAE懇話会】第45回中部CAE懇話会： CAEを導入して、できる事、できない事～CAEを導入、利用するために必要な事～

2026年並列／分散／協調処理に関するサマー・ワークショップ（SWoPP 2026）

リコンフィギャラブルシステム研究会 (RECONF)

寄稿者

HPCwire Japan

E-Marketings, Inc.

PLUTNUM

GOLD

SILVER

HPCの歩み50年記事一覧

スパコンリスト日本

記事寄稿について

ボトルネック分析によってOpenMPの潜在能力を開放する

調達情報

ニュース記事

ホットな話題

お知らせ

特別イベント

技術資料ダウンロードサービス

スパコン調達手続き中

国内スパコン上位10システム(TOP500順)

近日開催国内イベント

寄稿者

HPCwire Japan

E-Marketings, Inc.