大阪大学OCTOPUS、ヘテロジニアスアーキテクチャがHPC研究の新しい分野を切り開く
ケン・ストランドバーグ
過去数十年間、社会の革新的なブレークスルーおよび発見の多くを開拓してきたのは、ハイパフォーマンスコンピューティング(HPC)でした。公的機関および営利団体において実施される、あらゆる種類の設計や理論のシミュレーション、新しい化学物質の実現可能性に関するスクリーニング、自律システムの検証 ‐ これらすべてに強力なコンピューティングクラスタが使用されてきました。
大阪大学含む大学は、多数のHPCシステムの本拠地として幅広い分野の研究者および学生にサービスを提供しています。これらのコンピューティングリソースへのニーズは高まる一方です。「科学の全分野でスーパーコンピューティングの需要が高まっています」と、HPCシステムのホスト機能を提供している大阪大学サイバーメディアセンター (CMC) の伊達 進准教授は語っています。「今日の研究者たちは、実験段階の前と後に観測結果を分析し、相関関係を示す上で、科学計算に大きく依存しています」と彼は付け加えています。
CMCは、高エネルギー物理学、分子動力学、材料、生命、歯科、社会科学などの研究を支援しています。大阪大学の研究者による最近の発見の1つは、超音速流での渦崩壊を明らかにしたことですが、これにもCMCのHPCシステムが使用されていました。彼の研究は、航空宇宙機用の超音速燃焼ラムジェットエンジンの設計に役立つ可能性があります。
2017年に、CMCはOCTOPUS(Osaka University Cybermedia CenTer Over-Petascale Universal Supercomputer) と名付けられた、世界に誇るヘテロジニアス1.463ペタフロップスHPCクラスタを設置しました。OCTOPUSの設置に伴い、CMCは以前の配備とは異なる戦略を採用しました。従来のコンピューティングリソースでは、HPCと研究以外の両方のニーズをサポートするようにシステムが設計されていました。しかし、科学計算の利用者が経験した課題のいくつかは、一般ユーザーと並列計算ユーザーの両方に対してパーティション分割を試みることによる対立・矛盾と関係があり、結果として科学計算用リソースとしての信頼性が大きく損われることになりました。OCTOPUSは、重要な研究分野を引き続き支援し、それらユーザーからのフィードバックに基づいて、小規模および大規模の並列ワークロードをサポートするために導入されました。
![]() |
Intel Xeon ScalableプロセッサとGPUを利用する大阪大学のOCTOPUSシステムは、機械学習およびその他のAI関連のジョブに取り組む。(写真提供: 大阪大学) |
「ユーザーにとって最大の課題は、ほとんどの場合、ノード間およびノード内の並列処理の実現です」と伊達教授は付け加えました。「より大規模な並列処理を実現するため、多くの人がMPIおよびOpenMPコーディングを使用しています。私たちは、彼らの研究・業務を支えるため、より多くのリソースを提供する必要がありました。」
OCTOPUSの設計が目指しているのは、シミュレーション、視覚化、AI/機械学習、およびHPDAという、さまざまな科学的コンピューティング分野を単一のシステムでサポートすることです。つまり、このアーキテクチャは、x86 Intel®アーキテクチャー(IA)用に記述されたオープンソースや商用のコードから、従来のシミュレーション、AIフレームワーク、ゲノミクス、その他の研究分野を対象とするCUDA*ベースのGPUに至るまで、さまざまなコーディングおよびアプリケーション環境を使用する研究者たちの期待に応えるためにヘテロジニアスであることが必要でした。
伊達教授は、「ハードウェアとソフトウェアの両方の観点から、新しいHPCシステムのアーキテクチャを調査する必要がありました。特にx86とその他のアーキテクチャーを使用して、HPCとHPDAの統合化アーキテクチャーのアプローチを検討する必要がありました。」と説明しています。
大阪大学の設計者たちの間では、データセンターのスペースが非常に重視されています。設計者たちは、データセンターの電力および冷却用の予算内で、従来のシステムよりも計算能力の高いシステムを構築する必要がありました。最新世代のCPUとGPUの性能と電力効率を活用し、AsetekのRackCDUダイレクトトゥチップ液冷機構をすべての計算ノード(GPUを含む)に統合することで、CMCは運用および電力の予算を増大させることなく、信頼性が高く安定した性能をクラスタ間で維持します。
1.463ペタフロップスのクラスタでは、Intel® Xeon®スケーラブルプロセッサー、メニー・インテグレーテッド・コア(MIC)アーキテクチャーをベースとするIntel® Xeon Phi™ 7210プロセッサー、Tesla* P100 GPU(CUDAアーキテクチャー)といった複数タイプのプロセッサーアーキテクチャー、および100 GbpsのInfiniBand*アーキテクチャと相互接続されたLustre*ファイルシステムが使用されます。この新たなスーパーコンピュータは、大阪大学の科学計算能力を5倍に高めて、研究者に新たなレベルのリソースを提供することになりました。
「新システムによりユーザー数の増加が見られています。これは大きな影響です」と、伊達教授は話を締めくくりました。
OCTOPUSはヘテロジニアスであるため、ユーザーは特定のコードと調査に基づいて必要なリソース(IA/MIC Intel CPUか、CUDA GPU)を選択できます。完了したCMCのユーザー調査によると、ユーザーは以前のシステムよりも高いパフォーマンスを報告しています。
「現在、OCTOPUSは機械学習、その他のAI関連のジョブを実行しており、これまでこうしたジョブの実行を見たことはありませんでした」と、伊達教授は述べています。「さらに、他の新しいタイプのジョブもユーザーから持ち込まれています。私たちは、これら新しいワークロードに合わせて新システムを設計しました。」
ケン・ストランドバーグは、テクニカルライターです。彼は、新興テクノロジー企業、Fortune 100企業、および多国籍企業向けに、記事、ホワイトペーパー、セミナー、Webベースのトレーニング、ビデオやアニメーションの脚本、およびテクニカルマーケティングとインタラクティブなカタログ等を執筆しています。ストランドバーグ氏が得意とする技術分野には、ソフトウェア、HPC、産業技術、設計自動化、ネットワーキング、医療技術、半導体、テレコムがあります。