Mont Blanc、スマートフォンチップでクラスタを構築
Timothy Prickett Morgan

ARMプロセッサとGPUのコプロセッサに基づいたエネルギー効率の高いスーパーコンピュータを作ることを目的とした幾つかの欧州のスーパーコンピューティングセンターとベンダーによる活動のMont Blancプロジェクトは、その3番目のプロトタイプを組み上げた。それは、エクサスケールシステムへの道筋上のもう1つのステップである。
デンバーのSC13カンファレンスで披露された第3世代マシンは、これまでMont Blancプロジェクトで作成した中で最もエレガントな1台である。このプロトタイプスーパーコンピュータは、実際にこの時期、プロジェクトの名前がついているが、ARMプロセッサとGPUアクセラレータの別のコレクションに基づいていたTibidaboとPetraforcaクラスターによって先行された。
このデザインは、エレガントであるというだけで、間違った考えを持たないことだ。BSCの異機種アーキテクチャ研究グループのリーダー、Alex Ramirezは、Mont Blancマシンはまだプロトタイプである、と警告する。
「この製造製品を作るために、私たちは、最低限一世代以上を経なければなりません。」と彼は言う。
これは、Mont Blancプロジェクトが統合されたインターコネクトおよび高速GPUを搭載した64ビットARMチップが生産に入る前に利用できる日を待っているという理由に基づいている。しかし、今のところ、ソフトウェアをプロトタイプに移植することができ、どこに性能ボトルネックがあり、どのような信頼性の問題があるかもしれないことについて学ぶことができる。
Mont Blancプロトタイプクラスタの正確なサイズは、まだ決定されていないが、Ramirezは、2または3ラックのARM駆動のノードになるだろうと言う。「それは、拡張性と信頼性を主張するのに十分な大きさになりますが、私たちは生産システムではないマシンのコストを低く抑えるようにしています。」と彼は言う。
Mont Blancシステム内のサーバーノードは、Samsung製のExynos 5システム・オン・チップ基づいており、ダイ上にデュアルコアのARM Cortex-A15とARM Mali-T604 GPUを搭載している。システム・オン・チップのARM CPU部分は、今年初めに組み立てたPetraforcaプロトタイプで使用され、クアッドコアのCortex-A9プロセッサの約2倍の性能を持っている。(実際には2つのバージョンがあったが、2番目がより重要である) そのマシンは、貧弱なCPUと強力なGPUをどのように一緒にできるかをテストするため、NVIDIA Tesla K20 GPUコプロセッサを使用した。具体的には、1.3 GHzで動作するTegra 3チップのARMプロセッサをMini-ITXシステムボードに載せてPCI-Expressスイッチに結合されたI/Oスロットのひとつに挿入し、併せてひとつのGPUとひとつのConnectX-3 InfiniBandアダプターカード(40 Gb/秒)を持たせていた。
SamsungからのデュアルコアExynos 5チップは、スマートフォンで使用され、1.7 GHzで動作し、OpenCL 1.1をサポートしたクアッドコアMali-T604 GPUを持っている。またデュアルチャネルDDR3メモリコントローラとUSB 3.0から1Gb/秒のEthernetブリッジを持っている。各Mont Blancノードは、CPUとGPU、4GBメモリ(1.6 GHz DDR3)、フラッシュストレージ用microSDスロット、および1Gb/秒のEthernetネットワークインタフェースを持つSamsung製ドーターカードである。このすべてが、10ワット近辺の電力によってCPU計算で6.8 GigaflopsとGPU計算で25.5 Gigaflopsを持つ3.3 x 3.2インチ角のドーターカード上に詰め込まれている。つまり、ピーク理論性能でワットあたり約3.2 Gigaflopsということになる。
Mont Blancシステムは、複数のARMサーバーノードを収容するためにBull B505ブレードサーバのキャリアと関連するブレードサーバ筐体とラックを使用している。この場合、ブレードキャリアは15のARM計算ノードが一緒に接続されたBroadcom Ethernetクロスバースイッチを持つ特注のバックプレーンが装備されている。キャリア内のすべてのブレードは、USBポートをEthernetへと変換し、そのキャリアでBroadcomのスイッチに接続することができるASIX Electronics製Ethernetブリッジチップを有している。
Mont Blancラックを積み重ねる方法はここ:
この特定の設定では、この場所で幾つかの電力密度と発熱密度の制限があり、そのため4台のBullブレードサーバ筐体に制限されていた、とRamirezは言う。しかし、このシステムは、データセンターに十分な電力と冷却を持っている場合、6台までの筐体をサポートするように設計されている。
各ブレードは、15ノードを有し、それ自体がクラスターである。ブレードは、485 Gigaflops級の計算性能を提供し、約200ワットを消費する。(マシンはほんの数日前にSC13へ工場からやって来たため、実際にはまだ壁電源テストを行うことができていないとRamirezは推測する) ネットワークのオーバーヘッドが加えられた後でもワット当たり2.4 Gigaflops程度と算定される。
7Uのブレードシャーシは、9つのキャリアブレード、合計で135の計算ノードを保持することができる。それは、約2キロワットの電力で筐体あたりの合計で4.3 Teraflopsと算定され、またはワットあたり2.2 Gigaflopsになる。筐体同士を2台の36ポート10GbEスイッチで接続し、40Gb/秒のアップリンクで他のラックと接続することで、4筐体のラックは、8.2キロワットの電力範囲で17.2 Teraflopsの計算性能を実現、またはワットあたり約2.1Gigaflopsとなるだろう。6ブレード筐体を使用するとラックあたり25.8Teraflopsを得ることができる。それは、ラックあたり合計810チップとなり、付け加えると、合計で1,620 ARMコアと3,240 Mali GPUコアである。
このMont Blancの活動は、64ビットメモリアドレッシングと統合されたインターコネクトを装備した多くの異なるARMv8プロセッサが、AppliedMicro、Calxeda、AMD、およびSamsung等の様々なベンダーから供給可能になったとき、その翌年は非常に面白いことになるだろう。この第3のプロトタイプで併せて作り込まなければならなかったコンポーネントの多くは不必要になり、これらの機能がチップ上に統合されると、クラスターの熱効率はおそらく劇的に向上する。将来のARMチップはまた、ECCメモリ保護やPCI-Expressのような標準的なI/Oインタフェースなどのサーバー機能が加えられるだろう。
「そのうち少なくとも一つは、わたしたちが望む時点で、確かで必要な部品を持っているプロバイダーが十分にあるでしょう。」とRamirezは、嬉しそうに話す。
Mont Blancのプロジェクトは2011年10月に設立され、スペインのバルセロナスーパーコンピュータセンターによってコーディネートされた5年間の活動がある。英国のチップメーカーARMホールディングス、フランスのサーバーメーカーBull、フランスのチップメーカーSTMicroelectronics、および英国のコンパイラツールメーカーAllineaがMont Blancコンソーシアムへのベンダー参加者である。イギリスのBristol大学、ドイツのStuttgart大学、イタリアの大学コンソーシアムCINECAが、グループの学術的メンバーであり、そしてCEA、BADW-LRZ、Juelich、とBSCスーパーコンピュータセンターもメンバーである。そうINRIA、GENCI、およびCNRSなどの欧州でHPCを促進する多くの他機関がある。
Mont Blancは、もともと€14.5百万の比較的控えめな予算の3年間プロジェクトであり、それをさらに2年以上延長するために、欧州委員会から追加で€8.1百万の資金を確保している。その資金は、エクサスケールのデザインを作成するためにだけに使用されるのではなく、クラスター上で実行するためのチェックポイントソフトウェアを開発するなど、ハイブリッドARM-GPUベースのマシン上で実行される並列プログラミング環境を開発する。