LLNL、Catalystとのビッグデータシステムのバランスを探る
Nicole Hemsoth

ローレンス·リバモア国立研究所(LLNL)は、バイオインフォマティクスとそれ以降における重要な「ビッグデータ」アプリケーションのためのI/Oの問題に対処する幾つかのユニークなアプローチを使用して、特定のデータ集約型問題に取り組むために設計された新たな専用システムを発表した。
Catalystと呼ばれる新しいCray CS300 324ノードシステムは、12月のある時に就任申請書が授与されるだろう。10月に納入された150 Teraflopのクラスタは、LLNLとIntelが以下に詳細なコメントをした幾つかの注目すべき仕様がある。
- 全324ノード(128GBのDRAM)
- 150 Teraflops
- 304の計算ノード(ノードあたり128GBのDRAMと800GBのNVRAM)
- 12のLustreルータノード(ノードあたり128ギガバイトのDRAMと3200ギガバイトNVRAM)
- 2つのログインノード(128ギガバイトのDRAM) – 2つの管理ノード(128ギガバイトのDRAM)
- プロセッサ- Intel XeonプロセッサE5-2695v2(12コア、2.4GHz)
- NVRAM – Intel SSD 910シリーズ(800GB、1/2 のPCIe 2.0、25nmの、MLC)
- ネットワーク – Intel TrueScaleファブリック(QDR-80)
- ストレージソフトウェア – Intel Lustre、リバモアのDIMMAP(データ集約MMAP)とSCR(スケーラブルなチェックポイント/リスタート機能)
これらの設定の詳細について、すぐに飛び出てくるかも知れない事のひとつは、幾つかのユニークな選択は、I/Oとシステム全体のバランスの強化と言う名目で行われた。12コアプロセッサの選択、QDR-80の使用、およびNVRAMの使用は、「ビッグデータ」のアプリケーションの新たなクラスの要件のためにバランスのとれたアーキテクチャに関する幾つかの深刻な考え方へのすべてのポイントである。
ひとつは、仕様リストをスキャンすることを考えるかも知れないとして、ここで過ごすことは無意味では無いが、HPCに焦点を当てた研究室のために、投資の本当の主旨は、純粋な処理性能に対するインターコネクトとI/Oツールである。
ローレンスリバモア国立研究所の先端技術プロジェクトの副長であるMatt Leiningerによると、不揮発性メモリ、最新のIntelプロセッサとインターコネクトについての特別な焦点との組み合わせは、グラフ分析論やHPCシミュレーションデータを分析することと同様に、バイオインフォマティクスのものを含む特定のデータ集約型アプリケーションのために究極の嵐を引き起こす。
システムのデータ集約型の焦点で大切なことのひとつは、幾つか個別に開発された技術を用いた独創的な方法でNVRAMを使用することの選択である。LLNLは、彼らが、NVRAMを利用できるように、アプリケーションミドルウェア、もしくはOSレベルにおける観点から微調整行ってきた幾つかの小規模なフラッシュベースのクラスタを持っている。調査の間に、彼らはそれが実際のDRAMメモリであるかのごとくアプリケーションがNVRAMにアクセスできるよう、標準的なMMAPに代替可能なものを見つけ始めた。その結果が、キャッシュ処理の知能を扱い、Linux MMAPより優れる独自のデータ集約型MMAP(DIMMAP)である。
Leiningerは、スケーリング問題を持つバイオインフォマティクスアプリケーションを示した。それは現在、NVRAMに大規模なデータベースをロードするためにバックエンドでDIMMAP技術を使用していて、以前は不可能だった(もしくは性能に目を瞑って、ディスクから必要な読み取りと書き込みを行う)分析オプションの新しいセットを有効にしている。彼らは、すでに小さな研究クラスタ上でDIMMAPのデモに成功しており、チームはCatalaystを利用することを楽しみにしている。
Intelのテクニカルコンピューティングの最高技術責任者(CTO)、Mark Seagerは、これらの選択肢は、6000万IOPSの領域の中へ比較的小さなCatalystを押し込むと言う。彼が説明したように、「これらのデバイスは、デバイス当たり150~200K IOPSの範囲内にあり、そしてCatalystは全てのノード上にそのデバイスがあります。したがって計算ノード全体で300あり、バッファノード上にも3つあります。これらのフラッシュデバイスの集約的なバンド幅は、Sequoiaシステム上にあるものと同等です。彼らは、Lustre並列ファイルシステムに対してSequoiaから毎秒0.5テラバイトのIOバンド幅を持っており、そして私たちは、ほんの僅かなコストで、Catalyst上のローカルフラッシュドライブへ毎秒0.5テラバイトのIOPSレートを持つ事ができるでしょう。それはゲームチェンジャーです。」
リバモアの他の「ゲームチェンジャー」は、シングルレールバリアを飛び越される。Leinigerが述べたように、LLNLは、数年来TrueScale QDRの上客だったが、しかし、このシステムのデュアルレールへのシフトは、その用法の新たな局面を示している。一般的なクラスタでは、ひとつのHADがあり、それが直接1ソケットに接続するため、1対1のネットワーク性能は素晴らしいのだが、相互に通信するときは、余分なホップが性能に打撃を与える。Leiningerが言ったように、「デュアルレールは、よりバランスのとれた性能を提供し、私たちはデュアルレールQDRが市場に出回っている他の技術よりも良いか、もしくはより良くなることを期待しています。 」
Seagerによると、「EDRは、チャネルあたりの伝送速度の面でより高速ですが、私たちが合せて2つのQDRチャンネルを持っているという事実は、EDRよりもノードから出て行くより多くのバンド幅があることを意味します。TrueScaleファブリックは、コア上のソフトウェアで殆どの処理を行うため、あなたが高度な並列プロセッサで行うようなとき、コアあたり1MPIタスクで遥かに優れたスケールをすることが可能です。」
Seagerは、すべての帯域幅がチャネルごとに使用可能ではないにもかかわらず、それは本当にそのように使われなかったので、これは本当の問題ではないことを指摘し続けた。「あなたは、全体のチャネルを使用しようとしているひとつのMPIタスク、またはひとつのプロセッサでそれを使用することはありません。一般的には、ノード上のMPIタスクのすべては、すべてのインタフェースを使おうとし、それが本当の総スループットというものです。 」
Leiningerは、それらが分離され、直接PCIeに接続されたゲートウェイノード上に複数のPCIeフラッシュカードを持っているとき、これは理想的な構成であると述べた。これは、QPIを跨いで転送しなくても直接アダプタからプロセッサへの転送可能であることを意味する。「それは、PCIeフラッシュとQDRインターコネクトのバンド幅の面でバランスが取れています。」と彼は締めくくった。
Intelがこの構成に興味を持っている理由の一つは、どのようにシステムの使用率がLLNLの新しいデータ集約型コンピューティングモデルを中心に進化していくかを見注視していることである。Seagerが言ったように「目標とされた特定のアプリがありますが、私たちはまた、一度人々がこのアーキテクチャの違いを見始めると、彼らは、何が次世代アプリケーションのようなものになるか学ぶ私たちを助けるために、新しい利用モデルを考え出すでしょう。 」