世界のスーパーコンピュータとそれを動かす人々


10月 18, 2013

小規模TACCクラスタ、IOPSの上限を粉砕

HPCwire Japan

Nicole Hemsoth

Texas Advanced Computing Center (TACC) は、ハイブリッドシステムStampedeをはじめ、これまで興味深いシステムを構築してきた。そして2015年に初めには、TACCはオープンな科学コミュニティにおけるデータ集約処理のニーズに答えるデータ分析・管理用クラスタ「Wrangler」により、注目すべき新たな根拠地になっている事だろう。

「Ranger」システムが引退した後でもまだ空いている「Stampede」システムの横のスペースに、新しいNSFサポートの「ビッグデータ」推進システムとして、TACCとそのコミュニティ向けにHadoopが動くDellの120ノードクラスターが設置される。しかし、話はそれだけではない。DSSD(まだ秘密部分が多い)により提供される高性能が予測されるNANDフラッシュメモリが設置されるという話だ。

新システムの主任研究者の一人であるChris Jordan氏によると、その高性能NAND層は毎秒1テラバイトのバンド幅と2.75億IOPSを提供するように設計されているという。

驚くべきストレージ性能はDSSDが提供する技術が鍵である。Sunの共同創業者であるAndy Bechtolsheim氏の仕事をフォローしていない限り、DSSDという名前は聞いたことがないであろう。彼が立ち上げたDSSDは、まだ販売顧客や明確な商品を持っていないが、既に3年以上開発作業を続けており、数件の特許を所有している。どうしてNANDフラッシュシステムを導入したかの問いに、Jordan氏はTACCでの彼らの仕事は新規技術に注目する事であり、先端技術の販売を目指すBechtolsheim氏や他の会社とは常に関係を保っていると答えた。

問題となるDSSDの特許(三つはある)の最も有望だと思われるひとつ(ここでの注意は、TACCのChris Jordan氏は何も語らず、以下は我々の推測だと言う事です。)は、2012年にWilliam H. Moore、Jeffrey S. Bonwickの両氏により開発されDSSDから出願された記憶装置に関する「読み込み遅延時間の保証」であろう。彼らの記述以下のようになっている。「永続記憶装置に対するデータの書き込み方法。その方法は;
1)NANDダイを含む永続記憶装置に対する最初のデータの書き込みリクエストを受信すると、最初のコピーを書き込む最初のNANDダイと二番目のコピーを書き込む二番目のNANDダイを決定する。
2)最初のNANDダイに最初のコピーを書き込む二番目のリクエストと、二番目のNANDダイに二番目のコピーを書き込む三番目のリクエストを生成し、最初のNANDダイと二番目のNANDダイがビジーで無くなるのを待つ。
3)最初のNANDダイと二番目のNANDダイがビジーで無くなったら、二番目のリクエストを最初のNANDダイに発行し、その二番目のリクエストが完了してから三番目のリクエストを二番目のNANDダイに発行する。」

ここでも我々は詳細な情報を何も得ることが出来なかったが、Jordan氏の述べた所によると、TACCが構成レベルでの”組込み処理”と称している計算環境は、多くの計算ノードとそれとは別の自らがサーバーを持ち高速なインターコネクトで結合されている記憶サブシステムとで構成される典型的なLinuxのクラスタとは異なっている。むしろ、このケースでは記憶域はノード近くにあり、利用者はデータを得るために中間サーバーを介する必要が無い。これにより利用者とデータの間のホップ数が少なくなり、Stampedeの様な強力なマシンよりも高性能で低遅延のデータアクセスが可能となるとの事であった。

Jordan氏はさらに次のように語った。「このプロジェクトでは、DellとDSSDは別々のパートナーだった。NANDコンポーネントはハードウェア上の意思決定の際の唯一の要因ではなかったが、システムコンセプトの初期段階では非常に刺激的な部分だった。」また彼はこのDellシステムには特殊な部品や特注のコンポーネントが存在しない事、さらに期待された結果を達成するために両社が非常に緊密に連携しあった事を指摘した。

「Wrangler」システムはNSFから600万ドルの助成を受けるシステムであろう。おそらくそれは120ノードシステムと人的サポート経費(別枠の600万ドルの助成があるだろう)と推測される。そうであれば、相当の金額がこのNAND記憶装置に割り振られるだろう。

華やかなこれらの話題の他に、注目すべきいくつかの点がある。まず、システムはノードあたり32Haswellコアによって構成される。まだ検証されたHaswellの性能データは存在しないが、ビッグデータ分析ソフトウェアのXSEDEやその他の科学コミュニティのソフトウェアにおけるHaswellの性能に注目しておこう。さらに、予想されるデータ量の多いワークロードのサポートの為に、以下の注目すべき決定がなされている。コア当たり4GBのRAM (標準では2GB)とし、ノードあたり128GBのメモリを搭載し、メモリサブシステム全体で記憶域アクセスの高速化を計った。また、「Wrangler」にはそれぞれ40本のGbEとInfiniBandが接続される。

さらに、これは主要な研究機関によるHadoopやMapReduceの領域への進出の一つである。 TACCはHadoopクラスタを初めて設置するわけではないが、Jordan氏によると、このクラスタはおそらくノードのおよびサポート要員の追加により大きく成長して事になるだろう。Jordan氏は、「しばらくはネイティブのApache Hadoopの実装を使用するが、商用ディストリビューション(例えばCloudera、MapR、Hortworksような企業が提供している)のいずれかの使用を排除はしていないと。」私たちに語っ た。

Hadoopの記憶域と処理の環境について、Jordan氏は設計上の選択に二つの大きな動機があったと述べている。まず彼が指摘するのは、HadoopやMapReduceのようなデータ分析アプリケーションに対するニーズの増加である。しかし、それだけではなく基本的なデータベースアプリケーションや統計処理、データマイニングツールのホストとしての役割である。「従来のクラスタ環境はそれらのもの全てを行うことができますが、それははるかに最適解からは遠いものです。」と彼は述べている。

さらに彼は、これらのコミュニティや大規模なプロジェクトで使用されているデータに対する、収集・共有さらに分析の持続的サービスの成長を指摘している。そしてこれらを、クラウドベースの利用者に提供し利用可能にする必要がある。「WebユーザとWebベースのサービスは、過去には見られなかった程、研究の基本的な部分になってきている。」とも彼は述べている。さらに、XSEDEや他のプロジェクト、例えばiPlantの様な特定領域プロジェクトにおいて、ユーザがデータをアップロードして、共有し分析する、あるいはカスタムアプリケーションを実行するための独自のVMを構築できるようなWebサイエンスアプリケーションとして機能していることを、彼は強調した。
これまで述べたシステムに加えて、さらに二つの10PBディスクスステムが設置される予定だ。ひとつはTACCにもうひとつはIndiana Universityに設置される同一の複製用大容量ストレージである。

今年のデンバーSC13で、我々はTACCから、うまくいけばDSSDからもっと情報を得られるだろう。

編集者注;

この記事の以前のバージョンでは、我々はData Direct Networksの表明するBlue WatersのIOPS数値とTACCシステムのIOPS数値を参照して比較した。しかしこれらはストレージ・サブシステムに関連してはいたが、比較のための有効な参照ではなかった。以下はNCSAからのノートである。

記事「小さなTACCのクラスタがIOPSの天井を打ち砕く」はNSCAのBlue Watersシステムに関する誤った情報が含まれている。

  • Blue Watersはユーザがアクセス可能なフラッシュストレージは持っていない。しかしBlue Watersは26PBの容量と1TB/sを超える性能を持つSonexionストレージユニットから構成されたオンラインディスクサブシステムを所有している。
  • Blue Watersはさらに300PB+が利用可能なニアライン•テープ•サブシステムを所有している。
  • 記事に記載されている140万IOPSという値は、単一DDN SFA12Kストレージユニットのベンダーが引用したピーク性能であり、それはニアラインテープ•サブシステムのデータアクセスを高速化するための単一のコン ポーネントの数値に過ぎず、Blue Watersの全体性能を反映していない。
  • Blue Watersは既にインストールされ、完全にサービスを提供している。その一方でWranglerは2015年にインストールされる予定である。議論されている技術の時間差は、約5年もある。
  • HPCwireはオリジナルバージョンの記事に誤った情報を載せた事を陳謝する。