世界のスーパーコンピュータとそれを動かす人々


7月 1, 2015

2015年、生命科学研究者の25%にHPCが必要

HPCwire Japan

John Russell

生命科学の研究は、長い間計算集約型であり、伝統的なワークステーションとクラスターによって、必要が満たされていた。しかし、状況が変わっている。BioTeamコンサルタント会社政府サービス部門GMのAri Berman氏によると、「ベンチ・レベル(訳注:既存のワークベンチを使う比較的初心者を指すと思われる)と少数のコマンド・ライン経験者を合わせて、2015年に生命科学者の25%がHPC能力を必要とするでしょう。」

予想通り、DNA配列データの洪水は、主要な要因である。NIH内部だけで、毎月1.5P Bのデータが生成され、その量にはNIHが資金を提供する外部の研究が含まれていない。Berman氏によると、「生命科学の分野で100Gbpsのネットワークが必要になるかもしれない、最初の本当のケースかもしれません。」

しかし、成長するデータの洪水と計算複雑さの要因には、他の大規模で複雑なもの、例えば、プロテオーム(訳注:ある生物学的系において存在するタンパク質総体)・データ、タンパク質構造データ、細胞および細胞内小器官画像データ、代謝経路モデリング・データなどが含まれる。

「研究室の基盤が、再設計され、改善され、リフレッシュされる割合に、革命が起きています。計測とプロトコルは、研究のための情報技術と科学計算について、私たちが基盤を更新できるよりも速く、変化しています。」と、2015年春のHPCユーザーフォーラムでBerman氏は語った。

「情報技術基盤が2から7年間をかけて変わるのに対して、ベンチ科学は毎月変わっています。ちょうど今、情報技術は、生命科学者の会話に追いつこうと、走っています。」

大規模なテキストファイルとバイナリーファイルから成る様々なデータ型、600GBを超えるものから多数の30KB以下のものに渡るファイルサイズの多様性、およびアプリケーション・ワークロードの多様性を与えられて、HPC能力を構築するための最良のアプローチは、単純に一般的な性能を追求するのではなく、特定の事例に集中することであると、Berman氏は語った。

Berman氏によると、現在の大規模環境には、次のものが含まれる。

  • IOあるいはRAMによって性能が決まる、多くはスレッド並列化されたアプリケーション
  • 数百のアプリケーションとツール
  • 1TBから2TBの「ハイ・メモリー」アプリケーション、例えば、大規模グラフィックス、ゲノム・アセンブリ
  • 多くのPerl / Python / R
  • 少数のMPIアプリケーション (よくできているものはまれ)
  • 高価だが低遅延の相互接続を必要とするMPIアプリケーションは、化学、モデリング、構造分野にはあるが、それ以外の分野ではまれである。

Berman氏によると、新しいあるいは更新されたHPCシステムは、多くの場合均一(ホモジニアス)ではない。現在の多くのクラスターは、単一のHPCスタックによって構成されている。新しいクラスターは、既知の事例に基づいて、「混合と適応(mix-and-match)」アプローチによる: 多くのCPUコアから成る「fat」ノード;超高速CPUから成る「thin」ノード;1TBから3TBの大規模メモリー・ノード;計算と可視化のためのGPUノード;コプロセッサー・ノード (Xeon Phi, FPGA);「ビッグ・データ」タスクを分析するための、SSD、FusionIO、あるいは大規模ローカル・ディスクを持つ解析ノード

Berman氏によると、現在、ストレージとネットワークの管理は、最大の頭痛の元かつボトルネックである。ソフトウェア・スタックも、そのように見える。分散資源管理について、SGE/OGSが広く使われているが、Univaとその豊富な将来の機能が急速に伸びるだろう。

2015年に求められる機能は、次のようになる:資源のマッピング(cgroup);GPUのCPUへのマッピング;コアに基づくスケジューリング;高機能のリソース管理;スレッド、メモリー、アクセラレーターが混在する環境;混合環境のメタ・スケジューリング;アプリケーションを意識するスケジューリング;

ビッグ・データ分析フレームワークのためのBerman氏のリストにも興味をそそられる。

  • Hadoop : 適応と進歩が遅く、インスタンスに適さず、コア・ストレージの時代のようだ
  • Databaseスタック:MySQLの人気が続いているが、Oracleもある
  • mongoDBを利用する上級者も増えている
  • Neo4jは話を聞いても見かけない

Berman氏は、今後、いわゆる科学DMZ (訳注:政治用語の非武装地域から派生して、The Internetから分離された安全な、あるいはセキュリティー実験用のネットワークを指す)が重要になると強調した。「科学DMZは、機器、構成、およびセキュリティー・ポリシーからなる、キャンパスや研究室のLANの境界またはその近くで構築された、ネットワークの一部分です。一般的なビジネス・ネットワークやDOEのESnetが開発した「エンタープライズ」ネットワークとは異なり、高性能科学アプリケーションに最適化されています。」

約24分間に渡るBerman氏のプレゼンテーションは、次で見られる。https://www.youtube.com/watch?v=CsZShTd1gwQ