日本のエクストリームスケールコンピューティングのエキスパートがビッグデータを語る
Nages Sieslack

International Supercomputing Conference (ISC’14)は日本を先導するHPCエキスパートの一人である東京工業大学の松岡聡教授を基調講演に招待していた。タイトルは「If You Can’t Beat Them, Lead Them – Convergence of Supercomputing and Next Generation ‘Extreme’ Big Data」
この6月24日火曜日の刺激的な話の中で、松岡教授はスーパーコンピュータのアーキテクチャがビッグデータに収束し、産業にとって重大な技術的な役割を果たすと信ずる理由を話している。彼の主張は、JST-CRESTの「エクストリームビッグデータ」プロジェクトを含む数々の最近の日本の研究プロジェクトを例に挙げて説明する。これらのプロジェクトに関して理解を深め、エクストリームスケールコンピューティングの大きな範囲のどこに収まるのか理解するために、松岡教授と話をした。
「データ」と「ビッグデータ」との間には区別がありますか?
松岡聡:もちろん。実際に、私は3つの異なるドメインとして「単純なデータ」、「ビッグデータ」、そして「エクストリーム・ビッグデータ」に分類しています。
「ビッグデータ」とは2つの本質的な特徴を意味しています。ひとつは意味論的な観点からで、公平な方法で収集された大規模なデータセットです。そして、その中から意味のある相関情報を抽出するために、データマイニング、ディープラーニング、グラフ解析などの様々な手法を利用します。もうひとつはシステムの観点からで、データ量、帯域など通常のマシンで従来のデータベース用に調整されていても処理するには大きすぎるものです。システムコンポーネントであるハードウェア、ソフトウェア両方において、増加する処理レベルをサポートするための拡張が必要です。スーパーコンピューティングが普通の計算であるように、この意味で、ビッグデータの「スーパーデータ処理」は普通のデータ処理となります。
エクストリームビッグデータによって、データ量だけでなく、計算ニーズがとても大きくなり、従来のビッグデータ処理アーキテクチャの単純な拡張はもはや実現不可能で、スーパーコンピューティング技術とプラットフォームの収束が必要となることを意味しています。
どのようにビッグデータはHPC領域に関連していて、どのように用語が進化してきたのでしょうか?「データ集約型コンピューティング」と呼ぶものと何か違うのでしょうか?
松岡:いくつかの意味においては、HPCはデータ集約型コンピューティングの時代からビッグデータの先駆者でした。遡ること20年前に、当時一般の人はギガバイトの時代であった時に、気象コードを実行している研究者達はテラバイトのデータと闘い始めていました。
すべての意味において、現在ビッグデータがカバーする一般的な領域は非常に広範囲になっています。また、ゲノミクスのような新しいアプリケーション領域の出現によって、HPCのデータ集約型コンピューティングは独自のカバレッジが拡大しているように広がっているのです。
ビッグデータとHPC間の収束がどのように起こるか想像していますか?
松岡:現在のビッグデータのトレンドでユニークなのは、ディープラーニングやグラフ分析のような、様々なデータ解析アルゴリズムにおけるストレスです。これは、データ容量や帯域の大規模な増加の必要性のような、HPCハードウェアとソフトウェアスタックに対して変化を要求している様々な要素と連結しています。対照的に、従来のHPCは高帯域、低メモリ容量に向かう傾向があります。
しかし、HPCはまたメモリ容量の不足に苦しんでいるので、ハードウェアレベルの収束は主に容量を考慮した深いメモリ階層構造の設計分野となります。これは新しいメモリ技術を使ったノード内のメモリの深さと、関連するプロセッサアーキテクチャの両方に適用されます。同様に、高帯域および低レイテンシをサポートする光の広範な利用を必要とするノード間のメモリ幅もです。
データ側からのニーズは、いわゆる「broken silos」と呼ばれるもので動かされています。複数の機関や専門分野だけでなくインターネットの増大に渡って保管されるデータは、データ容量と単純に爆発する相互相関による計算を引き起こします。私たちは現在、ゲノミクスのビッグデータアプリケーションを持っており、京コンピュータのほとんどである、大量の1ペタバイトのメモリと660,000コアを使用します。これは大手ITコンサルティング会社の予想によると、すでにAmazonの全容量の約1/5から1/7です。比較としてGoogleの極小となる数字である、1億コアを必要とするビッグデータアプリケーションを持つであろうエクサスケールの時代を考えなくてはなりません。
現在 企業ではビッグデータに関して独自アプリケーションでの事例がありますが、おそらくビッグデータという言葉の意味は彼ら独自の理解によるものです。このことを考えると、HPCとビッグデータの収束はこれらユーザにどのような影響を及ぼすでしょうか?
松岡:業界でも、HPCを採用しているが、メインストリーム•コンピューティングからそれらのアプリケーションが異なったと考えています。彼らのコンバージェンス企業とHPCによりユーザーはより良い組み合わせた技術を活用し、また、データ分析に大規模な計算を結ぶ新たなアプリケーションの出現を可能にする方法を学習します。我々はすでにそのようなゲノミクスおよび設計エンジニアリングなどの分野で、今の例を参照してください。
ビッグデータ技術の進展とHPCとの収束を推進する上での日本の役割について説明して頂けますか?
松岡:日本では、 HPC 、ビッグデータの両方が、研究だけでなく、業界のための課題として優先度が高いのです。それは我々が両方の包みをプッシュするような同じビジョンを持って、世界の他の地域と連携することが賢明です。エクサスケールに向けた日本の提案のHPCプロジェクトは、可能性が高いだけでなく、エクストリーム・ビッグデータに重点を増加していくことになるでしょう。