世界のスーパーコンピュータとそれを動かす人々


2月 23, 2015

ビッグデータとHPCのワークロードをどこででも実行させる

HPCwire Japan

Tryggvi Lárusson, CTO & Co-founder, GreenQloud

ソフトウェア開発における古典的な問題はいかにソフトウェア・アプリケーションの依存関係を管理するかだ。この問題はアプリケーションをプログラミングする時から、実行もしくは展開する時まで常につきまとってくる。一般的なアプリケーションはほとんど常にライブラリ、コンパイラもしくはOSレベルのパッケージ管理システムの特定のバージョンに依存している。

ビッグデータやHPCワークロードを展開する機関は、一旦設計開発されたら、手動での調整やインストールのステップを必要とせずに、どこででも、どのスケールでも、そしてどの技術の上にも展開できるようなソリューションを探している

異なる実装と環境(金融、官公庁およびヘルスケア部門のような)にまたがって広がって混成する厳しく規制されたデータセットを操作するには、アプリケーションはパブリックまたはプライベートクラウドの特定のインフラや技術独立しており、そして両方を利用できる必要がある。

データ処理ワークロードは豊富で安価なパブリック演算リソースからメリット得るが、HPCプロジェクトはより一般的に、ローカルでプライベートなインフラに分離する操作を必要とする規制をナビゲートする必要がある。

市場における最大のクラウド事業者の地理的位置の状況を示すと、その位置の数がとても多いことを認識することができる。これは、一握りの場所から出たり入ったりするクラウドのインターネットのトラフィックの大部分が、ほとんどすべてが世界の西側の国に集中していることを意味している。

しかし、モノのインターネットはますますモバイル、場所に依存しない技術の向上を前倒しにしており、その利点が最も顕著に実現することが可能な場所で迅速な採用を見ている:ICTの従来の良く確立されたインフラを欠いている地域や国だ。言い換えると、非西欧諸国だ。

最近では、クラウドの採用はパブリックおよびプライベート・クラウドの展開モデルに焦点を当てており、現在受け入れらているクラウド・コンピューティングの主流のフォームに基づいている。しかし、このプロセスの次の段階は、ハイブリッド・クラウドのパラダイムであり、我々が慣れているパブリックやプライベート・クラウドの展開というもっと集中化した形式よりもアプリケーションをさらに広い領域に分散化させる必要性である。このクラウドの新しいパラダイムでは、DockerやCoreOSのようなコンテナを構築する技術の助けを借りて、普通のホワイトボックスのLinuxマシンのように簡単にクラウドのインフラを準備したりセットアップできるようになる。

この種の分散アプローチは新しいものではない。SETI(地球外知的生命体探査プロジェクト)は1980年代に大量のデータセットを集めて開始されたが、それを処理するためのリソースと技術がなかった。そのため、1990年代にかれらはアプリケーションを開発し、誰もが自由にダウンロード可能で、ユーザのプライベートな「インフラ」(デスクトップコンピュータの使われていない演算力)をプロジェクトのためのデータ処理ノードとして利用したのだ。

もちろん技術はそのから長い道のりを歩んできた。

CoreOSとDockerはこの種の分散化された相互運用可能なハイブリッドアーキテクチャを実装するのにおいて完璧な仲間だ。Hadoopは、展開を容易にし、インストールを自動化するために、このようなシステムにコンテナ化することができるソリューションの一例だ。コンテナは、仮想マシンをHPCには不向きなソリューションにするオーバーヘッドを減少させる能力を持っている。CoreODの簡略化されたアーキテクチャとDockerコンテナの構造が、Hadoopの分散ファイルシステムであるHDFSのように基礎となる分散ストレージソリューションを使って、良くチューニングされたアプリケーションの配信システムの中で互いに完成させるのだ。

コンテナ化のコア技術に加えて、大きな期待を示し、分散ソリューションと非常によく連携するエキサイティングなプロジェクトがある。KubernetesはLinuxコンテナのクラスタを単一のシステムとして管理する能力を持っており、Apache Mesosは、耐故障性のある伸縮自在の分散システムを構築するために演算リソースを抽出するための分散カーネルを提供する。

少ないオーバーヘッド、ベアメタルプロビジョニングへのアクセス、そして分散型でスケーラブルな環境でアプリケーションを補完するための技術の完全なセットを使って、次世代のハイブリッドクラウドは、リソースの効率を重要なメリットとして見つつ、HPCに必要な環境となるだろう。

これらのプロジェクトはまだ本当に若いものであるが、非常にシンプルかつエレガントな方法でこれを実現することができるという、驚異的な確約を示している。これらはプライベートでもパブリック・クラウドでも動作することができ、性能と効率の両方を最大化するようにスケールすることが可能だ。

この傾向は、ビッグデータやHPCアプリケーションのような異なる種類のITワークロードを次世代分散クラウドアーキテクチャに向けて統合することを推進している。最後に、この技術がもたらす最終結果は、広大でグローバルな相互接続された「クラウドのクラウド」であり、コンテナ化を活かしたアプリケーションをシームレスにそしてグローバルに展開する能力だ。

オープンソースの世界から認められ、主に研究環境で開発(利用)された – UNIX/Linuxの歴史の始まりとは違って – これらの新しい技術は、はるかに平らなグラウンドと公開市場を可能にしている。標準化されたコモディティなソフトウェアのコンポーネントへの簡単なアクセスは、普通のホワイトボックスLinuxマシンのようにクラウドのインフラを簡単にセットアップできるようにしている。

さらに、これらの技術が産業界でコモディティ化および標準化されているために、HPCやビッグデータ
アプリケーションは、ボタンひとつをクリックするかもしくは、仮想マシンからベアメタル、プライベートからパブリッククラウドもしくは特定のローカルクラスタまでの幅広く様々なインフラにおける単純なコマンドで展開が可能となるだろう。HPC開発者や事業者はどんな規模でも – 利用できるリソースの効率を最大化させる – 実行することができるコンテナ化され、パッケージ化されたアプリケーションを作る事が可能となる。

Tryggvi Lárusson、共同創業者兼最高技術責任者について

Tryggviは、ハードウェアと仮想化環境のためのストレージおよびネットワークシステムに特化した、エンタープライズWebアプリケーションのアーキテクチャの専門家である。GreenQloudで彼は、クラウド·アプリケーションの開発やシステム運用の集約にフォーカスしている。GreenQloudを創設する前は、Tryggviは電子政府用のWebソリューションを提供するIdega Softwareの共同創業者、最高技術責任者および会長であった。彼は分散システムのソフトウェア工学をスウェーデン王立工科大学で学び、コンピュータおよび電気工学をアイスランド大学で学んだ。