世界のスーパーコンピュータとそれを動かす人々


11月 8, 2023

クラウドHPCを支えるAWSのシリコンイノベーション

HPCwire Japan

スポンサー記事

アマゾン ウェブ サービス (AWS)では、利用者の多様な要求にこたえるため、さまざまな専用チップを開発しています。特にコンピュートサービスの中核である仮想サーバーのサービスであるAmazon Elastic Compute Cloud (Amazon EC2)を支えるAWS Nitro SystemとAWS Gravitonプロセッサを成果物として世に送り出しています。AWSの「シリコンイノベーション」が結実したAWS Nitro SystemとAWS Gravitonによって、Amazon EC2はさらなる進化を遂げています。今回、アマゾン ウェブ サービス ジャパン合同会社のシニアソリューションアーキテクトである宮本大輔さんにお話を伺いました。

 
  シニアソリューションアーキテクト 宮本大輔さん
   

ハイバーバイザーのオフロードによりクラウド基盤の高速化・効率化を実現

AWSでは用途に合わせてさまざまな専用チップ開発を独自に行っており、それらの「シリコンイノベーション」がAWSのサービス全体を支えています。AWSが自社で専用チップを開発している理由はいくつか存在します。大きな理由としては巨大かつ特殊な環境になっているAWSのデータセンターを自社のハードウェアで最適化していくことで、より高いパフォーマンスの安定したサービスをより安価に提供できることです。これはデータセンターにおいて必ず課題となる電力コストを下げることにもつながります。

また自社でチップ開発をすることで、顧客が必要としている機能を盛り込んだ新しいチップをいち早く投入できるようになり、製品の仕様化から導入までのプロセスをエンドツーエンド開発でスピードアップできるのです。更には、セキュリティを重視する顧客が望む高いレベルの要件に合った仮想化基盤を実現するため、信頼性・可用性・動作監視・自己回復の機能をチップレベルで実装してきました。

このような自社開発チップによる新たな価値を自社の顧客に継続して提供していくために、AWSはシリコンイノベーションに継続的に投資を行っています。

 

AWSのチップ開発の中核を担っているのは、Annapurna Labs(アンナプルナ・ラボ)という組織ですが、ここは元々プロセッサやデータセンター向けのI/O Accelerator Cardの開発等を行っているスタートアップ企業でした。その後2015年にAWSがAnnapurna Labsを買収、そして、その後の大きな成果である2017年のAmazon EC2 独自の仮想化基盤 AWS Nitro Systemの発表につながります。

AWS Nitro System 以前のAmazon EC2ではXen(ゼン)ベースの仮想化環境を採用していたのですが、ホストマシン上で仮想化を管理するためのソフトウェアが動作しており、貴重なホスト CPU のリソースが消費されてしまう、ネットワークやストレージの仮想化がソフトウェア処理されるためにレイテンシが大きくなりやすいといった問題がありました。

それらの問題を解決するために生まれたのがAWS Nitro Systemです。ネットワークやストレージの仮想化をAWS Nitro System上の専用ハードウェアにオフロードし、ホストと分離するようにしたのです。ホスト上では軽量のハイパーバイザーである Nitro Hypervisorが動作することで、仮想化によるホストへの影響を抑え、仮想化環境でもベアメタルとほぼ同等のパフォーマンスを発揮できるようになっています。豊富なハードウェアのバリエーションをサポートできるようになりました。また、更にレイテンシを低減するためにTCP/IPでは無い独自のプロトコルで通信を行うネットワークインターフェースである Elastic Fabric Adapter (EFA) によるノード間通信も、このAWS Nitro System によって実現されており、多くの HPC ユーザーが活用しています。

 

更に、AWS Nitro Systemは、2017年11月に発表されて以降、バージョンアップを続けており、2022年11月にはv5を発表しています。このv5ではv4と比較してパケット処理能力が60%向上し、レイテンシは30%減少、電力当たりの能力は40%改善し、1ネットワークインターフェースあたりの帯域幅は最大100Gbpsから最大200Gbpsに増強しました。

このように、Amazon EC2の「裏側」であるAWS Nitro System は、顧客の様々な要望に対応するため常に進化し続けています。

顧客の用途に合わせてカスタムプロセッサを開発

これまでご紹介してきたように、AWSではAnnapurna Labsと一体となり独自チップ開発を行ってきました。そこで培われてきた独自チップの経験をさらにカスタマーへ還元していくために、低消費電力かつ高コストパフォーンスなArm ベースのCPUを提供できないかと考え生まれたのが、AWS Gravitonプロセッサです。

第一世代のAWS Gravitonプロセッサは、AWS として初のArmコアを採用したCPUであり、2018年11月に提供が開始されました。第一世代のAWS Gravitonは16 物理コアのCPUでありArmのエコシステムの拡大に貢献しましたが、顧客からのより高いCPU性能を求める声を受け、2020年5月には、64物理コアを搭載したAWS Graviton2がリリースされました。Graviton2では、コア数の向上や、より幅広いサーバーワークロード向けに最適化されたNeoverse N1 というアーキテクチャの採用により、多くの顧客のワークロードで、移行元のx86系CPU利用時と比較して約40%コストパフォーマンスが向上したというフィードバックをいただきました。

続いて2021年には同じくNeoverse V1 コアを採用しScalable Vector Extension (SVE)にも対応したAWS Graviton3、2022年にはAWS Graviton3の浮動小数点演算性能を強化したAWS Graviton3Eが発表されました。このようなスピード感を持って新しいCPUを発表できるのは、クラウドプロバイダーであるAWSの強みとも言えます。

 

 

AWS としては、Arm エコシステムの拡大にも力を入れており、HPCだけではなく既にWeb系ワークロードはもちろん、データベースやビッグデータ、機械学習といった様々な分野でも活用いただいています。特に顧客が重要視する商用ソフトウェアのサポートにも注力しており、セキュリティやモニタリングといったソフトウェアに加え、Ansys 社や Siemens社 からも主力のCAEソフトウェアの Arm 対応を行っていただいています。また、特徴的であるのが、理化学研究所 計算科学研究センターの「バーチャル富岳」のプロジェクトでの利用です。富岳のCPUと同じArmベースのCPUであるAWS Gravitonを搭載したAWSの環境が「バーチャル富岳」プロジェクトの中で利用されることで、Arm エコシステムの強化に加え、産業界への富岳による成果の更なる展開につながるのではと期待しています。

目黒のAWSオフィスがあるビルにはAWSアカウントを持つ人が使えるシェアオフィスがあり、その一角にGravitonプロセッサが展示されていて見ることができる

 

AmazonのモットーはAtoZ

AWSは幅広い品揃えを持つECの仕組みである「Amazon.com」を支える仕組みを起源にしたクラウドサービスです。そのため企業ポリシーとして「幅広い品添え」を顧客のための重要な価値と考えており、AWSが現在提供しているインスタンスタイプ(仮想サーバのタイプ)の種類は600を超えていて、幅広い顧客のニーズを満たしていることもそれを象徴しています。

HPCに特化したものに限っても、AWS Graviton3Eを搭載しネットワーク帯域200Gbpsを持つHpc7g、に加え、AMD EPYC第3世代(Milan) を搭載しネットワーク帯域100 Gbpsを持つHpc6aやIntel Xeon 第3世代 (Icelake) を搭載しネットワーク帯域200 Gbpsを持つHpc6idを提供しており、更に2023年8月にはAMD EPYC第4世代 (Genoa) を搭載しネットワーク帯域 300Gbpsを持つHpc7aを提供開始しました。このように、AWSではArmを活用したラインナップだけでなく、IntelやAMDのCPUを搭載したインスタンスタイプについても、様々な顧客のニーズを満たすため継続的に新しいものを提供し続けています。

 

Amazonのロゴには矢印が書かれていますが、このロゴの矢印は「AからZ」を示しています。これは豊富な品揃えを意味しており、カスタマーが普遍的に望んでいる「豊富な品揃え」という価値を提供していくという考え方を示しており、それを使われる顧客、望まれる顧客がいる限り提供していくというのが基本的な考え方です。

多様なサービスにより「タイムツーソリューション」を短縮

AWSのHPCサービスで言えば、高速計算だけでなく、様々なカスタマーの声に基づいた豊富なサービスを提供することで、計算時間だけでなくデータ取得からエンドユーザーへの結果提供までの「タイムツーソリューション」を短くし、顧客のワークロード全体の効率化を目指しています。

メトロウェザー株式会社の事例では、約15km先までの風向や風速を測定する高性能な「ドップラー・ライダー」を活用した極めて狭い領域の気象(微気象)の予報提供サービスを開発する京都大学発のスタートアップです。同社では、計算環境にコストパフォーマンス良く演算処理を行えるAmazon EC2 Hpc6aインスタンスを採用しているだけではなく、クラスタの構築には AWS ParallelCluster、ドップラー・ライダーの管理にAWS IoT Core、ウェブフロントエンド設計には更にデータの格納のために用途に合わせてAurora Serverless v2やAmazon Simple Storage Service (Amazon S3)、Amazon ElastiCache といったサービスを使い分けています。これによって、ドップラー・ライダーからから得られたデータをHPC環境で解析し、ユーザーに情報を提供するまでの一連の「ソリューション」を構築いただいています。

また、大塚製薬株式会社の事例では、クライオ電子顕微鏡データの解析環境としてAWSをご活用いただき、AWS ParallelClusterによるCPU/GPUの使い分けや、大容量データ保管のための Amazon S3、高速処理のための Amazon FSx for Lustre といったサービスを組み合わせて「ソリューション」を構築いただいています。特にAWS ParallelClusterでは、必要なクラスタをすぐに用意できるため、研究者からの要望に迅速に対応しやすくなったとのことで、より広い観点での「タイムツーソリューション」短縮に貢献できていると考えています。

このように、AWS では、CPUのバリエーションや多様なサービスを提供することで、多くのカスタマーで既存のクラスタの置き換えだけではない、課題解決のための基盤として、業務の効率化のために活用いただいています。

オフィス内の会議室があるフロアにはamazon全体のミッションである「地球上でもっともお客様を大切にする企業であること」という言葉が掲げられている

 

 

まとめ

AWS は独自の半導体開発に継続的な投資を行っており、それによってAmazon EC2 は発展し続けています。2017年月に発表したAWS Nitro Systemは2022年には Nitro v5、2018年に発表したAWS Gravitonプロセッサは、その後Graviton2、Graviton3、Graviton3Eと常に顧客の要望に応えるため進化を続けています。

AWS Nitro SystemとAWS Gravitonなどの独自の半導体開発は、幅広い顧客のワークロードの改善を加速し続けます。特にHPCは恩恵を受けている領域であり、以前は困難だった規模の処理が実現可能になるだけでなく、様々なサービスを組み合わせ、クラウドの利点を取り入れることでより効率的な環境の構築につながっています。AWSでは、このようなカスタマーの業務効率改善に加え、独自半導体開発も含めた総合的なデータセンターの高コスト効率・高消費電力効率に取り組むことで、顧客とともに社会全体の持続可能な成長を支援しています。

参考URL: AWSのHPC:https://aws.amazon.com/jp/hpc/

日本の大学と研究機関のためのAWS:https://aws.amazon.com/jp/government-education/worldwide/japan/UR-Industry-Site/

問い合わせ先:aws-jp-hpc@amazon.com