世界のスーパーコンピュータとそれを動かす人々


12月 28, 2020

AWS,2021年に登場するGaudiベースのEC2インスタンスを明らかに

HPCwire Japan

Todd R. Weiss

Amazon Web Servicesは、機械学習ワークロードのためのAmazon EC2インスタンスへの強力なHabana Gaudi AIハードウェアの実装から、クラウドトレーニングコストを削減するために構築されたカスタム設計のAWS Trainium MLトレーニングチップまで、2021年に顧客向けに幅広い新サービスや強化サービスを提供する。

新製品の発表は12月1日、AWS CEOのAndy Jassyによって行われた。同氏は、COVID-19パンデミックの影響で史上初となるシアトルからのバーチャルキーノートで、同社の第9回年次教育・学習カンファレンス「re:Invent」を開催した。

また、2021年には、Graviton2を搭載した新しいAWSインスタンス、新しいAWS GP3汎用データストレージボリューム、オンプレミスのECS Anywhere (Elastic Container Service)とEKS Anywhere (Elastic Kubernetes Service)の提供も予定されており、顧客は初めて自社のデータセンター内でAmazonのサービスを実行することが可能となる。その他の製品やサービスのアップデートとして、AWS Aurora Serverless v.2の導入、新しいLambda Containers Supportなどが予定されている。

 
  Gaudiプロセッサの高レベルアーキテクチャ
   

Habana Gaudiベースの新しいAmazon EC2インスタンスは、2019年にHabana Labsを20億ドルで買収したAWSとIntelの提携により、2021年前半に提供されるとJassyは述べている。AWSによると、Gaudiアクセラレータは、現在の最高性能のGPUインスタンスよりも40パーセント高い価格性能を約束しているという。

「それは、TensorFlowだけでなく、主要な機械学習フレームワークであるPyTorchのすべてと連携して動作します」とJassyは述べ、同社が価格性能の限界と機械学習トレーニングの進歩をプッシュし続けるのに役立つだろうと述べている。Gaudiのアクセラレータは、自然言語処理、物体検出、機械学習トレーニング、分類、レコメンデーション、パーソナライゼーションを含むワークロードのためのディープラーニングモデルをトレーニングするために設計されている

Intelによると、最大8つのHabana Gaudiアクセラレータは、各EC2 MLインスタンスに電力を供給し、完全装備のインスタンスは、TensorFlow上でResNet-50モデルをトレーニングするために、毎秒約12,000の画像処理をすることができるという。GaudiベースのEC2インスタンスは、顧客にパフォーマンスの向上とコスト効率の向上を提供するように設計されており、開発者は、グラフィックス処理装置からGaudiアクセラレータに既存のトレーニングモデルを新たに構築したり、移植したりすることができる。

各Gaudiチップは32GBpのHBM2メモリを搭載し、標準的な100 Gigabit Ethernetを10ポート実装している。イーサネットと統合されたネイティブなRDMAは、サーバ内のチップを接続し、複数のGaudiサーバをAWS Elastic Fabric Adapter (EFA)技術を使用してクラスタ化することで、スケーラブルな分散トレーニングを可能にする。

現世代のGaudiチップはTSMCの16nmプロセスで製造されているが、Habanaは、後続のGaudi2にTSMCの7nmを使用する計画だ。IntelのHabana Labsは、Goyaと呼ばれる推論に特化したチップも製造している。

AWSTrainiumチップ

Jassyによると、同社の全く新しいAWS Trainiumチップは、AWSがカスタム設計した機械学習チップで、クラウド上で最も費用対効果の高いトレーニングを提供することができるという。

AWSによると、Trainiumは、クラウド上のMLに対して最もテラフロップス(TFLOPS)の計算能力を持つ最高のパフォーマンスを提供すると同時に、より広範なMLアプリケーションのセットを可能にするという。Trainiumチップは、画像分類、セマンティック検索、翻訳、音声認識、自然言語処理、レコメンデーションエンジンなどのアプリケーション向けのディープラーニングのトレーニングワークロードに最適化されている。

「TrainiumはHabanaチップよりもさらに費用対効果が高く、TensorFlow、PyTorch、Apache MXnetなどの主要なフレームワークをすべてサポートするでしょう 」と彼は述べた。「Inferentiaの顧客が使用しているのと同じAWS Neuron SDKを使うことになります。Inferentiaを推論に使用している場合は、機械学習チップTrainiumも簡単に利用できるようになります。2021年後半にはEC2インスタンスとしてもAWS Sagemaker MLサービスとしても利用できるようになるでしょう。」

Moor Insights and StrategyのシニアアナリストであるKarl Freundは、Trainiumを、2018年に明らかにされ、昨年デプロイされたAWSの推論チップ「Inferentiaにふさわしいブックエンド」と呼んでいる

「Trainium、Gaudi、NvidiaGPUのサポートは賢明な動きです」FreundはForbesの記事で、「顧客の特定のニーズを満たすために様々な技術を提供するというAWSの戦略と一致しています」と述べている。

新しいGraviton2のインスタンス

 
   

AAWSは計算量の多いワークロードとネットワーク量の多いワークロードのために設計されており、AmazonのArmベースのGraviton2チップを搭載した新しいC6gnインスタンスも数週間以内に発表される予定だ。新しいインスタンスには100ギガビット/秒のパフォーマンス機能が搭載される予定で、高速化を図りながら顧客のコストを削減することを約束するとJassyは述べている。

また、AWS Elastic Block Store(EBS)向けの新しい汎用AWS GP3(General Purpose)ボリュームもまもなく登場する。GP3ボリュームは、2014年に導入された前世代のGP2ボリュームを進化させたものである。

「ここ1、2年の間に顧客から得たフィードバックは、GP2が大好きであるというものですが、ウィッシュリストがあるとすれば、1ギガバイトあたりのコストを下げることと、ストレージを拡張しなくてもスループットやIOPSを拡張できることなどが挙げられます」とJassyは述べている。

Jassy によると、AWSチームはこれらのリクエストに取り組み、ストレージとは別にIOPSとスループットをプロビジョニングできるようになり、1ギガバイトあたりのコストを20%削減した新しいGP3ボリュームを実現した。

「GP3ボリュームを実行した場合のベースラインのパフォーマンスは3,000 IOPSと125メガバイト/秒ですが、これをバーストさせて、ピーク時には1,000メガバイト/秒までスケールアップすることができ、これはGP2の4倍です。これはGP2の4倍に相当します。そして、顧客はGP2で実行していたよりも多くの要求の高いワークロードをGP3で実行できるようになることがわかるでしょう。」

ECSAnywhereおよびEKSAnywhere

AWSは数年前からマネージドのElastic Container Service(ECS)およびElastic Kubernetes Service(EKS)のサービスを顧客に提供しており、10万人以上のアクティブなECSの顧客がAWS上で毎週何十億時間もの計算時間をEKSに費やして利用しているとJassyは述べている。Amazon ECSはフルマネージドのコンテナオーケストレーションサービスであるのに対し、Amazon EKSはAWSクラウド上でKubernetesアプリケーションを起動、実行、スケーリングできるマネージド環境をユーザーに提供する。しかし、一部の顧客は、既存のECSやEKSサービスではできなかったこれらのワークロードをオンプレミスで実行したいと考えている、とJassyは付け加えた。

このような要望が多くの顧客によって繰り返されたため、新しいオンプレミスのAmazon ECS AnywhereとEKS Anywhereの提供が可能になり、顧客が望んでいたオプションを提供できるようになった、とJassyは述べている。

「ECS Anywhereを使用すると、クラウドと同じAWSスタイルのAPIやクラスタ構成管理をオンプレミスで行うことができるので、簡単に利用できます」と彼は言う。「それは、オンプレミスのすべてのインフラストラクチャで動作します。」

その結果、一部の EKS の顧客が同じ機能を欲しがるようになり、EKS の顧客が自分のデータセンターでサービスを実行できるようにする Kubernetesユーザー向けのEKS Anywhereが誕生した、とJassyは述べている。

EKSの顧客の中には2021年からのサービスにとても興味を持つ人もいたため、AWSは現在、EKS Kubernetesのディストリビューションをオープンソース化して、顧客が今すぐにでも使い始められるようにしている、とJassyは付け加えた。「それは、私たちがEKSで行っていることと全く同じです。すべて同じパッチとアップデートを作成するので、EKS Anywhereの準備をしている間に実際に移行を開始することができるのです。」

GartnerのアナリストであるArun Chandrasekaranは、大多数のクライアントがハイブリッドクラウドの導入を通じてサービスを利用し続ける一方で、新サービスは柔軟性を提供していると述べている。

「ECS AnywhereおよびEKS Anywhere製品は、オンプレミスとAWSパブリッククラウド全体で一貫した方法でアプリケーションコンテナを実行するというハイブリッドクラウドの選択肢を顧客に提供します。ECSがハイブリッド環境全体でよりシンプルな運用を提供する一方で、EKSの提供はKubernetesを顧客のデータセンターにまで拡張します。」