FPGAベースのゲノム・プロセッサをストレージにバンドル
George Leopold

バイオプロセッサー開発者であるEdico Genomeは、ストレージの専門家であるDell EMCと協力して、遺伝子シーケンシングデータを解析するためのコンピューティングとストレージをバンドルしている。
このプラットフォームはFPGAをハードウェア・アクセラレータとして利用するEdico Genome社のDRAGENプロセッサをベースとすると、同社は述べている。このプロセッサは、ゲノムデータの保管のためのDell EMCのIsilonネットワーク接続型ストレージと共に、驚異的なゲノム解析のためにDell 4130サーバに組み込まれる。
このバンドルは、わずか22分で全ゲノム解析を可能にするとされている。現在、標準ソフトウェアでは完全なゲノム解析を完了するには丸一日必要とする。急速ゲノム解析用のアプリケーションには、新薬開発者と研究者により高速な結果を与えながら、がん患者や重篤な新生児のより高速な診断などが含まれている、と同社は述べている。
DellサーバとIsilonストレージと共に、このFPGAベースのプラットフォームはストレージの巨人であるVirtustreamのストレージ・クラウドと結合されている。このゲノム・プラットフォームもまたサードパーティーのクラウド・プロバイダーをサポートしているのだ。
DRAGENプロセッサは、ゲノムのパイプライン・アルゴリズムのハードウェアでの高速化を提供するためにFPGAを採用している。ハードウェアベースのアルゴリズムは、マッピング、アラインメント、およびゲノムデータのソーティングに利用されている、とサンディエゴ・ベースのEdico Genome社は述べている。
Dynamic Read Analysis for Genomicsの略であるDRAGENは、構成可能な「バイオIT」プロセッサ・アーキテクチャをベースとしている。このフレキシブルなプラットフォームは、カスタム・アルゴリズムの開発だけでなく、既存のアルゴリズム・パイプラインの精緻化も可能にしている。
このDRAGENエンジンは、ビッグデータ・ゲノミクス用の未対処のコンピューティングとストレージニーズに対処するものだと同社は指摘している。その結果、ゲノミクスアプリケーションで使用される二次解析のためのスケーラブルなプラットフォームと、激増するゲノムデータセットのより安価なストレージが実現するのだ。
FPGAベースのプラットフォームはまた、アップデートされたアルゴリズムとアプリケーションがリリースされると、生のシーケンス・データの再解析に対応する。このアプローチは膨大な計算負荷とそれに伴うコストを招くこととなる。
このエンジンが取り組むもう一つの課題は、ビッグデータのストレージであると同社は強調した。生データのファイルは通常は保管され、ファイルの複製コピーがバックアップとして保持され、各初期サンプル毎に膨大なデータ・ストレージの必要性を作り出している。
同社によると、このバンドルには、ゲノム・シーケンシング機能を備えた新生児集中治療室のようなアプルケーション用の最大100テラバイトから「主要シーケンス・センター」用の1ペタバイトのデータスループットまでの3つの層が用意されている。
DRAGENエンジンはまた、オンプレミス、クラウド、およびハイブリッド・クラウド版まで提供されている。ハイブリッド版ではゲノムのビッグデータを処理し、保管し、クラウドに移動することができるようになっている。
このバンドルされたIsilonストレージ・プラットフォームは、大規模で半構造化されたファイルベースのワークロードをEdicoのマルチDRAGENパイプライン・ワークフローをサポートするシングル・システムに統合するとDell-EMCは述べている。このシングルボリュームのストレージシステムは、DRAGENの入力フォーマットばかりでなく、業界標準の出力フォーマットをサポートしている。
同社は、バンドルされたアプローチにより、より大規模なサーバのクラスタの必要性を減らし、ストレージスペースとITインフラストラクチャに関連するコストを削減すると主張している。