世界のスーパーコンピュータとそれを動かす人々


11月 16, 2015

英ゲノム解析センター、DRAGENによるゲノム解析の高速化を報告

HPCwire Japan

John Russell

ゲノミクス解析を高速化することはライフサイエンス研究の中でも最も過酷な課題のひとつだ。ディスクストリーミング、最適化並列ファイルシステム、アルゴリズム調整、高速プロセッサ、そしてハードウェア・アクセラレータなど挙げられる最適化のすべての方法は使われており、様々な結果を得ている。近頃、TGAC(The Genome Analysis Centre、イギリスのゲノム解析センター)は、完全な全領域の次世代シーケンサーの解析ワークフローを高速化するやめに特別に設計された最初のプロセッサの実装を報告した、Edico Genome社のDRAGENシステムだ。

最初の評価は非常に有望であった。トネリコの木の遺伝子に対するDRAGENのマッピングはTGACのローカルのHPCシステムよりも処理コアあたり177倍も高速であり、大規模データベースのひとつに関して3時間掛かっていたのがたった7分間となったのだ。TGACのHPCサーバでは約2時間掛かる米の遺伝子のアラインメントの実行では、DRAGENを使うとたった3分間であった。驚くことではなく、TGACの人々は興奮している。

「TGACでは、DRAGENがバリアント呼び出しパイプラインを通してマッピングを劇的に迅速に改善しました。これは、マッピング、アライメント、ソーティング、重複排除、およびバリアント呼び出しをベースとするリファレンスを含んだゲノムデータの解析のためのアルゴリズムのような標準ツールの最適化バージョンを使用しています。スペースとエネルギーを節約しながら、多くの従来のHPCサーバをDRAGENシステムに簡単に置き換えることができるでしょう。」とプロジェクトリーダーで、イギリスのTGACの科学計算部のヘッドでもあるDr Tim Stittは述べている。

20151028-F1-DRAGEN-board-3-1024x682

DRAGENシステムはFPGAベースのアプローチだ:DRAGEN Bio-ITプロセッサはPCIeカード上に組み込まれており、事前設定されたサーバに搭載されているので、簡単にバイオインフォマティクスのワークフローに統合することが可能だ。高度に再構成可能なFPGAはBCL変換、圧縮、マッピング、アラインメント、ソーティング、重複マーキング、ハプロタイプ・バリアント呼び出し、およびジョイント・ジェノタイピングにおけるハードウェアでの高速化を実装している。

もちろん、ハードウェアによる高速化はバイオインフォマティクスでは新しいものではない。これまでに専用のボードレベルおよびシステムレベルの製品がサードパーティーから提供されてきた。例えば、Convey Computer(現在はMicronの一部)はFPGAとカスタマイズされたコードを使ってBLASTやグラフ解析を含む様々な解析タスクを劇的に高速化する「ハイブリッド・コア」のヘテロ・システムを出していた。

さらには、シーケンシング・センターでは、より速いスループットを引き出すために常にシステム回している。今年早々、ブロガーでコロラド州立大学次世代シーケンシング・コアのバイオインフォマティシャンであるRichard Caseyが、NVIDIAのTeslaシリーズの最新GPUであるTesla K80を使って12倍の解析のスピードアップを報告している。(HPCwireの記事NVIDIA K80 GPU-System Speeds up Bioinformatics Tool 12Xを参照)

Stittは語っている、「DRAGENはBCLファイルを入れて、注釈付きのバリアント呼び出しファイルを出すといった、ゲノミクスのための世界最初のエンド・ツー・エンドのプラットフォームです。DRAGENの技術は例えばインテルのサーバのようなコモディティのサーバにFPGAを入れ込むようなことを近い将来可能にするのです。これはDRAGENに大きなスケールを与え、この技術はオンサイトでローカルに、シーケンシング機器の近くに、そしてクラウドのような中にも展開することができるのです。」

20151028-F1-Tim_STITT.TGAC_.2-1024x866

「Conveyの製品はエンド・ツー・エンドのソリューションを提供せずに、単にパイプラインの小さな増分ステップを実装しただけでした。DRAGENのアーキテクチャとアルゴリズムを設計し実装したEdico Genome社のエンジニアリング・チームはこれまでに最先端の携帯電話、電気通信およびデータ解析チップに取り組んでいました。プラットフォームとパイプラインのアップデートと改良は、迅速で効率的な方法で行われ、従来のソフトウェア・アップデートのように長く掛かることはありません。」

DRAGENシステムはFPGAとCPUをビジー状態に維持するように設計されている。そのために、DRAGENのハードウェアとソフトウェアは最適に分割されており、高度にスケーラブルである。DRAGENに供給されるファイルへのIOアクセスは、IOがボトルネックにならないように設計されている。DRAGENはディスクへの入出力スループットを最大化するために複数のハイエンドSSDドライブをRAID 0構成で使用している。さらに、DRAGENのオンボードメモリは、DRAGENのFPGAがファイルシステムへのIO相互作用を最小に制限するために非常に大きな帯域幅をもっている。

興味深いことにセレンディピティはRAGENをTGACに持ってくる役割を演じた。「我々のコミュニケーション・チームのメンバーはDRAGENシステムを紹介するプレスリリースを取り上げて、人ゲノムの解析時間(マッピングからバリアント呼び出すまで)を24時間から20分間に短縮する方法について説明しました。これは巨大な性能のスピードアップで、私は人以外のゲノムにも同様に適用できないか興味がありました。」とSittは述べている。

TGAC は微生物、植物、動物のゲノムのシーケンシングと解析を専門としており、持続的なバイオ経済を進め、イギリスの食料の安全を保護している。後者に関しては、特に麦のゲノムにフォーカスしているのだ。

20151028-F1-shutterstock_116527159
ソース: Shutterstock

「麦は世界人口の30%以上が主食としているので、我々は人口増加(2050年までに世界人口は90億人になると予測されている)のために、麦を育てるための狭いスペースと熱、干ばつと深刻な世界的麦の歩留まりをもたらす枯渇病原体などの課題に対して、歩留まりの向上にフォーカスしています。麦ゲノムを理解することで、我々は生産者が障害のいくつかを克服することを支援できるのです。不幸にも、麦ゲノムは人ゲノムよりも5倍大きく、さらに複雑なのです。」とStittは語った。

FPGAをプログラミングする難易度は、この柔軟な技術を広く採用することへの足かせとなっている。StittはDRAGENシステムを人以外のゲノム解析ように変更しようすることがどのくらい実際的なのか困惑していた。Edico社もまた最初は自信がなかったが、やってみたかったのだ、とStillは述べた。

「私は彼らに試験するようにトネリコの木のゲノムを渡し、その数ヶ月後、彼らはDRAGENで実行した結果を持って戻ってきました。この結果の忠実度は、我々がローカルで持っているHPCクラスタで取得したものと同じものでしたが、それよりももっと高速だったのです。その数ヶ月後、Edico社のエンジニアは社内で私のために米と馬のゲノムを含む他の試験セットも実行しました。毎回、彼らは新しいゲノムを扱うために少しパイプラインを適応させなければならなかったが、性能結果は非常に印象的でした。」

一旦プログラムしてしまえば、システムは相対的に簡単に利用でき、柔軟な展開は魅力的な特徴であったとStittは指摘している。DRAGENシステムはシーケンシングマシンの近くかクラウドに設置できる。利用者はGUIもしくはAPIを使ってシステムと対話することができるのだ。

「私たちは、DRAGENシステムをスケジューラのリソースとして既存のHPCクラスタに組み込んだ最初のユーザだと思っており、利用者は例えばGPUやXeon Phiをターゲットとするように、バッチスクリプトを使ってシステムをターゲットとすることができるのです。我々はEdico Genome社とこの実装のために緊密に協力しました。DRAGENはTGACにおけるマッピングからバリアント呼び出しのワークフローに莫大な貢献をしていると思いますし、特に我々の戦略プロジェクトにとって、ソリューションに掛かる時間は非常に重要なのです。これがDRAGENが他のアプローチの端で我々に与えてくれた場所なのです。」とStiitは語った。

20151028-F1-DRAGEN-in-Front-of-Box-1030x686-1024x682

Edico社は2013年創業のまだ若い会社であるが、注目を集めているようだ。DRAGENシステムはソフトウェアでアルゴリズムの実装を実行する多くの従来のアプローチよりも高速である。Genome Medicineに最近掲載された研究においては、DRAGENは全ゲノム解析を22.5時間から41分間にスピードアップしており、99.5パーセントの感度と特異性も達成している。シーケンス配列が多くのシーケンシング・プロジェクトにとって重要であるTGACにおいて、ゲノムデータ処理の高いスループットを提供することができるので、このような効率の向上は多大な影響を及ぼすだろう。DRAGENの技術はまた50以上の人ゲノム(FASTQからVCFまで)を正確に解析するのに1日も掛からないことを示している。

「ヨーロッパにおける最大規模の計算ハードウェア施設のひとつを有するゲノミクスにおける強豪であるTGACとのコラボレーションは、DRAGENがシーケンシング・センターを保有するメリットの非常に良い例です。」とEdico社のCEOであるPieter von Rooyenは述べている。

TGACについて(ソース:TGAC)

ゲノム解析センター(TGAC)は、ゲノミクスと計算生物学の開発にフォーカスしている世界クラスの研究所である。TGACはノリッジリサーチパーク内にあり、バイオテクノロジー・生物科学研究会議(BBSRC)から戦略的資金を得ている。TGACはBBSRCから戦略的資金を得ている8つの研究所のひとつだ。TGACは、バイオ科学研究およびイノベーションを進めるために、ゲノミクスとバイオインフォマティクスのアプリケーションを促進するための国家的能力を運営している。

20151028-F1-seagateBanner

TGACは、データ生成に関わる複数の補完的技術を操作することでユニークな最先端のDNAシーケンシング設備を提供している。この研究所は、研究、解析および複数の複雑なデータセットの解明を通してバイオインフォマティクスを技術革新するためにイギリスを本拠地としている。ここはヨーロッパにおけるライフサイエンスに特化した最大規模のハードウェア施設を所有している。ここはまた、複数のアカデミックおよび産業界のユーザに計算ツールおよび処理能力へのアクセスを提供する新しいプラットフォームの開発に積極的に関与しており、計算バイオ科学のアプリケーションをプロモートしている。さらに、この研究所はコースやワークショップを介したトレーニング・プログラム、および対話と科学コミュニケーション活動を介した学校、教師、および一般人をターゲットとしてアウトリーチ・プログラムを提供している。www.tgac.ac.uk