ビッグデータで生命科学にHPCが必須になる
Tiffany Trader

2014年、SC14において多くの話題がビッグデータを中心に展開する。BioTeam社で公共サービス局長と主任研究員を務めるAri E Berman博士は、ビッグデータがどのように生命科学のための計算費用を上げたか、Intelのブログ・ページに、反論を突っ切って投稿した。
「最大の問題は、今現在存在する計算基盤の上で、誰でも話す分野に、ビッグデータが必要だと発見されることです。」とBermanは書いている。
これは示唆する。「どのような特定の主題のためにでも、データの合計を求めて、それを共同でプールし、それを使ってより正確に、何らかの冷静な発見のためのモデルを作れるように、メタ・アナリシスを実行する能力は、私たちが若干の問題を理解する方法を大きく変えました。」
しかし、ペタバイトまたはより大きいデータについて、この展望を認識するためには、きちんとまとめられた基盤を必要とする。これなしでは、「大部分の人々は、結論に達することなく、分析することに持ち時間を使い果たします。どのようにデータを格納し、処理すべきかという問題にです。」
多くの他の専門分野と同様に、生命科学コミュニティーは、減速する兆候を示さないデータの急増に邁進した。次世代シーケンサー (NGS) とスループットが高い高解像度画像処理システムを含む研究装置の普及と共に、HPCが巨大なデータ・ストリームを処理するようになる必要がある。テーラーメード医療の来たるべき時代には、さらに生命科学と生医学的な分野の計算が重荷になる。この動いている標的への命中の難しさにもかかわらず、Berman博士は、生命科学の挑戦的課題に挑む。
この証拠として、博士は3つの肯定的な傾向を挙げる:
1. 科学DMZ (訳注:非武装地域、計算機業界においては安全なネットワーク) — 研究に特化した高速で効率が良いデータの流れ
2. 共有されている混合物からなるクラウド基盤とローカルな計算のバランス
3. コモディティー製品による安価なHPCとストレージ
「私たち大部分の研究者は、現在、答えを得る段階ではなく、データをどうするかという問題に時間を費やす段階にいます。しかし、私は変曲点を感じます。非常に強力なコモディティー・システムが入手可能になり、リファレンス・アーキテクチュアが市場に関係してきているからです。」