世界のスーパーコンピュータとそれを動かす人々


12月 3, 2013

GPUデータベースがビッグデータの可視化を加速

HPCwire Japan

Tiffany Trader

巨大データの可視化は従来HPCの領域だった。しかし、それにも変化が見られるようになった。新しい「MapD」と呼ばれる超並列データベースがMITの研究者Todd Mostak氏とSamuel Madden氏により開発された。それは市販のGPUを使い、リアルタイムに複雑な空間情報やGISデータの計算を行うもので、従来のCPUベースのシステムに較べて格段に早い。単一GPUカードのシステムで、Twitterデータのレンダリングで70倍の性能向上が見たれたとMostak氏は報告している。

20131021-S1

「MIT Technology Review」の記事では、「この新技術は従来のCPUに代えて、GPUのオンボードメモリにデータを格納する事により高速化を計った。」と説明している。

ハードウェア価格の下落とソーシャルメディアの分析手法の進展で、可視化技術を容易に利用できるようになってきたが、大規模データを有益なアニメーションに変換する作業は、強力なワークステーションやクラスターシステムを所有していない研究者にとってはまだ時間のかかる大仕事だった

従来の技術ではデータをイメージやアニメーションに可視化するには数秒以上かかっていただろう。MapDでは数百万のデータ集合を地図やアニメーションに数ミリ秒で表示することができる。MapDの技術は種々のデータを扱う事ができるが、プロトタイプ版ではTwitterデータに対象としている。以下のビデオが示すように、MapDはひとつのミーム(この場合は「雨」)が地域地図や世界地図でどのような傾向を持つかが表示される。利用者はサーチ項目やその他のパラメーターを指定できる。例えば、時間幅、地理的領域などである。そうすると、あたかもサーチエンジンを使っているように直ちに新しい可視化結果が表示される。

このMostak氏のアイデアは、彼がハーバード大学の院生時代に携わった中東の研究に源を発する。アラブの春を迎えたエジプトの政治状況に関する研究テーマでは、四千万もの位置情報を含んだTwitterデータを処理する必要があった。インタラクティブな解析を行おうと、大規模なデータのマッピングを行うと数日かかってしまう。彼の解決策はゲーム用の安価なハードウェア、即ちGPUを使って独自のデータベースを作る事だった。
「秒、分ではなくてミリ秒オーダーの遅延で、このような大規模データを実際にインタラクティブに探索できるツールを作成することで、仮説、検証、改良のプロセスから計算のボトルネックを取り除きかったのです。」とMostak氏は述べている。

この技術の早期導入社のひとつであるSunlight Foundationは選挙運動資金調達の調査に使用しようとしている。この組織は各州、合衆国の過去22年間の選挙運動資金寄付の記録を分析して、二千万件以上の寄付が寄付者、地域、公選役職者、その他の要因でどのように分類できるか調べようとしている。

低価格の分析ツールとソーシャルメディアのデータとの組み合わせは、大規模データ可視化の民主化に向けて、ビジネス領域、政府機関、研究機関への影響を与える大きな力になっている。例えば、モバイルデバイスやソーシャルメディアのデータの流れから位置情報をリアルタイム利用できるようになれば疫学調査や災害対応チームのための多大な資産となるだろう。

MapDはまだ始まったばかりだが、研究チームは既にIntelのPhi、x86プロセッサーを含んだプラットフォームの拡大を計画している。さらにMostak氏は、99%の確度でMapDをオープンソース化するつもりだ、と述べている。一部の並列処理アルゴリズムは非公開にされるが、データ処理の基本部分や計算モジュールはオープンソースライセンスとして公開される予定だ。

一般公開されたMapD版では9月28日から10月6日にかけての五千万件の位置情報付きのTwitterデータを含んでおり、サイト訪問者は「何を」「誰が」「何処で」をキーにして個々のTweetまで到達することが出来るようになっている。