次のビッグデータの挑戦:データペアリング
David Beer

客員論説
私は、ビッグデータやその課題についての多くは提案されていると思う。私はその言葉を聞く前から長い間ビッグデータについて考え始めていたと思っている。2001年9月11日の出来事に関する事後検討の結論のひとつを聞き読んだ時に考え始めた。この攻撃が来ることを分かる情報を持っていたのに、単に十分に高速に解析しなかったのだ。ビッグデータを気にする以前に長い間これが常に私には引っかかっていて、問題を忘れることがなかった。
有名なビッグデータの挑戦のひとつに、データが現在ある場所にもっと多くの注意を払わなければならないことがある。これは新しい挑戦ではない。15年前にネットワーク転送よりも郵便の方が早いので、サイトから他に送る際に速達でハードドライブを送っていたというチームの話を聞いて、顧客が笑ったことを覚えている。しかし、データサイズは非常に速く増加しており、これは二次的な懸念から主要なものへと変化している。
計算リソースをローカライズし、高度なデータをステージングする決定を行う必要性について常に聞いているが、さらに議論する必要のあるこの問題のひとつの側面はデータペアリングである。この必要性は明白だ。データは指数関数的に増えており、計算データも指数関数的に増えていることは現実的でない予算が必要だろう。ビッグデータで打ち勝つひとつの鍵はノイズを無視することだ。指数関数的にデータ量が増えるようには、興味のあるデータは増えない。興味深いデータが追加されるほとんどの目的は、全体のデータ・プールに追加される新しいデータの小さな割合であることに違いはないだろう。
これらの主張を説明するために、私がオンライン・メディア・ストリーミング事業者であると仮定し、現在あなたが見ているものをベースに何に興味があるか予測しようとするとする。これは信じられないほど困難な機械学習の問題である。利用者がコンテンツを見る度に、利用者が見ているもの以外全てについて相互参照しなければならない。それは何に利用者が他に興味を持つか予測するために使われる、潜在的に数百、数千もしくはそれ以上の組み合わせを産むだろう。
次に、続編、同じ監督の他の作品、出演している映画スターの他の作品、同じジャンルのものなどなど見たいかどうかの可能性を判断するために、これらの組み合わせは全ての顧客の他の実験データと比較される。私はこれらの計算を実行する際に、データ量は無視すべきだろうか? どのくらいの人が複数のユーザプロファイルを使っておらず、そのため、一人のユーザの興味を表していないのではないだろうか?どのくらいのデータ・ポイントが他のデータ・ポイントと関連しておらず、それゆえに、他のポイントと同じ有効な順列として評価すべきではないのだろうか?
アルゴリズムをペアリングし、区別することによってこれらの質問に回答することは、ビッグデータの側面のひとつであり、時間をかけて重要になってくる。データ取り込みは常に基本的にデータ解析よりも高速で簡単だ。そしてデータはうさぎちゃんよりも速く増え続ける。無関係なデータに時間を無駄にしないことは、競争の先頭に立つために重要なことのひとつだ。
科学界は長い間、無関係のデータを排除する方法を決定してきており、外れ値という言葉がが主流である。ビッグデータが第一線になるに従い、外れ値を排除し、より高い相関データに基づいてインテリジェントな結論を引き出す技術を適応できる組織が道をリードしようとしている。
David BeerはAdaptive Computingのシニア•ソフトウェア•エンジニアです。