百度のスパコンが画像認識でGoogleを追い抜く
Chelsea Lang
画像認識におけるトップの座からGoogleを引き下ろす戦いの中で、百度社は、世界で最も正確なコンピュータ・ビジョン・システムと主張するスーパーコンピュータを使っている。
ImageNetオブジェクト分類ベンチマークを使って、中国のサーチエンジン企業は、かれらのシステムが5.98パーセントのエラー率で管理されており、対してGoogleは6.66なので、2014年のImageNet競争ではトップの座であったと主張している。
一方、ImageNetの試験で人間の場合には5.1パーセントのエラー率と推測されている。そのため、百度の結果が正確であると証明したら、この企業はGoogleを負かしただけでなく、他のAI技術よりもその能力で人間に近いということになる。
この達成におけるセンターステージを取るのはMinwaスーパーコンピュータで、百度がディープイメージコンピュータビジョンシステムのために社内に構築したものだ。72個のIntel Xeon E5-2620プロセッサと144台のNvidia Tesla K40m GPUから構成され、このシステムは理論最大性能.6ペタフロップスの性能を432コアに蓄えている。Minwaはまた、過去に深層学習アルゴリズムを妨げてきたインターコネクトのボトルネックを克服するためにFDRのInfiniBandを採用している。
百度によると、このシステムは、システムを開発または「訓練」させるために、研究者がより洗練されたイメージに取り組むことを可能としている。256×256ピクセル画像でなく、より高解像な512×512グラフィックスが選ばれ、そしてカラーキャスティング、口径食、レンズの歪みのような様々なフィルターを通して編集され、ディープイメージに過去の一般的な編集の微調整を見るように教える手助けをするのだ。
より困難な例を理解する上で、ディープイメージを訓練するために使用される高解像度画像のサンプル
そして、これは百度がGoogleを追求してきた最初の進出ではない。ディープスピーチ、この企業のスピーチ認識システムは、音声と画像検索技術の採用の拡大を見越して12月に公開された。
ディープイメージとディープスピーチの両方が、深層学習と呼ばれる機械学習アルゴリズムの大きなカテゴリに入っており、コンピュータを避ける傾向がありながら人間に自然に来るような自然言語処理や音声認識などの能力を包含している。
一方で、Googleはまだ公式のImageNetの記録を保持しており、画像認識技術を活用する新しいGoogle翻訳機能を最近発表した。次のImageNet競争は2015年後半に開催される予定だ。
ディープイメージ、Minwaおよび百度の深層学習研究に関するさらなる詳細は、この企業の公式論文に記載されている。