世界のスーパーコンピュータとそれを動かす人々


6月 7, 2019

AIが脳信号を音声に変換する

HPCwire Japan

George Leopold

大学の研究者によって開発されたディープラーニングフレームワークは、インプラントによって記録された脳の信号を合成された音声に変換することを目的としており、神経障害のために話す能力を失った人々を助ける。

カリフォルニア大学サンフランシスコ校の研究者らは先月、話し言葉のニューラルデコードに基づく音声合成技術について報告した。これは、音声障害者が一度に一文字ずつ考えを書く現在のアプローチから進歩したものである。可聴入力に関して訓練された深い学習モデルを介して脳の信号を音声に変換することは、毎分150ワード近くを話す平均的な話者のシステムほどに性能を向上させるであろう。

研究者らは、てんかん手術の要否に関わる検査を受けている5名の患者の頭蓋内インプラントを介して「高密度」脳信号を捉えた。会話に困難はないが、プロトタイプの「人工声帯」のような、例えば脳信号のデコードをより困難にするような脳卒中の患者においては、まだテストされていない。

彼らは、合成音声生成のために使用される記録された脳の活動を解読するために、Nvidia Tesla GPUを使用して回帰ニューラルネットワークを訓練した。そしてディープラーニングフレームワークは、対応する皮質信号と共に声を出して話された文章を確認することができた。研究者たちはGPUを使い、調音運動学、つまり音声を生成するのに使われる物理的メカニズムを推論したのである。

最終的なアルゴリズムでは、音声と脳信号の間の結果として生じたパターンを患者の唇、舌、喉頭、および顎の微妙な動きと相関させていた。

「この研究は、個人の脳の活動に基づいて全文を生成できることを示しています」と、神経外科の教授でカリフォルニア大学サンフランシスコ校Weill Institute for NeuroscienceのメンバーであるEdward ChangはNvidiaのブログで述べた。 「言語障害のある患者の方々のために、私たちは臨床的に実行可能な機器を構築することができるはずです。」

このカリフォルニア大学サンフランシスコ校のチームは以前、「直接皮質記録からの声道生理学的信号」をデコードしてそれらを合成音声に変換するために使われていた彼らの回帰ニューラルネットワークについて報告している。彼らは、わずか25分のトレーニングデータを使用した「強固なデコードパフォーマンス」を主張した。

「私たちの目標は、流暢な話者の速度で脳の信号をわかりやすい合成音声に変換することによって、人工神経人工音声実現の可能性を実証することでした」と彼らは付け加えた。 「ナイーブなリスナーでも、これらのデコードされた文を正確に識別することができたのです。」

重要なことに、研究者達は「疑似」スピーチを使用して彼らのシステムをテストし有望な結果を得ているが、以前に報告されたように、それでもなおシステムが動的運動なしで動作するかどうかという問題を残している。

音声合成の研究は、Nvidiaによる医療AIへの大きな推進力の一部である。先月、放射線医学や創薬などの臨床研究でのGPU搭載のAIツールの使用について、医療団体との共同研究を発表した。

掲載画像のソース:カリフォルニア大学サンフランシスコ校 脳神経外科のビデオ