GPUは音声合成を進歩
Alex Woodie

何十年もに渡って、音楽家は、アコースティック楽器の代用、あるいは補完として、ミュージック・シンセサイザを使っている。しかし、ある種の複雑な音を合成するためには、従来のCPUでは力不足だった。現在、音響研究者は、より難しい音声合成のために、GPUを使おうとしている。
![]() |
ビル・スー氏とマーク・ソニック・ペルツ氏は、最近Assosiation for Computing Machinery’s の電子版 “acmqueue“ に発表した「グラフィック・プロセッサを使う有限差分に基づく音声合成」という論文の中で、新しいGPU技術を探求している。
著者によれば、計算能力に限界があったために、リアルタイムの音声合成には未発達の技術を使う必要があった。このため、単純な波形の計算、サンプリングと再生、スペクトルモデル技術を、波形の合成に使っていた。スー氏とソニック・ペレス氏によれば、これらの共通の筋道は、「楽器あるいは物体自身のモデルではなく、抽象化された楽器あるいは物体のモデルを主に扱っていた」ということだ。
計算能力の進歩によって、研究者は、まったく新しい方法で音声合成が可能であると発見した。すなわち、物体と楽器の物理的な性質をシミュレーションするのである。物体あるいは楽器の詳細な数理モデルができあがると、現実世界にある物と同様に「演奏できる」のである。
「物体が音を奏でる仕組みについて、物理的な物体のシミュレーションと物理的な性質のパラメーター化によって、いくつかのモデルは、物体の幾何学的な変化、その物体の材質、人間が奏でる方法による現実の音の変化を再現できる。」と、著者は述べる。
物体と楽器の数理モデルを作るためにはいくつかの方法がある。その中に、有限差分法があり、とても良い音を合成できると言われている。しかし、この方法は、CPUで処理するには計算密度が高すぎるので、GPUのマルチ・スレッド・アーキテクチュアと高いデータ並列性の利用方が効果がある。
彼らは論文の中で、有限差分シンセサイザ(FDS)
という自作のソフトウェア・パッケージを使った。CPUあるいはGPUを使って、有限差分近似方法を使う音声合成の性能を比較した。FDSはドラムを想定して振動している板をシミュレーションして、MacOSおよびLinux上で動作した。
結果には変動があるが、GPUを使うシステムは、一貫してCPUを使うシステムよりも高性能だった。場合によっては、シンバルを想定する2次元格子によってCD程度の音質を得るために、GPUはCPUより50%ほど大きなモデルを処理できた。
研究者によればGPUを使うことについていくつかの注意事項がある。第一に、カーネル(訳注:GPUで動くコード)起動のオーバーヘッドによって、考慮すべき程度の時間遅れが発生する。第二に、シミュレーションをGPUに割り当てる方法について、スレッド数の上限が制限になる。第三に、スレッド実行を同期できないという問題がある。これらの問題は、旧式のGPUでは大きな問題だったが、NVIDIA Keplerのような新型のGPUでは改善されている。
課題があるにもかかわらず、物体あるいは楽器の数理モデルからリアルタイムの音声合成を試みる、有限差分近似法の未来は明るいと思われる。