研究シーズ2020情報メディア科学

人間の肉声に近い音声を高速に合成
音声合成の新手法「NSF法」を開発

シン ワンコンテンツ科学研究系 特任研究員

研究分野音声情報処理/機械学習/人工知能

従来の音声波形を合成する手法にニューラルネットワークを導入し、人間の肉声に近い高品質な音声波形を簡易に生成できる新手法(NSF法)を開発しました。NSF法のソースコードは無償で公開し、広く利用できるようにしています。

研究背景・目的

従来、音声波形を合成する手法として、ボコーダ法と呼ばれる手法が提案され、携帯電話等で広く利用されてきました。しかし、合成された音声の品質は、人間の音声より品質が劣るものでした。2016年に海外の有力ICT企業が、深層学習(ディープラーニング)を駆使した音声合成手法WaveNet法を提案し、人間の肉声に近い高品質な音声波形が生成できることを示しました。しかし、WaveNet 法は、非常に複雑な構造のニューラルネットワークのため、機械学習に大量の音声データが必要であること、また、正しい予測結果を得るためにはパラメータ調整などさまざまな試行錯誤を幾度も繰り返さなければならないなどの問題がありました。

研究内容

1960年代に発表されたソースフィルター・ボコーダ法は、ボコーダ法の最も有名なモデルとして広く活用されています。NIIの研究チームは、このソースフィルター・ボコーダ法にニューラルネットワークを導入することで、人間の肉声に近い高品質な音声波形を生成する新手法を開発しました。NSF法と名付けたこの手法は、ニューラルネットワークの機械学習のために必要な音声データが1時間程度でよいこと、簡易な構造のニューラルネットワークのため、パラメータ調整をしなくても正しい予測結果を得ることができるなどの特徴があります。また、大規模な検証からWaveNet法によって生成された音声と同等に高品質であることが示されました(図)。

19-xin_image1.png

図 合成された音声のMOS(Mean Opinion Score)法による評価結果

産業応用の可能性

NSF法は、海外の有力ICT企業の特許技術とは異なる理論による手法であることから、NSF法を活用することにより音声合成の新たな技術開発が進むことが期待されます。そこでNSF法のソースコードを無償で公開し広く利用できるようにしました。

今回の評価に使った機械学習データのサンプル(ソースコード、学習済みのモデル)と、実際に合成された音声データのサンプル(日本語・英語)は、以下のページで公開しています。
ソースコード
https://github.com/nii-yamagishilab/project-CURRENNT-public

学習済みのモデル(これを実行すると英語の音声を生成することができます。)
https://github.com/nii-yamagishilab/project-CURRENNT-scripts

音声サンプル(日本語・英語)
https://nii-yamagishilab.github.io/samples-nsf/index.html

なお、以下のページで、人間の肉声、ソースフィルター・ボコーダ法を用いた音声、WaveNet法を用いた音声、NSF法を用いた音声を聞き比べていただくことができます。
https://youtu.be/yr_xMq1gxKY

研究者の発明

❖"Neural Source-filter-based Waveform Model for Statistical Parametric Speech Synthesis"
Xin Wang , Shinji Takaki , Junichi Yamagishi
International Conference on Acoustics, Speech, and Signal Processing(ICASSP) 2019 , pp. 5916-5920
DOI: 10.1109/ICASSP.2019.8682298

Recommend

さらにみる