这个文本向声音转换的系统称作 Tacotron 2,是 Google 的第二代语音生成技术。上月,Google 发布了关于此技术的论文,但还未经过同行评审。 系统使用了两个深度神经网络。第一个神经网络将文本翻译为频谱。而后进入 Google DeepMind 开发的 WaveNet,后者通过读取信息而生成声音。 WaveNet 此前已经部署到 Google Assistant 里面了,其特点是使机器生成的声音听起来更自然一些。具体见此前的报道。 https://plus.google.com/u/0/+GoogleFansPageBlogspotGFP/posts/VX6UdX1xDoy Tacotron 2 建立在 WaveNet 基础之上,如果可以应用,将使机器生成声音的能力更为强大。本文展示了两句英语语句的发音,分别来自 Tacotron 2 和人类。确实很难区别到底哪句是人类说的,哪句是机器生成的。 Tacotron 2 还能够处理不好发音的单词和名字,并根据标点符号来改变发音方式。譬如说大写单词,一般是为了表示强调,文中样本展示了机器生成的声音是如何体现强调语气的。 不过,系统只被训练模仿一位女性的声音。如果要发出其他女性的声音或男性声音,系统还需要被训练。 https://qz.com/1165775/googles-voice-generating-ai-is-now-indistinguishable-from-humans/