DeepMind 开发的 WaveNet 使用机器学习生成声音样本,现已部署到 Google Assistant。机器(语音助手)的声音听起来会更自然一些。目前适用于英语(美国)和日语[1]。
TechCrunch 报道页面[1]有声音样本的对比,点击可感受新旧机器语言发音的差别。
WaveNet 是去年发布的[2]。它不是通过手动编码语法和音调规则来构建单词和语句的,而是让机器学习系统在话语中学习这些发音模式。首先使用真实语音训练神经网络。然后基于其所学使用一个统计学方法,生成全新的波形[3]。
这种办法开始时生成声音的速度很慢,2 秒的句子需要将近 2 分钟生成。经过提升,生成速度是之前的 20 倍,2 秒的语句只需 0.1 秒。模型现在能够使用更少的计算机资源、更快地生成波形,所以将其应用于 Google Assistant。WaveNet 还很容易应用到其他语言和口音,只需给模型一段时间的声音样本让其自己处理发音的细微差别(口音)即可。
Apple 的智能助手 Siri 的声音最近也进行了调整,借助于机器学习驱动的语音模型。与 Google 所不同的是,Apple 没有更深入地在样本水平上重新生成声音,而是在相对浅层次的 half-phones(半手机)或部分音素水平上作了改进。Apple 的机器学习模型执行的是某种情况下某个音该怎么发听起来更合适这样的问题。
1. https://techcrunch.com/2017/10/04/googles-wavenet-machine-learning-based-speech-synthesis-comes-to-assistant/
2. https://plus.google.com/u/0/+GoogleFansPageBlogspotGFP/posts/SCRkpuTpTAk
3. http://fortune.com/2017/10/05/google-assistant-deepmind-wavenet-speech-ai/
TechCrunch 报道页面[1]有声音样本的对比,点击可感受新旧机器语言发音的差别。
WaveNet 是去年发布的[2]。它不是通过手动编码语法和音调规则来构建单词和语句的,而是让机器学习系统在话语中学习这些发音模式。首先使用真实语音训练神经网络。然后基于其所学使用一个统计学方法,生成全新的波形[3]。
这种办法开始时生成声音的速度很慢,2 秒的句子需要将近 2 分钟生成。经过提升,生成速度是之前的 20 倍,2 秒的语句只需 0.1 秒。模型现在能够使用更少的计算机资源、更快地生成波形,所以将其应用于 Google Assistant。WaveNet 还很容易应用到其他语言和口音,只需给模型一段时间的声音样本让其自己处理发音的细微差别(口音)即可。
Apple 的智能助手 Siri 的声音最近也进行了调整,借助于机器学习驱动的语音模型。与 Google 所不同的是,Apple 没有更深入地在样本水平上重新生成声音,而是在相对浅层次的 half-phones(半手机)或部分音素水平上作了改进。Apple 的机器学习模型执行的是某种情况下某个音该怎么发听起来更合适这样的问题。
1. https://techcrunch.com/2017/10/04/googles-wavenet-machine-learning-based-speech-synthesis-comes-to-assistant/
2. https://plus.google.com/u/0/+GoogleFansPageBlogspotGFP/posts/SCRkpuTpTAk
3. http://fortune.com/2017/10/05/google-assistant-deepmind-wavenet-speech-ai/
评论
发表评论