中国的博客,走近我们的产品、技术和文化
Google 中国的博客,走近我们的产品、技术和文化
AI好声音:DeepMind让机器能像人类一样说话
2016年9月13日
DeepMind称,人与机器交谈是人机交互领域长久以来的梦想。
你是否想过,有一天机器也能用慵懒沙哑的声音和你对话,温柔又带着些许俏皮,而不再是冷冰冰的机器声音,这其中的关键技术就是语音合成。
近日DeepMind在计算机语音合成领域取得了新进展——发布WaveNet语音合成系统。这是一种原始音频波形的深度生成模型,通过人工智能技术的运用,这项新系统将目前计算机系统与人类说话间存在的质量差距缩小了超过50%。
concatenati 和parametric 是Google目前最好的文本转语音(Text-to-Speach)系统,在英语和普通话上,WaveNet超过了这两大系统,将机器水平与人类水平的差距减少超过50%。
当前,机器语音还是以录制的人声简单拼接为主——录制大量的短语音片段构成数据库,然后需要时再将这些短语音组合起来构成完整的话语,显然这样的语音听起来会及其生硬不自然,也缺乏感情。
而WaveNet则是跟着真实的人声学习——直接建模音频信号的原始波形,一次处理一个样本,这也意味着WaveNet能够模仿所有的声音。研究者通常会避免对原始音频进行建模,因为波形波动得非常快:每秒通常至少有16,000个样本,处理这些庞大复杂的数据显然是一个具有挑战性的任务。
以上的动画展示了 WaveNet 的结构
在这样的学习基础上,WaveNet能做到的远比你想象得多。
WaveNet能够学习许多不同声音的特性。因为是从原始的声音建模,WaveNet学习某一声音特性以后,输入新的文本内容,它也能按照该声音特性自然地说出相应的内容;学习了多种声音特性后,输入同一文本,机器就能用不同的声音说同样的话;WaveNet 可被用于建模任何音频信号,就连砸吧嘴的声音和微弱的呼吸声也能被捕捉到,通过对古典钢琴乐的分析,WaveNet甚至创作出了短小的钢琴片段;通过额外的口音和情绪输入,WaveNet还能使机器说话带有“小情绪”。
DeepMind还发现WaveNet表现出了一定的迁移学习能力——在一个地方所学的技能、知识与态度能对另一个学习产生影响,它可以加快学习的速度。WaveNet学习模仿多个说话者要比模仿单个说话者的效果更好。
下面是WaveNet的声音样本,你不妨听听看:
標籤
编程之夏,UR
创新
创意改善社会 公益温暖中国
促进智能能源利用
大学
谷歌翻译,即时相机翻译,Instant Camera Translation
谷歌十周年系列
谷歌艺术与文化
观妙中国,Shadow Art,智玩皮影
广告
广告安全
互联网,Internet
科技
女性开发者
社会
视频广告
数据中心
数字营销
搜索
网站管理员
文化研究所
艺术计划
音乐搜索
愚人节
增强型广告系列
智能隐形眼镜项目
中小企业
adexchange
Admob
admob sdk
Ads
Adsense
AdWords
android
android m
Android应用开发中国大学生挑战赛
App Inventor
Calendar
cardboard
CES
Chrome
Chrome Web Store
Chrome,Chrome实验
Chrome实验
CI
Code Jam
corporate
Creative
Cross-device
Cultural Institute
culture
Data Center
DevArt
Developer
display
diversity
Doodle
DoubleClick
G+
G2G,Culture
GA&C
gaming
Global Impact Awards
Gmail
Gogle科学挑战赛
Good to Know
Google Ads
Google AdWords
Google Analytics
Google Art Project
Google Arts & Culture
Google Code-in竞赛
Google Demo Day Asia
Google Docs
Google Doodle
Google Drive
Google Drive 云端硬盘
Google Fiber
Google Font
Google for Startups
Google Green
Google I/O
Google Image Search
Google Keep
Google partners
Google Play
Google Science Fair
Google Search
Google Top Contributor Summit
Google Translate
Google Trend
Google Trends
Google Zeitgeist 2012
Google安全系统
Google博士生奖研金
Google翻译
Google奖学金
Google杰出贡献者峰会
Google科学挑战赛
Google网站管理员
Google网站管理员,Webmaster
Google文化研究所
Google在线营销挑战赛
Google中国教育高峰会
IME 输入法
Innovation
Made with Code
maps
mobile ads
mobile ads sdk
Modoo
moonshot
native ads
Nexus
programmatic buying
Project X
Pwn20wn及Pwnium3 黑客大赛
Remarketing. Ads
Search
Security
smb
Solve for X
Street view
student
UR
VR
Web Platform Docs
web security
Webmaster
year in search 2014
YouTube
zeitgeist
博客归档
2024
11月
10月
8月
7月
6月
5月
4月
3月
2月
1月
2023
12月
11月
10月
9月
5月
4月
3月
2月
2022
11月
10月
5月
4月
2月
1月
2021
10月
9月
5月
4月
3月
2月
2020
12月
5月
4月
3月
2019
10月
8月
7月
6月
5月
4月
3月
2018
12月
10月
9月
8月
7月
6月
5月
3月
2月
1月
2017
12月
11月
10月
9月
8月
7月
6月
5月
4月
3月
2月
1月
2016
12月
11月
10月
9月
8月
7月
6月
5月
4月
3月
2月
1月
2015
12月
11月
10月
9月
8月
7月
6月
5月
4月
3月
2月
1月
2014
12月
11月
10月
9月
8月
7月
6月
5月
4月
3月
2月
1月
2013
12月
11月
10月
9月
8月
7月
6月
5月
4月
3月
2月
1月
2012
12月
11月
10月
9月
8月
7月
6月
5月
4月
3月
2月
1月
2011
12月
11月
10月
9月
8月
7月
6月
5月
4月
3月
2月
1月
2010
12月
11月
10月
9月
8月
7月
6月
5月
4月
3月
2月
1月
2009
12月
11月
10月
9月
8月
7月
6月
5月
4月
3月
2月
1月
2008
12月
11月
10月
9月
8月
7月
6月
5月
4月
3月
2月
1月
2007
12月
11月
10月
9月
8月
7月
6月
5月
4月
3月
2月
1月
2006
12月
11月
10月
9月
8月
7月
6月
5月
4月
3月
2月
Feed