中国的博客,走近我们的产品、技术和文化
Google 中国的博客,走近我们的产品、技术和文化
Google神经网络机器翻译系统发布,实现机器翻译重大突破
2016年9月29日
近日,Google宣布发布Google神经网络机器翻译(GNMT:Google Neural Machine Translation)系统,该系统使用了当前最先进的训练技术,能够实现到目前为止机器翻译质量的最大提升。
十年前,Google发布了 Google Translate,这项服务背后的核心算法是基于短语的机器翻译。自那时起,机器智能的快速发展已经给语音识别和图像识别能力带来了巨大的提升,但改进机器翻译仍然是一个极具挑战的目标。
几年之前,Google开始使用循环神经网络来直接学习一个输入序列(如一种语言的一个句子)到一个输出序列(另一种语言的同一个句子)的映射。其中基于短语的机器学习将输入句子分解成词和短语,然后对它们的大部分进行独立翻译,而神经网络机器翻译则将整个输入句子视作翻译的基本单元。这种方法的优点是:相比之前的基于短语的翻译系统,这种方法所需的调整更少。在被首次提出时,神经网络机器翻译系统在中等规模的公共基准数据集上就达到了与基于短语的翻译系统不相上下的准确度。
自那以后,研究者提出了很多改进神经网络机器翻译系统的技术,其中包括模拟外部对准模型来处理罕见词 ,使用“注意(attention)”来对准输入词和输出词以及将词分解成更小的单元以应对罕见词。尽管有这些进步,但神经网络机器翻译系统的速度和准确度仍有很大的提升空间。而现在通过让神经网络机器翻译系统战胜在非常大型的数据集上工作的许多挑战,Google打造了一个在速度和准确度上都已足够为用户带来更好服务的翻译系统。
下面的可视化图展示了Google神经网络机器翻译系统将一个中文句子翻译成英语句子的过程。首先,该网络将这句中文句子的词编码成一个向量列表,其中每个向量都表示了到目前为止所有被读取到的词的含义(编码器“Encoder”)。一旦读取完整个句子,解码器就开始工作——一次生成英语句子的一个词(解码器“Decoder”)。为了在每一步都生成翻译正确的词,解码器重点注意了与生成英语词最相关编码的中文向量的权重分布(注意“Attention”;蓝色连线的透明度表示解码器对一个被编码的词的注意程度)。
使用人类对比评分指标,神经网络机器翻译系统得出的翻译内容相较于之前实现了极大的提升。在双语评估者的帮助下,通过在维基百科和新闻网站的例句测定,Google发现:在多个样本的翻译中,神经网络机器翻译系统将误差降低了 55%-85%甚至以上。
同时,Google还宣布将神经网络机器翻译系统投入到了一个非常困难的语言对(中文-英语)的翻译中。现在,移动版和网页版的 Google Translate 的中英翻译已经开始完全使用神经网络机器翻译系统了——每天大约 1800 万条翻译。其中,Google开放的机器学习工具套件 TensorFlow 和张量处理单元为部署强大的神经网络机器翻译系统模型提供了足够的计算力,同时也满足了 Google Translate 严格的延迟要求。中文到英语的翻译只是 Google Translate 所支持的超过 10000 种语言对中的一种,在未来几个月,Google还将继续把神经网络机器翻译系统扩展到更多的语言对上。
但机器翻译的问题并没有完全解决。Google神经网络机器翻译系统仍然会犯一些人类译者永远不会出的重大错误,例如漏词和错误翻译专有名词或罕见术语,以及将句子单独进行翻译而不考虑其段落或上下文。为了给用户带来更好的服务,Google还有更多的工作要做。但Google神经网络机器翻译系统仍然代表着一个重大的里程碑,Google希望与过去几年在这个研究方向上有所贡献的研究者和工程师们一起庆祝它的诞生。
標籤
编程之夏,UR
创新
创意改善社会 公益温暖中国
促进智能能源利用
大学
谷歌翻译,即时相机翻译,Instant Camera Translation
谷歌十周年系列
谷歌艺术与文化
观妙中国,Shadow Art,智玩皮影
广告
广告安全
互联网,Internet
科技
女性开发者
社会
视频广告
数据中心
数字营销
搜索
网站管理员
文化研究所
艺术计划
音乐搜索
愚人节
增强型广告系列
智能隐形眼镜项目
中小企业
adexchange
Admob
admob sdk
Ads
Adsense
AdWords
android
android m
Android应用开发中国大学生挑战赛
App Inventor
Calendar
cardboard
CES
Chrome
Chrome Web Store
Chrome,Chrome实验
Chrome实验
CI
Code Jam
corporate
Creative
Cross-device
Cultural Institute
culture
Data Center
DevArt
Developer
display
diversity
Doodle
DoubleClick
G+
G2G,Culture
GA&C
gaming
Global Impact Awards
Gmail
Gogle科学挑战赛
Good to Know
Google Ads
Google AdWords
Google Analytics
Google Art Project
Google Arts & Culture
Google Code-in竞赛
Google Demo Day Asia
Google Docs
Google Doodle
Google Drive
Google Drive 云端硬盘
Google Fiber
Google Font
Google for Startups
Google Green
Google I/O
Google Image Search
Google Keep
Google partners
Google Play
Google Science Fair
Google Search
Google Top Contributor Summit
Google Translate
Google Trend
Google Trends
Google Zeitgeist 2012
Google安全系统
Google博士生奖研金
Google翻译
Google奖学金
Google杰出贡献者峰会
Google科学挑战赛
Google网站管理员
Google网站管理员,Webmaster
Google文化研究所
Google在线营销挑战赛
Google中国教育高峰会
IME 输入法
Innovation
Made with Code
maps
mobile ads
mobile ads sdk
Modoo
moonshot
native ads
Nexus
programmatic buying
Project X
Pwn20wn及Pwnium3 黑客大赛
Remarketing. Ads
Search
Security
smb
Solve for X
Street view
student
UR
VR
Web Platform Docs
web security
Webmaster
year in search 2014
YouTube
zeitgeist
博客归档
2024
11月
10月
8月
7月
6月
5月
4月
3月
2月
1月
2023
12月
11月
10月
9月
5月
4月
3月
2月
2022
11月
10月
5月
4月
2月
1月
2021
10月
9月
5月
4月
3月
2月
2020
12月
5月
4月
3月
2019
10月
8月
7月
6月
5月
4月
3月
2018
12月
10月
9月
8月
7月
6月
5月
3月
2月
1月
2017
12月
11月
10月
9月
8月
7月
6月
5月
4月
3月
2月
1月
2016
12月
11月
10月
9月
8月
7月
6月
5月
4月
3月
2月
1月
2015
12月
11月
10月
9月
8月
7月
6月
5月
4月
3月
2月
1月
2014
12月
11月
10月
9月
8月
7月
6月
5月
4月
3月
2月
1月
2013
12月
11月
10月
9月
8月
7月
6月
5月
4月
3月
2月
1月
2012
12月
11月
10月
9月
8月
7月
6月
5月
4月
3月
2月
1月
2011
12月
11月
10月
9月
8月
7月
6月
5月
4月
3月
2月
1月
2010
12月
11月
10月
9月
8月
7月
6月
5月
4月
3月
2月
1月
2009
12月
11月
10月
9月
8月
7月
6月
5月
4月
3月
2月
1月
2008
12月
11月
10月
9月
8月
7月
6月
5月
4月
3月
2月
1月
2007
12月
11月
10月
9月
8月
7月
6月
5月
4月
3月
2月
1月
2006
12月
11月
10月
9月
8月
7月
6月
5月
4月
3月
2月
Feed