中国的博客,走近我们的产品、技术和文化
Google 中国的博客,走近我们的产品、技术和文化
中文域名及中文域名搜索在谷歌网页搜索及谷歌 Chrome 中的妙用
2008年11月7日
发表者:谷歌资深工程师 谭永锋 Frank Yung-Fong Tang
今天,我们想给大家介绍一个好用的功能——用中文域名来进行搜索的妙用,这个中文功能看来基本,但是您不妨在其他的搜索引擎中也试一试, 比较谷歌搜索和其他搜索引擎在这方面的功能差异。
谷歌搜索懂中文域名
谷歌从很早就开始支持“指定网站” (site restrict) 搜索,许多搜索引擎后来也纷纷效仿增加了支持“指定网站”搜索;例如,搜索
中国互联网络信息中心.cn
就是指定在“cnnic.cn”网站内搜索有关“中文域名”的页面。这在一些其他的搜索引擎中也能做到,没什么稀奇。但是如果你搜索的是
www.中国互联网络信息中心.cn
,也就是指定要在“中国互联网络信息中心.cn”这一个中文域名的网站里搜索有关“中文域名”的网页时(图一) ,你就会发现,大部份其他的的搜索引擎就没有任何结果了。
图一:谷歌搜索显示搜索“中文域名 site:中国互联网络信息中心.cn”的结果
再看另一个例子吧,我们在谷歌中搜
http://北京大学.cn/academic/zggds/005/003/001.htm
可以找到结果(图二),但在其他的搜索引擎中什么结果也找不到。
图二:谷歌搜索显示搜索“site:北京大学.cn 敦煌”的结果
在谷歌搜索技术中,我们支持了由“中国互联网络信息中心”及其他的国际互联网络单位共同推广的“中文域名”。也就是说我们的搜索内容中,包括了许多其他搜索引擎不愿纳入考虑的中文域名网站。在搜索结果(如图三)中,我们可看到在搜索
“中国搜索引擎市场调查报告重要数据”
的结果中列有以“www.中国互联网络信息中心.cn”网站为网址的结果。这在其他一些搜索引擎中是看不到的。因为这些搜索引擎并不支持中文域名。
图三: 谷歌搜索结果中列有“www.中国互联网络信息中心.cn”的结果
谷歌 Chrome 也懂中文域名
不但如此,谷歌 Chome 浏览器在谷歌工程师的努力之下也己能支持中文域名,在地址栏中输入 http://北京大学.cn/ academic/zggds/005/003/001.htm (例如图四所示),也能访问该网页,在 FireFox 浏览器中这一功能当年也是由谷歌工程师(他们在加入谷歌之前就职于网景公司)主导加入的。这一功能在 IE7 中也有。不过,在谷歌 Chrome 浏览器及 IE7 中,为了帮助用户分辨真实域名及外文字型相似的假域名,在网页载入后,如果域名所用之字不在浏览器内设定的语言之内,则会以不易读的 Punycode 显示 (例如: "http://北京大学.cn/" 会显示成 "http://xn--1lq90ic7fzpc.cn/" )。 所以只有在用户使用中文版的浏览器时才能完整体验谷歌Chrome 浏览器及 IE7 对中文文域名的功能。若读者是使用英文或其他外语版的浏览器,则必须在"语言设定"一项中加入"中文"才能让浏览器以中文,而不是以不易读的 Punycode 来显示中文域名。
图四:谷歌 Chrome 及 FireFox 都可看到 http://北京大学.cn/academic/zggds/005/003/001.htm 的结果
在中国关于中文域名的电视报道
其实,中文域名标准制定及技术研发早在十年前就已经悄然开始。由于这一技术涉及全球所有 DNS 服务器、网路协定的兼容性需求,以及不同浏览器,服务器及软件的配合,耗时很长。其中“中国互联网络信息中心”(CNNIC)长期以来更是花费了许多心力在这方面。数年前开始,网站主可在 .cn 下注册使用中文域名,如"http ://北京大学.cn"。近日,中国一些电视新闻报道介绍从 2009 年开始".中国"也要启用,例如"http://北京大学.中国" (现在还不能用),目前仅有供测试用的 http://例子.测试 首级域名可在互联网中测试使用。读者不妨在谷歌视频搜索中看一看 CCTV
的相关报道
。
谷歌工程团队中长年致力贡献中文域名的工程师
在我们的谷歌工程团队中,有许多多年长期致力开发中文域名/国际域名的工程师。他们中的很多人早在加入谷歌之前就在国际网际网络工程协会及业界致力贡献中文域名的。以下就简单介绍一下这些我所知道的我们这些“谷歌人” (Googlers)及其他们在加入谷歌前为“中文域名”的努力:
国际域名标准的标准制定
万维网协会(W3C)的 Martin Duerst 及 Richard Ishida 早在上个世纪末就花了很多时间提出国际域名的概念。国际域名最主要的需求国之一就是中国,有了国际域名的国际标准才有可能广泛地实施中文域名。当时作者年幼无知,觉得 Martin 提出来的和 DNS 现况不合,太不切实际,现在想想,实在汗颜,好在Martin一直坚持他的理想,为此多方奔走,总算在 1999 年 11 月,互联网工程任务组 (IETF) 开始了国际域名标准的订立工作。
贡献中文域名标准制定的谷歌工程师
在 2002-2003 年,中文域名的基础-国际域名(IDNA)标准经过业界很多人的努力,开始成形。当时在加州大学柏克来分校读博士的 Adam M. Costello 是其中二份标准(RFC 3490 及 RFC3492)的作者,Adam 在 2004 年加入谷歌。而时任 IBM 公司工程师的 Mark Davis 也在标准审阅上投入了不少心力。在 2003 年上半年,国际域名的四份主要标准定案:
• RFC 3454: 制备国际化字串(stringprep) (2002 年十二月)
• RFC 3490: 国际化域名中的应用(IDNA) (2003 年三月)
• RFC 3491: Nameprep: 一个为国际化域名所设计的 Stringprep (2003 年三月)
• RFC 3492: Punycode: 一个为国际化域名系统中应用的 Bootstring 的 Unicode 编码 (2003 年三月)
在这四份网络标准发布之后,陆续在业界具体实施上遇见了一些安全性的困难,其问题多出于在统一码编码上一些字型近似的问题,为此,Mark Davis 贡献了以下二份“统一码技术报告” (UTR: Unicode Technical Report),这两份文件也成为了实施国际域名的基石之一:
• UTR 36: 统一码安全考虑 (2008 年七月)
• UTR 39: 统一码安全机制 (2006 年八月)
在浏览器中加入中文域名功能的谷歌工程师
2003 年,作者(谭永锋/Frank Yung-Fong Tang)当时任职网景公司(Netscape Communication)资深技术经理(Sr. Technical Manager),主管“客户端软件国际化及多国语言文字技术工程组”(Client Internationalization and Multilingual Text Engineering Group),致力于开放式软件 Mozilla/Gecko (也就是现在的 FireFox 核心)中的编码及文字输入显示等核心工程开发。现任谷歌总部工程主管的钟胜华(Bob Jung)是我当时在网景的工程部主任。李善鉴(Shanjian Li)、Brian Stell 等现任谷歌工程师当时也在我的组内。在中文域名标准制定过程中,我们就深深了解到这一革命性的标准,未来会对中文域名及网络使用有极深的贡献。因此国际域名标准成形后,我们(包括一些其他目前不在谷歌任职的工程师)就把 IDNA 的解析功能加入了当时以 Mozilla/Gecko 为名的 FireFox 核心中。也就是说,早在 2003 年浏览器就能使用“中文域名”的网站了。当然,那时所加入的是初步技术,之后经过许多人的改良,现在 FireFox 的中文域名解析功能及显示也比当时更加完备。其中荷兰籍的前网景工程师 Erik van der Poel 及当时在耶鲁读博士的韩籍 Jungshik Shin (申政湜) 也在之后贡献良多,他们也都是现任谷歌工程师。
此后,微软在 IE 7 中也加入了中文域名解析功能。
与此同时,当时身在 IBM 的 Mark Davis 及 Markus Scherer 也开始在开源程序库 ICU 中加入国际域名的解析功能。这两位也于 2006 年都加入了谷歌。
今年,Jungshik Shin 在谷歌浏览器 Chrome 中加入了国际域名的功能。
图五: Chrome 及 FireFox 浏览器中中文域名功能
谷歌在搜索技术中加入中文域名网页
2005-2006 年,包括我在内的许多前网景国际工程部工程师及许多前 IBM 国际统一码工程组的工程师也加入谷歌。包括了现任统一码协会的主席 Mark Davis,这些同仁都是早在七八年前中文域名开始规划标准时就关注中文域名的,长期以来一直关注中文域名的发展。在我们加入谷歌时,当时谷歌的中文搜索技术已比较成熟。许多其他谷歌工程师在中文技术的研发上让我们十分佩服。最近 Erik van der Poel (他也是日本电邮编码标准 RFC 1468 ISO-2022-JP 的作者) 在这方面付出了不少努力,经过他及其他一些同仁的合作,我们在谷歌搜索现中也可以看到上列中文域名的搜索结果。
谷歌在国际域名标准更新版本修定工作组继续投入
为了确保国际域名的实施可以符合实际,同时能更好的面对、解决新发现的问题,谷歌在国际域名标准更新版本修定工作组继续投入。目前身为谷歌副总裁兼首席互联网传播者的互联网之父 Vint Cerf (他在工业界公认为是“互联网之父”之一, 因为他是 1974 年 TCP 网路协定的主要作者) 目前是 IDNAbis (国际域名标准更新版) 工作组的主席。2001-2005 年曾任互联网工程任务组 (IETF) 主席的谷歌挪威工程研究院经理 Harald Alvestrand 目前也是“国际域名中使用在右到左语文标准”(“右到左语文”:如阿拉伯文,希伯来文)的作者之一。
结语
我们希望因为谷歌在搜索引擎中加入中文域名的功能,可以方便用户使用同时也激励其他的中文搜索引擎在这方面功能的补全,在未来也能加入支持中文域名的行列,从而对全中国的网路发展作出正面贡献。希望能早日看到这么一天。
致谢
撰文期间蒙 Erik van der Poel, William Farris, Jungshik Shin 等同仁指正,在此深表感谢。
相关文献
• RFC 3454: 制备国际化字串(stringprep) (2002年十二月)
• RFC 3490: 国际化域名中的应用(IDNA) (2003年三月)
• RFC 3491: Nameprep: 一个为国际化域名所设计的 Stringprep (2003年三月)
• RFC 3492: Punycode: 一个为国际化域名系统中应用的 Bootstring 的 Unicode 编码 (2003年三月)
• UTR 36: 统一码安全考虑 (2008年七月)
• UTR 39: 统一码安全机制 (2006年八月)
列有中文域名范例的网页:
•
IDNwiki
http://idn.icann.org/
•
http://例子.测试
•
IDN Test URLs
http://blogs.msdn.com/shawnste/archive/2006/09/14/754882.aspx
標籤
编程之夏,UR
创新
创意改善社会 公益温暖中国
促进智能能源利用
大学
谷歌翻译,即时相机翻译,Instant Camera Translation
谷歌十周年系列
谷歌艺术与文化
观妙中国,Shadow Art,智玩皮影
广告
广告安全
互联网,Internet
科技
女性开发者
社会
视频广告
数据中心
数字营销
搜索
网站管理员
文化研究所
艺术计划
音乐搜索
愚人节
增强型广告系列
智能隐形眼镜项目
中小企业
adexchange
Admob
admob sdk
Ads
Adsense
AdWords
android
android m
Android应用开发中国大学生挑战赛
App Inventor
Calendar
cardboard
CES
Chrome
Chrome Web Store
Chrome,Chrome实验
Chrome实验
CI
Code Jam
corporate
Creative
Cross-device
Cultural Institute
culture
Data Center
DevArt
Developer
display
diversity
Doodle
DoubleClick
G+
G2G,Culture
GA&C
gaming
Global Impact Awards
Gmail
Gogle科学挑战赛
Good to Know
Google Ads
Google AdWords
Google Analytics
Google Art Project
Google Arts & Culture
Google Code-in竞赛
Google Demo Day Asia
Google Docs
Google Doodle
Google Drive
Google Drive 云端硬盘
Google Fiber
Google Font
Google for Startups
Google Green
Google I/O
Google Image Search
Google Keep
Google partners
Google Play
Google Science Fair
Google Search
Google Top Contributor Summit
Google Translate
Google Trend
Google Trends
Google Zeitgeist 2012
Google安全系统
Google博士生奖研金
Google翻译
Google奖学金
Google杰出贡献者峰会
Google科学挑战赛
Google网站管理员
Google网站管理员,Webmaster
Google文化研究所
Google在线营销挑战赛
Google中国教育高峰会
IME 输入法
Innovation
Made with Code
maps
mobile ads
mobile ads sdk
Modoo
moonshot
native ads
Nexus
programmatic buying
Project X
Pwn20wn及Pwnium3 黑客大赛
Remarketing. Ads
Search
Security
smb
Solve for X
Street view
student
UR
VR
Web Platform Docs
web security
Webmaster
year in search 2014
YouTube
zeitgeist
博客归档
2024
12月
11月
10月
8月
7月
6月
5月
4月
3月
2月
1月
2023
12月
11月
10月
9月
5月
4月
3月
2月
2022
11月
10月
5月
4月
2月
1月
2021
10月
9月
5月
4月
3月
2月
2020
12月
5月
4月
3月
2019
10月
8月
7月
6月
5月
4月
3月
2018
12月
10月
9月
8月
7月
6月
5月
3月
2月
1月
2017
12月
11月
10月
9月
8月
7月
6月
5月
4月
3月
2月
1月
2016
12月
11月
10月
9月
8月
7月
6月
5月
4月
3月
2月
1月
2015
12月
11月
10月
9月
8月
7月
6月
5月
4月
3月
2月
1月
2014
12月
11月
10月
9月
8月
7月
6月
5月
4月
3月
2月
1月
2013
12月
11月
10月
9月
8月
7月
6月
5月
4月
3月
2月
1月
2012
12月
11月
10月
9月
8月
7月
6月
5月
4月
3月
2月
1月
2011
12月
11月
10月
9月
8月
7月
6月
5月
4月
3月
2月
1月
2010
12月
11月
10月
9月
8月
7月
6月
5月
4月
3月
2月
1月
2009
12月
11月
10月
9月
8月
7月
6月
5月
4月
3月
2月
1月
2008
12月
11月
10月
9月
8月
7月
6月
5月
4月
3月
2月
1月
2007
12月
11月
10月
9月
8月
7月
6月
5月
4月
3月
2月
1月
2006
12月
11月
10月
9月
8月
7月
6月
5月
4月
3月
2月
Feed