中国的博客,走近我们的产品、技术和文化
Google 中国的博客,走近我们的产品、技术和文化
谷歌排序背后的技术
2008年7月23日
发表者: 谷歌首席工程师 Amit Singhal
在我上一篇文章里,我已经介绍了关于谷歌搜索排序的哲学。作为我们探讨搜索质量的努力的一部分,我要向大家介绍更多的谷歌搜索排序背后的技术。我们的排名系统的核心技术源于学术领域的情报检索学。情报检索学对搜索的研究已有近 50 年的历史了。它应用字符突出性的统计讯息,例如字符频率之类,来完成网页排序(可参照“现代情报检索: 概要介绍”来快速了解情报检索技术)。情报检索学为我们提供了一个坚实的基础,在此基础上我们应用最常访问链接、网页结构以及其他创新技术建立起了一个庞大系统。
在过去十年,搜索已经从“给我我所说的”发展到“给我我想要的”。用户对搜索的期望无疑已经提高。我们努力工作以达到每个用户的期望,为了这一点,我们需要更好的理解网页,理解查询,理解用户。在上个十年里,我们已经将理解以上三个部分(在搜索过程中)的技术推到一个全新的层次。
在谷歌,当我们讨论查询关键词的时候,我使用方括号[ ]来标记最开始和最后的查询词(请参考 Matt Cutts 的“如何输入查询关键词”),在本文中我将自始至终使用这一标记。(网页和搜索结果频繁变化,因此,本文举例的解释也许与即时查询的结果不一样。)
理解网页
:多年来我们在抓取和索引系统上投入了大量精力。因此,我们拥有一个非常庞大、更新及时的索引。除了规模和更新,我们还用其他方法改进索引。我们用于理解网页的核心技术之一就是理解这个网页要表达的相关的重要概念的能力,即使这个概念在网页中并没有处于明显的位置。比如,即使伦敦 Sprovieri Gallery 的官方网页中没有出现 London 或 Londra 的字眼,但是我们依然能够在搜索结果中给意大利语查询 [galleria sprovieri londra] 提供 Sprovieri Gallery 的官方网页。在美国,一个用户搜索 [cool tech pc vancouver, wa],将找到 www.cooltechpc.com 主页,即使这个网页没有在任何一个地方提到他们在 Vancouver,WA。我们开发的另一些技术比如在网页中区分重要与次重要字符以及信息的新鲜程度。
理解查询关键词
:理解我们的用户在寻找什么(而不仅仅是几个查询词)非常关键。在这一领域我们取得了几个值得注意的进步,包括最优拼写建议系统,先进的同义词系统,以及强大的概念分析系统。
绝大多数用户已都曾经用过我们的拼写建议系统。当有人输入 [kofee annan] 时我们便会知道他实际在搜索 Mr. Kofi Annan,系统会立即提示:Did you mean: kofi annan;但是,有人搜索 [kofee beans] 实际上就是在搜索咖啡豆。在全球范围里都做到很高的精确度是困难的,但我们做得不错。
同义词是我们理解查询词的基础。这也是我们正在为谷歌解决的最困难的问题之一。虽然有时对人们来说是很容易理解的词,但对于自动语言处理系统来讲却是尚未解决的难题。作为一个用户,我不想为我的查询中使用什么词汇考虑太多。通常我甚至不知道正确的词是什么。这就是我们的同义词系统发挥作用的时候。我们的同义词系统可进行精密的查询修正,例如,我们的系统知道,单词“Dr”在查询 [Dr Zhivago] 时代表医生,但在 [Rodeo Dr] 中代表驾驶。一个用户查询 [back bumper repair] 时得到的结果是后保险杠修理。对于 [Ramstein ab],我们会自动查询 Ramstein 空军基地;输入 [b&b ab],我们会搜索加拿大阿尔伯塔的住宿加早餐旅馆。我们已经开发了能够理解差不多 100 种不同语言的这一级别的同义词查询,对此我引以为傲。
概念识别是我们应用于搜索排序系统的另一项技术。识别查询中关键概念帮助我们提供更相关的搜索结果。例如,在我们的算法能够理解在 [new york times square church] 查询中,用户正在搜索时代广场上著名的教堂,而不是在纽约时报上搜索文章。我们不会仅仅停留在识别概念阶段;我们会进一步用正确概念强化查询,比如,有人查询 [PC and its impact on people],实际上是在查询计算机对社会的影响,或是有人输入 [rainforest instructional activities for vocabulary],实际上是搜寻雨林教案。我们的查询分析算法包含许多诸如此类的技术,而且,我们在全球范围为差不多每一种语言上提供这一服务。
理解用户
:我们努力理解用户的意图,目的在于反馈人们真正想要的,而不仅仅是他们在查询中所说的。这项工作开始于一项全球范围的本土化系统,在这个系统中增加了我们的先进的个性化技术,以及我们在理解用户方面取得进步的几项技术,例如整合搜索。
我们的明确的目标是“ 为全球用户提供相关性最强的本土搜索服务”,这反映在我们的本土化进程中。在不同国家输入同样的查询可能产生完全不同的搜索结果。一位用户在美国输入 [bank] 应该搜到美国的银行,而在英国的用户或许搜到银行授信额度或英国金融机构。在其他说英语的国家,比如澳大利亚、加拿大、新西兰、南非,对此查询的搜索结果应该是当地的金融机构。当人们在一些非英语国家如埃及、以色列、日本、俄国、沙特阿拉伯、瑞士输入这一查询时,事情就变得非常有趣了。同样,查询 [football] 在澳大利亚、英国、美国是指完全不同的体育项目。这些例子告诉我们如何正确获得一个同样的概念的本土化版本。不管怎样,同样的查询在不同国家会有完全不同的结果。举例说明,[Côte d'Or] 是法国的一个地理区——但是在邻近的讲法语的比利时,它却是一家很大的巧克力生产商的名字。同样地,我们给出了正确的搜索结果:-)。
个性化是我们的搜索系统的另一个强项,即为各个用户定制搜索结果。在搜索时已经登录以及标记了网页历史记录的用户将得到比一般的谷歌搜索更贴近意图的结果。例如,一名大量查询足球相关搜索的用户输入 [giants] 时会得到更多与足球有关的搜索结果,而其他用户可能会得到与棒球队相关的搜索结果。同样,如果你倾向于一家特定的购物网站的信息,在你搜索商品时,你会更有可能得到来自这个网站的搜索结果。我们的调查显示,获得个性化搜索结果的用户会发现这些结果比非个性化搜索结果相关性更强。
理解用户意图的另一个例子是查询 [chevrolet magnum]。Magnum 实际上是道奇制造而非雪佛兰。所以我们在搜索结果集中给出了道奇 Magnum 的搜索结果。
我们在整合搜索领域所做的工作也是我们如何解读用户意图,给予他们真正需要的结果的另一个例证。当有人搜索 [bangalore] 时,他们将不仅获得重要的页面,他们同样将获得一个班加罗尔的地图,一段展示街道生活的视频,城市交通等等——观看那段视频时,我几乎觉得自己就在那里:-)——在写作的时候,还会有有关班加罗尔的新闻以及相关的博客。
最后让我简要介绍一下我们在搜索技术上的最新进展:跨语言信息检索。它允许用户首先搜索到非本国语言的信息,然后使用谷歌翻译技术将页面翻译过来,我们使得这些信息很容易获得。我把这一创新叫做:给我我想要的任何语言的答案。一个正在俄国搜索托尼•布莱尔个人传记的用户输入俄文 [Тони Блэр биография],在我们的英文搜索结果底端将显示:
 
同样地,一个在埃及搜索迪斯尼电影歌曲的用户输入 [أغاني أفلام ديزني] 将获得在英文页面中的搜索结果。让我们兴奋的是,跨语言信息检索让我们离我们的目标更近,让我们能够组织全球信息,真正达到信息在世界范围内的互通与可用。
我将继续展示我们为了尽可能地优化搜索排序系统而开发的的堪称艺术品的技术,但事实上,搜索还远不是一个已经解决的问题。许多谷歌查询仍然没有得到满意结果,而每一个这样的查询都是改进我们的排序系统的机会。我很自信,我们的团队已经开发了许多技术,我们将在不久的将来使我们的排序算法取得更大进步。
我希望,我的关于谷歌搜索排序的两篇文章已经清楚地显示,我们为搜索而生,我们比以往更充满热情。我们为全球用户服务的热情是前所未有的。我们为自己在运转一个非常好的搜索排序系统而自豪,我们将每天努力工作,让它变得更好。
標籤
编程之夏,UR
创新
创意改善社会 公益温暖中国
促进智能能源利用
大学
谷歌翻译,即时相机翻译,Instant Camera Translation
谷歌十周年系列
谷歌艺术与文化
观妙中国,Shadow Art,智玩皮影
广告
广告安全
互联网,Internet
科技
女性开发者
社会
视频广告
数据中心
数字营销
搜索
网站管理员
文化研究所
艺术计划
音乐搜索
愚人节
增强型广告系列
智能隐形眼镜项目
中小企业
adexchange
Admob
admob sdk
Ads
Adsense
AdWords
android
android m
Android应用开发中国大学生挑战赛
App Inventor
Calendar
cardboard
CES
Chrome
Chrome Web Store
Chrome,Chrome实验
Chrome实验
CI
Code Jam
corporate
Creative
Cross-device
Cultural Institute
culture
Data Center
DevArt
Developer
display
diversity
Doodle
DoubleClick
G+
G2G,Culture
GA&C
gaming
Global Impact Awards
Gmail
Gogle科学挑战赛
Good to Know
Google Ads
Google AdWords
Google Analytics
Google Art Project
Google Arts & Culture
Google Code-in竞赛
Google Demo Day Asia
Google Docs
Google Doodle
Google Drive
Google Drive 云端硬盘
Google Fiber
Google Font
Google for Startups
Google Green
Google I/O
Google Image Search
Google Keep
Google partners
Google Play
Google Science Fair
Google Search
Google Top Contributor Summit
Google Translate
Google Trend
Google Trends
Google Zeitgeist 2012
Google安全系统
Google博士生奖研金
Google翻译
Google奖学金
Google杰出贡献者峰会
Google科学挑战赛
Google网站管理员
Google网站管理员,Webmaster
Google文化研究所
Google在线营销挑战赛
Google中国教育高峰会
IME 输入法
Innovation
Made with Code
maps
mobile ads
mobile ads sdk
Modoo
moonshot
native ads
Nexus
programmatic buying
Project X
Pwn20wn及Pwnium3 黑客大赛
Remarketing. Ads
Search
Security
smb
Solve for X
Street view
student
UR
VR
Web Platform Docs
web security
Webmaster
year in search 2014
YouTube
zeitgeist
博客归档
2024
12月
11月
10月
8月
7月
6月
5月
4月
3月
2月
1月
2023
12月
11月
10月
9月
5月
4月
3月
2月
2022
11月
10月
5月
4月
2月
1月
2021
10月
9月
5月
4月
3月
2月
2020
12月
5月
4月
3月
2019
10月
8月
7月
6月
5月
4月
3月
2018
12月
10月
9月
8月
7月
6月
5月
3月
2月
1月
2017
12月
11月
10月
9月
8月
7月
6月
5月
4月
3月
2月
1月
2016
12月
11月
10月
9月
8月
7月
6月
5月
4月
3月
2月
1月
2015
12月
11月
10月
9月
8月
7月
6月
5月
4月
3月
2月
1月
2014
12月
11月
10月
9月
8月
7月
6月
5月
4月
3月
2月
1月
2013
12月
11月
10月
9月
8月
7月
6月
5月
4月
3月
2月
1月
2012
12月
11月
10月
9月
8月
7月
6月
5月
4月
3月
2月
1月
2011
12月
11月
10月
9月
8月
7月
6月
5月
4月
3月
2月
1月
2010
12月
11月
10月
9月
8月
7月
6月
5月
4月
3月
2月
1月
2009
12月
11月
10月
9月
8月
7月
6月
5月
4月
3月
2月
1月
2008
12月
11月
10月
9月
8月
7月
6月
5月
4月
3月
2月
1月
2007
12月
11月
10月
9月
8月
7月
6月
5月
4月
3月
2月
1月
2006
12月
11月
10月
9月
8月
7月
6月
5月
4月
3月
2月
Feed