中国的博客,走近我们的产品、技术和文化
Google 中国的博客,走近我们的产品、技术和文化
谷歌的计算机科学“大学助教”— Google Code for Educators(教育工作者谷歌代码站点)
2007年7月31日
发表者:编译自美国官方博客
还在为找不到关于计算机科学方面的资料而发愁吗?我们十分高兴地告诉大家 Google(谷歌)近期发布了
Google Code for Educators
(教育工作者谷歌代码站点)这个新站点着眼于大学中计算机科学的相关话题,并提供了一个知识交流的平台,让用户们分享像 AJAX 网络编程,分布式系统,并行编程和网络安全方面的资料。站点中包含了幻灯片,编程实验室,难题集,背景指导和视频文件,它是为大学教员量身设计的,大家可以了解计算机科学的新主题以及相应的课程,并且为那些求知欲旺盛的学生提供了自学的途径。有没有点大学助教的感觉呢?:)
另外,大家还可以在
Google Research
(谷歌研究)上,可以找到关于计算机科学研究的资源,其中包括由我们的 Googler 授权的论文和海量的谷歌技术讲座。不久前,中文版的
谷歌代码搜索
也和大家见面了。希望我们在这方面的努力,能够帮助教育工作者和大学生朋友们方便地在谷歌上查找更多的计算机科学方面的资源。
今年夏天 Eric 做了什么?
2007年7月30日
发表者:Karen Wickre 翻译自美国官方博客
春困、秋乏、夏打盹,到了夏季,大家都感觉好像是一年之中可以稍作放松的季节,可是我们的 CEO Eric 投身到谷歌的公共政策项目中去了。
大家可能听说过 Google's summer of code(谷歌暑期编程大赛活动),Eric 近期的行程安排更像一个Eric 夏季公共政策之旅。随着越来越多的公共政策影响着谷歌和我们的用户,Eric 和我们许多高层都努力于与华盛顿以及全球各国各地的决策者进行沟通,和他们谈论互联网的未来发展。
上上周末,密歇根州特拉弗斯城,Eric 在 National Governors Association(全国州长协会)的年会上发言。正如
Traverse City Record-Eagle
报道的一样,Eric 期望政府在现在的教育中必须包含让学生们知道如何研究并得到信息,而不是简单的死记硬背一些客观事实。他还指中现在互联网上大量的教育资源并没有被充分利用。
上周一,Eric 与 YouTube 的 Chad Hurley 和 Steve Chen 一起参加了在加州举办的
CNN/YouTube presidential debate
(CNN/YouTube 总统候选人辩论,这是目前第二受欢迎的总统候选人辩论)
上周四,Eric 出现在美国国会山会见了一些参议员,并与他们探讨了医疗,专利改革,移民和消费者隐私权等问题。
下个月,他会出席 Progress and Freedom Foundation's annual Aspen Summit (进步和自由基金会年度峰会)。会上大家将讨论谷歌近期支持的
spectrum reform
。
关于更多的谷歌公共政策方面的动态可以登录我们全球的
Public Policy blog
(谷歌公共政策博客)
Eric 看 Google(谷歌)中国
2007年7月26日
发表者:Google(谷歌)普通员工
我是一个加入谷歌中国相对较早的员工,近两年来,我们经过了挺多考验,有些在来的时候预料到了,有些确实超出了当时的想像。
昨天,因为听说这一季发财报,公司专门有一个章节讲到中国的发展,恰巧听到 Eric 回答一个关于中国的问题,感触颇多,所以翻来跟大家共勉。
这段话是在上周举办的 Google Inc. Second Quarter 2007 Earnings Conference Call(谷歌 2007 年第二季度收益电话会议)上(
http://investor.google.com/earnings.html
),Google(谷歌)CEO Eric 在答记者问时,表示对谷歌中国目前得到的成绩十分满意,并对谷歌在中国市场的发展前景充满信心。
Eric 说我们在中国有优秀的人才,越来越完善的设施和不断丰富本土化的产品线。他认为虽然谷歌的成功未必就在眼前,但是这对谷歌中国来有了一个很好的开始,而且凭借中国团队的努力,总部的支持和
百折不挠的精神
,他坚信在未来,谷歌在中国会取得惊人的成绩。
是啊,重要的是我们在坚定的向上进取,因为我们成长在这里,我们对这里有深厚的感情,我们深刻的相信谷歌应该给中国更多、更多,应该给用户更多更多。
Google(谷歌)日历 — 我生活中不可缺少的另一伴!
2007年7月24日
发表者:Google(谷歌)产品支持小组
自从
Google(谷歌)日历
发布以来,它已成为我生活中不可缺少的另一伴:我不再为日程安排而伤脑筋;让小迷糊的我记得在中秋佳节时不忘给远方的家人拨个电话、问声好;想与好友一起去逛街、喝杯“星巴克”咖啡,再也无需担心她哪时没空;在自己的博客中添加嵌入式日历与他人分享。这一切需要,谷歌日历都一一实现了!
安排每日任务事项
身为一位全职“working mom” 的我,可想而知,时间对我来说是多么珍贵的啊!尤其特别需要像谷歌日历这样一个有效率的工具帮助我安排每天的任务事项和有计划性的完成每一个待办事项。使用谷歌日历左侧“添加”菜单中的“
创建新日历
”,我在“我的日历”下创建了 4 个日历:上班、个人、家庭和其他,并以不同的颜色来做区分。然后,将新任务根据不同的日历和特定时间创建。再将日历设置为以“
周
”视图显示。我个人喜欢将每周预期要完成的任务事项,一次性输入。对一些重复性的任务(如:星期四上午 9 至 10 点的小组会议,或星期三下午 6 至 7 点女儿的钢琴排练课),我还能在“创建活动”时将它设置为“
重复性活动
”。这样一来,不但帮了我节省很多打字的时间,而且也让我对一周的任务事项了如指掌!更方便的是,不管我人在何处,我都能上网来访问我的日历。
 
活动提醒
谷歌日历另一项很酷的功能就是它能在我每个所“创建活动”也就是我的“待办事项”未“发生”之前,以“电子邮件”或“弹出式窗口”的方式
提醒
我即将发生的事项。我可以根据活动的重要性来设置“提醒”时间。这样一来,对分秒必争和“multi-tasker”的我尤其有帮助!
设置“提醒”功能的步骤非常简单。打个比方说,如果我需在即将发生的活动前 10 分钟获得“电子邮件”通知,只须在“创建活动”时,在“选项”下的“提醒”下拉菜单中选择“电子邮件”,然后,设置活动的提醒时间。如果我将“提醒”设置为“电子邮件”,我在无需打开日历情况下,通过我的 Gmail 帐户(或是任何在创建谷歌日历帐户时所使用的其他电子邮件地址)获得“活动提醒”,提醒我下一件所需完成的事项。(当然,我需确定已将 Gmail 帐户开启。)另外,我个人非常喜欢结合谷歌日历的“电子邮件提醒”和
Google Talk
的“新邮件显示通知”功能。这样一来,我在无需打开 Gmail 和谷歌日历情况下,通过计算机托盘中 Google Talk 图标上方看见以“
新邮件显示通知
”的方式看到“活动提醒”。这么天衣无缝的配搭,再也没有其他工具能比得上了!
“中秋赏月,天月圆,地月缺;游子思乡,他乡苦,本乡甜”,“活动通知”,对我来说尤其重要 — 提醒我记得在中秋佳节时,向居住在远方(马来西亚)的家人拨个电话、问声平安。要设置此功能,方法非常简单。首先,在谷歌日历左侧的“添加”菜单中,点一下“添加公共日历”。然后在“添加其他日历” 标签下点一下“浏览日历”。最后,将鼠标滚动到“节假日日历”中预设好的“农历”,点一下“添加日历”和“确定”。“农历”日历就会奇妙般的出现在主页的顶部。使用页中左上角的右箭头浏览至“农历八月十五(中秋)”,在相应的时间位置点一下,在“内容”字段中输入文字。然后,点一下“修改活动详细信息”,并输入其他所需填写信息。(千万不可忘记在“提醒”功能中设置时间哦!)这样一来,我再也不担心送上迟来的祝福。
 
日历分享
生活在这忙碌又快节奏的硅谷 (Silicon Valley) 中,往往也需要放慢脚步、轻松一下,来享受除了工作及家庭以外的个人生活。自从上班将近一年半以来,我愈来愈发现将时间除了给了工作和家人后,剩下的个人空间愈来愈少, 能与好友碰个面、聊个天的时间也没了;更何况,他们也有自己忙碌的工作和家庭生活。幸好有谷歌日历的
分享功能
,我再也不为与好友的关系趋于淡薄而担心了!在无需打扰好友情况下,通过日历分享,我就能轻轻松松地
把好友的日历添加到我的日历中
或反之亦然,好让我对他的日程了如指掌!(当然,这也要根据好友在接受邀请后依照他个人喜好来设置
与他人分享的日历
的选项来决定。)这样一来,谷歌日历不仅帮我们促进彼此之间的感情,还能提供一个我俩的共同空间 -- 想一起喝杯“星巴克”咖啡或窗口式逛街,再也不是一件难成的事了…
对于还未拥有谷歌日历的好友,我有 3 个方法来与他人分享日历:方法( 一)邀请他
申请一个谷歌日历帐户
。方法(二)在其他应用程序上使用“
日历网址
”,以方便与暂时没有日历服务的朋友分享日历。方法(三)通过使用谷歌日历中的“
配置工具
”将日历轻轻松松地嵌入至个人网站或搏客里与好友分享。(不管是“tech-savvy” 或新手的你,都能使用此工具)
读了这些我个人对谷歌日历的小小使用心得,你是不是有些蠢蠢欲动了?其实,谷歌日历还有好多实用的功能正等待着你来发掘。要想了解更多有关谷歌日历的信息,请浏览谷歌日历的
帮助中心
。这里,你不仅能搜索到更多其他实用功能的信息;你也能透过疑难解答来学习使用提示和问题帮助。如果搜索不到你的问题解答,你还能通过
与我们联系
将你的问题提交给谷歌日历小组。还有还有,如果你有任何更酷的
功能建议
,你也能将它提交给谷歌日历小组 — 用户们的反馈和建议就是谷歌日历不断进步的动力。心动不如行动,今天就让谷歌日历走进你的生活,成为你每日中不可缺少的另一伴吧!
 
浪潮之巅第一章 — 帝国的余辉(AT&T)(四)
2007年7月24日
发表者:Google(谷歌)研究员 吴军
第一章 帝国的余辉 (AT&T)
1. 百年帝国
2. 几度繁荣
3. 利令智昏
4. 外来冲击
如果说终结 AT&T 帝国的内因是华尔街和 AT&T 自己的贪婪和短视,那么互联网的兴起从外界彻底击垮了这个帝国。在互联网兴起以前,固定电话几乎是人类唯一的交互通信手段,因此,只要在这个产业中占领一席之地,即使不做任何事,也可以由着它的波浪推着前进。AT&T一百年来就是这样。它不紧不慢地发展着,还有很多失败的投资,但这些丝毫伤害不到它。也不能阻止它一次又一次的形成垄断。
互联网兴起后,情况就不同了。当人们有一个不要钱的实时通信方式后,就无人为一分钟三美元的国际长途买单了。以前,人们查找任何商业信息都离不开电话本。现在有了互联网,人们更多地从网上查找信息。为了促销,所有的长途电话公司不得不通过降价来维持生意。我十几年前到美国时,从美国到中国的长途电话费是一美元一分钟,现在电话卡打国际长途只有两美分一分钟。
随着互联网崛起的是移动电话业务。本来,AT&T 在此领域是领先的,借着移动电话业务,它可以在当今的通信业一拼。(谷歌不少优秀的科学家和工程师都来自于 AT&T,包括 Unix 操作系统和 C 语言的发明人汤普生 — Ken Thompson)但是,当 AT&T 自断左右臂后,一切都变得不可能了。
互联网对朗讯的冲击也是同样的。在互联网时代,世界上对数据交换设备的需求渐渐超过对语音交换设备的需求。前者是新兴公司思科(Cisco)的长项,而后者才是朗讯的强项。思科战胜朗讯,又成为一股不可阻挡的潮流。
互联网的崛起,对原贝尔实验室研究的影响也是巨大的。比如,语音的自动识别,曾经被认为是人类最伟大的梦想之一,现在随着电话时代的过去变得不重要了。今天,世界上主要的语音识别公司只剩下 Nuance 一家,美国整个语音识别市场的规模一年不到五亿美元,相当于谷歌两个星期的收入。而同时,世界上对文字处理、图像处理技术的需求随着互联网的普及不断增加。
在工业史上,一种新技术代替旧的技术是不以人的意志为转移的。人生最幸运之事就是发现和顺应这个潮流。投资大师巴菲特在谈到上个世纪初他父亲失败的投资时讲,那时有很多汽车公司,大家不知道投哪个好,但是有一点投资者应该看到,马车工业要完蛋了。巴菲特为他的父亲没有注意到这一点而感到遗憾。今天,互联网虽然还不能完全代替固定电话,但是前者已经大大挤压了后者的发展空间,因为它可以提供更灵活,更丰富,而且更便宜的通信手段。
回顾 AT&T 百年历史,几乎每个人都为这个百年老店的衰落而遗憾。它曾经是电话业的代名词,而它的贝尔实验室曾经是创新的代名词,现在这一切已成为历史。我和很多 AT&T 的主管和科学家们聊过此事,大家普遍认为 AT&T 的每一个大的决定,在当时的情况下都很难避免,即使知道它是错的。上个世纪 90 年代,AT&T 已经不属于一个人,一个机构,没有人对它的十年百年后的发展着想。(我们以后还会多次看到,当一个公司没有人对它有控制时,它的长期发展就会有问题)从华尔街,到它的高管和员工,大都希望从它身上快快地捞一笔。以前,美国政府多次要求拆散 AT&T 而做不到,但是从十年前起,它自行地把自己拆了卖。这样,它不但不能把握过去十年信息革命的机会,反而将自己葬送在互联网的浪潮中。
下一章,我们将介绍蓝色巨人(IBM)
Marissa 谈未来搜索的六个发展方向
2007年7月23日
发表者:Google(谷歌)产品经理 盛佳
上周五,Google(谷歌)的“首席产品经理” Marissa 来了谷歌北京办公室!很多人都误以为这是 Marissa 头一次来,其实不然啦,她已经造访北京 3、4 次了,只不过这是第一次在我们中国对外作与总部 20 多位产品经理的开放日。中国是他们此行的第二站,在中国,不管三七二十一他们的日程被安排的超级疯狂,从早晨 6:30 睁开眼睛到深夜十一二点,马不停蹄。中关村、合作伙伴公司参观交流、内部交流、大学计算机系学生交流、网吧上网……作为东道主,我们真有太多的东西想让他们知道,把他们的时间每一分每一秒都利用起来,让更多的人更好的了解中国。
周五下午谷歌中国第一次产品经理开放日上,Marissa 讲到谷歌的产品是怎样炼成的,下面主要想跟大家分享一下她提到的搜索的六个方向:
1)突破语言障碍
— Marissa 说我们一直在努力实现网络多语言互译,在这方面,谷歌在自己大量全球数据资源的基础上正在研发一个更加准确、先进的机器学习及统计程序来优化谷歌的翻译系统,希望能为实现真正“平坦”的世界而努力。
2)图书搜索
— 图书搜索不仅仅是为用户提供在网络中寻找自己所需的资料信息的一个通道,广义上来说,开发图书搜索是为了整合人类文明精华,为探求知识开辟捷径。谷歌会与更多的图书馆合作伙伴和出版社合作,为提高图书搜索的质量而努力。我们最近推出的 Google Metadata 就是希望通过这个产品,在图书的全文内容没有被收入谷歌的图书搜索结果的时候,能够为大家提供目录和摘要以供参考。
3)多媒体搜索
— 在互联网高速发展的今天,用户对多媒体搜索的需要日益增强。我们近期在美国推出了一项服务就是对多媒体搜索这个领域做了小小的探索。这项服务的名字叫 Google Voice Local Search (谷歌语音本地搜索)。用电话拔打 1-800-GOOG-411(在美国 411 相当于中国的 114 查号台),告诉我们你的问题,谷歌会把搜索结果以短信的形式发给你,或者为你联通查询地的电话。Marissa 讲到,这个探索的另一个意义就是通过这个搜索,我们每天可以搜集到不同的语音语料,这样为未来真正实现语音的搜索提供研究的数据准备。
4)整合搜索(Universal Search)
— 谷歌希望能通过谷歌的努力打破了传统的搜索引擎模式的概念,通用搜索利用智能分析和导航系统,把不同的搜索领域的结果有机整合在一个网页内,“整合”是谷歌未来搜索发展的大方向。这样可以帮助用户一个搜索框方便的导航,同时也可以帮助众多垂直类门户真正挖掘他们的潜力,让那些不知道他们的用户快速的找到他们。
5)地图及本地/生活搜索
— 谈到地图时,Marissa 特别提出地图对北京的用户很有帮助,因为在它上面,大家可以查到当时的交通状况。她还说有很多客户误解了 Google Maps 的 street view 的功能。其实 street view 是为了帮助大家查看搜索地的街道实景地图。如果你要去王府井书店,可以先在 Google Maps上找到王府井书店的实景,以防迷路。
6)Gadgets
— Marissa 个人很喜欢谷歌的这个小功能,她说没什么比把个人的智慧分享给大家更有意义的了。
 
(Marissa Mayer)
浪潮之巅第一章 — 帝国的余辉(AT&T)(三)
2007年7月20日
发表者:Google(谷歌)研究员 吴军
第一章 帝国的余辉 (AT&T)
1. 百年帝国
2. 几度繁荣
3. 利令智昏
排除了反垄断对 AT&T 衰落的原因,我们就得从其他地方找原因。
一九九五年,AT&T 走到了一个分水岭。从一九九四年起,美国经济全面复苏,从下面斯坦普 500 指数走向图中可以看出,美国股市从 1995 年起开始暴涨,直到两千年底。
 
这时,AT&T 设备制造部门的执行官们短视地提出分家的建议。他们的理由似乎有道理,因为 AT&T 和另外两家长途电话公司 MCI 和 Sprint 是竞争关系,后者拒绝购买 AT&T 的电话设备,如果成立一家独立的设备公司,就可以做 MCI 和 Sprint 的生意了。但是这种一次性的销售增长显然对一个公司长期增长意思不大。这一点 AT&T 无数的管理者和员工都看到了。我亲身经历了 AT&T 的那次分家。1996 年夏天,贝尔实验室一分为二,大家从茉莉山的大楼里搬到弗伦翰工业园,天天谈的就是分家的事。很多人觉得,设备部门为了 MCI 和 Sprint 的市场,离开收入和利润都很稳定的 AT&T 可能得不偿失。几年后他们的预言不幸言中。但是在当时,即使 AT&T 的高管意识到这一点,他们对公司也没有绝对的控制。AT&T 几个执行官们手上的股票远不如华尔街投资银行控制的多。说句不好听的,AT&T 的总裁们并不真正拥有公司。他们之中不乏有远见者,但是根本左右不了董事会。更何况公司的长期利益和他们没有太大关系。如果能在任期内狠狠捞一把,何乐而不为呢?作为华尔街的投资公司,他们关心的是手中的股票何时能翻番。一九九五年正是一个机会,整个股市长势很好,在这时将设备制造部门和电信服务部门分开,那么前者的股票一定会飞涨。华尔街看到了这一点,公司的老总们懂得这一点,公司大量拥有股权的员工们也明白这一点。本来大家都是明白人,但是利令智昏。一场杀鸡取卵的分家就开始了。
AT&T 将分为三个部分,从事电信业务的 AT&T,从事设备制造业务的朗讯 Lucent 和从事计算机业务的NCR。NCR 较小,我们姑且不必提它。朗讯从 AT&T 中分离,绝对是世界电信史上第一件大事。一九九六年二月朗讯公司由华尔街最有名的投资银行摩根斯坦利(Morgan Stanley)领衔上市,筹集现金三十亿美元,成为当时历史上最大的上市行动,也是迄今为止第十一大上市活动。朗讯上市时,市值达一百八十亿元。
和预期的一样,MCI 和 Sprint 果然来买朗讯的设备了。朗讯的销售额比原来作为 AT&T 一部分时有了明显的增长。不久,股价就翻番暴涨,而同期 AT&T 公司的股票还按着原来不快的速度慢慢地爬,这正应了华尔街和大家的预想。华尔街的人大发了,朗讯的高官们中发乐,有股权的员工小发了。1999 年,我在一个会议上见到不少贝尔实验室的科学家,谈到股票时,他们一个个意气分发,人人都洋溢着笑容。在 2000 年的股市泡沫破灭以前,朗讯的股票四年长了十三倍,市值达两千四百四十亿美元。
但是,这些科学家们也隐隐地感到一些危机。原来的贝尔实验室因为有 AT&T 这个大靠山,从来不发愁自己的经费。现在,朗讯的利润不足以养活有两万人的巨型实验室,开始要求那里的科学家和工程师开发能尽快赚钱的研究上来。(我在以后会谈到AT&T这种大实验室的弊端)贝尔实验室此时已不是过去以研究为主的地方了,它的创新能力不复存在,从一九九五年至今,贝尔实验室没有再搞出轰动世界的发明。本来,AT&T 的电信服务和设备制造相辅相成,是个双赢的组合。分家对双方长远的发展都没有好处。AT&T 和朗讯的衰落都从这时起。
从 MCI 和 Sprint 带来的销售额增长几乎是一次性的。华尔街在预测朗讯盈利时,已经把这笔收入计算进去了。朗讯的股票要继续增长,它的销售额和利润就必须不断超过华尔街的预期。(注:一般来讲,一个公司当前的股价,已经反映了当前和几年后的盈利能力。如果想让股价快速增长,公司的盈利就必须高于大家的预期)朗讯其实根本做不到这一点。为了能支撑得住一个高股价,朗讯走了一步后来被证明是败笔的险棋。在互联网泡沫时代,有无数的中小公司在兴起、大公司在膨胀,朗讯决定“促销”它的电信设备。具体做法是由朗讯借钱给各公司来买朗讯的设备。只要设备运出朗讯,它就在每季度财务报表中,计入销售额。如果仔细读它的财报,人们可以发现朗讯总有一笔很大的"应收款项",这笔钱其实从未进到朗讯公司。到了两千年互联网泡沫破裂后,借钱买设备的公司统统倒闭,朗讯的这笔"应收款项"一下子变成了净亏损。2001 年,朗讯公司不得不关闭贝尔实验室的几乎全部研究部门。只是象征性的留下了一两个实验室,以保住贝尔实验室这块招牌。这次裁员,使得世界上很多一流的科学家失业。朗讯由苟延残喘了几年终于被法国的阿尔卡特并购。并购时的市值还不到 1996 年上市时的水平,只有它自己峰值时的二十分之一。今天,贝尔实验室的牌子还在,只是联系地址已经到了法国。
AT&T 的景观比朗讯略好些。它有相对稳定的利润很高的长途电话收入以及发展得很快的移动通信业务,因此在分家的前几年继续支撑并且扩大了它的实验室。因为没有抢到贝尔实验室这个牌子,AT&T 以信息论发明人香农的名字命名了它的实验室。这时互联网的崛起和无线通信的普及对 AT&T 的核心业务开始形成威胁。但是,AT&T 在这两方面以及快速发展的宽带电视业务上都很强。本来,AT&T 最有资格成为这些新领域的老大,就像它成功地从有线通信扩展到微波通信一样。但是短视彻底毁了它。
在两千年前后,短线投资者发现最快的挣钱方法不是把一个企业搞好,而是炒作和包装上市。将公司的一部分拆了卖无疑挣钱最快。于是 AT&T 决定一拆四,分成长途电话,移动电话,企业服务和宽带四个公司。其中最大的手笔是将移动部门单独上市。一九九九年五月,AT&T 移动(AT&T wireless)在华尔街最好的投资公司高盛(Goldman Sachs)的帮助下挂牌上市,募集到现金一百亿美元。这是人类历史上迄今最大的上市行动。当时 AT&T 的董事和执行官们给出了一些冠冕堂皇的理由拆分后对发展如何有利,但其实,用 AT&T 实验室的一位主管的话说,原因只有一个字—贪婪 (greedy)。AT&T 在一次性得到一笔横财时,也失去了立足于电信业的竞争能力,因为它所剩的只有一个收入不断下滑的传统长途电话业务。同时,香农实验室萎缩到 1996 年成立时的规模。2001 年发生的 9.11 恐怖袭击,AT&T 在纽约的很多设备被毁,而它几乎拿不出修复设备的钱。半年后,AT&T 的香农实验室也几乎解散了。在 AT&T 实验室解散前,它的主管拉里∙拉宾纳(Larry Rabinar)博士已经预感到情况不妙了,他很有人情味地为他的老部下们安排了出路,然后自己退离了香农实验室第一把手的岗位。身为美国工程院院士的拉宾纳,无论是学术水平还是管理水平,在世界上都是首屈一指,但是他根本无力扭转 AT&T 实验室的困境。这也许是命运。
谷歌拼音输入法推出 1.0.20 .0 版本
2007年7月19日
发表者:Google(谷歌)产品经理 洪锋
今天,我们很高兴地宣布
谷歌拼音输入法
自推出以来相对重要的一次版本更新 —— 1.0.20.0 版本和大家见面。新版本的输入法在以下的几个方面进行了升级。
更新词典与语言模型,提高输入准确度
美国总部的研究员吴军主持了这次语言模型更新的工作,大幅提高了输入准确性。我们认为优秀输入法最大的特色就是准确便捷的输入体验,让用户可以在尽量不修改的状态下随意输入。
支持在整句输入中使用简拼
— 看,输入“pysrfgx”就出现了“拼音输入法更新”
 
支持用户自定义短语的自动同步
— 新版本支持用户自定义短语的网络自动同步。
支持用户设置输入法字体大小
— 大家可以选择输入框中字体的显示大小(保护视力还是很重要的)
 
支持在全屏应用如游戏中隐藏状态栏
— 看电影、玩游戏时隐藏不了输入法的状态栏?新版本的谷歌拼音输入法帮大家解决这个问题。
 
修正了在部分游戏和应用程序中的兼容性问题
输入法还有很多不足,我们仍会继续努力,也欢迎大家将好的意见建议告诉我们。
浪潮之巅第一章 — 帝国的余辉(AT&T)(二)
2007年7月18日
发表者:Google(谷歌)研究员 吴军
第一章 帝国的余辉 (AT&T)
1. 百年帝国
2. 几度繁荣
一九九五年,可以说是 AT&T 公司的顶峰,接下来短短的十年,它便分崩离析,不复存在了。AT&T 不紧不慢地向上走过了百年,才爬到顶点,走下坡路却只要十年时间。(注:今天的 AT&T 是由当年小贝尔公司之一的西南贝尔公司几次以小吃大合并出的类似于水电公司的设施服务公司,这类公司在美国统统称为 utility 公司,毫无技术可言。)其实,从一九九五年起的这十来年间,AT&T 本来有两次绝佳的发展机遇,2000 年前后的网络革命,和从九十年代中期延续至今的无线通信的飞跃。AT&T 不仅没有利用好机会,反而在这两场变革中丢了性命。
AT&T 一百年来发展得很健康。虽然一百年来它一直受反垄断法的约束。但是,美国政府司法部并没有真正要过它的命,每一次反垄断其实是帮助 AT&T 修枝剪叶然后让它发展得更好。我们今天谈论作为美国仅有的两个被反垄断法拆分的公司之一的 AT&T 公司时,不能不看看 AT&T 的垄断地位是怎样形成的。(注:另一个被拆分的公司是美孚石油。)
在 AT&T 成立时,它的电话技术受专利保护,因此,它前十几年的发展一帆风顺。但是,早在 1895 年,它的专利技术就无效了。一夜之间,美国冒出了六千多家电话公司。我们以后还会提到,上个世纪初,美国还曾经有无数的汽车公司。十年内,美国的电话装机数量从两百万户增加到三千万户。这时,AT&T 通过领先的技术和成功的商业收购,很快扫平了所有的竞争对手。到上个世纪初,AT&T 几乎垄断了美国的电信业,并且在海外有很多的业务。1916 年,AT&T 成为道琼斯 20 种工业指数中的一家公司。(注 1:道琼斯工业指数早期包括 20 家上市公司,后来扩大到三十家。这三十家公司是美国支柱产业的大公司。因此道琼斯又成为蓝筹股— blue chips,因为蓝色的筹码是赌局中面值最大的筹码。注 2:AT&T 一直在道琼斯指数中,直到前几年被 SBC 代替。2005 年 SBC 并购了 AT&T 公司后,继承了 AT&T 的名称。但是这个 AT&T 不是以前的AT&T)今天,这 20 家公司只有通用电气还在道琼斯指数中。
但是 AT&T 的麻烦也伴随着公司的发展而来,美国政府司法部盯上了它。1913 年,根据司法部的金斯堡(Kingsburg)协议,AT&T 不得不收敛一下它的扩张。1925 年,它甚至将除加拿大以外电信业务分离,专注于美国市场。这次收缩歪打正着,使它成功地在 1929-1933 年的大萧条中存活下来。可以想象,如果当初 AT&T 的摊子铺得太大,躲过经济危机的可能性会小得多。事实上,很多道琼斯工业指数中的公司都没有逃过那次经济危机。大萧条后,AT&T 公司恢复得很快,二战后,美国的电话普及率达到百分之五十。贝尔实验室也是成果倍出。最值得一提的是,在二战中,贝尔实验室的天才青年科学家香农提出的信息论。信息论是整个现代通信的基础。到五十年代,AT&T 发展到美国政府司法部不得不管一管的地步了。1956 年,AT&T 和司法部达成协议,再次限制了一下自己的行为。反垄断法逼着 AT&T 靠科技进步来提升自己的实力。因此,AT&T 巩固了自己在技术上的领先地位。1948 年,AT&T 实现商用的微波通信,1962 年,它发射了第一颗商用通信卫星。尽管有些小的竞争者存在,它们无法撼动 AT&T 的根基。
在很长的时间里,美国国际长途电话的价钱不是由市场决定的,而是由 AT&T 和美国联邦通信委员会(FCC)谈判决定的,定价是三美元一分钟。AT&T 计算价钱的方法听起来很合理--铺设光缆和电缆需要多少钱,购买设备需要多少钱,研发需要多少钱,雇接线员需要多少钱等等,所以只有一分钟三美元才能不亏损。但是事实上,到 2002 年,当国际长途电话费降到平均一分钟只有三十美分时,AT&T 仍然有 1/3 的毛利润。
到了八十年代,美国司法部不得不再次对 AT&T 公司提起反垄断诉讼。这次,美国政府终于打赢了旷日持久的官司,这才导致了 AT&T 1984 年的第一次分家。这次反垄断的官司,不过是替 AT&T 这棵大树剪剪枝。剪完枝后,AT&T 公司反而发展得更健康。十年后,AT&T 又如日中天了。当时,AT&T 不仅在传统的电话业务上,而且在兴起的网络和移动通信方面,都处于世界领先地位。
谷歌的算法更改和数据刷新
2007年7月18日
转载自
谷歌中文网站管理员博客
[译者按] 我们在中文网管论坛上总能看到一些关于算法更改和数据刷新的讨论。
Matt Cutts
,谷歌反网络作弊组的带头人, 于 2006 年 12 月 23 日在他的个人博客上发表了他对这两个概念的理解。
关于算法更改和数据刷新
这两天一组发表在管理员世界上的帖子在问 Google(谷歌)是否进行了更新,我在这里可以很明确地回答:并没有。
如果想要更具体的解释,让我们先来熟悉一下相关的定义。你可以参考
这篇 blog 文章
或者看看
这段视频
(我视频集的第八部分)。我下面会尽力用简短的语言概括一下重点:
算法更改:通常算法的更新会对搜索结果整体产生影响。算法随时可能改变,但是并不会很频繁地发生明显的变化。
数据更新:指现有算法内的数据的更新。这种更新多数是对于那些对搜索结果影响较小的部分,并且变化如此细微以至于我们是不会感觉到的。更小规模的数据更新的一种是:
索引更新: 指新的索引数据被传送到各个服务器。从 2000 年到 2003 年间,目录大约是每个月更新一次。带来的变化被称作 Google Dance。Google Dance 会持续大约 6 到 8 天,因为服务器的更新需要轮流进行,直到这些数据库全部被更新为一个全新的网络数据索引,而这是需要一定的时间来完成的。在 2003 年的夏天(这次的 Google Dance 被称为“弗里茨更新”),谷歌的索引更新由原来的每月一次变成了每天一次(甚至更频繁)。谷歌几乎每天都会更新一部分索引的内容,这样每天的变化就远远不如先前那么明显(有人称谷歌索引的明显变化为 everflux)。
近些年来,谷歌的索引已经进行了改进,使大多数人根本感觉不到它的更新。 由此,诸如“everflux”、“Google Dance”以及“索引更新”这类词汇就很少被提起了(除非是被用错了地方:))。取而代之的是,大部分 SEO 会去关注算法更改或数据更改/刷新。大多数的数据升级就是索引更新,虽然偶尔数据升级会独立于每天的索引更新而进行。例如,每 3、4 个月会察觉到反向链接和 PageRanks 的变化。
好了,我们来做个小测验,看你刚才读的够不够仔细:
问:判断对错:索引更新是一种数据刷新。
答:当然正确!注意,我在第四段里刚刚提到。 :) 不要纠缠“更改”和“更新”的区别,因为他们基本上是一回事。其实就是算法,和算法所使用的数据。数据的变化很大程度上就是我们索引的更新。
可以确定的是,过去的几年中并没有大规模的算法更新,而仅有的数据升级都是最普通的(索引更新)。因此,在管理员世界上发帖的人讨论的是什么呢?再去看看
这段视频
吧。听清楚其中有关“6 月 27 号,7 月 27 号和 8 月 17 号的数据升级”的部分。我曾经在网上说过,这些更新很可能会每天发生。在过去的一个月里,数据升级变得更频繁(从原来的 3-4 周一次到现在每天一次)。我能做的最好的猜测是:人们所看到的任何变化是源于相关数据的升级更为频繁了。
浪潮之巅第一章 — 帝国的余辉(AT&T)(一)
2007年7月17日
发表者:Google(谷歌)研究员 吴军
编者按:当吴军跟我谈起想写这个《浪潮之巅》系列的时候,心中吃了一惊也有很多感动。吃惊是因为在我的印象中,吴军是谷歌的研究员、是《数学之美》的作者、是一个科学家,很难想象关注学术领域的他对商业领域也有着自己的观察。感动是因为收到第一篇文章,通读下来,感觉这些故事编纂起来出一本书也不为过!但他却投给我们这个“小小”的黑板报。读完文章受益颇丰,所以迫不及待的想分享给大家,希望大家能够喜欢。同时,也要借这短短的文字表达对吴军的谢意。最后,因为文章篇幅比较长,只能分几次刊出,为了帮助大家阅读和查找方便,我们单列了“浪潮之巅”栏目以期能够解决分次刊出带来的困扰。
近一百多年来,总有一些公司很幸运地、有意识或者无意识地站在技术革命的浪尖之上。一旦处在了那个位置,即使不做任何事,也可以随着波浪顺顺当当地向前漂个十年甚至更长的时间。在这十几年间,它们代表着科技的浪潮,直到下一波浪潮的来临。
从一百年前算起,AT&T 公司、IBM 公司、苹果公司 (Apple)、英特尔 (Intel) 公司、微软 (Microsoft) 公司、思科公司 (Cisco) 公司、雅虎 (Yahoo) 公司和谷歌 (Google) 公司都先后被幸运地推到了浪尖。虽然,它们来自不同的领域,中间有些已经衰落或者正在衰落,但是它们都极度辉煌过。它们都曾经是全球性的帝国,统治着自己所在的产业。
这些公司里面大大小小的人在外人看来都是时代的幸运儿。因为,虽然对于一个公司来讲,赶上一次浪潮不能保证它长盛不衰;但是,对于一个人来讲,一生赶上这样一次浪潮就足够了。对于一个弄潮的年轻人来讲,最幸运的莫过于赶上一波大潮。要预测未来是很难的,但是看看过去和现在,我们也许能悟出一些道理。我愿意借谷歌黑板报的空间,将我这些年来看到的和听到的人和事拿出来与大家分享。我会谈一谈我对每次浪潮的看法,对上述每个公司的看法,以及对其中关键人物的认识。在极度商业化的今天,科技的进步和商机是分不开的。因此,我也要提到间接影响到科技浪潮的风险投资公司,诸如 KPCB 和红杉风投 (Sequoia) 以及百年来为科技捧场的投资银行,例如高盛 (Goldman Sachs) 等等。
第一章 帝国的余辉 (AT&T)
1. 百年帝国
 
上面的图片是在九十年代拍摄的美国新泽西州弗伦翰公园 (Florham Park) 日落的照片。弗伦翰公园占地十几平方公里,大多是芳草地和森林,在森林中央,是一片中等规模的临湖的工业园——这是笔者见到的最美丽的工业园。在那里,每天都能看到天鹅在湖中悠闲地游荡,不时可以见到野鹿出没。这里原是石油巨头埃克森美孚 (Exxon-Mobil) 的地产,1996 年,这里来了一个新主人——美国电报和电话公司 (AT&T) 实验室。1995 年,如日中天的 AT&T 公司重组,分裂成 AT&T、朗讯和 NCR 三家公司。AT&T 下属的举世闻名的科研机构贝尔实验室也被一分为二。朗讯公司获得了一半的科研机构和贝尔实验室的名称。划归 AT&T 的一半研究室组成了 AT&T 实验室 (后来更名为香农实验室),从原来的茉莉山 (Murray Hills) 搬到了弗伦翰公园。在那里,出过十一位诺贝尔奖获得者的 AT&T 实验室,像一颗进入晚年的恒星,爆发出极强的、但也是最后的光辉,然后就迅速的暗淡下来。十年后 AT&T 和朗讯公司分别被 SBC 公司和法国的阿尔卡特公司并购。十年前,我在 AT&T 实验室实习,当时大家的情绪都很高,实验室的气氛很像今天的谷歌。不少人的座位旁都放着上面这张美丽的夕阳照。现在想起来,它似乎预示着一个帝国的黄昏。
说起美国电话和电报公司,即 AT&T 公司,在美国乃至在世界上几乎无人不知、无人不晓。该公司由电话之父亚历山大∙贝尔创立于 1877 年。电话的发明和 AT&T 公司的建立,第一次实现了人类的远程实时的交互通信(虽然电报比电话出现的早,但它不是事实交互通信),并且使得平民百姓受益。从 AT&T 创立的第一天起,它就是龙头老大,直到它被收购的那一天。但是,AT&T 的扩展速度远比今天的人想象得慢得多。它用了十五年 (1892) 才将生意从纽约地区扩展到美国中部芝加哥地区(当时从纽约到芝加哥一分钟的通话费是两美元一分钟,而当时的一美元的购买力相当于今天的五十美元。今天在美国打国际长途,也不过十美分一分钟)。三十八年后 (1915),它的生意扩展到全国(但是从纽约到旧金山的电话费高达七美元一分钟)。四十八年后的 1927,AT&T 的长途电话业务扩展到欧洲。
一九二五年,AT&T 公司成立的研发机构贝尔实验室。贝尔实验室是历史最大的、最成功的私有实验室。由于 AT&T 公司从电信业获得了巨大的垄断利润,它拿出了产值的百分之三用于贝尔实验室的研发工作。(在很长时间里,贝尔实验室的人总是用不需为经费发愁这一条理由来吸引优秀的科学家到该实验室工作)这使得贝尔实验室不仅在通信领域长期执牛耳,而且在射电天文学、晶体管和半导体、计算机科学等领域领先于世界。它著名的发明除电话本身外,还包括射电天文望远镜、晶体管、电子交换机、计算机的 Unix 操作系统和 C 语言等等。此外,贝尔实验室还发现了电子的波动性,发明了信息论,发射了第一颗通信卫星,铺设了第一条商用光纤。在相当长的时间内,贝尔实验室不仅仅是信息领域科学家的首选工作单位,也是基础研究领域学者趋之若鹜的地方。那个时代进入贝尔实验室的人是很幸运的。如果是个人物,他可以成为业界的领袖,甚至得到诺贝尔奖、香农奖或者图灵奖。即使是一般的研究员和工程师,也会有很好的收入、可靠的退休保障以及受人尊重的社会地位。
AT&T 在很长时间内垄断美国并且(通过北电)控制加拿大的电话业务。一九八四年,根据联邦反垄断法的要求,AT&T 的市话业务被分出去,根据地区划分成七个小的贝尔公司。七家小贝尔公司从事市话业务,而 AT&T 公司从事长途电话业务和通信设备的制造。贝尔实验室划给了 AT&T,从贝尔实验室分出一部分,称为贝尔核心 (Bell Core),划给七家小贝尔公司。不久,贝尔核心因为七个和尚无水喝,很快就推出了历史舞台,这当然是后话了。
现在,大多数人认为,这是 AT&T 走向衰落的开始。但我认为,AT&T 并没有因此而伤筋动骨。事实上,在接下来的十年里,AT&T 的业务得到长足的发展。虽然丢掉了市话服务,但是,它作为一个通信设备供应商,依然是市话通信设备几乎唯一的供货商。而且,虽然有 MCI 和 Sprint 两个长途电话竞争者,AT&T 仍然控制着美国大部分市场,利润十分可观,足以维持贝尔实验室高额的研发费用,使得 AT&T 在通信和半导体技术上仍然领先于世界。到一九九四年,它的营业额达到近七百亿美元,大致等同于今天它和 SBC 合并后的总营业额。
这一年,贝尔实验室的总裁梅毅强 (John Mayer) 博士率大规模的代表团访华,国家主席江泽民亲自接见了他,足以说明对 AT&T 的重视。中国国家主席接见一个公司下属机构的总裁,这次可能是空全绝后的。AT&T 当时可以说风光到了顶点。
既然一九八四年那次分家并没有使 AT&T 公司伤筋动骨,那么又是什么原因造成了它的衰落呢?
敬请期待
第二节《几度繁荣》
、
第三节《利令智昏》
和
第四节《外来冲击》
谷歌热榜即时贴用户配置界面正式发布
2007年7月16日
发表者:Google(谷歌)中国工程研究院 热榜小组
我们很高兴地宣布 Google(谷歌)热榜在经过一段时间的测试和大量用户反馈的基础上,在今天发布了即时贴用户配置界面。可能有很多朋友对代码语言不太熟悉,无法随心所欲地更改即时贴的特性。现在,只要下面简单的两个步骤就可以很方便地定制大家中意的榜单,并自定义热榜即时贴的大小和颜色。
首先,登陆谷歌热榜,选择一个您喜欢的榜单,点击榜单右侧的"添加到您的网站"。
 
在弹出的对话框中,选择相应的"每行字数","行数","显示","配色方案","底色"及"关键字",再将下面的代码复制到您的页面代码中,即可将此榜单添加到您的网页上显示。
 
是不是很简单?快来试试吧
http://www.google.cn/rebang/
欢迎广大用户帮助我们改进谷歌工具栏产品
2007年7月15日
发表者:Google(谷歌) 产品部 产品经理 杨巍
谷歌工具栏的第一个公开发布版本诞生于 2000 年 12 月 11 发布,从最初如何能够让用户无需登录 Google 网页,在浏览器里同样可以方便、快速的使用谷歌强大的搜索技术和产品,到今天整合进来更多方便实用的服务帮助用户更好的浏览互联网,比如通过书签用户可以更快的登录自己喜爱的网站;通过翻译,难词、生词实时提供解答;通过拼写检查,运笔如飞、小有马虎也不必提心吊胆。作为一款已诞生 7 年的客户端软件,我们还是颇感欣慰于它确实在一定程度上提高了用户的搜索效率和使用效率,也因此初步得到了用户的支持与好评。
最近,我们看到一些网友和媒体朋友关于谷歌工具栏的安装、使用以及些方面的一些疑问,甚至衍生出“流氓软件”的讨论,我想借此机会能够详细介绍一下这方面的功能,希望能够解答大家的疑虑。
1、如何得到谷歌工具栏
谷歌全球任何国家的用户得到谷歌工具栏都是通过两种主要的渠道,一是从谷歌公司网站直接下载,中国用户可以从
谷歌网站
直接获取谷歌工具栏。
另外一个主要的渠道就是我们同全球重要的软件提供商建立合作关系,联合推广谷歌工具栏,比如Realplayer, Firefox等都是我们在全球的合作伙伴。在中国,合作伙伴的选择采用的是与全球同样的标准和甄选、管理流程,当然,我们也欢迎用户的
监督和反馈
。
关于同合作伙伴联合推广上,我们看到媒体及用户的一些关于“强制下载”的疑问。在这方面,谷歌公司软件六原则的“安装”与“事前披露”中都有明确规定:应用程序不应通过将自己隐藏于用户正在安装或升级的程序中等方式,秘密地安装在用户的计算机上。既使在捆绑安装时,也必须将各种应用程序的功能明确告知用户,或者通过提示或者通过专门对话框,由用户选择是否安装。
2、如何配置谷歌工具栏
伴随谷歌工具栏功能的日益丰富、互联网交互性日益增强,并非所有用户都愿意或者需要所有功能,我们也可以让用户自己灵活的配置需要的功能如Pagerank 显示、地址栏实名通等。用户在浏览器中打开“工具”进入“选项”的“更多”中就可以选择。
 
3、如何卸载工具栏
这是一个中国用户普遍非常关心的问题,也是我们近期看到的网络上用户的主要疑虑之一。有的用户和媒体担心,谷歌工具条安上了以后是不是非常难以卸载。通常 Windows 用户最常采用的软件卸载方式是打开 Windows 控制面板,点击添加或删除程序,在其中选中谷歌工具栏就可进行卸载。当然,您也可以通过您使用的任何一款卸载工具进行删除。此外,我们考虑到很多入门级用户的需要,还专门推出了另外一种卸载方式即进入谷歌工具栏
“帮助文档”
即可卸载。希望这些方式能够解除您关于谷歌工具栏卸载问题的误解。当然,如果您有任何其它
好的建议
都欢迎随时告诉我们。
最后,希望通过上面的介绍,能够使大家进一步了解谷歌的工具栏产品,更好的使用他。我们非常欢迎大家提出意见和建议,未来伴随这我们本地研发团队的不断壮大,相信我们能够推出更多、更好的适应本地用户需求的产品和功能。
共同努力让地球更美好
2007年7月13日
发表者:翻译自美国官方博客
最近,我们在 Google Earth 上开始了一个面向非营利性机构的新项目 ——— Google Earth 延伸计划,是想帮助世界各地的非盈利组织通过 Google Earth 的平台,可以对他们所从事的与人类的命运息息相关的重要事业展开宣传和倡导活动。
这项计划希望帮助他们迅速、简便地获取其所需的资源,通过 Google Earth 的不同的信息层(layers)制作抑或引人入胜抑或发人深省的信息、内容。这项计划包括全面的在线指导、视频辅导内容和案例研究。
组织机构还能在线申请“Google Earth Pro” 赠款(总价值 400 美元),受赠机构还将得到更多来自谷歌的技术支持。参与组织还有可能得到在 Google Earth 延伸计划展示区亮相的机会,而且其中的一部分还将轮流出现在 Google Earth 的 Global Awareness 文件夹内。读者可以
登录 Google Earth Outreach 网站
了解更多信息。
作为启动声明的一部分,我们向大家介绍了 Google Earth 的三个新建的 Global Awareness 延伸网页:
Global Heritage Fund(世界遗产基金 GHF) – 对 GHF 当前努力保护并力争留给下一代的世界文化遗产展开了探索。从掩埋在危地马拉森林中濒临遭到砍伐破坏的古代马雅阶梯式金字塔的案例,GHF 向用户展示了这些濒危的人类文明遗迹瑰宝,并且详细介绍了 GHF 如何与本地政府和其他部门合作来拯救和保护它们。
Earthwatch Expeditions (地球守望探险) – 让用户们以虚拟的方式访问 Google Earth 的 100 多项志愿者地球守望探险计划 ― 从记录马达加斯加狐猴的活动,到判定气候变化对于墨西哥和加拿大灰鲸鱼数量的影响。热心人士和有意成为志愿者的人能够探寻世界各地各项实地科研项目的进展状况,同时学习怎样在热带雨林生态区、野生动物保留地、海洋科学以及考古学等领域内采集实地数据。
Fair Trade Certified (公平贸易认证) – 向用户介绍了 70 多项遍布拉丁美洲、亚洲和非洲的公平贸易合作项目。公平贸易是一项富有创新性、基于市场的可持续发展努力,旨在帮助发展中国家的农民能够直接进入市场,并且培养参与全球市场竞争所必须的商务能力。
下面分享一些来自这个项目的一些图片:
哥斯达黎加的猴子
— 随着人们不断的侵占猴子们的领地,这些可爱的从林居民现在陷入了困境
 
巴基斯坦 Asif Khan 墓
— 坐落在拉合尔郊外,这座独一无二的陵墓存在的历史可以追溯到公元 1640 年,代表了 Moghul 国王统治时期的建筑风格。
 
哈萨克斯坦咸海
— 咸海位于中亚哈萨克斯坦和乌兹别克斯坦两国交界处,离塔什干市约 640 千 米。在这里,曾经发生一次世界上最严重的环境灾害。
 
巧妙地处理内容复制
2007年7月13日
转载自
谷歌中文网站管理员博客
以下文章翻译自
谷歌网络管理员中心英文官方博客
。作者是 Adam Lasnik, 谷歌搜索布道者,发表于 2006 年 12 月 18 日。
巧妙地处理内容重复
最近,搜索引擎战略会议在寒冷的芝加哥举行。许多谷歌参加者总是被问及关于重复内容的问题。对于这个话题,我们发现有许多破碎的并且有些混乱的理解,我们想在此予以澄清。
什么是内容重复?
重复的内容一般是指在不同域名间存在大量的相同或相似的内容。很多时候,它并非故意或至少本无恶意。譬如说,有些论坛会生成一些专为手机屏幕显示设计的页面;商店物品被显示在(有时甚至是链接到)多种不同的 URL 上,等等。但有些时候,一些网站为了操纵搜索引擎排名,获得更多流行或长尾查询的访问量,大量地从其他网站复制内容。
什么不是重复内容?
虽然谷歌网站有方便易用的
翻译功能
,我们的算法不会把有着相同内容的英文版和西班牙文版看作内容复制。同样,你不用担心我们把你文章中对其他文章小片段的引用认定为重复内容。
为什么谷歌关心重复内容?
谷歌用户使用 Google 时通常希望看到多样化的原创内容。如果他们找到的都是内容相同的一堆搜索结果,可以想见那是多么烦人。另外,网站管理员不愿意看到 Google 给出象 example.com/contentredir?value=shorty-george〈=en 一样复杂的 URL 。他们往往更喜欢类似example.com/en/shorty-george.htm 的 URL。
谷歌做了些什么?
Google 在抓取网页和获得搜索结果时,总是力图索引并显示内容不同的页面。这种过滤意味着,譬如说,如果你的网站有文章的正常版和打印版,并且你没有在 robots.txt 里设定 noindex 标记,谷歌就只会选择一个版本显示给谷歌用户。对于企图利用复制内容来操控排名,欺骗谷歌用户的少数情况,我们会对相关页面的索引和排名作出适当调整。当然,我们更愿意把重点放在过滤而不是排名调整上,因此,在绝大多数情况下,最坏的结果就是原创者看到了不愿看到的版本出现在我们的索引里。
网站管理员如何主动处理内容复制问题?
*
适当阻止搜索引擎访问:
与其让我们的算法来确定一个文件的“最佳”版本,你也许希望指引谷歌选取你的首选版本。譬如说,如果你不想我们索引你网站文章的打印版,你可以在你的 robots.txt 文件中写上目录名或正则表达式来禁止谷歌对那些打印版的抓取。
*
使用 301 重定向:
如果你已经重构你的网站,请在你的原网站的 .htaccess 中使用 301 重定向(永久性重定向)来重定向你的用户、Google 爬虫以及其他搜索引擎蜘蛛等。
*
链接要一致:
努力使你的内部链接保持一致, 不要既有 /page/ ,又有 /page 和 /page/index.htm 的内部链接。
*
使用顶级域名:
为了让我们总是使用最合适的文件版本,请尽可能使用国家特定的顶级域名。与诸如 example.com/de 或 de.example.com 的 URL 相比,谷歌肯定更清楚地知道 example.de 是以德文为核心的内容。
*
小心辛迪加式的联合供文:
如果你为其他网站上也提供你的内容,请在每一个其他网站的文章中包括连回原文章的链接。注意:即使是这样,对一个查询,谷歌总是显示我们认为是最适合的(没被网站禁止的)版本,它可能是也有可能不是你所想要的版本。
*
使用谷歌网站管理员工具的首选域功能:
如果其他网站链接你的 URL时 既使用 www 版本又使用无 www 的版本,你可以用谷歌网站管理员工具让我们知道你想要哪种索引方式。
*
减少模板网页上的重复内容:
拿版权声明来说,你有两种选择,一种是在你的每一个页面底部都有一个冗长的版权声明;另一种是设立一个专门的版权详细声明页,然后在每页底部写一个非常简短的总结,并链接到版权声明页。
*
避免发布无内容页:
用户不喜欢看到无实际内容的页面,要尽量避免空架页。以房地产网页为例,不要发布(或至少要阻止)没有点评的点评网页,或者没有房地产列表的房地产罗列网站等。只有这样,网站用户(以及 Google 爬虫)才不会看到无穷多的写着“以下是在【某城市名】中不可错失的待租房列表……”但其实根本没有什么列表的网页。
*
了解你的内容管理系统:
确保你熟悉你的网站是怎样显示内容的,尤其是当它包括了博客、论坛或相关的系统。往往在这些系统中同一内容会以多种形式出现。
*
不要担心,保持快乐:
不要过分受搜刮(挪用和转载)你的内容的站点干扰。虽然很恼人, 它们几乎不可能对你在谷歌中的存在产生负面影响。如果你实在忍无可忍, 欢迎你提出
千禧年著作权法案
申请来声明对你的内容的所有权,我们会处理那些无赖网站。
总之, 如果你对内容复制问题有一个大体的认识,又能花上几分钟有见地地预防性维护一下你的网站,这将既帮助你们,也帮助我们为用户提供独特而相关的内容。
Google(谷歌)的网站优化利器 — 中文网站管理员工具
2007年7月12日
发表者:Google(谷歌)反网络作弊组 朱健飞
在搜索引擎如日中天的今天,网管的工作除了管理网站内容,维护网站性能和安全外,如何通过搜索引擎推销自己的网站成为一个非常重要的任务。Google(谷歌)作为世界上最大的搜索引擎,非常注重和网管的互动。2006 年 8 月,谷歌在其
网站管理员中心
推出了
网站管理员工具
,并随后推出了中文版。它不但完全免费,和广告完全无关,并且无须安装,是一个在线工具。
不知道这个工具?不要紧,你并不孤单。
2007 年 5 月,我参加了在福建厦门举行的搜索引擎战略大会(SES)。我比较吃惊地意识到,大多数中文网管,包括搜索引擎优化(SEO)业者,并不知道谷歌为他们量体定身所做的这款网站管理员中文工具。换句话说,大多数中文网管以及一些SEO业者还在“摸着石头过河”推销网站或者根本不知道谷歌已有或者可以提供他们网站的信息。
在谷歌推出网站管理员工具之前,要想推销自己的网站,一个普通网管的做法就是管理好网站的内容,希望谷歌能很好地索引自己的网站,并把自己的网站排在前列。至于谷歌是否真的对所有的页面都进行了正确的索引,自己的网站究竟排在那些关键词查询的前列,哪些网页有反向链接等等问题,绝大多数网管是没底的。可以说网管在搜索引擎面前是比较被动的。有些网站干脆花钱让 SEO 公司来推销他们的网站。有了谷歌网站管理员工具之后,网管们对自己的网站在谷歌的表现就一目了然了。绝大多数网管可以利用谷歌的网站管理员工具的来轻松地优化他们的网站,对有些网管来说更是如虎添翼。
让我们来看看谷歌的网站管理员工具功能究竟有多强大吧。该工具包含以下主要功能:
1. 你可以在任何连上互联网的计算机上通过网络浏览器(例如 Internet Explorer 或 Firefox)来访问网站管理员工具得到你的网站的信息。
2. 你可以轻松地查询和调整谷歌爬虫爬行你网站的频率。你还可以查询谷歌爬行的成功率并研究为什么不成功。
3. 察看你的网页是否正确地被谷歌索引了。这项功能相当重要。如果谷歌不能正确索引你的网页,其他搜索引擎极有可能也不能正确索引你的网页。
4. 你可以查询哪些网站在链向你的网页。
5. 查询你的网站在哪些谷歌关键词中排名前列。
6. 查询哪些关键词给你真正带来了流量。
7. 你可以构造你的
网站地图
,让谷歌索引所有你想要它索引的网页,尤其是那些谷歌还没爬到的网页,以及一些动态网页。
8. 回答各种你所感兴趣的问题。譬如说,什么叫
桥页
?
9. 有时你可以查询是否你的一些网页违反了谷歌的网站质量指南而受到了惩罚。虽然我们不显示对所有网站的所有惩罚,我们显示了对一些网站的惩罚。
10. 如果你发现作弊网页,你可以通过该工具举报。
在这些功能中,也许第五项功能最为重要。通过它,你可以知道你的网站是否真正排在你所期望的关键词的搜索结果前列。如果不是您所期望的甚至你的网站排在了你不期望的关键词结果前列(例如,你的网站排在了“劣质产品”查询结果的前列),你就必须分析为什么。
该工具的另外一个功能是,如果你使用它,它就是你和谷歌之间联系的桥梁。有时候谷歌想对你的网站进行友情提示,譬如说,你的网站是个好网站,但由于各种原因(例如你的网站被黑了)存在一些违反谷歌网站管理员指南的内容。如果没有网站管理员工具,从你的网页上又根本找不到联系方式,我们就无法联系您。有了工具,谷歌和你的联系就畅通无阻了。
那么怎样才可以使用谷歌网站管理员工具呢?要使用该工具首先要有一个谷歌帐号,即
gmail.com
帐号。如果你还没有的话,访问
http://www.gmail.com
,点击“
注册 Gmail
”后按照指令操作就可以得到一个帐号。有了帐号后,访问
网站管理员中心
,点击
网站管理员工具
就能使用该工具了。你所做的第一件事可能就是添加你所属的网站到该工具。谷歌会通过一个认证的过程来确认你所添加的网站确实属于你。然后你就可以看到谷歌提供给您(也仅仅是给您)的内部信息了。
试试看,希望你能感到“世界真奇妙”。
谷歌代码搜索的更新
2007年7月11日
发表者:Google(谷歌)软件工程师 Aleksander Fedorynski
当我刚到 Google(谷歌)工作的时候,我很好奇也很迫不及待地想知道我会参于哪个项目的研发。后来我惊喜地发现,我将协助开发谷歌代码搜索(Google Code Search)当时我的感觉就像是一只看到了鲱鱼的企鹅,甚至有过之而无不及。谷歌在去年 10 月启动了代码搜索的研发,使对数十亿条公开源代码的搜索成为现实。今天,我们对代码搜索实现了一些更新,希望能帮助大家更轻松地找到相应的代码。
首先,我们扩展了抓取范围,使它不仅包括完整的档案库和资料库,也包含来自网页的单个代码文件和样本代码片段。现在,如果您搜索
LFractalCanvas
或者
nph-refresh
,那么就会有更大的把握找到您所需要的代码。其次,我们还对排名做出了一些调整,例如对许多搜索而言,我们让级别和功能定义等更接近顶端。最后,代码搜索的可用域名范围已经超出了美国,比如我的家乡“波兰”、“巴西”、“中国”、“法国”、“德国”、“意大利”、“日本”、“韩国”、“荷兰”和“西班牙”等,这里只是略举几个例子。
我们希望大家能够继续向谷歌提供用户反馈,以及如何继续改进代码搜索的建议。互联网上有大量的代码,为了让全世界各地的开发者朋友都可以获得和利用这些代码,我们还有很多工作要做。
http://www.google.cn/codesearch
天下快意之事莫若友,快友之事莫若谈 — Google(谷歌)首席产品经理 Marissa 即将到访中国
2007年7月10日
发表者:Google(谷歌)公关部
7 月 20 日,Google(谷歌)将迎来产品盛事 — Marissa Mayer, Google(谷歌)副总裁,首席产品经理将来到北京。
Marissa 于 1999 年加入谷歌,是谷歌的第一位产品经理和首位女工程师,也是《商业周刊》“创新产业 25 位领军人物”之一。她既是谷歌传统经典首页的守护神同时也是韩国等亚洲国家地区首页变脸的导演者和大力支持者,她负责领导谷歌搜索产品的产品管理工作,这些搜索产品包括网络搜索、图片、论坛、新闻、Froogle、谷歌工具栏、谷歌桌面、谷歌实验室及众多其他产品。她的成就包括:设计与开发谷歌搜索界面、将谷歌推广至 100 多种语言、定义谷歌资讯、 Gmail 和 Orkut,并在 Google.com 推出 100 多种功能及产品。她还在人工智能和界面设计领域获得多项专利。
工作之余,Marissa 还为 6,000 多名员工、家人及朋友组织谷歌电影,为大家每年安排时间去欣赏几次最新影片。除了在谷歌的全职工作,Marissa 同时还任教于斯坦福大学,向 3000 多名学生教授计算机编程初级课程。斯坦福大学授予她百年教学奖 (Centennial Teaching Award) 和弗西斯奖 (Forsythe Award) ,以表彰她对大学教育的突出贡献。
我们诚挚邀请大家来参加 7 月 20 日下午 举办的" Google(谷歌) 产品沙龙" 。届时,大家将有机会聆听 Marissa 带来的关于互联网与产品的演讲,并了解发生在谷歌的最新动态。而来自全球的产品经理们也将与大家近距离交流;中国产品团队还将在分会场与您共同分享谷歌产品。
无论是您对互联网行业具有浓厚兴趣;
还是您具有极富创意的想法;
亦或您只是想来交个朋友;
我们都将热烈欢迎!
欢迎登陆活动介绍及报名网站:
http://www.google-event.cn/index.html
(Marissa Mayer)
Google(谷歌)文件界面升级
2007年7月6日
发表者:发表者:Google(谷歌) 用户体验设计师 Darren Delaye (翻译自美国官方博客)
现在大家在日常办公中频繁使用 Google(谷歌)文件,我一个人就已经有了 300 多个在线文档,而我所在的项目团队习惯于为各种事物建立共享文档和工作表:会议记录、产品发布规划、可用性研究分析等等。除此之外,我还和办公室的同事朋友共享文件,商量外出打网球的计划,我和未婚妻正在共享工作表的帮助下,为即将到来的婚礼安排宾客名单。换言之,我是众多需要"在线文档管理"需要到了抓狂程度的人之一。谢天谢地,能有机会为 Google(谷歌)文件设计一个全新的界面,这包括增加文件夹和一些简便的方法,用于迅速管理和存取所有的文档(如果你和我一样,想必在线文档和工作表数量也在与日俱增吧!)
现在,大家登录之后,将看到我们的全新界面,它允许大家为自己的每一个项目创建单独的文件夹,并将自己的在线文档和工作表拖放到其中。在屏幕的左手边,你将看到一个所有协作对象的列表;点击任何一个名字都可以查看你正与之共同处理的文件。如果需要了解有关这个新界面的更多信息,请转到谷歌文档和工作表专题博客。
婚礼筹备仍在继续,但现在至少我所需的所有文档都已经集中保存在一个文件夹里了。希望大家现在也可以更轻松地管理自己的在线文档了。
提供交流渠道,收集各方信息,服务谷歌搜索 — 谷歌中文网站管理员官方博客
2007年7月6日
发表者:Google(谷歌)反网络作弊组 朱健飞
今天,我们很高兴地告诉大家,
Google(谷歌)中文网站管理员官方博客
正式和大家见面了。谷歌希望能能过这个平台为广大中文网站管理员介绍谷歌网页抓取和索引新闻,分享网站建设和搜索优化经验,并听取大家意见和建议。
两年前,我加入谷歌的 CJK(中日韩)组,开始做反搜索引擎作弊的工作。那个时候,谷歌中文的搜索结果中垃圾网站比较普遍,甚至有时候一些特流行的查询前十位大多数是垃圾。这垃圾是不扫不行了。于是我们调整我们的算法,开始在搜索算法中加入一些反中文网站作弊的内容。一夜之间,效果显著。有兴趣的可以看两年前的
新闻
。
初战告捷。我们的中文搜索质量显著提高。但同时我们也发现,很多网站管理员不知道哪些属于作弊,哪些属于正常优化。更有甚者,以
谷歌网站管理员指南
作为作弊指南,想测试一下谷歌是否能发现。我们只好加大反作弊的力度。所谓加大力度,其实也就是调整算法中的一些参数,扫除更多的垃圾网站。不幸的是,没有任何算法能被 100% 地被人们喜欢。谷歌中文反作弊再次上了新闻。由于砍掉了很多的网站,媒体出现了诸如谷歌对其它大网站采取行动的猜测。面对压力,我们所能做的就是更努力地工作,不断改善我们的反作弊算法。
谷歌有了中国分公司后,我转到了谷歌的 webspam 组。这个组的老板就是赫赫有名的
Matt Cutts
。Matt Cutts 是谷歌 webspam 组的创始人。看过 Matt Cutts 文章的网管都知道,Matt Cutts 的反 webspam 的水平和写博客的水平确实是首屈一指。虽然是反 webspam,他的博客并不是杀气腾腾或充满说教。相反,他的博客象在跟读者谈心,充满了西方人的幽默。你可以从他的博客里了解到谷歌的许多东西。他的博客是如此的受欢迎,以致于他的宠物小猫
Ozzie
也成了读者关心的对象。Matt Cutts 在他的博客有一个关于他的小猫的两秒钟的
录像
链接,记录显示点击率竟然是数以千计!
Matt 对中文 webspam 一向是非常关心。我在 CJK 组时就经常麻烦他。成为他的组员后,交流就更多了。在接受了
Zac
和赢时代的采访后,Matt Cutts 鼓励我们建立中文自己的博客。我们都坚信,如果能让中文网站管理员更好地了解谷歌,听取他们的声音和建议,优化他们的网站的同时也遵守谷歌的网管指南,谷歌中文的搜索质量必能受益,所有懂中文的人就能更好地利用谷歌找到他们所要的信息,这也是谷歌的使命所在。
我曾经模仿"googleguy" (一群谷歌员工在英文网站管理员论坛
http://www.webmasterworld.com/
共享的用户名),想在中文某 SEO 网站注册。让我惊讶的是,我被拒了!因为我的 IP 是美国的:-( 现在好了,我们的博客建立了。
这个博客的域名(
http://www.googlechinawebmaster.com
) 模仿了
谷歌黑板报
(http://www.googlechinablog.com)的域名,宗旨是"提供交流渠道,收集各方信息,服务谷歌搜索"。 我们会及时传递谷歌的最新信息,表述我们对中文 SEO 的看法,回答大家都很关心的问题。同时,我们会翻译一些英文网管博客以及 Matt Cutts 博客中的一些文章,尽量多地提供有用的信息。希望大家能经常访问我们的博客。如果你有任何建议,也请发表你的评论。
欢迎大家常来看看
http://www.googlechinawebmaster.com
Doodle 背后的故事(六)
2007年7月5日
发表者:Google(谷歌)公关部
50th Anniversary of the Discovery of DNA's Structure(DNA 结构发现 50 周年纪念) 2003 年
这个 Doodle 一和大家见面,我们就收到了来自世界各地遗传学者的 email,他们发现了 Doodle 中的 DNA 不是双螺旋结构的,这是因为有些品种的 DNA 链会重叠。我们马上修改了原先的设计,并受到了大家的肯定。几年前,Dr. Watson 参观 Googleplex 的时候我有幸和他见了面,博士还向我要了签名 Doodle。
Frank Lloyd Wright's Birthday(弗兰克·劳埃德·赖特生日) 2005 年
赖特的 fans 很喜欢这个 Doodle,字母"l"和字母"e"代表了宾夕法尼亚乡村的"流水公寓",而小写的字母"g"代表了 Guggenheim 博物馆。很多朋友都想知道字母"o"代表了什么,呵呵,那可不是赖特设计过的建筑,而是我的小小发挥。
Mozart's Birthday(莫扎特生日) 2006 年
这个 Doodle 延续了 Einstein 生日 Doodle 的风格,我添加了莫扎特的假发。而那段乐谱是莫扎特创作的练习曲中的一小节,还是我用谷歌搜索来的呢。
Doodle 背后的故事暂时告一段落,让我们一起期待 Dennis 能够为大家讲述更多 Doodle 的故事吧!
人皆苦炎热,我爱夏日长 - 热榜六月热词 MSN 中毒、高考及山西黑砖窑等上榜
2007年7月4日
发表者:Google(谷歌)中国工程研究院 热榜小组
想知道在刚刚过去的六月,网友们最关心的事件是什么,大家搜索最多的关键词又是什么?谷歌热榜六月热词点评为你一一道来。(这次来的还算及时!)
MSN中毒
AV 终结者
:6 月 1 日,"MSN 机器人"(Worm.MsnBot.h)病毒利用 MSN 聊天工具,传送 photos.zip 病毒文件。6 月 8 日,"AV 终结者"病毒出现,导致大量安全软件无法正常使用。
2007 高考
:一年一度的高考,牵动着千千万万人的心。不仅是考生,家长也屏息以待。
山西黑砖窑
:这一事件牵动了全国上上下下很多人的心。
王燕
汤淼
:这两位运动员在训练过程中出现意外,严重受伤。
最后一个就是牵动国际民生的
5 月 CPI
出口退税调整
。
更多六月热词点评,欢迎登陆
http://www.google.cn/rebang/yuedu/0706.htm
健康顾问小组
2007年7月3日
发表者:翻译自美国官方博客
每天,都有许多朋友使用 Google(谷歌)来获得很多有关疾病、药物或治疗的知识,或者研究一种病情或诊断。我们想要帮助用户做出更加明智的医疗决定,并且一直不断地努力让我们的搜索结果具有更高的医学相关性。
虽然我们的一些人才具备医疗政策和技术领域的广泛背景,但这是一个特别复杂的区域,所以我们时常从公司以外寻求专业见解。并已经成立了由医疗专家组成的顾问团,他们来自消费者和病患团体、医师组织、研究机构、政策基金会以及其他领域。
谷歌卫生顾问小组的任务很广泛,他们帮助谷歌更好地理解消费者和医疗提供者每天面对的问题,并就产品理念和开发等问题向我们提供反馈。与这样一个受人爱戴的团体共事,是谷歌的荣幸。
谷歌卫生顾问委员会成员(所列出的机构或团体仅供说明成员身份之用,按字母顺序排列)
Dean Ornish
医学博士,预防医学研究院创办人兼主席,旧金山加州大学的临床医学教授
Doug Bell
医学博士,研究科学家,RAND Health
Delos M. Cosgrove
医学博士,克里夫兰诊所首席执行官
Molly Coye
医学博士,M.P.H,HealthTech 首席执行官
Dan Crippen
国会预算办公室前主任兼雷根总统白宫助手
Linda M. Dillman
沃尔玛执行副总裁
John Halamka
医学博士,科学硕士,贝丝以色列 Deaconess 医疗中心与哈佛医学院的首席信息官,医疗信息技术标准专家小组(HITSP)主席
Bernadine Healy
医学博士,国家卫生研究所(NIH)前任负责人,《美国新闻和世界报道》的健康编辑和专栏作家
Bernie Hengesbaugh
美国医药协会(AMA)首席运营官
Douglas E. Henley
医学博士,F.A.A.F.P. 美国家庭医师学院(AAFP)执行副总裁
David Kessler
医学博士,前食品药物管理局委员,加州大学旧金山分校医学院医学事物副校长兼教务长
John Lumpkin
医学博士,罗勃特-伍德-约翰逊基金会高级副总裁,医疗小组主任
John Rother
AARP 集团政策和战略办公室
Anna-Lisa Silvestre
健康计划公司 Kaiser 基金会在线服务副总裁
Greg Simon
FasterCures J.D.总裁
Faster Cures 网站
http://www.fastercures.org/home.php?flash=yes
http://www.fastercures.org/sec/executive
Mark D. Smith
医学博士,M.B.A.,加州医疗基金会总裁兼首席执行官
Paul Tang
医学博士,内科医师,帕拉阿图医学基金会(PAMF)副总裁兼首席医学信息官,美国医疗信息学会(AMIA)董事会主席
Sharon Terry
文学硕士,遗传基因联盟总裁兼首席执行官
John Tooker
医学博士,M.B.A.,F.A.C.P.美国医师学院执行副总裁兼首席执行官
Doug Ulman
蓝斯·阿姆斯特朗基金会总裁
Robert M. Wachter
医学博士,加州大学旧金山分校医学教授;UCSF 医学系副主任;UCSF 医疗中心医疗服务负责人
Matthew Zachary
癌症患者顾问,I'm Too Young for This!(年轻人癌症基金会)创办人兼执行董事
数学之美系列二十一 - 布隆过滤器(Bloom Filter)
2007年7月3日
发表者:Google(谷歌)研究员 吴军
在日常生活中,包括在设计计算机软件时,我们经常要判断一个元素是否在一个集合中。比如在字处理软件中,需要检查一个英语单词是否拼写正确(也就是要判断它是否在已知的字典中);在 FBI,一个嫌疑人的名字是否已经在嫌疑名单上;在网络爬虫里,一个网址是否被访问过等等。最直接的方法就是将集合中全部的元素存在计算机中,遇到一个新元素时,将它和集合中的元素直接比较即可。一般来讲,计算机中的集合是用哈希表(hash table)来存储的。它的好处是快速准确,缺点是费存储空间。当集合比较小时,这个问题不显著,但是当集合巨大时,哈希表存储效率低的问题就显现出来了。比如说,一个象 Yahoo,Hotmail 和 Gmai 那样的公众电子邮件(email)提供商,总是需要过滤来自发送垃圾邮件的人(spamer)的垃圾邮件。一个办法就是记录下那些发垃圾邮件的 email 地址。由于那些发送者不停地在注册新的地址,全世界少说也有几十亿个发垃圾邮件的地址,将他们都存起来则需要大量的网络服务器。如果用哈希表,每存储一亿个 email 地址, 就需要 1.6GB 的内存(用哈希表实现的具体办法是将每一个 email 地址对应成一个八字节的信息指纹
googlechinablog.com/2006/08/blog-post.html
,然后将这些信息指纹存入哈希表,由于哈希表的存储效率一般只有 50%,因此一个 email 地址需要占用十六个字节。一亿个地址大约要 1.6GB, 即十六亿字节的内存)。因此存贮几十亿个邮件地址可能需要上百 GB 的内存。除非是超级计算机,一般服务器是无法存储的。
今天,我们介绍一种称作布隆过滤器的数学工具,它只需要哈希表 1/8 到 1/4 的大小就能解决同样的问题。
布隆过滤器是由巴顿.布隆于一九七零年提出的。它实际上是一个很长的二进制向量和一系列随机映射函数。我们通过上面的例子来说明起工作原理。
假定我们存储一亿个电子邮件地址,我们先建立一个十六亿二进制(比特),即两亿字节的向量,然后将这十六亿个二进制全部设置为零。对于每一个电子邮件地址 X,我们用八个不同的随机数产生器(F1,F2, ...,F8) 产生八个信息指纹(f1, f2, ..., f8)。再用一个随机数产生器 G 把这八个信息指纹映射到 1 到十六亿中的八个自然数 g1, g2, ...,g8。现在我们把这八个位置的二进制全部设置为一。当我们对这一亿个 email 地址都进行这样的处理后。一个针对这些 email 地址的布隆过滤器就建成了。(见下图)
现在,让我们看看如何用布隆过滤器来检测一个可疑的电子邮件地址 Y 是否在黑名单中。我们用相同的八个随机数产生器(F1, F2, ..., F8)对这个地址产生八个信息指纹 s1,s2,...,s8,然后将这八个指纹对应到布隆过滤器的八个二进制位,分别是 t1,t2,...,t8。如果 Y 在黑名单中,显然,t1,t2,..,t8 对应的八个二进制一定是一。这样在遇到任何在黑名单中的电子邮件地址,我们都能准确地发现。
布隆过滤器决不会漏掉任何一个在黑名单中的可疑地址。但是,它有一条不足之处。也就是它有极小的可能将一个不在黑名单中的电子邮件地址判定为在黑名单中,因为有可能某个好的邮件地址正巧对应个八个都被设置成一的二进制位。好在这种可能性很小。我们把它称为误识概率。在上面的例子中,误识概率在万分之一以下。
布隆过滤器的好处在于快速,省空间。但是有一定的误识别率。常见的补救办法是在建立一个小的白名单,存储那些可能别误判的邮件地址。
Doodle 背后的故事(五)
2007年7月2日
发表者:Google(谷歌)公关部
Albert Einstein's Birthday (爱因斯坦生日)2003 年
在设计这个 Doodle 时不得不提的一件事是:谷歌的一位顾问 Terry Winograd,因为长得十分像爱因斯坦,所以成为了我的模特。
Leap Year(闰年) 2004 年
这是为实行公历的国家的人设计的 Doodle,从我们用户的反馈中看,有的用户确实看出了"leap"(跳跃)和"extra day" (额外的一天)的设计主题。
St. Patrick's Day (圣帕特里克节) 2004 年
我一直很想尝试改变字母 G 的造型,但是在实施起来的时候发现还是很有挑战的。
人类在谷歌搜索中扮演的角色
2007年7月2日
发表者:翻译自
Matt Cutts 个人博客
Randy Stross 为纽约时报写了一个有趣的文章,从人文的角度谈论搜索的问题,而我今天也想要谈谈人(或者说人工或人类)在谷歌搜索中所扮演的角色。
关于这篇博客,你将看到的不是一条免责声明,而是两个。哈哈!免责声明读一赠一。我的免责声明是:
— 这个帖子上完全是我个人的观点(这是我原来一贯的免责条款)
— 我真的十分缺乏睡眠。我上周末去了 Foo Camp,这是我第一去那里,因此我熬通晓直到昨天早上 4 点,和别人交谈,而且发现狼人游戏像毒品一样容易上瘾。言归正传,让我们从一个问题开始。(哈哈!这是赠送的。)
搜索的未来是什么?
我见过一些显而易见的答案。举例来说,谷歌将会继续在搜索的国际化方面加倍努力,力求在日文、德文、阿拉伯文或挪威文搜索上做得像英语一样好。但是,长期目标呢?未来的搜索 -
— 个性化?
— 全新的用户界面?
— 能够从语义角度上理解询问或文件?
— 社会化搜索?(我把它定义为"通过人的力量来改良搜索")
— 整合搜索?(引进非html来源的文件如图像、视频、专利等等)
— 一个上述所有特征的组合,抑或是一种完全不同东西?
谷歌花费了许多时间思考搜索的未来,当然其他人也在思考这个问题。让我们从这样一个领域 ,即社会化搜索入手,进行一番深入的探究吧。
社会化搜索:人的能量如果你向一个普通技术人员询问有关谷歌的问题,他会告诉你,我们使用大量的计算机和算法语言。的确,纽约时报文章的标题就是《人类的介入有可能撬开谷歌的铁钳》。但是(请注意,这是我个人之见),把谷歌单纯当作冷冰冰的算法语言和计算机而没有人类的空间,这是不对的。下面,我举几个例子,证明过去很多年来人在谷歌内部所扮演的角色:
— 网页排名在实质上是与人们在网上建立的超级链接有关。创造链接的那些人也帮助谷歌形成关于网页重要程度的看法;
— 谷歌资讯考察各式各样的新闻来源;数以千计新闻站点的编辑人员所做出的决定恰恰帮助谷歌评估特定新闻故事是否重要;
— 早在 2001 年,谷歌就在工具条上引进了投票按钮。它们看起来像快乐或愁苦的小脸,让普通人将赞成或反对的选票发送给谷歌;
— 谷歌已经允许用户从谷歌提供的结果中删除他们不喜欢的部分;
— 五年多时间里,我们允许用户向谷歌举报作弊网站。几年来我们一直在说,谷歌保留对作弊网站采取人工干预的权力。(举例来说,如果某人输入了自己的姓名,却得到了离题万里的色情结果)
当然,谷歌搜索工程师也不是每天早晨来到谷歌后,整天坐在那里什么事情也不干,而把一切都交给计算机代劳。相反,谷歌研究员和工程师花费整天的时间希望能够获取更加深刻的观察,以指引我们创造下一代搜索。我相信,谷歌搜索的工作方式向来是实用主义的:如果某种方式能改善我们的搜索质量,我们一定会虚心接纳。
我听到你说:"但是 Matt,你现在这么说,难道不是因为 Sproose、Mahalo、iRazoo、Bessed 等人力搜索公司最近见诸报端了吗?"实际上,并非如此。我想,我谈论类似的事物已经有很长一段时间。举例来说,我去年接受了 John Battelle 的一次专访(请加链接),你可以通篇阅读我关于人在搜索中所扮演角色的思考(十分冗长),也可以在这里读几段我曾经说过的话:
我认为,谷歌应该对几乎任何能够改善搜索质量的方式敞开胸怀。让我们跃上 50,000 英尺的高空俯瞰。当聪明人思考谷歌时,他们想的是算法语言,而算法语言的确是谷歌的一个重要组成部份。但算法语言并不是魔法;它们不能像雅典娜从宙斯的脑袋里蹦出来那样在计算机上自动生成。算法语言是由人编写的。人们必须确定算法语言的起点和输入的信息。而且通常情况下,那些信息输入在某些方面也是以人类的贡献为基础的。
因此我认为太多人过分强调"谷歌的算法"这一事实。所谓"一叶障目,不见森林"。在我看来,谷歌追求所有可扩展的有力方法,即便这些方法需要人工干预。使用来自人工劳动的贡献本身并没有什么与生俱来的错误 - 必须记住,这样的数据也是有局限性的。
我相信,自从PageRank发明以后,谷歌已经开始考虑该如何以各种不同方式释放人的能量了。我有资格这样说,因为 5 年多以前,我是如此重视运用社会反馈,以致于亲自编写了有关谷歌工具条投票按钮的 Windows 代码。
2007 年 6 月 26 日更新:尽管这篇博客是我的个人见解,但我从谷歌的其他同事处证实,谷歌的确正打算利用人们的反馈来改善搜索质量。在最近的欧洲媒体日活动上,一名来自《卫报》的记者向 Marissa Mayer 提出了这个话题:
Marissa 说:随着互联网的发展,搜索的需要也在增长。起先,雅虎等网站以目录形式手工罗列网站。现在,既然网络充斥着各种信息,是否又出现了人工干预的必要呢?我是指上周新闻报道中提到的 Mahalo.com 人力搜索引擎。
我预期她会说"不",但她没有。
"眼下网络是如此之大,污染如此之严重,的确需要更加复杂的方法才能对它进行搜索了,"她说。
"直到今天,我们还在依赖自动化,但是我相信未来将会两者共用,梳理自动化和人工智能之间的关系。"
这是其中一个例证。 另一个例证来自 Jason Calacanis,他详细记录了在Foo Camp 的一次会议,碰巧 Larry Page 也参加了:
Larry 说,搜索就是发现内容…,而维基百科发现了一个更好的方法来组织信息。他似乎很喜欢这种同时使用人力、流程和机器的模型。
所以这是另一项证据,表明谷歌正敞开胸怀,寻求可扩展的方法来利用人的力量。
原文链接:
http://www.mattcutts.com/blog/the-role-of-humans-in-google-search/
標籤
编程之夏,UR
创新
创意改善社会 公益温暖中国
促进智能能源利用
大学
谷歌翻译,即时相机翻译,Instant Camera Translation
谷歌十周年系列
谷歌艺术与文化
观妙中国,Shadow Art,智玩皮影
广告
广告安全
互联网,Internet
科技
女性开发者
社会
视频广告
数据中心
数字营销
搜索
网站管理员
文化研究所
艺术计划
音乐搜索
愚人节
增强型广告系列
智能隐形眼镜项目
中小企业
adexchange
Admob
admob sdk
Ads
Adsense
AdWords
android
android m
Android应用开发中国大学生挑战赛
App Inventor
Calendar
cardboard
CES
Chrome
Chrome Web Store
Chrome,Chrome实验
Chrome实验
CI
Code Jam
corporate
Creative
Cross-device
Cultural Institute
culture
Data Center
DevArt
Developer
display
diversity
Doodle
DoubleClick
G+
G2G,Culture
GA&C
gaming
Global Impact Awards
Gmail
Gogle科学挑战赛
Good to Know
Google Ads
Google AdWords
Google Analytics
Google Art Project
Google Arts & Culture
Google Code-in竞赛
Google Demo Day Asia
Google Docs
Google Doodle
Google Drive
Google Drive 云端硬盘
Google Fiber
Google Font
Google for Startups
Google Green
Google I/O
Google Image Search
Google Keep
Google partners
Google Play
Google Science Fair
Google Search
Google Top Contributor Summit
Google Translate
Google Trend
Google Trends
Google Zeitgeist 2012
Google安全系统
Google博士生奖研金
Google翻译
Google奖学金
Google杰出贡献者峰会
Google科学挑战赛
Google网站管理员
Google网站管理员,Webmaster
Google文化研究所
Google在线营销挑战赛
Google中国教育高峰会
IME 输入法
Innovation
Made with Code
maps
mobile ads
mobile ads sdk
Modoo
moonshot
native ads
Nexus
programmatic buying
Project X
Pwn20wn及Pwnium3 黑客大赛
Remarketing. Ads
Search
Security
smb
Solve for X
Street view
student
UR
VR
Web Platform Docs
web security
Webmaster
year in search 2014
YouTube
zeitgeist
博客归档
2024
8月
7月
6月
5月
4月
3月
2月
1月
2023
12月
11月
10月
9月
5月
4月
3月
2月
2022
11月
10月
5月
4月
2月
1月
2021
10月
9月
5月
4月
3月
2月
2020
12月
5月
4月
3月
2019
10月
8月
7月
6月
5月
4月
3月
2018
12月
10月
9月
8月
7月
6月
5月
3月
2月
1月
2017
12月
11月
10月
9月
8月
7月
6月
5月
4月
3月
2月
1月
2016
12月
11月
10月
9月
8月
7月
6月
5月
4月
3月
2月
1月
2015
12月
11月
10月
9月
8月
7月
6月
5月
4月
3月
2月
1月
2014
12月
11月
10月
9月
8月
7月
6月
5月
4月
3月
2月
1月
2013
12月
11月
10月
9月
8月
7月
6月
5月
4月
3月
2月
1月
2012
12月
11月
10月
9月
8月
7月
6月
5月
4月
3月
2月
1月
2011
12月
11月
10月
9月
8月
7月
6月
5月
4月
3月
2月
1月
2010
12月
11月
10月
9月
8月
7月
6月
5月
4月
3月
2月
1月
2009
12月
11月
10月
9月
8月
7月
6月
5月
4月
3月
2月
1月
2008
12月
11月
10月
9月
8月
7月
6月
5月
4月
3月
2月
1月
2007
12月
11月
10月
9月
8月
7月
6月
5月
4月
3月
2月
1月
2006
12月
11月
10月
9月
8月
7月
6月
5月
4月
3月
2月
Feed