中国的博客,走近我们的产品、技术和文化
Google 中国的博客,走近我们的产品、技术和文化
针对网站发布商的 Google AdSense
2006年5月31日
发表者:廖溪, Google AdSense 小组
加入
Google AdSense
小组都快一年了,每次和朋友聊天说到我的工作,都要向他们来一番关于 AdSense 的"演讲"。这个针对网站发布商的 Google 产品对大多数人都很陌生,每次我都得颇费周折的解释一番,让他们知道:就算你只是一个小小的网站,甚至是个人的博客,你都可以通过加入 AdSense,让我们向你的网站投放广告,开始你的"网上创业"生涯。
不知道大家有没有这样的体会?当你在全神贯注浏览网上关于电脑软件方面的信息时,旁边闪烁的却是美容广告,有时让你觉得莫名其妙。
关于这个,其实大大小小的网站主们也有着自己的苦恼,在绞尽脑汁充实自己网站内容满足各位大虾的精神文化需求的同时,还要想办法去扩大自己的广告收入来确保网站的运行。但情况是制作一个好的网站已经很耗力气了,哪里还有精力去寻找各种各样的广告资源啊。
Google 的工程师们也注意到了这个令人烦恼却又无可奈何的情况,带着整合全球信息的理念(广告也是信息啊:),他们开始了这样一个带有理想主义色彩的项目:利用我们的搜索技术,去发现并识别网上的各种信息,然后再将各种各样的广告和其相关的内容放在一起,这样大家在浏览各种信息的同时看到的就是相关的广告了。举个例子来说,当你在为黄金周去哪里玩而浏览旅游网站的时候,它的网页上就应该出现与旅游相关的广告。就这样,我们的工程师们推出了
Google AdSense
计划!
Google AdSense 计划是 Google 2004 年推出的一项针对网站主的广告计划,它向各种规模的网站投放内容高度相关的 Google
AdWords
广告,从而让网站主在充实自己网站内容的同时,也从这些广告的点击和展示中获得收入。形象点说,就是我们有一个无形的 "广告调配器" 负责调配广告,在我们的网络爬虫看过某个网页之后,他就回来告诉这个"广告调配器 ",那个网页真不错啊,赶快把你这里最相关的能给他带来最大收益的广告放到他的网站上去!而对于网站主来说,这个"广告调配器"就是他的广告大管家,帮他管理着与数以千计的广告发布者的关系,让他可以节省大量的时间和精力,充实自己网站的内容。
如果你加入 AdSense 计划,你还获得了对
AdSense for Search
(针对搜索的 Google AdSense)的使用权!这可是一件很有意义的事情。 向你的网站添加 Google 搜索框,意味着你将从更多的网页获得收入,同时可以为自己的用户提供更好的网站体验。由于访问者在你的网站就可进行搜索,他们可能会停留更长的时间。另外,这个小小的搜索框还会“
日久生情
”。它会慢慢发现并记住你网站的主题,并且在以后的搜索结果里面提供和你的网站主题更加相关的结果。但是,感情是需要慢慢培养的,要和她产生感情,需要耐心的等待 :)
我们推行 AdSense 的想法是:通过我们团队的努力和技术上的支持,将广告主的信息整合之后,作为一种对网站和网民有用的咨讯推广到互联网大大小小的网站上去,让每一个推广信息出现在它相关联的网络内容附近,相互补充,相得益彰。这是一个理想,也是一个目标,也是我们 Google AdSense 小组和许许多多的网站正在做的事情。不管你是大型商业网站,还是朋友间的私密博客,我们都欢迎你
加入我们
!
(小提示:发扬 DIY 的精神,去我们的
帮助中心
逛逛,你可以对我们了解得更多。还可以通过写电子邮件到 adsense-zhs@google.com 和我们交流你的想法,说出你的建议,让我们听听你的故事。建议你在工作时间和我们联系,这样你会得到我们最及时的反馈 :-))
Google (谷歌) 黑板报征集“客座博客”文章
2006年5月26日
发表者:吴丹丹,Google 黑板报
黑板报自二月十四日
开通
以来,一直都是 Google 跟大家交流生活、产品和技术的园地。三个多月来,我们一直为大家对 Google (包括对我们中文品牌:-))的关注和对搜索前途的关心而感动。我们一直在想,黑板报应该有更大的作用 – 它可以是促进对搜索、对创新思维的开放的自然的交流平台。
除了我们向用户交流想法,我们也很希望听到大家对互联网、搜索或 Google 的感受和想法。我们在这里邀请大家向我们投稿,我们将根据文章的内容和质量选择发表。
不要觉得写这样一篇文章有多么难,其实只要是你的真实感受和见解,我们都愿意知道并和大家一起分享 :)
请把你的文章发到:cnguestblog@google.com。 也许,博“客”的真正含义就是“客座博客”里蕴蓄的草根的内涵。
数学之美 系列七 -- 信息论在信息处理中的应用
2006年5月25日
发表者:吴军, Google 研究员
我们已经介绍了
信息熵
,它是信息论的基础,我们这次谈谈信息论在自然语言处理中的应用。
先看看信息熵和语言模型的关系。我们在
系列一
中谈到语言模型时,没有讲如何定量地衡量一个语言模型的好坏,当然,读者会很自然地想到,既然语言模型能减少语音识别和机器翻译的错误,那么就拿一个语音识别系统或者机器翻译软件来试试,好的语言模型必然导致错误率较低。这种想法是对的,而且今天的语音识别和机器翻译也是这么做的。但这种测试方法对于研发语言模型的人来讲,既不直接、又不方便,而且很难从错误率反过来定量度量语言模型。事实上,在贾里尼克(
Fred Jelinek
)的人研究语言模型时,世界上既没有像样的语音识别系统,更没有机器翻译。我们知道,语言模型是为了用上下文预测当前的文字,模型越好,预测得越准,那么当前文字的不确定性就越小。
信息熵正是对不确定性的衡量,因此信息熵可以直接用于衡量统计语言模型的好坏。贾里尼克从信息熵出发,定义了一个称为语言模型复杂度(Perplexity)的概念,直接衡量语言模型的好坏。一个模型的复杂度越小,模型越好。李开复博士在介绍他发明的 Sphinx 语音识别系统时谈到,如果不用任何语言模型(即零元语言模型)时,复杂度为997,也就是说句子中每个位置有 997 个可能的单词可以填入。如果(二元)语言模型只考虑前后词的搭配不考虑搭配的概率时,复杂度为 60。虽然它比不用语言模型好很多,但是和考虑了搭配概率的二元语言模型相比要差很多,因为后者的复杂度只有 20。
信息论中仅次于熵的另外两个重要的概念是“互信息”(Mutual Information) 和“相对熵”(Kullback-Leibler Divergence)。
“互信息”是信息熵的引申概念,它是对两个随机事件相关性的度量。比如说今天随机事件北京下雨和随机变量空气湿度的相关性就很大,但是和姚明所在的休斯敦火箭队是否能赢公牛队几乎无关。互信息就是用来量化度量这种相关性的。在自然语言处理中,经常要度量一些语言现象的相关性。比如在机器翻译中,最难的问题是词义的二义性(歧义性)问题。比如 Bush 一词可以是美国总统的名字,也可以是灌木丛。(有一个笑话,美国上届总统候选人凯里 Kerry 的名字被一些机器翻译系统翻译成了"爱尔兰的小母牛",Kerry 在英语中另外一个意思。)那么如何正确地翻译这个词呢?人们很容易想到要用语法、要分析语句等等。其实,至今为止,没有一种语法能很好解决这个问题,真正实用的方法是使用互信息。具体的解决办法大致如下:首先从大量文本中找出和总统布什一起出现的互信息最大的一些词,比如总统、美国、国会、华盛顿等等,当然,再用同样的方法找出和灌木丛一起出现的互信息最大的词,比如土壤、植物、野生等等。有了这两组词,在翻译 Bush 时,看看上下文中哪类相关的词多就可以了。这种方法最初是由吉尔(Gale),丘奇(Church)和雅让斯基(Yarowsky)提出的。
当时雅让斯基在宾西法尼亚大学是自然语言处理大师马库斯 (Mitch Marcus) 教授的博士生,他很多时间泡在贝尔实验室丘奇等人的研究室里。也许是急于毕业,他在吉尔等人的帮助下想出了一个最快也是最好地解决翻译中的二义性,就是上述的方法,这个看上去简单的方法效果好得让同行们大吃一惊。雅让斯基因而只花了三年就从马库斯那里拿到了博士,而他的师兄弟们平均要花六年时间。
信息论中另外一个重要的概念是“相对熵”,在有些文献中它被称为成“交叉熵”。在英语中是
Kullback-Leibler Divergence
,是以它的两个提出者库尔贝克和莱伯勒的名字命名的。相对熵用来衡量两个正函数是否相似,对于两个完全相同的函数,它们的相对熵等于零。在自然语言处理中可以用相对熵来衡量两个常用词(在语法上和语义上)是否同义,或者两篇文章的内容是否相近等等。利用相对熵,我们可以到处信息检索中最重要的一个概念:词频率-逆向文档频率(TF/IDF)。我们下回会介绍如何根据相关性对搜索出的网页进行排序,就要用的餐TF/IDF 的概念。另外,在新闻的分类中也要用到相对熵和 TF/IDF。
对信息论有兴趣又有一定数学基础的读者,可以阅读斯坦福大学托马斯.科弗 (Thomas Cover) 教授的专著 "信息论基础"(Elements of Information Theory):
http://www.amazon.com/gp/product/0471062596/ref=nosim/103-7880775-7782209?n=283155
http://www.cnforyou.com/query/bookdetail1.asp?viBookCode=17909
科弗教授是当今最权威的信息论专家。
Google 工程师二三事
2006年5月23日
发表者:王咏刚, Google 工程师
我讨厌“工程师”这个头衔,正如我讨厌一辈子与呆头呆脑的主板、芯片为伍。要是有一天,Google 能把多内核的超级计算功能集成到肥皂泡里,然后工程师们就绑上肚兜系上围嘴手拉着手走到阳光明媚的院子当间儿在小方凳上排排坐好一个个充满童趣地仰着脑袋歪着脖子噙着塑料管煞有介事地吹出红的黄的五颜六色的肥皂泡来其实每个肥皂泡都是一个超级过瘾超级纯粹的网络搜索产品,“工程师”这个满是机油味儿的称谓不就可以被曼妙无比的“勇者泡泡龙”代替了吗?
您还甭笑话我,在 Google 做工程师,没有点无知者无畏的创新精神还真成不了大事。借用北宋第二伟大的词人周邦彦的名句就是:舍不了孩子呀,套不着狼。没办法,谁让 Google 里面处处都是新奇无比俗称“挑战”的新鲜事儿呢。——闲言少叙,讲几件我遇到的新鲜事儿给大家听听,权当是“所作忠而言之兮”了。
1、第一次遇到比自己笨的人
法国伟大的文学家、思想家、革命家孟德斯鸠教导我们说,身为 Google 工程师的最大好处就是 — 你总能在第一时间知道自己离“笨得离谱”还有多远。老孟的话得这么理解:“笨”其实是一种美德,远比“厚道”更易让人神往,尤其是在遇到了一个比你更笨的人之后。
有一次,我笨得忘记了该如何在一个复杂的有向图中找出两点之间的最短路径。身边的一位工程师很郑重地告诉我说:“你知道吗?解决这个问题有两种方法,聪明人的方法和笨人的方法。聪明人的方法是:照着算法教科书的讲解,实现那个时间复杂度相当大的名叫嘀嘀哒嘀哒的最短路径算法。笨人的方法时间复杂度最低:找一堆线头来,按照有向图的结构连成一张网,然后一手拿一个顶点,向两边一抻,中间拉直了的那条路就是最短路径呀。”
“哇噻!笨是一种多么伟大的品格呀!”我眩晕得说不出话来。于是,我们这两个自认为足够笨的工程师足足花了两周的时间,用计算机程序模拟了不同材质的细线在北半球的重力条件下相互连接并在两个反方向作用力的影响下向两边伸展的整个物理过程,然后以此为基础实现了时间复杂度最小的最短路径算法。——瞧,在 Google,什么东西都可以自己动手实现,什么东西也都可以推陈出新,我们的杰出表现就是最好的证明。
2、第一次和超大老板吃饭
开复是我们工程院的老板,老板的老板当然就是超大老板。第一次和超大老板吃饭是在无比质朴无比简洁甚至略带些中小城市招待所气息的某某中心餐厅里。大鼻子蓝眼睛的超大老板显然对我们这些工程师的居心不良有所准备,一上来就用流利的中文告诫我们说:“吾于汉学一门仅识得‘谢谢’二字,诸位客官大快朵颐之时烦请务必以英吉利方言互通有无,承让了!”
无奈之下,我们只好将精心准备了三天三夜的用温州话提问的小节目暂时搁置。说来也怪,本来无法见人的英语口语一到超大老板面前就变得比王小丫的中文还要流利。我豪不费力地在 59 秒的时间里说出了 "Kernel 2.6" 一共四个英文单词。超大老板也毫不费力地明白了我的意思,他拍了拍我的肩膀,用和我一样流利的英文告诉我说:“小伙子,真人不露相啊,你怎么知道 Kernel 2.6 只能在 1 分钟内处理 4 个单词呢?”
好容易让超大老板明白了我们其实是想让他谈点儿与 Kernel 2.6 有关的技术问题。超大老板还真不含糊,为了让自己的回答更全面、更准确些,他毅然离席,到旁边桌上与同来北京的几位技术大师晤谈许久——我们正好趁着这个机会平端了筷子大张了嘴巴吃得满桌震荡风雷急,等到超大老板回到座位,我们就指着无数个空盘子很是愧疚地说:“您看您也真是的,一心帮我们解决问题,连自己吃饭都顾不上了,这让我们怎么好意思呢?”
3、第一次见到 Foosball 高手和大胆子情圣
其实,武林中传言已久的 Foosball 高手和大胆子情圣是一个人,一个同时拥有着俊朗外表和秀美心灵的工程师,一个脱离了低级趣味的人,一个值得向所有小女生大力推荐的人。
在 Foosball 的台案上,情圣先生是那种从不轻易出手的人——即便出手,也只出一只手,一只吹雪不见五指的手。事实上,他用一只手就足以将那些曾在业余级别赛事里称王称霸的选手们打成光头加零蛋了。于是乎,情圣在 Foosball 赛场上成了无人理睬的独孤求败,没法子,只好将精力转移到他本人更为擅长的娱乐舞台上。
大胆子情圣的名头绝不是骗来的。据那些见证过大胆子情圣光荣历史的目击者形容,大胆子情圣曾经在一家餐厅的舞台上被人用红布蒙面,用巨蟒缠身。当时现场有无数的观众晕倒,可我们的大胆子情圣却自行摘去红布,手托巨蟒,亲吻蛇身,并与舞台上的异族美女共舞数曲方散。一时间,“胆大如斗,情深似海”的八字评语传遍了公司上上下下。
好了好了,先聊到这里吧,Tech Lead 对我沉迷于胡言乱语的行为已经出离愤怒了。“好好编你的程序,别发癔症了。” 没错,我是个工程师,还有无数程序要编。刚才说的这些事儿,大家千万别当真。呵呵。
柯南道尔和福尔摩斯
2006年5月22日
发表者:吴丹丹, Google 黑板报小组
今天 5 月 22 日是著名英国小说家
阿瑟·柯南道尔爵士
诞辰 147 年(Sir Arthur Conan Doyle,1859 年 5 月 22 日 ~ 1930 年 7 月 7 日)。他因为成功的塑造了
福尔摩斯
这个侦探人物而成为侦探小说历史上最重要的作家之一。除此之外他还曾写过多部其它类型的小说,如科幻、历史小说、爱情小说、戏剧、诗歌等。
今天我们主页上的 Logo 就是纪念他的。
Google Talk 推出包括中文在内的 12 种语言的界面
2006年5月22日
发表者:Mike Jazayeri, 产品经理
是的,12 种语言。Google Talk 新增加了包括中文在内的 12 种语言的界面:中文(简体和繁体)、韩文、日文、法语、意大利语、德语、西班牙语、葡萄牙语、荷兰语、俄语、土耳其语和针对英国的英语。
有兴趣你可以
去看看
,多与你的朋友交谈......
开复--学生面对面:21 世纪最需要的 7 种人才素质
2006年5月18日
发表者: 李开复
去年,我曾经在很多场合和同学们共同就如何进一步深造、就业提出了很多建议。有很多同学发 email 问我:我怎样知道我已经做好就业的准备了?现在的社会到底需要什么样的人才? 针对上述问题,我总结了一些经验,希望能帮助各位同学提高自身能力, 设定自身发展目标。
21 世纪是一个信息共享、平等竞争和不断变化的时代,如何根据时代的需要不断塑造自己是一件非常重要的事情,下面是我理解的 21世纪最需要的 7 种人才。
1) 创新实践者:左右脑并重、既创新又实践。离开实践只谈创新会导致创新的想法比较空洞。
2) 跨领域合作者:21 世纪要求人才不仅有自己的专业技术,更要求人才跨越专业的局限,在不同的领域不断完善自己。
3) 高情商合作者:有一个比较高的智商固然重要,但是 21 世纪需要的人才是跨国界的、跨领域的合作者。一个孤僻、自傲的天才不再是最好的人才,一个高情商合作者能为他的整个团队带来巨大的成功。
4) 高效能沟通者:理解你的听众,用最有效率的方式方法与你的听众进行沟通,尝试去引导你的听众而不是说教。
5) 热爱工作者:做自己喜爱的工作,让自己对工作产生热情。你会发现你对工作的热情会带给你巨大的回报。
6) 积极主动者:沉默不一定是金。机遇往往会偏爱那些善于把握机会、制造机会的人。21世纪需要更主动的人才,要让别人了解你的能力与才干。
7) 乐观向上者:每个人在一生当中总会遇到大大小小的挫折与失败。把握挫折与失败给你带来机会,从挫折与失败中学习,做一个乐观向上的人。
Google 谷歌-- 斯坦福大学在线硕士计划推出
2006年5月17日
发表者: 金玮,大学项目部
在 Google,我们的人才战略是:邀请优秀的人才加盟并提供宽广的平台让他们实现自己的梦想。
本周一,我们正式宣布了 Google (谷歌)资助公司中国工程研究院的优秀员工就读斯坦福大学计算机在线硕士计划。该计划鼓励员工申请斯坦福计算机科学系的在线硕士课程,对于被录取员工的学费进行全额资助。该硕士项目要求学生每个季度完成一门课程,学习完毕、成绩合格者将获得斯坦福大学计算机系在线硕士学位。当然, Google 对其资助的员工在该计划里的成绩也有一定要求。
Google 谷歌--斯坦福在线硕士计划是我们人才培养的重要步骤,欢迎
优秀人才的加盟
,并致力于为我们的员工创造世界一流的工作和学习环境。
数学之美系列六 -- 图论和网络爬虫 (Web Crawlers)
2006年5月15日
发表者: 吴军,Google 研究员
[
离散数学
是当代数学的一个重要分支,也是计算机科学的数学基础。它包括数理逻辑、集合论、图论和近世代数四个分支。数理逻辑基于布尔运算,我们已经介绍过了。这里我们介绍图论和互联网自动下载工具网络爬虫 (Web Crawlers) 之间的关系。顺便提一句,我们用
Google Trends
来搜索一下“离散数学”这个词,可以发现不少有趣的现象。比如,武汉、哈尔滨、合肥和长沙市对这一数学题目最有兴趣的城市。]
我们
上回
谈到了如何建立搜索引擎的索引,那么如何自动下载互联网所有的网页呢,它要用到图论中的遍历(Traverse) 算法。
图论的起源可追溯到大数学家
欧拉
(Leonhard Euler)。1736 年欧拉来到德国的哥尼斯堡(Konigsberg,大哲学家康德的故乡,现在是俄罗斯的加里宁格勒),发现当地市民们有一项消遣活动,就是试图将下图中的每座桥恰好走过一遍并回到原出发点,从来没有人成功过。欧拉证明了这件事是不可能的,并写了一篇论文,一般认为这是图论的开始。
图论中所讨论的的图由一些节点和连接这些节点的弧组成。如果我们把中国的城市当成节点,连接城市的国道当成弧,那么全国的公路干线网就是图论中所说的图。关于图的算法有很多,但最重要的是图的遍历算法,也就是如何通过弧访问图的各个节点。以中国公路网为例,我们从北京出发,看一看北京和哪些城市直接相连,比如说和天津、济南、石家庄、南京、沈阳、大同直接相连。我们可以依次访问这些城市,然后我们看看都有哪些城市和这些已经访问过的城市相连,比如说北戴河、秦皇岛与天津相连,青岛、烟台和济南相连,太原、郑州和石家庄相连等等,我们再一次访问北戴河这些城市,直到中国所有的城市都访问过一遍为止。这种图的遍历算法称为“广度优先算法”(BFS),因为它先要尽可能广地访问每个节点所直接连接的其他节点。另外还有一种策略是从北京出发,随便找到下一个要访问的城市,比如是济南,然后从济南出发到下一个城市,比如说南京,再访问从南京出发的城市,一直走到头。然后再往回找,看看中间是否有尚未访问的城市。这种方法叫“深度优先算法”(DFS),因为它是一条路走到黑。这两种方法都可以保证访问到全部的城市。当然,不论采用哪种方法,我们都应该用一个小本本,记录已经访问过的城市,以防同一个城市访问多次或者漏掉哪个城市。
现在我们看看图论的遍历算法和搜索引擎的关系。互联网其实就是一张大图,我们可以把每一个网页当作一个节点,把那些超链接(Hyperlinks)当作连接网页的弧。很多读者可能已经注意到,网页中那些蓝色的、带有下划线的文字背后其实藏着对应的网址,当你点下去的的时候,浏览器是通过这些隐含的网址转到相应的网页中的。这些隐含在文字背后的网址称为“超链接”。有了超链接,我们可以从任何一个网页出发,用图的遍历算法,自动地访问到每一个网页并把它们存起来。完成这个功能的程序叫做网络爬虫,或者在一些文献中称为"机器人"(Robot)。世界上第一个网络爬虫是由麻省理工学院 (MIT)的学生马休.格雷(Matthew Gray)在 1993 年写成的。他给他的程序起了个名字叫“互联网漫游者”("www wanderer")。以后的网络爬虫越写越复杂,但原理是一样的。
我们来看看网络爬虫如何下载整个互联网。假定我们从一家门户网站的首页出发,先下载这个网页,然后通过分析这个网页,可以找到藏在它里面的所有超链接,也就等于知道了这家门户网站首页所直接连接的全部网页,诸如雅虎邮件、雅虎财经、雅虎新闻等等。我们接下来访问、下载并分析这家门户网站的邮件等网页,又能找到其他相连的网页。我们让计算机不停地做下去,就能下载整个的互联网。当然,我们也要记载哪个网页下载过了,以免重复。在网络爬虫中,我们使用一个称为“
哈希表
”(Hash Table)的列表而不是一个记事本纪录网页是否下载过的信息。
现在的互联网非常巨大,不可能通过一台或几台计算机服务器就能完成下载任务。比如雅虎公司(Google 没有公开公布我们的数目,所以我这里举了雅虎的索引大小为例)宣称他们索引了 200 亿个网页,假如下载一个网页需要一秒钟,下载这 200 亿个网页则需要 634 年。因此,一个商业的网络爬虫需要有成千上万个服务器,并且由快速网络连接起来。如何建立这样复杂的网络系统,如何协调这些服务器的任务,就是网络设计和程序设计的艺术了。
这个世界正在 google 什么
2006年5月12日
发表者: 吴丹丹,Google 黑板报小组
眼睛是心灵的窗口,搜索是互联网的窗口。随时上网成为日趋重要的一种生活方式,搜索也正在成为整个社会潮流的折射。在 Google,我们希望不断提高用户的搜索体验。现在,除了搜索你自己所需的信息,你也可以看到这个世界正在 google 什么,这就是我们刚刚推出的
Google Trends
。
Google Trends 建立在
Google Zeitgeist
(Google 流行榜) 的基础上,让你可以看到近几年人们在 Google 上搜索某个词或某几个词的趋势,以及在哪些国家、地区、语言上对这些词的搜索量最多。这样你就可以知道从搜索的角度,
超女谁最火
,
中国哪个城市最被人关心
,或是
奥运会
受关注的走势......
需要说明的是,Google Trends 只显示某个词的大概走势,并不提供精确数据,走势 100% 由机器产生。同时为了保护用户隐私,Trends 只在 Google 搜索数据库里部分取样,而且只有搜索量达到足够大的词才予以显示。这个产品现在推出的是英文界面,但数据库是全球的,所以中文的用户一样可以输入中文关键词查找,只是非英文的趋势图目前还没有跟 Google 资讯 (News) 相连。
这个 Beta 版的产品刚刚成为
Google 实验室
的一员,其中一定有很多不足的地方,希望大家多给我们提意见。
Ok, now you can see what the world is searching for. :)
人气比较关键词:李宇春,张靓颖,周笔畅
1. 去年 8 月的超女总决赛在互联网上也掀起了一阵高潮,反应在 Google 趋势线的顶峰。
2. 成都、重庆对来自四川的玉米自然热情最高。
3. 从搜索城市来看,排在第五的合肥对李宇春和周笔畅的关注程度相似。
“世界杯” 搜索趋势
1. 6 月份世界杯在即,趋势图上的搜索量立即从今年 3 月份开始激增。
2. 从城市分布来看,成都、上海、北京、广州的球迷热情最高。
哪个地区最关心中国的“海尔” Haier
1. 去年 6 月份有消息说海尔集团正考虑竞购美国的 Maytag Corp 时“海尔”的搜索量最高。
2. 印度、巴基斯坦人对海尔最关心。
数学之美系列五 -- 简单之美:布尔代数和搜索引擎的索引
2006年5月10日
发表者: 吴军,Google 研究员
[建立一个搜索引擎大致需要做这样几件事:自动下载尽可能多的网页;建立快速有效的索引;根据相关性对网页进行公平准确的排序。我们在介绍
Google Page Rank
(网页排名) 时已经谈到了一些排序的问题,这里我们谈谈索引问题,以后我们还会谈如何度量网页的相关性,和进行网页自动下载。]
世界上不可能有比二进制更简单的计数方法了,也不可能有比布尔运算更简单的运算了。尽管今天每个搜索引擎都宣称自己如何聪明、多么智能化,其实从根本上讲都没有逃出布尔运算的框框。
布尔
(George Boole) 是十九世纪英国一位小学数学老师。他生前没有人认为他是数学家。布尔在工作之余,喜欢阅读数学论著、思考数学问题。1854 年“
思维规律
”(An Investigation of the Laws of Thought, on which are founded the Mathematical Theories of Logic and Probabilities)一书,第一次向人们展示了如何用数学的方法解决逻辑问题。
布尔代数简单得不能再简单了。运算的元素只有两个1 (TRUE, 真) 和 0
(FALSE,假)。基本的运算只有“与”(AND)、“或” (OR) 和“非”(NOT) 三种(后来发现,这三种运算都可以转换成“与”“非” AND-NOT一种运算)。全部运算只用下列几张真值表就能完全地描述清楚。
AND | 1 0
-----------------------
1 | 1 0
0 | 0 0
这张表说明如果 AND 运算的两个元素有一个是 0,则运算结果总是 0。如果两个元素都是 1,运算结果是 1。例如,“太阳从西边升起”这个判断是假的(0),“水可以流动”这个判断是真的(1),那么,“太阳从西边升起并且水可以流动”就是假的(0)。
OR | 1 0
-----------------------
1 | 1 1
0 | 1 0
这张表说明如果OR运算的两个元素有一个是 1,则运算结果总是 1。如果两个元素都是 0,运算结果是 0。比如说,“张三是比赛第一名”这个结论是假的(0),“李四是比赛第一名”是真的(1),那么“张三或者李四是第一名”就是真的(1)。
NOT |
--------------
1 | 0
0 | 1
这张表说明 NOT 运算把 1 变成 0,把 0 变成 1。比如,如果“象牙是白的”是真的(1),那么“象牙不是白的”必定是假的(0)。
读者也许会问这么简单的理论能解决什么实际问题。布尔同时代的数学家们也有同样的问题。事实上在布尔代数提出后80 多年里,它确实没有什么像样的应用,直到 1938 年香农在他的硕士论文中指出用布尔代数来实现开关电路,才使得布尔代数成为数字电路的基础。所有的数学和逻辑运算,加、减、乘、除、乘方、开方等等,全部能转换成二值的布尔运算。
现在我们看看文献检索和布尔运算的关系。对于一个用户输入的关键词,搜索引擎要判断每篇文献是否含有这个关键词,如果一篇文献含有它,我们相应地给这篇文献一个逻辑值 -- 真(TRUE,或 1),否则,给一个逻辑值 -- 假(FALSE, 或0)。比如我们要找有关原子能应用的文献,但并不想知道如何造原子弹。我们可以这样写一个查询语句“原子能 AND 应用 AND (NOT 原子弹)”,表示符合要求的文献必须同时满足三个条件:
- 包含原子能
- 包含应用
- 不包含原子弹
一篇文献对于上面每一个条件,都有一个 True 或者 False 的答案,根据上述真值表就能算出每篇文献是否是要找的。
早期的文献检索查询系统大多基于数据库,严格要求查询语句符合布尔运算。今天的搜索引擎相比之下要聪明的多,它自动把用户的查询语句转换成布尔运算的算式。当然在查询时,不能将每篇文献扫描一遍,来看看它是否满足上面三个条件,因此需要建立一个索引。
最简单索引的结构是用一个很长的二进制数表示一个关键字是否出现在每篇文献中。有多少篇文献,就有多少位数,每一位对应一篇文献,1 代表相应的文献有这个关键字,0 代表没有。比如关键字“原子能”对应的二进制数是0100100001100001...,表示第二、第五、第九、第十、第十六篇文献包含着个关键字。注意,这个二进制数非常之长。同样,我们假定“应用”对应的二进制数是 0010100110000001...。那么要找到同时包含“原子能”和“应用”的文献时,只要将这两个二进制数进行布尔运算 AND。根据上面的真值表,我们知道运算结果是0000100000000001...。表示第五篇,第十六篇文献满足要求。
注意,计算机作布尔运算是非常非常快的。现在最便宜的微机都可以一次进行三十二位布尔运算,一秒钟进行十亿次以上。当然,由于这些二进制数中绝大部分位数都是零,我们只需要记录那些等于1的位数即可。于是,搜索引擎的索引就变成了一张大表:表的每一行对应一个关键词,而每一个关键词后面跟着一组数字,是包含该关键词的文献序号。
对于互联网的搜索引擎来讲,每一个网页就是一个文献。互联网的网页数量是巨大的,网络中所用的词也非常非常多。因此这个索引是巨大的,在万亿字节这个量级。早期的搜索引擎(比如 Alta Vista 以前的所有搜索引擎),由于受计算机速度和容量的限制,只能对重要的关键的主题词建立索引。至今很多学术杂志还要求作者提供 3-5 个关键词。这样所有不常见的词和太常见的虚词就找不到了。现在,为了保证对任何搜索都能提供相关的网页,所有的搜索引擎都是对所有的词进行索引。为了网页排名方便,索引中还需存有大量附加信息,诸如每个词出现的位置、次数等等。因此,整个索引就变得非常之大,以至于不可能用一台计算机存下。大家普遍的做法就是根据网页的序号将索引分成很多份(Shards),分别存储在不同的服务器中。每当接受一个查询时,这个查询就被分送到许许多多服务器中,这些服务器同时并行处理用户请求,并把结果送到主服务器进行合并处理,最后将结果返回给用户。
不管索引如何复杂,查找的基本操作仍然是布尔运算。布尔运算把逻辑和数学联系起来了。它的最大好处是容易实现,速度快,这对于海量的信息查找是至关重要的。它的不足是只能给出是与否的判断,而不能给出量化的度量。因此,所有搜索引擎在内部检索完毕后,都要对符合要求的网页根据相关性排序,然后才返回给用户。
网页制作可以更简单
2006年5月9日
发表者: Justin Rosenstein, 产品经理
我妈妈一直希望有一个网站,她作为律师希望客户 google 她的时候一下子就能找到相关信息;我的大学教授一直希望能有一个地方让他可以直接把给学生的作业和课堂要求布置上去;我的朋友 Casey 一直很想建一个自己的网上字典。
他们都希望网页制作既简单看上去又不错,但他们都不愿意学 HTML、或用一些复杂的工具更别说是花钱请一个设计师了。他们以前都“连哄带骗”让我这个懂一点技术的人帮他们做网页,可如果没有我这样的人帮他们怎么办?为什么我们没有一个象 Word 那样操作简单的制作网页的工具呢?
开始在 Google 工作的时候,我还一直在想这些问题,这个加州公司里到处都是象我一样友好而又懂技术的人,而且公司鼓励员工用自己 20% 的时间做自己感兴趣的事情。于是我聚集了一群工程师和设计师,大家都对如何轻松制作有用的网页充满热情。
我们的目标是设计出我们的朋友和家人都喜欢而且易用的产品,经过数月的努力,我们很高兴
Google Page Creator
(Google 网页设计工具)正式加入
Google 实验室
了。Google 实验室一向是 Google 科技试验的园地,里面有我们觉得激动人心、但可能还没完全成熟的产品。希望早期使用者给我们的产品提意见,帮助我们不断完善改进。
Google Page Creator (目前只发布了英文版本,您需要一个 Gmail 帐户才能进入) 只是我们帮助人们把文字、图片、创意放到网上的第一步。但我真的很高兴,因为当我的朋友需要在网上分享他旅游时去一个
威尼斯修道院
的经历,或是我一位同事想写一写他自建的
宝龄球队
的时候,我可以告诉他们怎么做了。
ps: Google Page Creator 目前只发布了英文版本,用户需要一个 Gmail 帐户才能进入。
Google 达芬奇密码游戏
2006年5月8日
发表者: 吴丹丹,Google 黑板报小组
也许你已经玩了一阵了,或许你还不知道 — Google 和
索尼
公司为了电影《达芬奇密码》5 月 19 日在全球的首映从 4 月 14 号开始推出了一个在线智力游戏
The Da Vinci Code Quest on Google
。这个游戏虽然只在美国、英国和澳大利亚正式推出,但其实全球的用户都可以参与,条件是你需要通过 Google 个性化主页进入。
从 4 月 14 号到 5 月 11 号期间,用户每天打开计算机看到的是不同的智力游戏,每天一个,一共 24 天 ,分 6 种不同的形式,4 个递增的难度等级。为了这个游戏,我们一共设计了 12,358 个不同的方阵迷,供参加者选择,每一个方阵迷都意味着对智力的挑战和《达芬奇密码》本身迷宫般的精髓。而且如果一轮游戏过关,用户需要回答一个通过 Google 搜索才能找到答案的问题。美国的前一万名答对所有问题的参与者将被邀请参加 5 月 19 日(即影片上映时间)游戏的最后一关,获胜者有很高的
奖励
。
有些中国用户已经试着玩了这个游戏,并把他们对
游戏规则
的理解和
体会
写了下来。
索尼公司希望这个在线的互动游戏使大家在观看《达芬奇密码》电影时感觉更加生动有趣,而 Google 本身也很高兴能够把我们的创造力和《达芬奇密码》的奇妙世界结合在一起。
希望你玩的开心。
五一节快乐!
2006年5月1日
发表者:吴丹丹
五一节,Google 黑板报小组也放假一周 :)节后见。
標籤
编程之夏,UR
创新
创意改善社会 公益温暖中国
促进智能能源利用
大学
谷歌翻译,即时相机翻译,Instant Camera Translation
谷歌十周年系列
谷歌艺术与文化
观妙中国,Shadow Art,智玩皮影
广告
广告安全
互联网,Internet
科技
女性开发者
社会
视频广告
数据中心
数字营销
搜索
网站管理员
文化研究所
艺术计划
音乐搜索
愚人节
增强型广告系列
智能隐形眼镜项目
中小企业
adexchange
Admob
admob sdk
Ads
Adsense
AdWords
android
android m
Android应用开发中国大学生挑战赛
App Inventor
Calendar
cardboard
CES
Chrome
Chrome Web Store
Chrome,Chrome实验
Chrome实验
CI
Code Jam
corporate
Creative
Cross-device
Cultural Institute
culture
Data Center
DevArt
Developer
display
diversity
Doodle
DoubleClick
G+
G2G,Culture
GA&C
gaming
Global Impact Awards
Gmail
Gogle科学挑战赛
Good to Know
Google Ads
Google AdWords
Google Analytics
Google Art Project
Google Arts & Culture
Google Code-in竞赛
Google Demo Day Asia
Google Docs
Google Doodle
Google Drive
Google Drive 云端硬盘
Google Fiber
Google Font
Google for Startups
Google Green
Google I/O
Google Image Search
Google Keep
Google partners
Google Play
Google Science Fair
Google Search
Google Top Contributor Summit
Google Translate
Google Trend
Google Trends
Google Zeitgeist 2012
Google安全系统
Google博士生奖研金
Google翻译
Google奖学金
Google杰出贡献者峰会
Google科学挑战赛
Google网站管理员
Google网站管理员,Webmaster
Google文化研究所
Google在线营销挑战赛
Google中国教育高峰会
IME 输入法
Innovation
Made with Code
maps
mobile ads
mobile ads sdk
Modoo
moonshot
native ads
Nexus
programmatic buying
Project X
Pwn20wn及Pwnium3 黑客大赛
Remarketing. Ads
Search
Security
smb
Solve for X
Street view
student
UR
VR
Web Platform Docs
web security
Webmaster
year in search 2014
YouTube
zeitgeist
博客归档
2024
11月
10月
8月
7月
6月
5月
4月
3月
2月
1月
2023
12月
11月
10月
9月
5月
4月
3月
2月
2022
11月
10月
5月
4月
2月
1月
2021
10月
9月
5月
4月
3月
2月
2020
12月
5月
4月
3月
2019
10月
8月
7月
6月
5月
4月
3月
2018
12月
10月
9月
8月
7月
6月
5月
3月
2月
1月
2017
12月
11月
10月
9月
8月
7月
6月
5月
4月
3月
2月
1月
2016
12月
11月
10月
9月
8月
7月
6月
5月
4月
3月
2月
1月
2015
12月
11月
10月
9月
8月
7月
6月
5月
4月
3月
2月
1月
2014
12月
11月
10月
9月
8月
7月
6月
5月
4月
3月
2月
1月
2013
12月
11月
10月
9月
8月
7月
6月
5月
4月
3月
2月
1月
2012
12月
11月
10月
9月
8月
7月
6月
5月
4月
3月
2月
1月
2011
12月
11月
10月
9月
8月
7月
6月
5月
4月
3月
2月
1月
2010
12月
11月
10月
9月
8月
7月
6月
5月
4月
3月
2月
1月
2009
12月
11月
10月
9月
8月
7月
6月
5月
4月
3月
2月
1月
2008
12月
11月
10月
9月
8月
7月
6月
5月
4月
3月
2月
1月
2007
12月
11月
10月
9月
8月
7月
6月
5月
4月
3月
2月
1月
2006
12月
11月
10月
9月
8月
7月
6月
5月
4月
3月
2月
Feed