Google 黑板报: 利用数据与网络垃圾作斗争

转载自谷歌中文网站管理员博客
发表者: Matt Cutts, 软件工程师

原文：Using data to fight webspam
发表于：2008年6月27日星期三下午4:51

这篇博客是讲述我们如何利用所收集的数据来改善我们的产品和服务的系列文章中的最新一篇。

作为谷歌反网络垃圾小组的负责人，我的职责是确保您得到的搜索结果尽可能的相关与翔实。也许您没有听说过网络垃圾，网络垃圾就是搜索结果中的垃圾结果，这些垃圾结果要么狡猾地骗取了搜索结果中较高的排名位置，要么违反了搜索引擎质量指南。如果您从来没有见过网络垃圾，下面是一个很好的例子：如果您在搜索结果中点击了这样一个垃圾链接，就可能会看到以下画面（点击可浏览大图）。

您可以看到，这是一个没有任何价值的网页。这个例子中的网页几乎没有任何原创内容，还充斥着大量无关链接以及对用户没有多大用处的信息。我们努力确保您不会看到这样的搜索结果。可以想象，如果您点击了一个谷歌搜索结果的链接却最终看到了这类网页会是多么的不愉快。

现在，搜索用户并不会经常在搜索结果中看到这样露骨的、纯粹的网络垃圾。但是，早在谷歌普及之前，在我们找到有效的反网络垃圾的方法之前，网络垃圾就已经是一个大问题了。一般而言，网络垃圾真的令人非常恼火，例如您搜索自己的名字，返回结果的链接却指向了色情网页。而对于许多非常注重获得相关性信息的搜索来说，网络垃圾成了一个严重的问题。例如，一个关于前列腺癌的搜索，获得的结果却充斥着网络垃圾而不是相关信息的链接，这会大大削弱搜索引擎作为一种有用工具的价值。

来自搜索日志的数据是我们用来与网络垃圾作斗争，力求返回更纯净、更相关的搜索结果的一种工具。IP地址和cookie信息等日志数据，使建立和使用指标系统、从不同方面衡量我们的搜索质量（例如索引的规模和覆盖范围、结果的"新鲜"程度，垃圾链接的数量等）成为可能。

每当我们创建新的衡量指标时，很重要的一点是能够审阅我们的日志数据，并利用先前的查询或搜索结果生成衡量网络垃圾的新的指标。我们使用搜索日志实现"时间回溯"，看看谷歌几个月来在用户查询方面改进了多少。当我们建立了一个新的指标能够更加精准地衡量一种新型的网络垃圾时，我们不仅可以跟踪今后我们阻击这种网络垃圾的进展情况，更可以使用日志数据分析我们在几个月前甚至几年前对同一类型网络垃圾的处理效果。

IP和cookie信息非常重要，它们能帮助我们把这种方法的应用范围仅限于"合法"的用户搜索，而不是那些由机器产生的搜索以及其他虚假搜索。举例来说，如果一个自动程序一遍又一遍地将相同的查询发送至谷歌，那么在我们衡量用户看到了多少网络垃圾之前，就应把这些搜索查询剔除出去。所有这一切——日志数据、IP地址和cookie信息——都会让您得到的搜索结果更纯净、更相关。

如果您认为网络垃圾已经不再成为一个问题了，请再仔细想想吧。去年，谷歌的索引体系遭遇了来自.cn顶级域名的网络垃圾的疯狂攻击。一些网络垃圾制造者大量购买廉价的.cn域名，并在这些网站上堆满故意拼错的词汇和色情词汇。资深的用户可能还记得曾经读过几篇与此相关的博客，但绝大多数普通用户甚至可能从来没有注意到这些。普通的搜索用户没有注意到这些异常搜索结果的原因，是因为谷歌及时识别出了这些.cn网络垃圾，并通过一个快速跟踪项目，很好地应对了此类网络垃圾的攻击。如果没有日志数据帮助我们识别问题发生的速度和范围，可能会有更多的谷歌用户受到此类攻击的影响。

理想的情况是，绝大多数用户甚至不需要知道谷歌有这样一个反网络垃圾小组。如果我们的工作做得很出色，您可能偶尔会看到质量不高的搜索结果，但您无需面对恶意的JavaScript重定向、令人反感的色情内容、充斥着无意义内容的页面或其他类型的网络垃圾。我们的日志数据有助于确保我们追踪到网络垃圾的新动向，并且在它们影响您的搜索体验之前采取相应的行动。

Google

编程之夏，UR
创新
创意改善社会公益温暖中国
促进智能能源利用
大学
谷歌翻译，即时相机翻译，Instant Camera Translation
谷歌十周年系列
谷歌艺术与文化
观妙中国，Shadow Art，智玩皮影
广告
广告安全
互联网，Internet
科技
女性开发者
社会
视频广告
数据中心
数字营销
搜索
网站管理员
文化研究所
艺术计划
音乐搜索
愚人节
增强型广告系列
智能隐形眼镜项目
中小企业
adexchange
Admob
admob sdk
Ads
Adsense
AdWords
android
android m
Android应用开发中国大学生挑战赛
App Inventor
Calendar
cardboard
CES
Chrome
Chrome Web Store
Chrome，Chrome实验
Chrome实验
CI
Code Jam
corporate
Creative
Cross-device
Cultural Institute
culture
Data Center
DevArt
Developer
display
diversity
Doodle
DoubleClick
G+
G2G，Culture
GA&C
gaming
Global Impact Awards
Gmail
Gogle科学挑战赛
Good to Know
Google Ads
Google AdWords
Google Analytics
Google Art Project
Google Arts & Culture
Google Code-in竞赛
Google Demo Day Asia
Google Docs
Google Doodle
Google Drive
Google Drive 云端硬盘
Google Fiber
Google Font
Google for Startups
Google Green
Google I/O
Google Image Search
Google Keep
Google partners
Google Play
Google Science Fair
Google Search
Google Top Contributor Summit
Google Translate
Google Trend
Google Trends
Google Zeitgeist 2012
Google安全系统
Google博士生奖研金
Google翻译
Google奖学金
Google杰出贡献者峰会
Google科学挑战赛
Google网站管理员
Google网站管理员，Webmaster
Google文化研究所
Google在线营销挑战赛
Google中国教育高峰会
IME 输入法
Innovation
Made with Code
maps
mobile ads
mobile ads sdk
Modoo
moonshot
native ads
Nexus
programmatic buying
Project X
Pwn20wn及Pwnium3 黑客大赛
Remarketing. Ads
Search
Security
smb
Solve for X
Street view
student
UR
VR
Web Platform Docs
web security
Webmaster
year in search 2014
YouTube
zeitgeist

博客归档

2026
- 5月
- 4月
- 3月
- 2月

2025
- 11月
- 8月
- 6月
- 5月
- 4月
- 3月

2024
- 12月
- 11月
- 10月
- 8月
- 7月
- 6月
- 5月
- 4月
- 3月
- 2月
- 1月

2023
- 12月
- 11月
- 10月
- 9月
- 5月
- 4月
- 3月
- 2月

2022
- 11月
- 10月
- 5月
- 4月
- 2月
- 1月

2021
- 10月
- 9月
- 5月
- 4月
- 3月
- 2月

2020
- 12月
- 5月
- 4月
- 3月

2019
- 10月
- 8月
- 7月
- 6月
- 5月
- 4月
- 3月

2018
- 12月
- 10月
- 9月
- 8月
- 7月
- 6月
- 5月
- 3月
- 2月
- 1月

2017
- 12月
- 11月
- 10月
- 9月
- 8月
- 7月
- 6月
- 5月
- 4月
- 3月
- 2月
- 1月

2016
- 12月
- 11月
- 10月
- 9月
- 8月
- 7月
- 6月
- 5月
- 4月
- 3月
- 2月
- 1月

2015
- 12月
- 11月
- 10月
- 9月
- 8月
- 7月
- 6月
- 5月
- 4月
- 3月
- 2月
- 1月

2014
- 12月
- 11月
- 10月
- 9月
- 8月
- 7月
- 6月
- 5月
- 4月
- 3月
- 2月
- 1月

2013
- 12月
- 11月
- 10月
- 9月
- 8月
- 7月
- 6月
- 5月
- 4月
- 3月
- 2月
- 1月

2012
- 12月
- 11月
- 10月
- 9月
- 8月
- 7月
- 6月
- 5月
- 4月
- 3月
- 2月
- 1月

2011
- 12月
- 11月
- 10月
- 9月
- 8月
- 7月
- 6月
- 5月
- 4月
- 3月
- 2月
- 1月

2010
- 12月
- 11月
- 10月
- 9月
- 8月
- 7月
- 6月
- 5月
- 4月
- 3月
- 2月
- 1月

2009
- 12月
- 11月
- 10月
- 9月
- 8月
- 7月
- 6月
- 5月
- 4月
- 3月
- 2月
- 1月

2008
- 12月
- 11月
- 10月
- 9月
- 8月
- 7月
- 6月
- 5月
- 4月
- 3月
- 2月
- 1月

2007
- 12月
- 11月
- 10月
- 9月
- 8月
- 7月
- 6月
- 5月
- 4月
- 3月
- 2月
- 1月

2006
- 12月
- 11月
- 10月
- 9月
- 8月
- 7月
- 6月
- 5月
- 4月
- 3月
- 2月

Feed

Google
Privacy
Terms

中国的博客，走近我们的产品、技术和文化

利用数据与网络垃圾作斗争

標籤

博客归档

Feed