Google 黑板报: 优化网站的抓取与收录

中国的博客，走近我们的产品、技术和文化

Google 中国的博客，走近我们的产品、技术和文化

优化网站的抓取与收录

2009年9月7日

发表者： Susan Moskwa, 网站管理员趋势分析员

原文: Optimize your crawling & indexing

发表于: 2009年8月9日星期日, 下午10:40

很多有关于网站结构、抓取与收录、甚至是排名的问题都可以被归结为一个中心问题，那就是：搜索引擎能够多么容易的抓取您的网站？我们在最近的几次活动上都谈到过这个话题，下面您将会看到我们关于这个问题的演讲内容以及要点概括。

网络世界极其庞大；每时每刻都在产生新的内容。Google 本身的资源是有限的，当面对几近无穷无尽的网络内容的时候，Googlebot 只能找到和抓取其中一定比例的内容。然后，在我们已经抓取到的内容中，我们也只能索引其中的一部分。

URLs 就像网站和搜索引擎抓取工具之间的桥梁: 为了能够抓取到您网站的内容，抓取工具需要能够找到并跨越这些桥梁(也就是找到并抓取您的URLs)。如果您的URLs很复杂或冗长，抓取工具不得不需要反复花时间去跟踪这些网址；如果您的URLs很规整并且直接指向您的独特内容，抓取工具就可以把精力放在了解您的内容上，而不是白白花在抓取空网页或被不同的URLs指引却最终只是抓取到了相同的重复内容。

在上面的幻灯片上，您可以看到一些我们应当避免的反例--这些都是现实中存在的URL例子(尽管他们的名称由于保护隐私的原因已经被替换了)，这些例子包括被黑的URL和编码，冗余的参数伪装成URL路径的一部分，无限的抓取空间，等等。您还可以找到帮助您理顺这些网址迷宫和帮助抓取工具更快更好地找到您的内容的一些建议，主要包括：

去除URL中的用户相关参数

那些不会对网页内容产生影响的URL中的参数——例如session ID或者排序参数——是可以从URL中去除的，并被cookie记录的。通过将这些信息加入cookie，然后301重定向至一个“干净”的URL，你可以保持原有的内容，并减少多个URL指向同一内容的情况。

控制无限空间

你的网站上是否有一个日历表，上面的链接指向无数个过去和将来的日期（每一个链接地址都独一无二）？你的网页地址是否在加入一个&page=3563的参数之后，仍然可以返回200代码，哪怕根本没有这么多页？如果是这样的话，你的网站上就出现了所谓的“无限空间”，这种情况会浪费抓取机器人和你的网站的带宽。如何控制好“无限空间”，参考这里的一些技巧吧。

阻止Google爬虫抓取他们不能处理的页面

通过使用你的robots.txt 文件，你可以阻止你的登录页面，联系方式，购物车以及其他一些爬虫不能处理的页面被抓取。(爬虫是以他的吝啬和害羞而著名，所以一般他们不会自己 “往购物车里添加货物” 或者 “联系我们”)。通过这种方式，你可以让爬虫花费更多的时间抓取你的网站上他们能够处理的内容。

一人一票。一个 URL, 一段内容

在理想的世界里，URL和内容之间有着一对一的对应：每一个URL会对应一段独特的内容，而每一段内容只能通过唯一的一个URL访问。越接近这样的理想状况，你的网站会越容易被抓取和收录。如果你的内容管理系统或者目前的网站建立让它实现起来比较困难，你可以尝试使用rel=canonical元素去设定你想用的URL去指示某个特定的内容。

Google

编程之夏，UR
创新
创意改善社会公益温暖中国
促进智能能源利用
大学
谷歌翻译，即时相机翻译，Instant Camera Translation
谷歌十周年系列
谷歌艺术与文化
观妙中国，Shadow Art，智玩皮影
广告
广告安全
互联网，Internet
科技
女性开发者
社会
视频广告
数据中心
数字营销
搜索
网站管理员
文化研究所
艺术计划
音乐搜索
愚人节
增强型广告系列
智能隐形眼镜项目
中小企业
adexchange
Admob
admob sdk
Ads
Adsense
AdWords
android
android m
Android应用开发中国大学生挑战赛
App Inventor
Calendar
cardboard
CES
Chrome
Chrome Web Store
Chrome，Chrome实验
Chrome实验
CI
Code Jam
corporate
Creative
Cross-device
Cultural Institute
culture
Data Center
DevArt
Developer
display
diversity
Doodle
DoubleClick
G+
G2G，Culture
GA&C
gaming
Global Impact Awards
Gmail
Gogle科学挑战赛
Good to Know
Google Ads
Google AdWords
Google Analytics
Google Art Project
Google Arts & Culture
Google Code-in竞赛
Google Demo Day Asia
Google Docs
Google Doodle
Google Drive
Google Drive 云端硬盘
Google Fiber
Google Font
Google for Startups
Google Green
Google I/O
Google Image Search
Google Keep
Google partners
Google Play
Google Science Fair
Google Search
Google Top Contributor Summit
Google Translate
Google Trend
Google Trends
Google Zeitgeist 2012
Google安全系统
Google博士生奖研金
Google翻译
Google奖学金
Google杰出贡献者峰会
Google科学挑战赛
Google网站管理员
Google网站管理员，Webmaster
Google文化研究所
Google在线营销挑战赛
Google中国教育高峰会
IME 输入法
Innovation
Made with Code
maps
mobile ads
mobile ads sdk
Modoo
moonshot
native ads
Nexus
programmatic buying
Project X
Pwn20wn及Pwnium3 黑客大赛
Remarketing. Ads
Search
Security
smb
Solve for X
Street view
student
UR
VR
Web Platform Docs
web security
Webmaster
year in search 2014
YouTube
zeitgeist

博客归档

2026
- 5月
- 4月
- 3月
- 2月

2025
- 11月
- 8月
- 6月
- 5月
- 4月
- 3月

2024
- 12月
- 11月
- 10月
- 8月
- 7月
- 6月
- 5月
- 4月
- 3月
- 2月
- 1月

2023
- 12月
- 11月
- 10月
- 9月
- 5月
- 4月
- 3月
- 2月

2022
- 11月
- 10月
- 5月
- 4月
- 2月
- 1月

2021
- 10月
- 9月
- 5月
- 4月
- 3月
- 2月

2020
- 12月
- 5月
- 4月
- 3月

2019
- 10月
- 8月
- 7月
- 6月
- 5月
- 4月
- 3月

2018
- 12月
- 10月
- 9月
- 8月
- 7月
- 6月
- 5月
- 3月
- 2月
- 1月

2017
- 12月
- 11月
- 10月
- 9月
- 8月
- 7月
- 6月
- 5月
- 4月
- 3月
- 2月
- 1月

2016
- 12月
- 11月
- 10月
- 9月
- 8月
- 7月
- 6月
- 5月
- 4月
- 3月
- 2月
- 1月

2015
- 12月
- 11月
- 10月
- 9月
- 8月
- 7月
- 6月
- 5月
- 4月
- 3月
- 2月
- 1月

2014
- 12月
- 11月
- 10月
- 9月
- 8月
- 7月
- 6月
- 5月
- 4月
- 3月
- 2月
- 1月

2013
- 12月
- 11月
- 10月
- 9月
- 8月
- 7月
- 6月
- 5月
- 4月
- 3月
- 2月
- 1月

2012
- 12月
- 11月
- 10月
- 9月
- 8月
- 7月
- 6月
- 5月
- 4月
- 3月
- 2月
- 1月

2011
- 12月
- 11月
- 10月
- 9月
- 8月
- 7月
- 6月
- 5月
- 4月
- 3月
- 2月
- 1月

2010
- 12月
- 11月
- 10月
- 9月
- 8月
- 7月
- 6月
- 5月
- 4月
- 3月
- 2月
- 1月

2009
- 12月
- 11月
- 10月
- 9月
- 8月
- 7月
- 6月
- 5月
- 4月
- 3月
- 2月
- 1月

2008
- 12月
- 11月
- 10月
- 9月
- 8月
- 7月
- 6月
- 5月
- 4月
- 3月
- 2月
- 1月

2007
- 12月
- 11月
- 10月
- 9月
- 8月
- 7月
- 6月
- 5月
- 4月
- 3月
- 2月
- 1月

2006
- 12月
- 11月
- 10月
- 9月
- 8月
- 7月
- 6月
- 5月
- 4月
- 3月
- 2月

Feed

Google
Privacy
Terms

中国的博客，走近我们的产品、技术和文化

优化网站的抓取与收录

標籤

博客归档

Feed