中国的博客,走近我们的产品、技术和文化
Google 中国的博客,走近我们的产品、技术和文化
给托管服务商和网站管理员的一些建议
2011年12月31日
发表者:Pierre Far,网站管理员趋势分析专员
原文:
Tips for hosting providers and webmasters
转载自:
谷歌中文网站管理员博客
发布时间:2011年12月29日 下午 02:22:00
一些网站管理员在论坛上咨询影响他们站点托管的问题,为帮助托管服务商和站长们识别、诊断以及解决这些问题,我们与您分享一些常见的问题及解决方法。
• 拦截Googlebot 抓取功能。
这是一个非常普遍的问题,通常因防火墙配置错误或DoS保护系统所致,有时也因站点运行的内容管理系统所致。保护系统是形成好的托管服务的重要组成部分,通过配置来拦截异常的服务器频繁的请求,但有时也可自动完成。然而Googlebot通常会执行比个人用户更多的请求,所以这些保护系统也会决定拦截Googlebot,并阻止其抓取您的网站。如需查验此类问题,您可以使用网站管理员工具中的
Googlebot抓取方式
功能,并查看网站管理员工具显示的其它
抓取错误
。
我们向那些希望更有效地控制Googlebot抓取功能并提高抓取效率的网站管理员和托管服务商提供了几个工具:
o 我们就如何使用
拒绝googlebot协议
和
配置 URL 参数
来控制“Googlebot抓取方式”功能提供了详细的帮助。
o 如果您担心使用Googlebot的代理程序,我们提供了一个方法来
验证该抓取工具是否为Googlebot
。
o 如果您想改变Googlebot抓取您的站点的频率,您可在网站管理员工具中验证您的网站,并且
改变Googlebot的抓取速度
。托管服务商也可验证他们IP地址的所有权。
更多信息请查询
抓取和索引FAQ
。
• 可用性问题。
我们常见的另一类问题是当Googlebot (及用户)试图访问站点时,网站无法浏览。这通常是由DNS问题、服务器过载引起的超时和拒绝链接问题、错误的内容分发网络配置(CDNs)、以及很多其它类型的错误造成的。当Googlebot遇到这些问题时,我们将之视为
网址无法访问错误
或
抓取错误
并在网站管理员工具中报告该错误。
• 无效SSL证书。
要想SSL证书对您的网站生效,必须将它们与站点名称相匹配。常见问题包括过期的SSL证书,以及因服务器上所有网站使用同一个证书而导致的服务器错误配置。在这些情况下,大部分浏览器会试图警告用户,Google则通过网站管理员工具发送一条信息来警告网站管理员。要解决这些问题,就要确保您所使用的SSL证书对所有网站的域名以及您用户访问的子域名都有效。
• 通配符DNS。
网站可通过配置来响应所有子域名的请求。例如,example.com的网站可以通过配置用来响应来自foo.example.com,made-up-name.example.com以及所有其它子域名的请求。
在某些情况下,这是网站管理员所希望发生的,例如一个用户生成内容的网站可自行选择给予每个账户各自的子域名。但在某些情况下,网站管理员可能不希望发生这种行为,因为这也许会引起不同的主机名将内容进行不必要的复制,还可能影响Googlebot抓取功能。
若想尽量减少通配符DNS设置中的出现的各种问题,您可以将您的网站设置成不使用它们,或者将您的服务器设置成对不存在的主机名不能成功响应,亦或拒绝连接或直接返回HTTP 404 页面。
• 虚拟主机错误配置。
这种问题的特征是同一个服务器上托管的多主机和/或域名总是只返回一个站点的内容。换言之,尽管服务器托管多个站点,但它不管请求内容是什么却只返回一个站点。要诊断此问题,您需要验证服务器是否正确地响应了HTTP 主页面。
• 通过特定的URL托管复制内容。
很多主机基于测试/开发的目的,为您的网站提供URL。例如,如果您在托管网站example.com上托管http://a.com/,托管提供商可能会提供如 http://a.example.com/ 或 http://example.com/~a/这样的URL地址来作为您网站的入口。我们建议不要将这些特定的URL托管设置成可被公开访问的状态(通过密码保护它们);即便这些URL可被访问,我们的算法通常选择网站管理员所想要的URL地址。如果我们的算法
选择特定的URL托管
,您可通过正确执行
规范化
技术来对我们的算法做出改动,从而选择您首选的URL。
• 软错误页面。
某些托管服务商用HTTP 200状态码(表示“成功”)而不是HTTP错误状态码来显示错误页面。例如,一个出现“页面无法访问”字样的错误页面可能会返回HTTP 200而不是404,从而造成
软404页面
;一条“网站暂时无法访问”信息返回的可能是HTTP 200,而不是正确地返回503HTTP状态码。我们努力检测软错误页面,但当我们的算法无法检测出主机软错误页面时,这些页面的错误内容可能被列入索引,导致分级或
跨域选择网址
的问题。
检测返回的状态码很简单:只需采用任一一种工具,如Googlebot抓取方式,查看服务器返回的HTTP页面。如果一个错误页面返回的是HTTP 200,那么我们可以改变配置使其返回正确的HTTP错误状态码。同样,请留意网站管理员工具软404报告中有关抓取错误页面的诊断方法。
• 内容修改和框架(frames)。
网站管理员可能惊讶于看到页面内容被托管服务商修改,尤其是在页面插入脚本或图片。除此之外,主机还可能通过使用frames或iframe将内容嵌入其它页面来托管内容。如果想查看主机是否以您意料之外的方式修改您的内容,只需查看主机托管页面的源代码,并将其与您上传的代码进行比较。
请注意某些服务器端代码的修改可能非常有用。例如,一个使用Google Apache
加速模块
或其它工具的服务器可能会压缩代码来优化页面载入速度。
• 垃圾信息和恶意软件。
我们经常看见有部分主机和大量子域名服务成为恶意软件和垃圾邮件的主要来源,鉴于此,我们进行一些细微的操作来保护用户和提高搜索质量,但如果我们发现特定的主机上绝大部分站点发送垃圾信息或传播恶意软件时,我们就不得不对整个主机采取行动。为帮您控制恶意软件,我们提供:
o 适用于托管服务商的
网络管理员安全浏览警报
o 适用于个人网站的管理员工具的
恶意软件通知
o 适用于开发人员的
安全浏览API
我们希望以上几点能帮助托管服务商和网站管理员诊断和解决这些问题。除此之外,我们还在质量方面也有所思考,如服务的质量以及支持的有用性。如果您有问题或需要更多帮助,请咨询我们
网站管理员帮助论坛
。
標籤
编程之夏,UR
创新
创意改善社会 公益温暖中国
促进智能能源利用
大学
谷歌翻译,即时相机翻译,Instant Camera Translation
谷歌十周年系列
谷歌艺术与文化
观妙中国,Shadow Art,智玩皮影
广告
广告安全
互联网,Internet
科技
女性开发者
社会
视频广告
数据中心
数字营销
搜索
网站管理员
文化研究所
艺术计划
音乐搜索
愚人节
增强型广告系列
智能隐形眼镜项目
中小企业
adexchange
Admob
admob sdk
Ads
Adsense
AdWords
android
android m
Android应用开发中国大学生挑战赛
App Inventor
Calendar
cardboard
CES
Chrome
Chrome Web Store
Chrome,Chrome实验
Chrome实验
CI
Code Jam
corporate
Creative
Cross-device
Cultural Institute
culture
Data Center
DevArt
Developer
display
diversity
Doodle
DoubleClick
G+
G2G,Culture
GA&C
gaming
Global Impact Awards
Gmail
Gogle科学挑战赛
Good to Know
Google Ads
Google AdWords
Google Analytics
Google Art Project
Google Arts & Culture
Google Code-in竞赛
Google Demo Day Asia
Google Docs
Google Doodle
Google Drive
Google Drive 云端硬盘
Google Fiber
Google Font
Google for Startups
Google Green
Google I/O
Google Image Search
Google Keep
Google partners
Google Play
Google Science Fair
Google Search
Google Top Contributor Summit
Google Translate
Google Trend
Google Trends
Google Zeitgeist 2012
Google安全系统
Google博士生奖研金
Google翻译
Google奖学金
Google杰出贡献者峰会
Google科学挑战赛
Google网站管理员
Google网站管理员,Webmaster
Google文化研究所
Google在线营销挑战赛
Google中国教育高峰会
IME 输入法
Innovation
Made with Code
maps
mobile ads
mobile ads sdk
Modoo
moonshot
native ads
Nexus
programmatic buying
Project X
Pwn20wn及Pwnium3 黑客大赛
Remarketing. Ads
Search
Security
smb
Solve for X
Street view
student
UR
VR
Web Platform Docs
web security
Webmaster
year in search 2014
YouTube
zeitgeist
博客归档
2024
8月
7月
6月
5月
4月
3月
2月
1月
2023
12月
11月
10月
9月
5月
4月
3月
2月
2022
11月
10月
5月
4月
2月
1月
2021
10月
9月
5月
4月
3月
2月
2020
12月
5月
4月
3月
2019
10月
8月
7月
6月
5月
4月
3月
2018
12月
10月
9月
8月
7月
6月
5月
3月
2月
1月
2017
12月
11月
10月
9月
8月
7月
6月
5月
4月
3月
2月
1月
2016
12月
11月
10月
9月
8月
7月
6月
5月
4月
3月
2月
1月
2015
12月
11月
10月
9月
8月
7月
6月
5月
4月
3月
2月
1月
2014
12月
11月
10月
9月
8月
7月
6月
5月
4月
3月
2月
1月
2013
12月
11月
10月
9月
8月
7月
6月
5月
4月
3月
2月
1月
2012
12月
11月
10月
9月
8月
7月
6月
5月
4月
3月
2月
1月
2011
12月
11月
10月
9月
8月
7月
6月
5月
4月
3月
2月
1月
2010
12月
11月
10月
9月
8月
7月
6月
5月
4月
3月
2月
1月
2009
12月
11月
10月
9月
8月
7月
6月
5月
4月
3月
2月
1月
2008
12月
11月
10月
9月
8月
7月
6月
5月
4月
3月
2月
1月
2007
12月
11月
10月
9月
8月
7月
6月
5月
4月
3月
2月
1月
2006
12月
11月
10月
9月
8月
7月
6月
5月
4月
3月
2月
Feed