您当前的位置：首页 > 网站seo

与Googbot的第一次约会：标头和压缩

时间：2012-03-31 19:42:05 来源：作者：虾谷

如果你的服务器上有闲置的CPU资源，可以尝试进行压缩（链接：Apache, IIS）。但是，如果你提供的是动态内容，而且服务器的CPU已经处于满负荷状态，我建议你还是不要这样做。

网站：很长见识。我很高兴今晚你能来看我。感谢老天爷，我的robots.txt文件允许你能来。这个文件有时候就像对自己的子女过分保护的父母。

谷歌机器人：说到这里，该见见父母大人了——它就是robots.txt。我曾经见过不少发疯的“父母”。其中有些实际上只是HTML错误信息网页，而不是有效的robots.txt。有些文件里充满了无穷无尽的重定向，而且可能指向完全不相关的站点。另外一些体积庞大，含有成千上万条单独成行、各不相同的 URL。下面就是其中的一种有副作用的文件模式，在通常情况下，这个站点是希望我去爬行它的内容的：
User-Agent: *
Allow: /

然而，在某个用户流量的高峰时段，这个站点转而将它的robots.txt切换到限制性极强的机制上：
# Can you go away for a while? I'll let you back
# again in the future. Really, I promise!
User-Agent: *
Disallow: /

上述robots.txt文件切换的问题在于，一旦我看到这种限制性很强的robots.txt，有可能使我不得不把索引中已经爬行的该网站内容舍弃掉。当我再次被批准进入这个站点的时候，我不得不将原先的许多内容重新爬行一遍，至少会暂时出现503错误相应代码。

一般来说，我每天只能重新检查一次robots.txt（否则，在许多虚拟主机站点上，我会将一大部分时间花在读取robots.txt文件上，要知道没有多少约会对象喜欢如此频繁地拜见对方父母的）。站长们通过robots.txt 切换的方式来控制爬行频率是有副作用的，更好的办法是用网站管理员工具将爬行频率调至“较低”即可。

谷歌机器人：网站老兄，谢谢你提出的这些问题，你一直做得很不错，但我现在不得不说“再见，我的爱人”了。

网站：哦，谷歌机器人…（结束应答):)

QQ空间新浪微博腾讯微博人人网更多

4/4 首页上一页 2 3 4

来顶一下

返回首页

推荐资讯

10步征服web2.0链轮第	10步征服web2.0链轮第
10步征服web2.0链轮第	小贺店铺

相关文章

栏目更新

栏目热门