2013-06-15 11:42:26

搜索引擎的蜘蛛


搜索引擎的蜘蛛
一、各大搜索引擎蜘蛛的名字 google蜘蛛: googlebot 百度蜘蛛:baiduspider 搜狗蜘蛛:sogou spider 搜搜蜘蛛:Sosospider yahoo蜘蛛:slurp alexa蜘蛛:ia_archiver msn蜘蛛:msnbot altavista蜘蛛:scooter lycos蜘蛛: lycos_spider_(t-rex) alltheweb蜘蛛: fast-webcrawler inktomi蜘蛛: slurp 有道蜘蛛:YodaoBot和OutfoxBot 热土蜘蛛:Adminrtspider 当然这里只是象征性的列一下,就算我们分析日志的时候看到了也不要太奇怪,又或者你想禁止它们爬你的站点也是可以的。 二、总结一下蜘蛛的习惯 google蜘蛛:不太爱爬,但爱收录。 百度蜘蛛:爬谨慎,收录更谨慎。 搜搜蜘蛛:爱爬图片,经常绕在动态地址里出不来。 雅虎蜘蛛:恪守规则,每次都是先爬robots.txt。 其他的就不说了。 三、对于robots.txt的支持程度 全部都说不太现实,这里拿Disallow: /*?*举例(禁止动态页面抓取)。 google表现:写了禁止就不再爬,会在谷歌站长工具中列出来它想爬被你阻止了哪些。 百度的表现:写了禁止之后很少爬,但是偶尔也会爬,相信是起作用了,因为越来越少,以前一天几次现在几天一次。 搜狗蜘蛛:可以说是基本不听话,也不知道是不是不吃这个规则,说它完全不吃它也吃了一点,只是把动态地址的问号拿掉了,然后照爬,一爬就是一大片,这不知道它能爬出什么东西。 搜搜蜘蛛跟雅虎蜘蛛好像差不多,感觉还是挺有效的,禁止之后没有再有它爬过的痕迹

商业用途请联系作者获得授权。
版权声明:本文为博主「任霏」原创文章,遵循 CC BY-NC-SA 4.0 版权协议,转载请附上原文出处链接及本声明。
原文链接:https://www.renfei.net/posts/1000024
评论与留言
以下内容均由网友提交发布,版权与真实性无法查证,请自行辨别。

本站有缓存策略,时间约2小时后能看到您的评论。本站使用自动审核机制,如果您的内容包含广告/谩骂/恐怖/暴力/涉政等不和谐内容将无法展示!


本站有缓存策略,时间约2小时后能看到您的评论。本站使用自动审核机制,如果您的内容包含广告/谩骂/恐怖/暴力/涉政等不和谐内容将无法展示!

关注任霏博客
扫码关注「任霏博客」微信订阅号
微博:任霏博客网
Twitter:@renfeii
Facebook:任霏