Categories


Tags


Google爬行缓存代理(crawl caching proxy)

前两天人们注意到Google Adsense蜘蛛所抓取的网页会出现在搜索结果中。Matt Cutts在他的博客里迅速的做出了回应,对这种现象做了进一步解释。

简单来说,Google在完成大爸爸数据中心升级后,各种蜘蛛抓取网页的机制产生了变化。不是各个蜘蛛直接抓取网页,而是由一个爬行缓存代理crawl caching proxy抓取网页,然后不同的蜘蛛从这个缓存中获取内容,从而节省了带宽。

Matt Cutts的帖子比较完整的翻译可以在幻灭和小添的博客里看到。

我要补充的是:第一:Matt Cutts特意指出,这个新的抓取机制不会让你的网页被抓取的更快,也不会对排名有任何影响。这个爬行缓存代理也不影响各个蜘蛛本来应该爬行的频率和时间表。只不过各个蜘蛛不直接爬行网页,而是从缓存中获取。

第二:更引起我注意的是,Matt Cutts说这个爬行缓存代理是大爸爸更新之后才有的。因为运行的很顺利,在其他人发现这种现象之前,Matt Cutts自己没意识到这种新的机制已经运行了。这说明Matt Cutts并不能掌握所有各个部门的最新情况,那么还有什么是Matt Cutts也还不知道的呢?

第三:Matt Cutts讲这个机制的目标是节省带宽,而不是隐藏页面(cloaked page)检测。我觉得弦外之音是,利用同样的技术,Google完全可以用其他的蜘蛛来检测隐藏页面。当然也可能是我过度敏感了。

另外,最近很多网站出现被收录的页面数目急剧下降的现象,我怀疑和这个新的页面抓取方法造成的混乱有关。很显然不是排名算法改变导致收录的网页数目下降,而是蜘蛛爬行的问题。

来源:SEO每天一贴 Zac 昝辉


Public @ 2019-08-28 16:22:27

如果快照显示网页不完整,是不是说明BaiduSpider没有完整收录网页?

不一定。快照显示网页不完整可能是由于网络连接问题、快照生成错误或者网页存在动态元素等原因造成的。BaiduSpider是搜索引擎的爬虫程序,其收录网页是有一定策略和算法的,收录的网页并不是百分百完整的。因此,虽然快照显示网页不完整,但并不一定说明BaiduSpider没有完整收录网页。

Public @ 2023-06-03 22:00:09

如何提高spider抓取网站?提高spider抓取策略(1)

SEO网站优化SEOER,每天都要时刻关注百度蜘蛛有没有来抓取网站,抓取了网站哪些内容,没有抓取网站哪些内容,再没有抓取的页面上观察调整网站的问题。想要提高爬虫抓取频率可以从几个方面着手,简单介绍提高spider抓取网站的策略。提高spider抓取策略有哪些?一、抓取友好性:抓取压力调配降低对网站的访问压力带宽造成访问压力大,会直接影响网站的正常用户访问,为了不影响网站的正常用户访问,又能让spi

Public @ 2010-03-31 16:22:35

蜘蛛程序(spider)

蜘蛛也称为机器人,指的是查找引擎运行的核算机程序,沿着页面上的超链接发现和匍匐更多页面,抓取页面内容,关入查找引擎数据库。  蜘蛛程序就是匍匐程序,是查找引擎的一部分,担任在互联网上定位和收这样可以呼应查找者的恳求,成功的查找引擎营销取决于爬的网页。

Public @ 2019-05-11 16:22:38

更多您感兴趣的搜索

0.397494s