Categories


Tags


各搜索引擎蜘蛛介绍

搜索引擎蜘蛛是搜索引擎的一个自动程序。它的作用是访问互联网上的网页、图片、视频等内容,建立索引数据库,使用户能在搜索引擎中搜索到您网站的网页、图片、视频等内容。

一般用法为“ spider+URL”,后面的URL(网址)是搜索引擎的痕迹,如果要查看某搜索引擎是否来爬取过你们的网站,可查看服务器的日志里是否有该URL,同时还能查看来的时间、频率等…

1、百度蜘蛛:可以根据服务器的负载能力调节访问密度,大大降低服务器的服务压力。根据以往的经验百度蜘蛛通常会过度重复地抓取同样的页面,导致其他页面无法被抓取到而不能被收录。这种情况可以采取 robots协议的方法来调节。

2、谷歌蜘蛛:谷歌蜘蛛属于比较活跃的网站扫描工具,其间隔28天左右就派出“蜘蛛”检索有更新或者有修改的网页。与百度蜘蛛最大的不同点是谷歌蜘蛛的爬取深度要比百度蜘蛛多一些。

3、雅虎中国蜘蛛:如果某个网站在谷歌网站下没有很好的收录,在雅虎下也不会有很好的收录和爬行。雅虎蜘蛛的数量庞大,但平均的效率不是很高,相应的搜索结果质量不高。

4、微软必应蜘蛛:必应与雅虎有着深度的合作关系,所以基本运行模式和雅虎蜘蛛差不多。

5、搜狗蜘蛛:搜狗蜘蛛的爬取速度比较快,抓取的数量比起速度来说稍微少点。最大的特点是不抓取 robot. text文件。

6、搜搜蜘蛛:搜搜早期是运用谷歌的搜索技术,谷歌有收录,搜搜肯定也会收录。2011年搜搜已经宣布采用自己的独立搜索技术,但搜搜蜘蛛的特性和谷歌蜘蛛的特点还是有着相似的地方。

8、有道蜘蛛:和其他搜索引擎蜘蛛一样,凡是高权重网站的链接一般都能将其收录。爬行原理也是通过链接之间的爬行。

来源:搜外网


Public @ 2011-05-10 16:22:33

百度不收录原因分析——Spider抓取篇

目前百度Spider抓取新链接的途径有两个,一是主动出击发现抓取,二就是从搜索资源平台的链接提交工具中获取数据,其中通过主动推送功能“收”上来的数据最受百度Spider的欢迎。对于站长来说,如果链接很长时间不被收录,建议尝试使用主动推送功能,尤其是新网站,主动推送首页数据,有利于内页数据的抓取。那么同学们要问了,为什么我提交了数据还是迟迟在线上看不到展现呢?那涉及的因素可就多了,在Spider抓取

Public @ 2012-08-02 15:38:46

搜索引擎蜘蛛劫持是什么?怎么判断是否被劫持

搜索引擎蜘蛛劫持是seo黑帽中常用的一种手法,需要一定的技术支持getshell,然后上传恶意的代码到网站根目录下面或者修改网站的一些文件,搜索引擎蜘蛛劫持的原理就是判断来访网站的是用户还是蜘蛛,如果是蜘蛛就推送一个事先准备的恶意网站,如果是用户就推送一个正常的网页1:蜘蛛判断判断访问的是用户还是蜘蛛,如果是用户就推送一个正常网页,如果是蜘蛛就推送一个恶意网页,判断方式有两种,一种是判断蜘蛛的UA

Public @ 2017-05-29 16:22:36

apache、iis6、ii7独立ip主机屏蔽拦截蜘蛛抓取(适用vps云主机服务器)

针对apache、iis6、iis7独立ip主机屏蔽拦截蜘蛛抓取的方法如下: 1. 在网站根目录下新建一个robots.txt文件,添加以下代码: User-agent: * Disallow: / 这样可以禁止所有蜘蛛抓取你的网站。 2. 在服务器端安装mod_security模块并配置,可以使用以下命令: sudo apt-get install libapache-mod-secu

Public @ 2023-03-30 01:00:40

更多您感兴趣的搜索

0.425162s