Categories


Tags


开发者如何解除封禁百度蜘蛛

近期收到一些开发者反馈,为什么网站或智能小程序资源的内容非常优质,但是没有查询到百度蜘蛛抓取记录,或在百度搜索中没有得到收录和展现?

在技术分析后发现,有些网站或智能小程序存在封禁百度蜘蛛的情况,导致百度蜘蛛无法正常抓取,所以无法在百度搜索中正常收录和展现,或在搜索结果中的摘要展现为“存在robots封禁”字样。

为了让广大开发者的网站或小程序,在百度搜索中得到正常的收录和展现,建议开发者及时根据以下内容自查,解除封禁问题,并通过链接提交工具主动提交给我们。

常见的封禁行为包括robots封禁、封禁百度UA、封禁百度IP等。

如何验证网站和智能小程序是否存在封禁百度蜘蛛的情况?

1、首先, 查看robots.txt文件,是否存在封禁记录。(一般robots.txt文件放置在网站根目录下。)

【建议方案】解除robots封禁:robots封禁情况,请检查robots.txt文件,及时修改。

robots文件说明:https://ziyuan.baidu.com/college/articleinfo?id=1516

2、robots文件无异常,进一步排查是否存在封禁百度UA情况;

方案一:执行 curl --head --user-agent 'Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)' --request GET 'xxxxxxx'

注:正常返回码是200,其他情况为异常。

xxxxxxx为网站域名,如:http://abc.com.cn。

正确识别和获取百度蜘蛛,https://ziyuan.baidu.com/college/articleinfo?id=2855

方案二:变更浏览器UA验证;

【建议方案】解除百度UA封禁:查看网站反爬虫策略,进行策略调整。或针对百度UA添加策略白名单。

3、以上验证均无异常,最后进一步排查是否存在IP级别的封禁;

常见的IP封禁,源自网站的防火墙系统配置,需要查看防火墙配置系统后台,检查是否存在百度蜘蛛的IP级别封禁措施。

【建议方案】解除百度IP封禁:查看网站反爬虫策略,进行策略调整。

来源:百度搜索资源平台 百度搜索学堂


Public @ 2011-02-07 15:38:37

Google爬行缓存代理(crawl caching proxy)

前两天人们注意到Google Adsense蜘蛛所抓取的网页会出现在搜索结果中。Matt Cutts在他的博客里迅速的做出了回应,对这种现象做了进一步解释。简单来说,Google在完成大爸爸数据中心升级后,各种蜘蛛抓取网页的机制产生了变化。不是各个蜘蛛直接抓取网页,而是由一个爬行缓存代理crawl caching proxy抓取网页,然后不同的蜘蛛从这个缓存中获取内容,从而节省了带宽。Matt C

Public @ 2019-08-28 16:22:27

apache、iis6、ii7独立ip主机屏蔽拦截蜘蛛抓取(适用vps云主机服务器)

* Apache:通过在网站主机的.htaccess文件中添加下面一行代码即可实现: `SetEnvIfNoCase User-Agent "bot|crawl|spider|Yahoo|ia_archiver| other_spider|Googlebot" bad_bot` * IIS6:打开IIS管理器,右键点击网站,点击“属性”,然后选择“文件夹”,点击高级,在高级属性中勾选

Public @ 2023-03-04 13:00:19

Baiduspider抓取造成的带宽堵塞?

Baiduspider是百度搜索引擎的爬虫,它会通过抓取网站上的页面来获取网站的内容和信息,从而帮助用户更精确地搜索所需的信息。然而,如果Baiduspider的抓取过于频繁或者没有遵守Robots协议等规则,就有可能导致带宽堵塞的问题。 当Baiduspider爬取某个网站的速度过快或者抓取页面的数量过多时,会占用该网站的带宽资源,从而导致其他用户访问该网站的速度变慢,甚至无法访问。此外,如果

Public @ 2023-06-02 19:00:37

【官方说法】百度蜘蛛抓取流量暴增的原因

Spider对网站抓取数量突增往往给站点带来很大烦恼,纷纷找平台想要Baiduspider IP白名单,但实际上BaiduSpider IP会随时变化,所以并不敢公布出来,担心站长设置不及时影响抓取效果。百度是怎么计算分配抓取流量的呢?站点抓取流量暴增的原因有哪些呢?总体来说,Baiduspider会根据站点规模、历史上网站每天新产出的链接数量、已抓取网页的综合质量打分等等,来综合计算抓取流量,同

Public @ 2011-07-18 15:38:37

更多您感兴趣的搜索

0.412236s