Categories


Tags


开发者如何解除封禁百度蜘蛛

近期收到一些开发者反馈,为什么网站或智能小程序资源的内容非常优质,但是没有查询到百度蜘蛛抓取记录,或在百度搜索中没有得到收录和展现?

在技术分析后发现,有些网站或智能小程序存在封禁百度蜘蛛的情况,导致百度蜘蛛无法正常抓取,所以无法在百度搜索中正常收录和展现,或在搜索结果中的摘要展现为“存在robots封禁”字样。

为了让广大开发者的网站或小程序,在百度搜索中得到正常的收录和展现,建议开发者及时根据以下内容自查,解除封禁问题,并通过链接提交工具主动提交给我们。

常见的封禁行为包括robots封禁、封禁百度UA、封禁百度IP等。

如何验证网站和智能小程序是否存在封禁百度蜘蛛的情况?

1、首先, 查看robots.txt文件,是否存在封禁记录。(一般robots.txt文件放置在网站根目录下。)

【建议方案】解除robots封禁:robots封禁情况,请检查robots.txt文件,及时修改。

robots文件说明:https://ziyuan.baidu.com/college/articleinfo?id=1516

2、robots文件无异常,进一步排查是否存在封禁百度UA情况;

方案一:执行 curl --head --user-agent 'Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)' --request GET 'xxxxxxx'

注:正常返回码是200,其他情况为异常。

xxxxxxx为网站域名,如:http://abc.com.cn。

正确识别和获取百度蜘蛛,https://ziyuan.baidu.com/college/articleinfo?id=2855

方案二:变更浏览器UA验证;

【建议方案】解除百度UA封禁:查看网站反爬虫策略,进行策略调整。或针对百度UA添加策略白名单。

3、以上验证均无异常,最后进一步排查是否存在IP级别的封禁;

常见的IP封禁,源自网站的防火墙系统配置,需要查看防火墙配置系统后台,检查是否存在百度蜘蛛的IP级别封禁措施。

【建议方案】解除百度IP封禁:查看网站反爬虫策略,进行策略调整。

来源:百度搜索资源平台 百度搜索学堂


Public @ 2011-02-07 15:38:37

搜狗资源平台-抓取压力查询功能说明:

sogou spider对于同一个IP地址的服务器主机,只建立一个连接,抓取间隔速度控制在几秒一次。一个网页被收录后,最快也要几天以后才会去更新。如果sogou spider持续不断地抓取您的网站,请注意您的网站上的网页是否每次访问都产生新的链接。

Public @ 2015-06-24 15:38:54

Baiduspider抓取造成的带宽堵塞?

Baiduspider抓取造成的带宽堵塞?Baiduspider的正常抓取并不会造成您网站的带宽堵塞,造成此现象可能是由于有人冒充Baiduspider恶意抓取。如果您发现有名为Baiduspider的agent抓取并且造成带宽堵塞,请尽快和我们联系。您可以将信息反馈至反馈中心,如果能够提供您网站该时段的访问日志将更加有利于我们的分析。如果大家对百度spider还有别的疑问,大家可以到[学堂同学汇

Public @ 2019-04-06 15:38:40

百度spider介绍

百度spider,也叫"百度蜘蛛",是百度用于抓取网络上的网页内容的爬虫程序。它会自动搜索网络上的网页,抓取页面上的关键词和摘要,并将它们保存在百度的数据库中。百度的蜘蛛不仅可以抓取网页上的文本信息,还可以抓取网页上的图像和多媒体文件,以及网站上的链接。百度蜘蛛可以在短时间内快速地抓取大量信息,因此十分实用。它也可以抓取动态网页内容,对网络内容进行检索更新,从而搜集到最新最准确的检索结果。

Public @ 2023-02-25 17:36:20

开发者如何解除封禁百度蜘蛛

近期收到一些开发者反馈,为什么网站或智能小程序资源的内容非常优质,但是没有查询到百度蜘蛛抓取记录,或在百度搜索中没有得到收录和展现?在技术分析后发现,有些网站或智能小程序存在封禁百度蜘蛛的情况,导致百度蜘蛛无法正常抓取,所以无法在百度搜索中正常收录和展现,或在搜索结果中的摘要展现为“存在robots封禁”字样。为了让广大开发者的网站或小程序,在百度搜索中得到正常的收录和展现,建议开发者及时根据以下

Public @ 2011-02-07 15:38:37

更多您感兴趣的搜索

0.424409s