屏蔽百度爬虫的方法_威海佰年网络技术有限公司_网站建设_软件开发_私有云_商标注册_公众号_小程序_APP_物联网

屏蔽百度爬虫的方法

威海Spider 威海Baiduspider
2166

在百度C2C产品“百度有啊”即将上线的时候，淘宝网站曾经屏蔽百度搜索爬虫，禁止百度搜索引擎抓取淘宝网站的网页内容，淘宝官方的解释是“杜绝不良商家欺诈”。

在技术层面，淘宝屏蔽百度的方法是，在网站的robots.txt文件中加上如下内容：

User-agent: Baiduspider

Disallow: /

但实际上这种方法并不能完全屏蔽百度的爬虫，至今在百度上输入site:taobao.com还是可以看到内容，要不要索引网站，还是由百度说了算，要是遵守robots协议，那才不会索引，因此要想完全屏蔽百度的爬虫，需要在.htaccess中加入一些语句才可以，下面介绍两种方法。

方法1：

RewriteEngine on

RewriteCond %{HTTP_USER_AGENT} ^Baiduspider [NC]

RewriteRule .* - [F]

方法2：

SetEnvIfNoCase User-Agent "^Baiduspider" bad_bot

Order Allow,Deny

Allow from all

Deny from env=bad_bot

</Limit>

当然，对于普通中文网站来说，还是不建议屏蔽百度的爬虫，通常情况下做一些大型的英文网站，才有必要这么做，以节省流量。

来源：月光博客

Public @ 2012-08-15 15:56:41

如何让 sogou spider 解除对我网站的封锁？

威海Spider 威海sogou spider
2556

在您的网站的问题改正之后，点此提交申请解封

Public @ 2021-08-22 15:38:54

sogou spider User-Agent字段是什么？

威海Spider 威海sogou spider
2918

Sogou web spider 和 Sogou inst spider请注意，根据标准，ua区分大小写。

Public @ 2011-10-10 15:38:58

我不想我的网站被Baiduspider访问，我该怎么做？

威海Spider 威海Baiduspider
1952

1. 在robots.txt文件内添加一行禁止Baiduspider访问的指令：User-agent: Baiduspider；Disallow: / 2. 添加http协议头，指示不要访问网站的任何网页：X-Robots-Tag: noindex，noarchive，nosnippet，nofollow 3. 将任何和Baiduspider相关的IP地址拉黑。

Public @ 2023-02-24 17:36:11

进入移动时代，同学们肯定会发现，百度官方和各知名SEO大拿们都在不断强调一个词：速度！最重要的莫过于，从用户点击搜索结果到页面完全加载完毕，不可超过3秒，否则有可能被限制展现（因为百度做过测试，当页面在3秒以上还无法打开的话，用户会选择关闭该网页）。于是大家各种针对速度的问题也多了起来，在深圳VIP大讲堂中，我们看到了这样一个简单的对话：同学问：站点遇到百度蜘蛛抓取，应该在多长时间内给出反馈？时间

Public @ 2015-11-08 15:38:40

Categories

Tags