apache、iis6、ii7独立ip主机屏蔽拦截蜘蛛抓取（适用vps云主机服务器）_威海佰年网络技术有限公司_网站建设_软件开发_私有云_商标注册_公众号_小程序_APP_物联网

apache、iis6、ii7独立ip主机屏蔽拦截蜘蛛抓取（适用vps云主机服务器）

威海Spider 威海Spider
1400

如果是正常的搜索引擎蜘蛛访问，不建议对蜘蛛进行禁止，否则网站在百度等搜索引擎中的收录和排名将会丢失，造成客户流失等损失。可以优先考虑升级虚拟主机型号以获得更多的流量或升级为云服务器（不限流量）。更多详情请访问： http://www.west.cn/faq/list.asp?unid=626

1. 使用网站管理助手环境：http://www.west.cn/faq/list.asp?unid=650 参考此说明启用设置伪静态组件

2. windows2003+iis手工建站环境：http://www.west.cn/faq/list.asp?unid=639 参考此说明加载伪静态组件

3. 然后在配置文件中按以下系统规则配置

Linux下规则文件.htaccess(手工创建.htaccess文件到站点根目录)

RewriteEngine On

#Block spider

RewriteCond %{HTTP_USER_AGENT} "SemrushBot|Webdup|AcoonBot|AhrefsBot|Ezooms|EdisterBot|EC2LinkFinder|jikespider|Purebot|MJ12bot|WangIDSpider|WBSearchBot|Wotbox|xbfMozilla|Yottaa|YandexBot|Jorgee|SWEBot|spbot|TurnitinBot-Agent|mail.RU|curl|perl|Python|Wget|Xenu|ZmEu" [NC]

RewriteRule !(^robots\.txt$) - [F]

</IfModule>

windows2003下规则文件httpd.conf

#Block spider

RewriteCond %{HTTP_USER_AGENT} (SemrushBot|Webdup|AcoonBot|AhrefsBot|Ezooms|EdisterBot|EC2LinkFinder|jikespider|Purebot|MJ12bot|WangIDSpider|WBSearchBot|Wotbox|xbfMozilla|Yottaa|YandexBot|Jorgee|SWEBot|spbot|TurnitinBot-Agent|mail.RU|curl|perl|Python|Wget|Xenu|ZmEu) [NC]

RewriteRule !(^/robots.txt$) - [F]

windows2008下 web.config

<?xml version="1.0" encoding="UTF-8"?>

<system.webServer>

<rules>

</conditions>

</rule>

</rules>

</rewrite>

</system.webServer>

</configuration>

Nginx对应屏蔽规则

代码需添加到对应站点配置文件server段内

{

return 444;

}

注：规则中默认屏蔽部分不明蜘蛛，要屏蔽其他蜘蛛按规则添加即可

附各大蜘蛛名字：

google蜘蛛：googlebot

百度蜘蛛：baiduspider

百度手机蜘蛛：baiduboxapp

yahoo蜘蛛：slurp

alexa蜘蛛：ia_archiver

msn蜘蛛：msnbot

bing蜘蛛：bingbot

altavista蜘蛛：scooter

lycos蜘蛛：lycos_spider_(t-rex)

alltheweb蜘蛛：fast-webcrawler

inktomi蜘蛛：slurp

有道蜘蛛：YodaoBot和OutfoxBot

热土蜘蛛：Adminrtspider

搜狗蜘蛛：sogou spider

SOSO蜘蛛：sosospider

360搜蜘蛛：360spider

来源：西部数码

Public @ 2018-06-02 16:22:26

Baiduspider的user-agent是什么？

威海Spider 威海Baiduspider
1032

索引擎百度各个产品使用不同的user-agent:产品名称对应user-agent网页搜索Baiduspider移动搜索Baiduspider图片搜索Baiduspider-image视频搜索Baiduspider-video新闻搜索Baiduspider-news百度搜藏Baiduspider-favo百度联盟Baiduspider-cpro商务搜索Baiduspider-ads

Public @ 2018-11-07 15:56:50

Google爬行缓存代理（crawl caching proxy）

威海Spider 威海Spider
1817

Google爬行缓存代理是Google搜索引擎通过代理服务器对网站进行爬行并缓存网页内容的一种技术。该技术可提高网站的访问速度和稳定性，同时也有利于搜索引擎的优化。当用户访问一个网站时，Google爬行缓存代理会首先检查其缓存中是否有该网站的内容，如果有，则将缓存中的内容返回给用户；如果没有，则该代理服务器会向该网站服务器发送请求，并将获取到的内容缓存起来，以备将来的访问。 Google爬行

Public @ 2023-06-08 01:50:10