Categories


Tags


apache、iis6、ii7独立ip主机屏蔽拦截蜘蛛抓取(适用vps云主机服务器)

  apache、iis6、ii7独立ip主机屏蔽拦截蜘蛛抓取(适用vps云主机服务器)

整理自网络ChatGPT产生之内容,文本内容不具备参考意义,程序内容及代码片段有且仅有借鉴意义。

  在VPS云主机服务器上,可以通过以下方式屏蔽拦截蜘蛛抓取:

1. Apache服务器:

在Apache配置文件(httpd.conf或apache2.conf)中添加以下代码:

```
SetEnvIfNoCase User-Agent ".*((Googlebot)|(Baiduspider)|(Yahoo! Slurp)|(bingbot)|(YandexBot)).*" bad_bot

Order Allow,Deny
Allow from all
Deny from env=bad_bot
```

这段代码的作用是对于User-Agent中包含Googlebot、Baiduspider、Yahoo! Slurp、bingbot、YandexBot的蜘蛛,禁止访问网站内容。

2. IIS6服务器:

在IIS6中,可以通过ISAPI筛选器的方式进行屏蔽拦截。具体操作方法如下:

(1) 打开IIS管理器,选中要设置ISAPI筛选器的站点。

(2) 右键单击该站点,选择“属性”选项,在“本地站点”选项卡中找到“编辑属性”按钮。

(3) 在“ISAPI筛选器”选项卡中找到“添加”按钮,添加ISAPI筛选器“UrlScan”(或其他第三方筛选器)。

(4) 在“UrlScan.ini”(或其他筛选器的配置文件)中,添加以下代码:

```
[DenyHeaders]
User-Agent: Googlebot
User-Agent: Baiduspider
User-Agent: Yahoo! Slurp
User-Agent: bingbot
User-Agent: YandexBot
```

这段代码的作用是对于User-Agent中包含Googlebot、Baiduspider、Yahoo! Slurp、bingbot、YandexBot的蜘蛛,禁止访问网站内容。

3. IIS7服务器:

在IIS7中,可以通过动态IP限制功能进行屏蔽拦截。具体操作方法如下:

(1) 打开IIS管理器,选中要设置IP限制的站点。

(2) 在“配置”选项卡中找到“IP限制”功能,配置“动态IP限制”。

(3) 在“动态IP限制设置”中找到“添加/编辑限制”按钮,添加以下IP地址:

```
66.249.64.0/19
180.76.0.0/16
202.108.0.0/16
157.55.0.0/16
```

这些IP地址代表Googlebot、Baiduspider、Yahoo! Slurp、bingbot等蜘蛛的IP地址段,通过限制这些IP地址,可以禁止访问网站内容。

Public @ 2023-06-20 14:00:02 整理自网络ChatGPT产生之内容,文本内容不具备参考意义,程序内容有且仅有借鉴意义。

sogou spider 喜欢收录什么样的页面?

内容优良而独特的页面,如果您的页面内容和互联网上已存在的其他页面有高度的相似性,可能不会被 sogou spider 收录。链接层次较浅的页面,过深的链接层次,尤其是动态网页的链接,会被丢弃而不收录。如果是动态网页,请控制一下参数的数量和URL的长度。搜狗更偏好收录静态网页。重定向次数越多的页面,越有可能被 sogou spider 丢弃。

Public @ 2011-08-12 15:38:57

网络爬虫(Spider)

网络爬虫(Spider)是一种自动化程序,用于通过互联网收集和抓取网页信息。它模拟人类在浏览器中的操作,自动访问网站并抓取其中的信息。爬虫的主要作用是帮助用户快速地获取海量数据,例如网页内容、图片、音频、视频等,并将它们存储在一个本地数据库中,以供后续处理和分析。在人工获取数据耗时费力的情况下,网络爬虫的应用可以大大提高数据抓取效率,以及提高数据处理的准确与可靠性。

Public @ 2023-06-02 04:00:09

蜘蛛程序(spider)

蜘蛛程序(spider)是一种按照一定规则自动地在互联网上检索和获取信息的计算机程序。蜘蛛程序的工作方式类似于蜘蛛在网上爬行,它通过网络链接搜索引擎等目标网站的页面,并按照预先设定的算法和规则提取所需的信息。 蜘蛛程序主要用于搜索引擎的建立与维护,它们能够自动化地获取大量的网页内容,并将其存储在搜索引擎的数据库中。蜘蛛程序可以按照用户设定的关键词和搜索模式来搜索相关的网页,然后将搜索结果进行分析

Public @ 2023-07-24 14:00:31

更多您感兴趣的搜索

0.506053s