巧用robots文件管理引导搜索引擎蜘蛛对网站的抓取_威海佰年网络技术有限公司_网站建设_软件开发_私有云_商标注册_公众号_小程序_APP_物联网

巧用robots文件管理引导搜索引擎蜘蛛对网站的抓取

许多年前，让网站被搜索引擎选中包括填写表格，注册该网站，并手动编辑希望该网站被搜索的关键词，这个过程随着搜索引擎网络爬虫或网络蜘蛛的出现而改变。本文就robots相关内容，做详细的介绍。

什么是搜索引擎蜘蛛？

搜索引擎蜘蛛是一种自动程序，它沿着从一个网页到另一个网页的链接在互联网上爬行，为内容编制索引并将其添加到数据库中。这意味着，只要网站有一个来自其他网站且搜索引擎已经知道的链接，然后它会找到随着时间的推移。链接到站点越多，发生这种情况的速度就越快。

不幸的是，这些蜘蛛可以非常密集地访问网站。这是因为他们加载每个页面和文件，以便为数据库编目。蜘蛛会导致虚拟专用数据库负载过高，可能会给访问者带来问题。为了帮助解决这些负载问题，有一种标准化的方法来控制这些爬虫的行为，方法是将名为robots.txt的文件放在网站的根目录中。但是，没有任何强制遵守此文件的内容。所以，虽然大多数网络搜索引擎爬虫会服从它，但有些爬虫可能不会。

robots.txt文件有特定的形式，请看以下示例：

User-agent： googlebot

Disallow： /images

Allow： /images/metadata

crawl-delay： 2

sitemap： /sitemap.xml

按顺序查看每个指令行：

首先从“User-agent”（用户代理）行开始：机器人或网络浏览器将使用用户代理来标识自身，而各种搜索引擎爬虫将拥有自己的用户代理。遵循“User-agent”指令的任何其他指令将仅对给定的用户代理有效。带星号（*）的用户代理将被视为引用所有用户代理。在示例文件中，该指令与googlebot搜索引擎蜘蛛程序相关。

“Disallow”（禁止）指令用于告诉搜索引擎蜘蛛程序有关不加载的目录或文件。需要注意的是，尽管搜索引擎蜘蛛不会加载文件，如果它跟踪到它们的链接，它仍然会在搜索结果中列出这些文件。因此，它不能用来阻止页面出现在搜索结果中。“Disallow”可能是所有搜索引擎蜘蛛都支持的唯一指令。因此在示例中，不允许爬行/images目录。

“Allow”（允许）指令可用于指定搜索引擎蜘蛛可以加载的禁止目录中的文件或目录。虽然并不是所有的搜索引擎蜘蛛都支持这个指令，但大多数蜘蛛都支持。在示例中，允许蜘蛛加载 /images/metadata目录中的文件。

下一个指令是“crawl-delay”（爬行延迟），惠州网站建设它以秒为单位给出蜘蛛在加载下一页之前将等待的数字。这是降低蜘蛛速度的最好方法，尽管可能不想让数字太高，除非站点上只有很少的页面，因为这将极大地限制蜘蛛每天可以加载的页面数量。

最后，是“sitemap”（网站地图）指令，可以将蜘蛛引导到网站的XML网站地图文件，它也可以用来帮助网站进行索引。

控制搜索引擎蜘蛛

在robots.txt中可以填充尽可能多或很少的用户代理，以控制访问站点的方式。对于所有蜘蛛来说，从一个用户代理区开始，然后为特定的蜘蛛添加单独的部分是有意义的，因为它们可能会给站点带来问题。创建了robots.txt之后，就需要对它进行测试，以确保它是有效的。如果语法中出现输入错误或拼写错误，则可能会导致蜘蛛忽略正在设置的规则。幸运的是，有很多测试它的工具，还有一些主要的搜索引擎，比如谷歌提供的测试工具。（来源：夫唯seo特训营）

Public @ 2017-11-23 16:09:28

什么是meta robots 标签？meta robots 标签的写法

Meta robots标签是一种HTML头部元数据标签，用于指示搜索引擎如何处理指定页面的内容。它告诉网络爬虫如何爬取索引优化。这些标签是在和之间添加的，旨在为“robots（搜索引擎蜘蛛）”提供有关如何索引和缓存页面内容的指令。以下是meta robots标签的写法： - - - - 其中，“content”属性指定一组用逗号分隔的值，可以是以下之一： - index：告诉爬

Public @ 2023-04-05 21:50:30

静态URL是什么？静态URL优点和缺点

静态URL是什么URL的定义，是指网页地址或者网页链接。一般通过URL中是否带有“?”、“=”“&”“php”'asp'等字符来分辩，换句话说就是不带有任何参数的URL，就是静态URL。静态URL在搜索引擎上有一定的好处。可以更加方便搜索引擎蜘蛛来抓取网页。一般买空间的时候都会咨询服务商提供URL静态功能。不过对于大型网站，内容非常多的话，静态URL就可以不必太注重了。不过

Public @ 2011-08-13 16:11:05

robots文件之前屏蔽了蜘蛛，现已开放，如何更新快照

威海seo专题威海Robots
771

一些域名之前通过robots.txt文件屏蔽了蜘蛛，后来对搜索引擎开放了，但搜索结果里，还是显示以下内容:“由于该网站的robots.txt文件存在限制指令（限制搜索引擎抓取），系统无法提供该页面的内容描述。”解决办法：在百度上搜索该域名，在搜索结果页面的末尾，点击用户反馈。来源：搜外网

Public @ 2011-07-02 16:09:24

百度搜索robots协议全新升级公告

尊敬的用户：为了更好地保护您的隐私和内容权益，百度搜索已经全新升级了robots协议。该协议将更加严格地限制搜索引擎爬取您的网站内容，以保障您的权益。更新后的robots协议针对以下内容进行了调整： 1.增加禁止搜索引擎爬取的网页类型，如登录页、支付页、个人信息页等。 2.增加网站所有者对搜索引擎爬取的细节设置，包括最大爬取频率、爬取深度、爬取延时等。 3.优化 robots.txt

Public @ 2023-04-17 05:00:13

Categories

Tags