Categories


Tags


常见的robots.txt文件用法实例

常见的robots.txt文件用法实例:

1、禁止所有搜索引擎抓取网站的任何部分

User-agent: *

Disallow: /

这是禁止所有目录和文件被所有搜索引擎收录。网站还没上线时,有的会先屏蔽所有蜘蛛抓取。

2、允许所有的spider抓取(或者也可以建一个空的robots.txt文件)

User-agent: *

Allow: /

这是允许所有搜索引擎抓取网站的任何部分,既然是允许所有文件被抓取,可以不用创建robtos.txt文件,即默认全部允许抓取。

3、禁止spider抓取特定目录

User-agent: *

Disallow: /a/

Disallow: /b/

Disallow: /c/

这是禁止所有的spider抓取a、b、c目录。这个规则我们最常用到,比如网站的程序后台、程序目录等都可以禁止spider抓取,以减少spider无意义的浪费我们的空间资源。

4、禁止spider抓取搜索结果页面

User-agent: *

Disallow: /so_article?*

如果你网站的搜索结果页面URL格式如:/so_article?keyword=搜索关键字,则按以上格式进行屏蔽,注意最后带了一个星号*,代表屏蔽so_article?带头的所有URL。

对于大部分网站,常用的就是以上4种情况。

来源:搜外网


Public @ 2010-05-21 16:09:23

头条搜索站长平台-Sitemap提交

功能说明提交sitemap工具可以向头条搜索提交网站的sitemap文件,帮助头条spider更好的抓取您的网站。您可以在此工具下选择已经验证的站点,进行验证站点的sitemap文件提交。sitemap提交后,头条搜索会根据sitemap了解网站中数据情况。sitemap要求sitemapindex文件要求sitemapindex文件根节点必须是<sitemapindex>。sitem

Public @ 2010-06-17 16:09:48

网站URL显示品牌名字怎么弄

要在网站的URL中显示品牌名字,可以通过以下几种方法实现: 1. 在网站的域名中包含品牌名:将品牌名字作为域名的一部分,例如www.品牌名.com。这样每个网页的URL都会显示品牌名字。 2. 在网站的子域名中包含品牌名:创建一个子域名并将品牌名字作为子域名,例如brand.域名.com。这样每个网页的URL都会包含子域名和品牌名字。 3. 在网站的URL中使用文件夹和文件名:将品牌名字作为

Public @ 2023-07-29 19:50:28

robots里这样写,就能避免蜘蛛爬这个“index.htm”这个首页?

我robots这样写是不是就能避免蜘蛛爬这个“index.htm”这个首页?User-agent: *Disallow: /index.htm11-30.我的index.htm是现在默认的首页,想屏蔽蜘蛛抓取。让蜘蛛爬另一个文档,主要是规避备案巡查我的网站和我备案的不一样,服务器那边要求改,我就整了个htm文档来规避下。写法没有问题。但正常的不建议屏蔽首页地址,,“index.htm”这个后缀地址

Public @ 2019-12-16 16:09:25

robot.txt在SEO中的作用

在进行网站优化的时候,经常会使用robots文件把一些内容不想让蜘蛛抓取,以前写过一篇网站优化robots.txt文件的运用 现在写这篇文章在补充一点点知识!什么是robots.txt文件搜索引擎通过一种爬虫spider程序(又称搜索蜘蛛、robot、搜索机器人等),自动搜集互联网上的网页并获取相关信息。鉴于网络安全与隐私的考虑,搜索引擎遵循robots.txt协议。通过根目录中创建的纯文本文件r

Public @ 2020-01-26 16:09:04

更多您感兴趣的搜索