常见的robots.txt文件用法实例_威海佰年网络技术有限公司_网站建设_软件开发_私有云_商标注册_公众号_小程序_APP_物联网

常见的robots.txt文件用法实例

常见的robots.txt文件用法实例：

1、禁止所有搜索引擎抓取网站的任何部分

User-agent: *

Disallow: /

这是禁止所有目录和文件被所有搜索引擎收录。网站还没上线时，有的会先屏蔽所有蜘蛛抓取。

2、允许所有的spider抓取（或者也可以建一个空的robots.txt文件）

User-agent: *

Allow: /

这是允许所有搜索引擎抓取网站的任何部分，既然是允许所有文件被抓取，可以不用创建robtos.txt文件，即默认全部允许抓取。

3、禁止spider抓取特定目录

User-agent: *

Disallow: /a/

Disallow: /b/

Disallow: /c/

这是禁止所有的spider抓取a、b、c目录。这个规则我们最常用到，比如网站的程序后台、程序目录等都可以禁止spider抓取，以减少spider无意义的浪费我们的空间资源。

4、禁止spider抓取搜索结果页面

User-agent: *

Disallow: /so_article?*

如果你网站的搜索结果页面URL格式如：/so_article?keyword=搜索关键字，则按以上格式进行屏蔽，注意最后带了一个星号*，代表屏蔽so_article?带头的所有URL。

对于大部分网站，常用的就是以上4种情况。

来源：搜外网

Public @ 2010-05-21 16:09:23

404页面设置方法

1. 通过服务器配置文件设置404页面可以在服务器配置文件中添加以下代码来设置404页面： ``` ErrorDocument 404 /404.html ``` 在这个例子中，当用户请求一个不存在的页面时，服务器会返回404错误，并重新定向到404.html页面。 2. 使用.htaccess文件设置404页面如果你使用的是 Apache 服务器，可以通过在网站根目录下创建一个.h

Public @ 2023-04-17 13:50:14

这篇写于2006年的贴子，在网上已经被抄得四处都是了，恐怕新入行的SEO已经很难知道原出处是这里了。网站结构的优化是搭建网站时第一个要考虑的，对SEO有重大影响。网站结构出问题，权重无法正常流动，搜索引擎将无法顺利抓取页面，也就谈不上排名和流量了。优化网站结构有两方面的意思，一是物理结构，二是逻辑结构。网站的物理结构网站物理结构指的是网站真实的目录及文件所存储的位置所决定的结构。一般来说比较好的物

Public @ 2011-04-29 16:12:05

Robots.txt 文件应放在哪里？

obots.txt 文件必须放在网站的根目录。放在子目录的 Robots.txt 文件搜索引擎不能爬取到，所以不会起任何作用。如：https://www.seowhy.com/robots.txt 是有效的。https://www.seowhy.com/a/robots.txt 是无效的。以下3种情况需要注意：1、如果手机网站采用的是m.的二级域名，要给手机网

Public @ 2018-08-20 16:09:23

robots.txt文件的格式

robots文件往往放置于根目录下，包含一条或更多的记录，这些记录通过空行分开（以CR,CR/NL, or NL作为结束符），每一条记录的格式如下所示："<field>:<optional space><value><optionalspace>"在该文件中可以使用#进行注解，具体使用方法和UNIX中的惯例一样。该文件中的记录通常

Public @ 2012-09-17 16:08:56

Categories

Tags