robots.txt概念和10条注意事项_威海佰年网络技术有限公司_网站建设_软件开发_私有云_商标注册_公众号_小程序_APP_物联网

robots.txt概念和10条注意事项

robots.txt概念

如果我们网站内有某些特殊的文件不让搜索引擎收录，那怎么办？

答案是：使用一个叫做robots.txt的文件。

robots.txt文件告诉搜索引擎本网站哪些文件是允许搜索引擎蜘蛛抓取，哪些不允许抓取。

搜索引擎蜘蛛访问网站任何文件之前，需先访问robots.txt文件，然后抓取robots.txt文件允许的路径，跳过其禁止的路径。

总结：robots.txt是一个简单的.txt文件，用以告诉搜索引擎哪些网页可以收录，哪些不允许收录。

关于robots.txt文件的10条注意事项：

1、如果未创建robots.txt文件，则代表默认网站所有文件向所有搜索引擎开放爬取。

2、必须命名为：robots.txt，都是小写，robot后面加"s"。

3、robots.txt必须放置在一个站点的根目录下。

通过如https://www.seowhy.com/robots.txt 可以成功访问到，则说明本站的放置正确。

4、一般情况下，robots.txt里只写着两个函数：User-agent和 Disallow。

5、空格换行等不能弄错，可复制这个页面并修改为自己的。点击

6、有几个禁止，就得有几个Disallow函数，并分行描述。

7、至少要有一个Disallow函数，如果都允许收录，则写: Disallow:

如果都不允许收录，则写:Disallow: / （注：只是差一个斜杆）。

8、允许有多个User-agent，如果对所有爬取蜘蛛生效，则用“*”星号表示。

9、robtos.txt文件内可以放上Sitemap文件地址，方便告诉搜索引擎Sitemap文件地址。

10、网站运营过程中，可以根据情况对robots.txt文件进行更新，屏蔽一些不要搜索引擎抓取的文件地址。

举例两个常见屏蔽规则：

User-agent: * 星号说明允许所有搜索引擎收录

Disallow: /search.html 说明 https://www.seowhy.com/search.html 这个页面禁止搜索引擎抓取。

Disallow: /index.php? 说明类似这样的页面https://www.seowhy.com/index.php?search=%E5%A5%BD&action=search&searchcategory=%25 禁止搜索引擎抓取。

来源：搜外网

Public @ 2019-12-20 16:09:22

通过Canonical标签解决重复内容收录

Canonical标签是指在网页的HTML代码中添加一个链接指向该页面的主要版本，当页面有多个URL时，通过Canonical标签告诉搜索引擎哪个是主要版本，从而避免重复内容被收录。例如，在网站中有一篇文章，URL分别是： http://www.example.com/article http://www.example.com/articles/123 http://www.examp

Public @ 2023-06-05 19:00:10

怎么做301转向

1. 编写.htaccess文件打开文本编辑器，输入以下代码： ``` RewriteEngine On RewriteCond %{HTTP_HOST} ^旧网址.com [NC,OR] RewriteCond %{HTTP_HOST} ^www.旧网址.com [NC] RewriteRule ^(.*)$ http://新网址.com/$1 [L,R=301,NC] ``` 将上面的

Public @ 2023-04-16 05:50:11

robots禁止抓取图片

User-agent: *Disallow: .jpg$jpg可以代替为gif，png 等等...来源：360站长平台

Public @ 2023-01-15 16:09:02

个人信息一旦在网上发布，很有可能会被百度搜索引擎抓取，特别是在知名社交网站、专业网站上发布的内容。可能您并不希望这类个人信息出现在百度搜索结果中，以下方式可以帮助您阻止个人信息在搜索结果中出现。如果您是在其他网站上发布的内容：1、在社交网站中（例如人人网，开心网等），您可以针对个人信息设置浏览权限，例如只有朋友或者自己可以浏览；如果您不愿让陌生人看到某些照片或信息，则应该慎重考虑是否公开发布这些内

Public @ 2016-01-12 16:08:57

Categories

Tags