robots.txt：如何让搜索引擎不要抓取没用的页面_威海佰年网络技术有限公司_网站建设_软件开发_私有云_商标注册_公众号_小程序_APP_物联网

robots.txt：如何让搜索引擎不要抓取没用的页面

| 什么是robots文件？

Robots是站点与spider沟通的重要渠道，是网站与搜索引擎爬虫之间的协议，告知哪些可抓取哪些不允许。

| 为什么要做robots文件？

网站上总有一些页面是禁止蜘蛛抓取的。例如：搜索页面、筛选页面、后台登录地址等。

| 如何制作 robots文件？

编写robots.txt文件并上传到网站根目录。

| 制作 robots.txt注意事项

● 所有搜索引擎则用星号表示

● Allow（允许）和Disallow（不允许）优先级

● 至少屏蔽一个，可以屏蔽：搜索结果页面/404页面

● 记得将sitemap放到Robots文件中

● 可以陆续放入更多，而不是一次性决定所有

● 网站后台地址/图片地址/下载文件地址/错误链接（搜外网）

Public @ 2019-03-13 16:09:27

什么是Sitemap

Sitemap是一个XML文件，它列出了您网站上所有页面的URL，以帮助搜索引擎更好地了解您的网站结构并进行索引。它包含了您网站上所有可供搜索引擎抓取的页面、图片、视频等的元数据。Sitemap可以帮助搜索引擎更快更准确地索引您网站的内容。

Public @ 2023-04-02 19:00:10

nofollow标签的作用有重大变化

nofollow标签的作用主要是告诉搜索引擎不要跟进某个链接。最初，它的主要目的是阻止链接操纵，这是一种非法的搜索引擎优化技术，通过在许多网站中添加低质量或垃圾链接来提高目标网站的排名。但是，随着时间的推移，nofollow标签已经被广泛应用于其他目的，例如： 1. 防止广告链接滥用：使用nofollow标签告诉搜索引擎某个链接是广告链接，这有助于避免被视为违反搜索引擎的广告政策。 2. 控制

Public @ 2023-06-20 15:50:19

匹配方式分两部分：1.path部分，2.参数部分匹配支持?*$?两种通配符?*? 表示任何有效字符的 0 个或多个个案。?$? 表示网址结束。path部分与google匹配方式保持一致，也就是只有/或是*开头的规则才有机会匹配上?/?匹配根目录以及任何下级网址?/fish??/fish?开头的匹配项* ?/fish?* ?/fish.html?* ?/fish/salmon.html?* ?/fi

Public @ 2011-09-27 16:09:01

robots 禁止快照

要防止所有搜索引擎显示您网站的快照，请将此元标记置入网页的 <HEAD> 部分：<meta name="robots" content="noarchive">要允许其他搜索引擎显示快照，但仅防止搜索引擎显示，请使用以下标记：<meta name="Baiduspider" content="noa

Public @ 2018-10-07 16:09:29

Categories

Tags