Categories


Tags


搜索引擎的Robots协议

robots.txt是一种存放于网站根目录下的文本文件,用于告诉搜索引擎的爬虫(spider),此网站中的哪些内容是不应被搜索引擎的索引,哪些是可以被索引。通常认为,robots.txt文件用来搜索引擎对目标网页的抓取。robots.txt协议并不是一个规范,而只是约定俗成的,通常搜索引擎会识别这个文件,但也有一些特殊情况。对于Google来说,使用robots也未必能阻止Google将网址编入索

Public @ 2018-04-08 16:09:21

301重定向在网站排名优化中的应用

301重定向在网站排名优化中的应用URL是搜索引擎获取网站的入口。URL的长度和复杂性会影响网站的抓取和收录,也会影响网站的排名。如何优化URL和301重定向,以方便搜索引擎快速抓取收录?就像www.admin5.cn和admin5.cn,不管打开哪一个网址,所打开的网页内容都是相同的,但在搜索引擎的算法中,这是两个不同的网页。如果你不做域名重定向,主域名的权重会分配给其他域名,这一点是站长们需要

Public @ 2016-05-16 16:09:14

通过robots.txt文件屏蔽蜘蛛抓取不存在的后缀

通过网站日志分析,会发现搜索引擎蜘蛛抓取了一些网站上不存在的文件后缀,如:.php、.asp、.aspx等。搜外网站后台日志分析结果如下图:image.搜外主站实际上不存在php后缀的URL地址。可通过robots.txt文件禁止蜘蛛抓取不存在的后缀,减少出现404返回值。在robots.txt文件填写屏蔽规则如下:Disallow: /*.asp$Disallow: /*.php$Disallo

Public @ 2015-07-18 16:09:24

robots.txt文件放在哪里?

robots.txt文件放在哪里?robots.txt文件应该放置在网站根目录下。举例来说,当spider访问一个网站(比如 http://www.abc.com)时,首先会检查该网站中是否存在http://www.abc.com/robots.txt这个文件,如果 Spider找到这个文件,它就会根据这个文件的内容,来确定它访问权限的范围。网站 URL相应的 robots.txt的 URLhtt

Public @ 2017-01-09 16:08:57

更多您感兴趣的搜索

0.429389s