Categories


Tags


浅谈404问题

今天为什么要说一下404问题呢,最近看case过程中发现个很有意思的网站,该网站被灌了大量的垃圾信息,被其发现后及时地进行了删除,这一点是值得肯定的。通常情况下,正常网站将自动返回404状态码,搜索引擎进行更新并删除,避免对网站用户及搜索引擎带来负面影响。但问题来了,该网站只删除了内容,没有任何主体内容的页面被保存了下来,未做404处理。当然,存在一类网站只删除内容后返回正常200状态码,提醒一句“该内容已删除”,但其都没有。可以发现目前这个搜藏中的url仍然正常返回200,http://cang.baidu.com/Lee/snap/3b0a0cc8e7d7899facd36fad.html,造成的后果:搜索引擎将花费大量的资源在这种无效页面上,那么,同等耗损下用在重要页面上的资源将被大量挤占,可想而知,正常优质页面在搜索引擎的部分表现将受到影响。经过我们运营同学的多方沟通下至今仍未进一步处理。我觉得,21世纪第二个十年了,这种问题不应该再存在了的。

好吧,承认我被打败了。简单说一下:

404状态码代表‘Not Found’,spider更新时会认为该页面已失效,此时呢将在索引库中删除,短期内spider再次发现该url不再会抓取。因此,出来了两类问题:第一,网页临时性打不开;第二,页面永远无法打开。针对第一类问题,我建议不要立刻返回404,而是使用503。503等同于告诉spider该页面临时访问不了,过段时间再来光临。关于503,spider会认为该网页临时无法访问,短期内会再光临。如果网页已经恢复,即刻正常抓取;如果继续返回503,短期内还会再光临几次,但如果该页面长时间返回503,该url仍会被认作失效链接,从索引库中删除。针对第二类问题,永远无法打开的页面,404,不用考虑。各种web2类页面删除后同样需要返回404告知搜索引擎该页面已失效。

回归之前那个网站,删除内容后该页面没有任何价值。最恰当的处理是:

1、直接做死链处理并返回404;

2、在百度站长平台死链提交工具中提交死链sitemap。

最后呢,提醒一下各位站长朋友,当您的网站存在被发布大量垃圾信息时,请:

1、及时删除相关垃圾页面,并做404处理;

2、制作符合要求的死链sitemap;

3、登录百度站长平台,进入死链提交工具提交死链sitemap。

如果大家对404问题还有别的疑问,大家可以到[学堂同学汇][学习讨论]《浅谈404问题》讨论贴中发表自己的看法,我们的工作人员会关注这里并与大家进行探讨。

来源:百度搜索资源平台 百度搜索学堂


Public @ 2014-09-24 16:09:54

什么是GZIP,开启GZIP有什么好处

GZIP是网站压缩加速的一种技术,对于开启后可以加快我们网站的打开速度,原理是经过服务器压缩,客户端浏览器快速解压的原理,可以大大减少了网站的流量。什么是GZIP答:GZIP最早由Jean-loup Gailly和Mark Adler创建,用于UNIX系统的文件压缩。我们在Linux中经常会用到后缀为.gz的文件,它们就是GZIP格式的。现今已经成为Internet 上使用非常普遍的一种数据压缩格

Public @ 2012-04-28 16:09:42

关于URL组成部分的指南

URL(Uniform Resource Locator)是用于定位和访问互联网资源的字符串。URL由多个组成部分组成,每个组成部分都提供了关于资源的有用信息。以下是URL的组成部分: 1.协议:协议指定了访问资源的规则和方法。常见的协议有HTTP、HTTPS、FTP、SFTP等。 例如:http://www.example.com 2.主机名(域名):主机名指定了要访问资源的服务器的名称。通

Public @ 2023-06-11 16:00:19

404页面该怎么做?

404页面是当用户请求的页面不存在时显示的页面。以下是创建一个好的404页面的要点: 1. 提示用户页面不存在:在页面上明确告诉用户,请求的页面不存在,这是最重要的 2. 提供导航链接:尽可能提供有用的导航链接以帮助用户找到他们可能想要查看的类似内容的链接 3. 提供搜索栏:在页面上提供搜索栏可让用户搜索相关内容或页面 4. 不要让它看起来太“错误”:确保页面看起来友好,避免使用太多的技术

Public @ 2023-06-09 15:50:15

404页面该怎么做?

404页面是指用户请求的页面不存在或者无法访问时,服务器返回的错误页面。对于用户来说,404页面给人一种网站失误或不可靠的印象,但如果设计得当,404页面也可以是有趣的、有创意的,并可以引导用户继续浏览网站。 以下是404页面设计的一些建议: 1. 提供清晰的错误提示:页面应该提供简短明了的错误提示,让用户知道他们访问的页面不存在。 2. 保持网站风格一致:404页面应该与网站的设计风格一致

Public @ 2023-05-28 12:00:23

更多您感兴趣的搜索

0.416389s