Categories


Tags


常见的死链返回码

404 Not Found,表示服务器没有找到任何匹配请求URL的东西,没有说明这种情况是暂时的还是永久的。

410 Gone,表示请求的内容在服务器上不再可用,且没有已知的转发地址。410通常表示资源永久性的失效。

正常页面返回码:

200 OK,表示请求成功。

如果相关内容已删除或移动,不建议返回成功状态码(200 OK)而是返回404、410状态码。

204 No Content,表示这个请求没有要发送的内容,但是报头可能有用。用户代理可以使用新的报头来更新此资源的缓存头。

如果页面已经删除,请返回404/410,返回204可能给搜索引擎造成混淆。

其他返回码:

如果正常页面长期返回非2xx、3xx的错误码,可能会影响相应内容的收录和搜索展现。常见的错误码如下:

403Forbidden,表示客户端没有获取内容的权限。

429 Too Many Requests,表示用户在给定时间内发送了太多的请求。

500 Internal Server Error,表示服务器遇到了不知道如何处理的情况。

503 Service Unavailable,表示服务器还没有准备好处理请求。通常的情况是服务器超载或者正在维护。

如果由于抓取频次过高导致429、5xx错误,开发者可以在百度搜索资源-抓取频次-抓取频次上限调整页面对百度爬虫的抓取频次进行设置。

来源:百度搜索资源平台 百度搜索学堂


Public @ 2016-11-27 15:36:54

HTTPS的收录机制是什么?

HTTPS 收录机制是指网络爬虫(Internet robots)在索引和跟踪 HTTPS 网址并将它们收录入索引的过程。HTTP是网络爬虫常用的收录机制,网页中的链接都是HTTP链接,但是HTTPS的连接要比HTTP的有些不同,因为它采用的是安全的加密连接。只有当网络爬虫满足HTTPS协议,才能完成收录。

Public @ 2023-02-24 02:00:12

揭秘百度快照劫持的原因以及解决技巧

百度快照劫持指的是别人把自己的网站快照记录到自己的网站上,以便获取流量或带来不利影响。其原因主要有以下几点: 1. 缺乏安全措施:一些网站由于安全措施不严,容易被攻击者盗取快照。 2. 攻击者利用漏洞:攻击者会针对网站进行扫描和测试,寻找漏洞并进行攻击。 3. 利益驱动:一些人为了获取更多的流量和广告收入,会利用快照劫持的方式强制转发网站流量。 对于百度快照劫持,可以采取以下几种解决技巧:

Public @ 2023-06-23 14:00:20

什么是死链

所谓死链指的是一种网络链接或链接到URL,但它不能正确载入页面或响应该URL,即无法找到对应的服务器。这指的是一个在网页上提供的服务或另一种连接,但它无法正确指向一个可用的 Web 服务器来载入所要求的文件。它可以是因为 URL 拼写错误、旧的 URL 地址以及域名过期或者文件已经被删除或移动等原因。

Public @ 2023-03-02 03:00:12

如何避免和处理死链接?

1、网站改版最容易产生死链的改版之前的页面如果有价值尽量不要删除和修改Url,若需要更换域名或Url分配规则,那一定要将之前的url进行301跳转到对应的Url;若老的数据必须删除,那删除的所有页面Url要进行整理和提交死链。2、对发现的死链接如何处理将收集好的所有死链接粘贴到网站根目录的一个文档中,再把文档地址提交到百度资源平台-搜索服务-资源提交-死链提交--添加新数据--填写死链文件地址;若

Public @ 2017-11-05 15:36:52

更多您感兴趣的搜索

0.636946s