Categories


Tags


利用百度蜘蛛referer找到报错页面入口

大家应该都知道百度已经全站https并取消referer关键词显示了,那么“百度蜘蛛referer”又是什么?有什么妙用吗?艺龙SEO负责人刘明发现通过百度蜘蛛referer可以快速定位部分站内url的报错(4xx或者5xx)原因。随后社区版主飞鹰正义也对文章做了补充修正,现推荐给各位同学们。

什么是百度蜘蛛的referer

百度蜘蛛的referer,是指当百度蜘蛛抓取某一个URL的时候,在HTTP头中带的Referer字段。请注意,这个定义和百度最近声明去除Referer中关键词数据没有任何关系。这次讲的是spider发起的HTTP请求,百度而去除的是用户发起的。如果百度蜘蛛抓取百度首页的logo,会发起这样的请求:

上面Referer字段很明确的表示了他是从www.baidu.com这个页面上发现并抓取了www.baidu.com/img/bd_logo1.png。而大家在服务器访问日志中也应该能看到相应的记录。目前发现只有当百度抓取一个网页的同时,又抓取了网页中的:img、js和css才会带上referer字段。这部分额外的抓取量,应该不会占用百度分配的抓取配额,属于“买1送1”。

对于站长的意义

如果你发现有一批URL(仅限于img,js,css)报错(4xx或者5xx),但是一直找不到入口在哪,也就是说你不明白百度蜘蛛是从哪里发现这些错误URL的。这个字段可以帮助你迅速定位。

举个例子

比如我们的SEO日志分析系统中可以看到,符合下面这种URL Pattern的路径每天有6万到10万的抓取而且全部报404。

从发现问题至今过了1个月,查遍整个网站我也没找到入口。今天偶然仔细查了一下日志,想起了百度蜘蛛的referer,马上就能定位问题了。这些404的URL来自于一套没人维护也没人关注的页面(往往是这样)。收录流量都不错。由于最近公司图片系统更新,图片的URL全部更改了,但这套页面并没有跟着更新。

如果站点没有记录referer怎么办

iis请在这里勾选“cs(Referer)”:

apache请参考:

apache log配置“Combined Log Format”章节

apache log配置的官方链接

Nginx请参考:

nginx log配置

nginx log配置的官方链接

结束语

· 很多SEO问题并不是立即致命的,所以没有及时解决。流量就像蚂蚁啃大象一样一点一点啃掉了。

· 系统性的知识积累还是会在关键时刻发挥作用的。

· 感谢飞鹰对本文的修正。

至此文章虽然结束但是讨论可以继续,大家可以到[学堂同学汇] 《利用百度蜘蛛referer找到报错页面入口》讨论帖,与作者刘明进行探讨。

来源:百度搜索资源平台 百度搜索学堂


Public @ 2012-04-14 15:38:46

网站质量指南

网站质量指南是一份用于评估和提升网站品质的指南。它提供了一系列的准则和建议,帮助网站所有者和开发者制作和维护高质量的网站。 以下是一些常见的网站质量指南: 1.内容质量:网站应提供有价值、有用和有吸引力的内容。内容应该准确、准时更新,并避免重复、虚假或误导性的信息。 2.用户体验:网站应提供良好的用户体验,包括快速加载时间、易于导航的界面和清晰的信息架构。网页应该易于阅读,排版整齐,并且与设

Public @ 2023-07-20 19:00:39

网站被黑花样多 提高警惕免忧祸

如何避免网站被黑?以下是一些提高警惕的建议: 1.使用安全密码 所有账号的密码都应该是安全且难以被猜测的。密码应该包含数字、字母和符号,并且至少12位长。避免使用与自己个人信息相关的密码,如生日或手机号。 2.更新软件和插件 不要忽视软件和插件更新通知,更新新版本可以修复已知的漏洞,并提高系统的安全性。 3.备份数据 定期备份数据,并将备份存储在离线和安全的位置上。这样即使遇到黑客攻击

Public @ 2023-05-26 19:00:18

【官方说法】只需两步,正确识别百度蜘蛛(User-Agent)

1. 查看User-Agent字段:当访问网站时,每个请求都会包含一个User-Agent字段,其中包含了请求的来源和类型等信息。如果该字段中包含了“Baiduspider”或“Baidu”等关键词,则说明该请求来自百度蜘蛛。 2. 检查IP地址:百度蜘蛛的IP地址通常为百度公司的IP地址,用于爬取和收集网站内容。如果该请求的IP地址为百度的IP地址,则说明该请求来自百度蜘蛛。 注意:需要注意

Public @ 2023-06-16 06:00:26

如何用程序识别Baiduspider ua

近日 ,Baiduspider针对移动抓取user agent(以下简称ua)进行了升级,与PC端的抓取ua做到版本统一,均称为Baiduspider/2.0。从此次更新的移动ua和PC ua来看,不管是移动ua还是PC ua都包含有关键字Baiduspider,我们可以由此判断访客ua是不是来自百度。与PC ua不同的是,移动ua包含有关键字android和mobile,再通过这两个关键字,我们

Public @ 2016-12-20 15:38:45

更多您感兴趣的搜索

0.462440s