Categories


Tags


【院长帮帮忙】页面无用时间信息导致网页不被爬虫抓取(第一期)

在【院长帮帮忙】栏目露过面的站点是编织汇(www.bianzhihui.com),该站点通过反馈中心反馈页面内容迟迟不被抓取,经百度工程师追查,原来是因为页面上的无用时间信息——没有想到是不是?同学们快来看看这个案例吧。也想让院长帮助追查吗?快来看看这里!

站点求助:现象

编织汇网站内容发布后几个礼拜都未曾收录。案例如下:

http://www.bianzhihui.com/t/6717(教程详细页面举例)

http://www.bianzhihui.com/u/12306 (用户页面举例)

http://www.bianzhihui.com/h/154 (编织花样页面举例)

我们已将这些url放入sitemap,并使用了百度统计的集成的JS推荐,但是未曾有改善。

站点求助:自查

根据反馈中心的回复,使用抓取异常工具诊断:未发现异常

院长出手,内部追查

工程师结论: spider抓取很及时,但因为该网站没有设置内容产出时间,网站底部却有个老旧时间日期,导致spider误以为网页内容老旧(具体策略较复杂,在此不做赘述)。建议增加页面内容产生时间,去掉没有必要的时间信息

*以上为旧页面截图,“2014年9月9日”对时间识别造成干扰。

站点总结:

1,网页上切忌勿乱加时间,如我们网站的(始于2014年9月9日)这种时间是一个大忌

2,网页内容尽可能加上产出时间,也就是发布时间

3,百度site的结果时间和权重并无太多关系

4,跟百度沟通的时候,一定要条例清晰,证据确凿。自身的问题一定要先排查准确。

来源:百度搜索资源平台 百度搜索学堂


Public @ 2015-07-21 15:22:04

【官方说法】只需两步,正确识别百度蜘蛛(User-Agent)

步骤一:查看 User-Agent 信息 在你的网站后台查看日志或者使用网站统计工具,可以查到每次访问你网站的 User-Agent 信息。百度蜘蛛的 User-Agent 格式如下: Baiduspider/数字(+版本信息) 例如:Baiduspider/2.0、Baiduspider/2.0b等。 步骤二:验证 IP 地址 验证访问你网站的 IP 是否是百度蜘蛛的 IP。可以在百度

Public @ 2023-04-11 07:50:16

搜狗搜索蜘蛛爬虫抓取

sogou spider User-Agent字段是什么?PC端UA为Sogou web spiderSogou inst spiderSogou spider无线端UA为Sogou wap spider请注意,根据标准,ua区分大小写。搜狗spider的IP有哪些?搜狗暂不对外提供搜狗spider IP列表,但您可以通过DNS反查IP的方式判断某只spider是否来自搜狗搜索引擎。根据不同平台有

Public @ 2010-02-28 15:38:51

【院长帮帮忙】移动适配不稳定、不生效,可能是这些原因造成的!(第五期)

一、网站页面有跳转,适配不稳定站点反馈他们移动端的适配不稳定,移动展示的页面去预期效果不符;经查是站点在下载页面对机型进行了自适应,页面会根据机型跳转,所以移动端的展现不稳定;解决方案:1、建议站点将机型识别功能放置在下载按钮中,根据机型给予不同下载地址,而不是给予不同的下载页面;2、将pc-m的适配规则固定,不要一种pc页面指向多种移动页面;二、适配规则的混淆站点咨询为什么他们的适配规则老是不生

Public @ 2016-10-22 15:22:05

服务器限制外网访问造成主动推送失败

《院长帮帮忙》栏目开始运营以后受到了广大站长欢迎,院长每天都会收到各种问题求助。为了更多站长获得收益,我们从中选取了最具有代表性的问题展现给大家。项目背景:和讯网参加星火计划2.0内测,按照站长平台主动提交技术说明代码,共提交两次,均返回报错。下面我们分享下整个case的排查过程:一、提交执行过程首先,按照链接主动提交的技术标准进行提交,具体内容参照《主动链接提交》。1、第一次提交代码curl -

Public @ 2010-01-13 15:22:08

更多您感兴趣的搜索

0.465668s