Categories


Tags


【院长帮帮忙】页面无用时间信息导致网页不被爬虫抓取(第一期)

在【院长帮帮忙】栏目露过面的站点是编织汇(www.bianzhihui.com),该站点通过反馈中心反馈页面内容迟迟不被抓取,经百度工程师追查,原来是因为页面上的无用时间信息——没有想到是不是?同学们快来看看这个案例吧。也想让院长帮助追查吗?快来看看这里!

站点求助:现象

编织汇网站内容发布后几个礼拜都未曾收录。案例如下:

http://www.bianzhihui.com/t/6717(教程详细页面举例)

http://www.bianzhihui.com/u/12306 (用户页面举例)

http://www.bianzhihui.com/h/154 (编织花样页面举例)

我们已将这些url放入sitemap,并使用了百度统计的集成的JS推荐,但是未曾有改善。

站点求助:自查

根据反馈中心的回复,使用抓取异常工具诊断:未发现异常

院长出手,内部追查

工程师结论: spider抓取很及时,但因为该网站没有设置内容产出时间,网站底部却有个老旧时间日期,导致spider误以为网页内容老旧(具体策略较复杂,在此不做赘述)。建议增加页面内容产生时间,去掉没有必要的时间信息

*以上为旧页面截图,“2014年9月9日”对时间识别造成干扰。

站点总结:

1,网页上切忌勿乱加时间,如我们网站的(始于2014年9月9日)这种时间是一个大忌

2,网页内容尽可能加上产出时间,也就是发布时间

3,百度site的结果时间和权重并无太多关系

4,跟百度沟通的时候,一定要条例清晰,证据确凿。自身的问题一定要先排查准确。

来源:百度搜索资源平台 百度搜索学堂


Public @ 2015-07-21 15:22:04

BaiDuSpider百度蜘蛛占用流量,robots.txt设置

注:以下BaiDuSpider等于百度蜘蛛、Googlebot等于google蜘蛛、Sogou Spider等于搜狗蜘蛛一、问题因某些原因,搜索引擎蜘蛛抓取网站占用很大流量,如图:网站访问日志也可看见很多蜘蛛爬行记录。如果是正常的搜索引擎蜘蛛访问,不建议对蜘蛛进行禁止,否则网站在百度等搜索引擎中的收录和排名将会丢失,造成客户流失等损失。可以优先考虑升级虚拟主机型号以获得更多的流量或升级为云服务器(

Public @ 2009-04-20 15:56:40

屏蔽百度爬虫的方法

1. 设置robots.txt文件 在根目录中建立一个robots.txt文件,设置禁止百度抓取即可达到屏蔽百度爬虫的效果,具体设置内容如下: User-agent: Baiduspider Disallow: / 2. 自定义Http请求 百度爬虫最显著的特征就是它的User_Agent中包含Baiduspider,一般在Http头中添加请求头:X-Baidu-Env:martin-

Public @ 2023-03-05 04:00:12

【院长帮帮忙】站点打不开,可能是referer设置问题!(第六期)

站点反馈,在移动搜索下站点被百度屏蔽了经查站点在PC端打开无影响,仅移动端无法打开,且落地页体验、内容均良好,站点并不是被百度屏蔽,而是站点M端的Referer值太长,导致网站打不开(Referer长度不能超过256,超过以后抓取结果为404)站点referer值referer值长度要求各位站长们记住了哦,如遇以上这种情况,被百度屏蔽的锅,我们可不背哦!来源:百度搜索资源平台 百度搜索学堂

Public @ 2022-06-28 15:22:06

【院长帮帮忙】移动适配不稳定、不生效,可能是这些原因造成的!(第五期)

1. 布局使用了绝对定位 如果布局使用了绝对定位,那么在不同的设备上,元素的位置和大小会发生变化,从而导致移动适配不稳定或者根本无法生效。建议使用相对定位或者flex布局。 2. 使用了固定宽度和高度 在移动适配时,应该使用相对单位(如rem或者百分比),而不是固定宽度和高度。如果使用了固定宽度和高度,那么在不同的设备上,元素的大小会发生变化,从而导致移动适配不稳定。 3. 没有考虑不同的

Public @ 2023-06-24 11:50:16

更多您感兴趣的搜索

0.537775s