【院长帮帮忙】页面无用时间信息导致网页不被爬虫抓取（第一期）_威海佰年网络技术有限公司_网站建设_软件开发_私有云_商标注册_公众号_小程序_APP_物联网

【院长帮帮忙】页面无用时间信息导致网页不被爬虫抓取（第一期）

威海Spider 威海院长帮帮忙
2855

在【院长帮帮忙】栏目露过面的站点是编织汇（www.bianzhihui.com），该站点通过反馈中心反馈页面内容迟迟不被抓取，经百度工程师追查，原来是因为页面上的无用时间信息——没有想到是不是？同学们快来看看这个案例吧。也想让院长帮助追查吗？快来看看这里！

站点求助：现象

编织汇网站内容发布后几个礼拜都未曾收录。案例如下：

http://www.bianzhihui.com/t/6717（教程详细页面举例）

http://www.bianzhihui.com/u/12306 （用户页面举例）

http://www.bianzhihui.com/h/154 （编织花样页面举例）

我们已将这些url放入sitemap，并使用了百度统计的集成的JS推荐，但是未曾有改善。

站点求助：自查

根据反馈中心的回复，使用抓取异常工具诊断：未发现异常

院长出手，内部追查

工程师结论： spider抓取很及时，但因为该网站没有设置内容产出时间，网站底部却有个老旧时间日期，导致spider误以为网页内容老旧（具体策略较复杂，在此不做赘述）。建议增加页面内容产生时间，去掉没有必要的时间信息

*以上为旧页面截图，“2014年9月9日”对时间识别造成干扰。

站点总结：

1，网页上切忌勿乱加时间，如我们网站的（始于2014年9月9日）这种时间是一个大忌

2，网页内容尽可能加上产出时间，也就是发布时间

3，百度site的结果时间和权重并无太多关系

4，跟百度沟通的时候，一定要条例清晰，证据确凿。自身的问题一定要先排查准确。

来源：百度搜索资源平台百度搜索学堂

Public @ 2015-07-21 15:22:04

搜狗资源平台-抓取压力查询功能说明：

威海Spider 威海sogou spider
3452

sogou spider对于同一个IP地址的服务器主机，只建立一个连接，抓取间隔速度控制在几秒一次。一个网页被收录后，最快也要几天以后才会去更新。如果sogou spider持续不断地抓取您的网站，请注意您的网站上的网页是否每次访问都产生新的链接。

Public @ 2015-06-24 15:38:54

如何提高spider抓取网站？提高spider抓取策略（1）

威海Spider 威海Spider
2404

SEO网站优化SEOER，每天都要时刻关注百度蜘蛛有没有来抓取网站，抓取了网站哪些内容，没有抓取网站哪些内容，再没有抓取的页面上观察调整网站的问题。想要提高爬虫抓取频率可以从几个方面着手，简单介绍提高spider抓取网站的策略。提高spider抓取策略有哪些？一、抓取友好性：抓取压力调配降低对网站的访问压力带宽造成访问压力大，会直接影响网站的正常用户访问，为了不影响网站的正常用户访问，又能让spi

Public @ 2010-03-31 16:22:35

【院长帮帮忙】资讯页不收录，原来是抢发惹的祸（第四期）

尊敬的用户，您好！根据您提供的信息，您似乎遇到了一些关于资讯页不收录的问题。根据您所描述的情况，问题可能是由于抢发引起的。在这种情况下，我建议您采取以下几个步骤来解决问题： 1. 静下心来进行审视：首先，您需要仔细审视您的资讯页内容。确保内容的质量和独特性，以及与网站的相关性。如果您的内容不符合这些标准，可能会导致资讯页不被收录。 2. 优化资讯页：进行一些基本的优化措施，如合理使用关键词

Public @ 2023-07-27 13:00:31

【院长帮帮忙】站点打不开，可能是referer设置问题！（第六期）

站点反馈，在移动搜索下站点被百度屏蔽了经查站点在PC端打开无影响，仅移动端无法打开，且落地页体验、内容均良好，站点并不是被百度屏蔽，而是站点M端的Referer值太长，导致网站打不开（Referer长度不能超过256，超过以后抓取结果为404）站点referer值referer值长度要求各位站长们记住了哦，如遇以上这种情况，被百度屏蔽的锅，我们可不背哦！来源：百度搜索资源平台百度搜索学堂

Public @ 2022-06-28 15:22:06

Categories

Tags