【院长帮帮忙】页面无用时间信息导致网页不被爬虫抓取（第一期）_威海佰年网络技术有限公司_网站建设_软件开发_私有云_商标注册_公众号_小程序_APP_物联网

【院长帮帮忙】页面无用时间信息导致网页不被爬虫抓取（第一期）

威海Spider 威海院长帮帮忙
1703

在【院长帮帮忙】栏目露过面的站点是编织汇（www.bianzhihui.com），该站点通过反馈中心反馈页面内容迟迟不被抓取，经百度工程师追查，原来是因为页面上的无用时间信息——没有想到是不是？同学们快来看看这个案例吧。也想让院长帮助追查吗？快来看看这里！

站点求助：现象

编织汇网站内容发布后几个礼拜都未曾收录。案例如下：

http://www.bianzhihui.com/t/6717（教程详细页面举例）

http://www.bianzhihui.com/u/12306 （用户页面举例）

http://www.bianzhihui.com/h/154 （编织花样页面举例）

我们已将这些url放入sitemap，并使用了百度统计的集成的JS推荐，但是未曾有改善。

站点求助：自查

根据反馈中心的回复，使用抓取异常工具诊断：未发现异常

院长出手，内部追查

工程师结论： spider抓取很及时，但因为该网站没有设置内容产出时间，网站底部却有个老旧时间日期，导致spider误以为网页内容老旧（具体策略较复杂，在此不做赘述）。建议增加页面内容产生时间，去掉没有必要的时间信息

*以上为旧页面截图，“2014年9月9日”对时间识别造成干扰。

站点总结：

1，网页上切忌勿乱加时间，如我们网站的（始于2014年9月9日）这种时间是一个大忌

2，网页内容尽可能加上产出时间，也就是发布时间

3，百度site的结果时间和权重并无太多关系

4，跟百度沟通的时候，一定要条例清晰，证据确凿。自身的问题一定要先排查准确。

来源：百度搜索资源平台百度搜索学堂

Public @ 2015-07-21 15:22:04

轻松两步，正确识别百度蜘蛛（User-Agent）

威海Spider 威海Baiduspider
1539

经常听到开发者问，百度蜘蛛是什么？最近百度蜘蛛来的太频繁服务器抓爆了！最近百度蜘蛛都不来了怎么办？还有很多站点想得到百度蜘蛛的IP段，想把IP加入白名单，但IP地址范围动态变化不固定，我们无法对外公布。那么如何才能识别正确的百度蜘蛛呢？今日干货带你轻松两步正确识别百度蜘蛛：一、查看UA信息如果UA信息不对，可以直接判断为非百度搜索的蜘蛛。目前UA分为移动、PC、和小程序三个应用场景，这三个渠道UA

Public @ 2015-12-30 15:38:39

BaiDuSpider百度蜘蛛占用流量,robots.txt设置

威海Spider 威海Baiduspider
1235

BaiDuSpider百度蜘蛛是百度搜索引擎的爬虫程序，负责抓取并建立Web页面的索引。百度蜘蛛会消耗服务器的流量和资源，对于一些限制流量的网站，可能会受到影响。为了控制百度蜘蛛的访问，可以使用robots.txt文件进行设置。 robots.txt文件是一种网站协议，用来告诉搜索引擎蜘蛛访问网站的规则。如果在网站根目录下没有设置robots.txt文件，搜索引擎蜘蛛将按照默认规则进行访问。为了

Public @ 2023-04-17 20:00:34

【院长帮帮忙】第四期：URL构成越简单越平常越好

SEO不是事后工作，在站点在建设之初就要考虑到如何对搜索引擎友好。在院长看来，与其出手阔绰、花大价钱买个域名，不如找个经验丰富的SEO人员在站点结构等基础工作上多下工夫——这期院长帮帮忙，说的正是一个大家容易忽略的细节问题：url构成。先说结论吧：url构成（或者叫url规则）越简单越平常，百度处理起来越顺畅，越容易正确生效。院长收到的case是这样的，站长反应：跳转适配的PC页和移动页，内容可以

Public @ 2016-05-05 15:22:03

【院长帮帮忙】移动适配不稳定、不生效，可能是这些原因造成的！（第五期）

一、网站页面有跳转，适配不稳定站点反馈他们移动端的适配不稳定，移动展示的页面去预期效果不符；经查是站点在下载页面对机型进行了自适应，页面会根据机型跳转，所以移动端的展现不稳定；解决方案：1、建议站点将机型识别功能放置在下载按钮中，根据机型给予不同下载地址，而不是给予不同的下载页面；2、将pc-m的适配规则固定，不要一种pc页面指向多种移动页面；二、适配规则的混淆站点咨询为什么他们的适配规则老是不生

Public @ 2016-10-22 15:22:05

Categories

Tags