Categories


Tags


建立符合搜索抓取习惯的网站

编者按:前两周简要地给大家介绍了搜索抓取系统工作原理,根据该工作原理今天简要介绍一下如何建立网站是符合搜索引擎抓取系统习惯的。

1、简单明了的网站结构

Spider抓取相当于对web这个有向图进行遍历,那么一个简单明了结构层次分明的网站肯定是它所喜欢的,并尽量保证spider的可读性。

(1)树型结构最优的结构即“首页—频道—详情页”;

(2)扁平首页到详情页的层次尽量少,既对抓取友好又可以很好的传递权重。

(3)网状保证每个页面都至少有一个文本链接指向,可以使网站尽可能全面的被抓取收录,内链建设同样对排序能够产生积极作用。

(4)导航为每个页面加一个导航方便用户知晓所在路径。

(5)子域与目录的选择相信有大批的站长对此有疑问,在我们看来,当内容较少并且内容相关度较高时建议以目录形式来实现,有利于权重的继承与收敛;当内容量较多并且与主站相关度略差时建议再以子域的形式来实现。

2、简洁美观的url规则

(1)唯一性网站中同一内容页只与唯一一个url相对应,过多形式的url将分散该页面的权重,并且目标url在系统中有被滤重的风险;

(2)简洁性动态参数尽量少,保证url尽量短;

(3)美观性使得用户及机器能够通过url即可判断出页面内容的主旨;

我们推荐如下形式的url:url尽量短且易读使得用户能够快速理解,例如使用拼音作为目录名称;同一内容在系统中只产生唯一的url与之对应,去掉无意义的参数;如果无法保证url的唯一性,尽量使不同形式的url301到目标url;防止用户输错的备用域名301至主域名。

3、其他注意事项

(1)不要忽略倒霉的robots文件,默认情况下部分系统robots是封禁搜索引擎抓取的,当网站建立后及时查看并书写合适的robots文件,网站日常维护过程中也要注意定期检查;

(2)建立网站sitemap文件、死链文件,并及时通过百度站长平台进行提交;

(3)部分电商网站存在地域跳转问题,有货无货建议统一做成一个页面,在页面中标识有无货即可,不要此地区无货即返回一个无效页面,由于spider出口的有限性将造成正常页面无法收录。

(4)合理利用站长平台提供的robots、sitemap、索引量、抓取压力、死链提交、网站改版等工具。

如果大家对搜索抓取还有别的疑问,大家可以到[学堂同学汇][学习讨论] 《建立符合搜索抓取习惯的网站》讨论帖中发表自己的看法,我们的工作人员会关注这里并与大家进行探讨。

来源:百度搜索资源平台 百度搜索学堂


Public @ 2021-12-30 16:12:04

怎么做301转向

如果网站使用LAMP(Linux+Apache+MySQL+PHP)主机,可以使用.htaccess文件做301转向。.htaccess是一个普通文字文件,用Notepad等文字编辑软件创建和编辑,存在网站根目录下。.htaccess文件中的指令用于目录特定操作,如转向、错误处理、密码保护等。如果网站用的是Windows主机,可以在控制面板做301转向设定。纯静态HTML页面无法做301转向。在H

Public @ 2018-08-02 16:09:37

Robots文件是否支持中文目录

有同学问百度站长学堂一个关于robots的问题:我们有个站点的目录结构使用的是中文,这样式儿的:www.a.com/冒险岛/123.html,那在制作robots文件和sitemap文件的时候,可以直接使用中文吗?百度能获取到吗?在实际操作中我们发现,sitemap中有文件是可以生效的,但robots封禁貌似没有反应,所以想确认一下:robots文件是否支持中文?工程师解答:Baiduspider

Public @ 2013-01-02 16:08:54

网站的结构和导航设置应该注意什么?

每个网页都需要有合适的标题,网站首页标题建议使用站点名称或者站点代表的公司、机构名称;其余的内容页面,标题建议做成与正文内容的提炼和概括,建议格式“页面标题_站点名称”,这可以让您的潜在用户通过搜索引擎结果中的标题快速访问到您的页面。充分利用网站首页或者频道首页的 description 标签,提供此网页内容的概括说明,形式为<meta name="description"

Public @ 2018-04-30 16:12:04

合理的网站结构优化

我们一直在谈论如何给网站做外部优化,比如如何增加外链、到那里推广,但很多站长朋友并不注重网站结构的优化,也就是内部优化,这方面我也很忽略。而这段时间卢松松一直在优化网站结构,也来谈谈如何做好网站结构的优化,本文列举了很多我常见的问题,希望对大家有用。合理的网站结构优化 SEO优化 网站优化 SEO推广 第1张(网站结构优化示意图)1:URL规范化URL规范化是指搜索引擎会挑选最合适的URL作为真正

Public @ 2012-05-08 16:12:06

更多您感兴趣的搜索