Categories


Tags


网站文章内链的一个思路

内链:顾名思意就是在自己网站的内容中的相关文字加入链接,并且链接到网站内部的相关页面。合理的网站内空链接构造,能提高搜索引擎的收录与网站权重。相对外部链接,内部链接也很重要。

传统方式

以前我们做文章系统或新闻发布系统的时候,做文章内链(标签)的时候,通常是通过以下方式来实现的:

数据库:article(文章表)字段(id, title, body, adddate, userid),keyword(内链表)字段(id, name, link)

在发布文章的时候,循环内链表内的所有,来替换文章的body。

这样确实是实现了想要的功能,但是如果我们的内链表的数据达到很大的数目,比如2W、5W或更多的时候。每发布和修改一片文章的效率是可想而知的。那么网易的新闻、百度的百科等这样打大型网站是如何实现的呢?如果按照以上的做法,那系统在几个月后就直接崩溃了。

分析比较

一篇正常的文章会有多少字(不计HTML代码)?1W?我想1W的文章已经算是很长的了,而且想在如果直接在一个页面显示1W的文章相信没有几个人有耐心能看完的。为了页面美观和用户体验,编辑通常都是将内容过多、篇幅超长内容的文章分段处理(分为几篇文章,或分章节)。如果我们能事先将可能出现内链的字从文章中提取出来,再从数据库里检索,这样效率是不是就可以得到很大的提高?答案是肯定的。我们就拿1W字的文章来说,假设文章的所有文字都需要内链,循环的次数是1W次。比上面的例子假设要强得多吧?

在传统方式中,不管你要不要,把内链表的东西全查一边。而下面这种思路是事先将有可能出现内链的字词全部整理出来,再用这些词分别去检索内链表。这样一比较问题就出来了。

新思路就是:从文章中取出需要内链的字词,然后去查询内链表。

可行操作

我们暂且把传统方式称为被动方式,把新思路的方法称为主动方式。

主动方式的实现方法如下。

利用中文分词技术,我们可以对一篇文章进行分词。然后根据分词后的词表,过滤掉常用的物主代词、副词、感叹词等。把名词、品牌、地名、商标等留下,或者根据自己的词库表来分词。然后把剩余的字词去检索内链表,如果有存在,我们就坐上链接,不存在就PASS。

以上只是思路的一个初步构思,在实际实现过程中需要考虑的因素很多。我觉得重点就在分词这个环节。

来源:读者沈力投稿

来源:月光博客


Public @ 2012-09-14 16:11:25

404页面作用

1.避免出现死链接网站设置404页面后,如果网站出现死链接,搜索引擎蜘蛛爬行这类网址得到“404”状态回应时,即知道该URL已经失效,便不再索引该网页,并向数据中心反馈将该URL表示的网页从索引数据库中删除。避免因为死链接影响网站收录。2.提升用户体验404页面通常为用户访问了网站上不存在或已删除的页面,服务器返回404错误页面,告诉浏览者其所请求的页面不存在或链接错误,同时引导用户使用网站其他页

Public @ 2023-02-01 16:11:00

导航结构是什么?导航结构优化方法

导航结构是啥网站导航的作用就是引导用户快速找到主要信息,指引用户到达目标页面,一个好的导航对于吸引用户和搜索引擎优化都非常重要。导航结构的作用1、引导用户访问指定页面。其中全局导航、分类导航、辅助导航都是根据这个目的进行的。2、告诉用户所在网页位置。这个在面包屑导航中得到了充分的体现,它帮助用户识别当前浏览的页面与网站整体内容间关系,及其与网站中其它内容的联系和区分。3、理清网站各内容与链接间的联

Public @ 2015-09-17 16:11:43

内部链接及锚文字如何设置

一、内部链接及锚文字内部链接对爬行和收录有非常重要的意义。内部链接对页面关键词相关性也有影响,最主要的就是在内部链接中使用锚文字。锚文字是告诉搜索引擎被链接页面主题内容的最重要依据之一。外部链接锚文字大部分是无法控制的,内部链接锚文字则完全由站长控制。锚文字中出现完全匹配的关键词,有助于提高链接目标页面的相关度,以及发出链接页面的相关度。当然在这方面还要避免过度优化。除了一部分使用完全匹配关键词做

Public @ 2012-09-13 16:11:30

内部链接(站内链接)的优化

内部链接(站内链接)的优化指的是在网站内部页面之间加入链接,以便提升网页的流量和搜索引擎排名。以下是内部链接优化的几个方法: 1. 添加相关内部链接:在每个页面中添加与此页面相关的内部链接,使读者更容易流转到其他相关的页面,也有利于搜索引擎对网站内容进行分类分析。 2. 在导航栏添加链接:在网站顶部的导航栏上添加内部链接,以便访问者可以快速找到网站的相关内容。 3. 使用关键词进行链接:使用

Public @ 2023-06-18 00:00:28

更多您感兴趣的搜索

0.419437s