ICO算法—本次针对重复内容清理
- 威海360搜索引擎算法 威海ICO算法
- 2002
处理量级:10亿以上
处理网页特点:
该算法主要是针对重复内容进行清理,对用户没有价值的内容页面,内容时效性强且过期的页面,采集站类,URL地址含有无效参数的页面等。
例如:招聘类网站不同子站中内容相同的页面,小说采集站尤其处理对用户无价值的页面,旧新闻页且内容重复的页面也会处理一部分,以及其他的部分无效页面。
Public @ 2010-08-09 15:21:22