搜索引擎中各关键功能模块功能简介_威海佰年网络技术有限公司_网站建设_软件开发_私有云_商标注册_公众号_小程序_APP_物联网

搜索引擎中各关键功能模块功能简介

（1）爬虫：从互联网爬取原始网页数据，存储于文档知识库服务器。

（2）文档知识库服务器：存储原始网页数据，通常是分布式Key-Value数据库，能根据URL/UID快速获取网页内容。

（3）索引：读取原始网页数据，解析网页，抽取有效字段，生成索引数据。索引数据的生成方式通常是增量的，分块/分片的，并会进行索引合并、优化和删除。生成的索引数据通常包括：字典数据、倒排表、正排表、文档属性等。生成的索引存储于索引服务器。

（4）索引服务器：存储索引数据，主要是倒排表，通常是分块、分片存储，并支持增量更新和删除。数据内容量非常大时，还根据类别、主题、时间、网页质量划分数据分区和分布，更好地服务在线查询。

（5）检索：读取倒排表索引，响应前端查询请求，返回相关文档列表数据。

（6）排序：对检索器返回的文档列表进行排序，基于文档和查询的相关性、文档的链接权重等属性。

（7）链接分析：收集各网页的链接数据和锚文本（Anchor Text），以此计算各网页链接评分，最终会作为网页属性参与返回结果排序。

（8）网页去重：提取各网页的相关特征属性，计算相似网页组，提供离线索引和在线查询的去重服务。

（9）网页反垃圾：收集各网页和网站历史信息，提取垃圾网页特征，从而对在线索引中的网页进行判定，去除垃圾网页。

（10）查询分析：分析用户查询，生成结构化查询请求，指派到相应的类别、主题数据服务器进行查询。

（11）页面描述/摘要：为检索和排序完成的网页列表提供相应的描述和摘要。

（12）前端：接受用户请求，分发至相应服务器，返回查询结果。

Public @ 2017-08-24 16:22:25

感谢Mr.Zhao的投稿：搜索引擎最重要的是什么?有人会说是查询结果的准确性，有人会说是查询结果的丰富性，但其实这些都不是搜索引擎最最致命的地方。对于搜索引擎来说，最最致命的是查询时间。试想一下，如果你在百度界面上查询一个关键词，结果需要5分钟才能将你的查询结果反馈给你，那结果必然是你很快的舍弃掉百度。搜索引擎为了满足对速度苛刻的要求(现在商业的搜索引擎的查询时间单位都是微秒数量级的)，所以采用缓

Public @ 2018-10-26 16:22:22

百度搜索引擎工作原理-1-抓取建库

Spider抓取系统的基本框架互联网信息爆发式增长，如何有效的获取并利用这些信息是搜索引擎工作中的首要环节。数据抓取系统作为整个搜索系统中的上游，主要负责互联网信息的搜集、保存、更新环节，它像蜘蛛一样在网络间爬来爬去，因此通常会被叫做“spider”。例如我们常用的几家通用搜索引擎蜘蛛被称为：Baiduspdier、Googlebot、Sogou Web Spider等。Spider抓取系统是搜索

Public @ 2014-12-20 16:21:47

搜索引擎检索系统概述

前面简要介绍过了搜索引擎的索引系统，实际上在建立倒排索引的最后还需要有一个入库写库的过程，而为了提高效率这个过程还需要将全部term以及偏移量保存在文件头部，并且对数据进行压缩，这涉及到的过于技术化在此就不多提了。今天简要给大家介绍一下索引之后的检索系统。检索系统主要包含了五个部分，如下图所示：索引&检索.jpg（1）Query串切词分词即将用户的查询词进行分词，对之后的查询做准备，以“1

Public @ 2011-11-07 16:21:49

搜索引擎对用户搜索词如何处理，怎么判断用户搜索词的结果？

搜索引擎接收到用户输入的搜索词后，需要对搜索词做一些处理，才能进入排名过程。搜索词处理包括以下几方面:（1）中文分词。与页面索引时一样，搜索词也必须进行中文分词，将查询字符串转换为以词为基础的关键词组合。分词原理与页面分词相同。（2）指令的处置。平时咱们在搜索时会输入多个词语，实在默认的情况下，搜索引擎把多个默认的词语都依照“与”来进行词语。比方你搜索“seo”“培训”时，搜索引擎会默认咱们输入的

Public @ 2019-02-03 16:22:41

Categories

Tags