如何和搜索引擎爬虫对话_威海佰年网络技术有限公司_网站建设_软件开发_私有云_商标注册_公众号_小程序_APP_物联网

如何和搜索引擎爬虫对话

威海Spider 威海Spider
2892

抓取策略：那些网页是我们需要去下载的，那些是无需下载的，那些网页是我们优先下载的，定义清楚之后，能节省很多无谓的爬取。更新策略：监控列表页来发现新的页面；定期check 页面是否过期等等。抽取策略：我们应该如何的从网页中抽取我们想要的内容，不仅仅包含最终的目标内容，还有下一步要抓取的url.抓取频率：我们需要合理的去下载一个网站，却又不失效率。

让我对“如何和爬虫对话 ”这个课题有了一些思考，下面归纳的主要用于迎合上面提到的爬虫“抓取策略”。

1、通过 robots.txt 和爬虫对话：搜索引擎发现一个新站，原则上第一个访问的就是 robots.txt 文件，可以通过 allow/disallow 语法告诉搜索引擎那些文件目录可以被抓取和不可以被抓取。

关于 robots.txt 的详细介绍：about /robots.txt另外需要注意的是：allow/disallow 语法的顺序是有区别的

2、通过 meta tag 和爬虫对话：比如有的时候我们希望网站列表页不被搜索引擎收录但是又希望搜索引擎抓取，那么可以通过＜meta name=“robots” content=“noindex，follow”＞告诉爬虫，其他常见的还有 noarchive，nosnippet，noodp 等。

3、通过 rel=“nofollow” 和爬虫对话：关于 rel=“nofollow” 最近国平写了一篇文章《如何用好 nofollow》很值得一读，相信读完之后你会有很大的启发。

4、通过 rel=“canonical” 和爬虫对话：关于 rel=“canonical” 谷歌网站站长工具帮助有很详细的介绍：深入了解 rel=“canonical”

5、通过网站地图和爬虫对话：比较常见的是 xml 格式 sitemap 和 html 格式 sitemap，xml 格式 sitemap 可以分割处理或者压缩压缩，另外，sitemap 的地址可以写入到 robots.txt 文件。

6、通过网站管理员工具和搜索引擎对话：我们接触最多的就是谷歌网站管理员工具，可以设定 googlebot 抓取的频率，屏蔽不想被抓取的链接，控制 sitelinks 等，另外，Bing 和 Yahoo 也都有管理员工具，百度有一个百度站长平台，内测一年多了仍旧在内测，没有邀请码无法注册。

另外，这里面还衍生出一个概念，就是我一直比较重视的网站收录比，所谓网站收录比=网站在搜索引擎的收录数/网站真实数据量，网站收录比越高，说明搜索引擎对网站的抓取越顺利。

暂时就想到这些，目的在于尝试性的探讨如何更有效的提高网站在搜索引擎的收录量。

权当抛砖引玉，欢迎各位补充！

备注：

网络爬虫（web crawler）又称为网络蜘蛛（web spider）是一段计算机程序，它从互联网上按照一定的逻辑和算法抓取和下载互联网的网页，是搜索引擎的一个重要组成部分。

本文作者：Bruce，原文地址。

来源：月光博客

Public @ 2017-01-01 16:22:28

百度搜索引擎基础知识

威海Spider 威海Baiduspider
2267

作为目前全球最大的中文搜索引擎，百度的搜索引擎资讯相关知识点如下： 1. 用户行为数据：百度通过分析用户搜索行为、点击行为、停留时间等数据，分析用户需求并为用户提供更准确的搜索结果。 2. 索引：百度通过爬取互联网上的网页，将其储存在索引库中，用户通过输入关键词来搜索相应的网页。 3. 算法：百度将用户需求、网页内容、链接等因素综合考虑，通过各种算法计算网页的相似度和排名，为用户提供最优质的

Public @ 2023-06-09 06:50:21

360浏览器模拟百度搜索引擎蜘蛛访问

威海Spider 威海Spider
2938

一般用在网站被挂马以后，直接访问没有问题，可以通过模拟百度或其他搜索引擎来访问，即可发现问题。比如下面的例子，直接访问没问题，使用模拟搜索引擎访问即可发现问题。比如访问一个针对搜索引擎挂马的网页：http://www.zttoten.com/index.php?rmlbgh=cbfmcm&westauditpageinfo=1 [这个地址可能会会失效]，这样就可以看到被挂马的情况。（默认情

Public @ 2015-12-15 16:22:27

网络爬虫（Spider）

威海Spider 威海Spider
2827

网络爬虫（又被称为网页蜘蛛，网络机器人，查找引擎蜘蛛，在FOAF社区中心，更常常的称为网页追逐者），是一种依照必定的规矩，主动的抓取万维网信息的程序或许脚本，别的一些不常运用的姓名还有蚂蚁，主动索引，模拟程序或许蠕虫

Public @ 2017-12-30 16:22:38

抢先式多线程网络蜘蛛

威海Spider 威海Spider
2877

Public @ 2023-02-24 22:25:29

Categories

Tags