Categories


Tags


robots协议

 Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫扫除规范”(RobotsExclusionProtocol),网站经过Robots协议通知查找引擎哪些页面可以抓取,哪些页面不能抓取

  是查找引擎的一部分来定位和索引互联网上的每个可能答复查找恳求的网页,一般只在评论robots的HTML标签或许robots.txt文件的时分运用。


Public @ 2010-10-17 15:26:25

超文本

超文本(hypertext)是指一种将文本、图像、音频、视频等多种媒体形式组合在一起,互相关联并形成一个有机整体的文本形式。它可以通过超链接(link)使多个文本段落、单词、图像和视频等内容相互连接起来,形成一张网状结构的文本信息集合,从而实现快速访问和跳转。超文本被广泛应用于Web页面设计、网络资料检索、教育、出版和文献记录等领域。它既丰富了信息交流的方式,又拓展了信息传递的载体,为传递更多、更

Public @ 2023-04-26 03:00:09

robots

robots是网站跟爬虫间的协议,用简单直接的txt格式文本方式告诉对应的爬虫被允许的权限,也就是说robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。来源:360站

Public @ 2014-01-16 16:09:19

更多您感兴趣的搜索