说到robots,可能一些资深网虫都不知道这是什么,简单的来说,robots是网站与搜索引擎之间的一纸君子协议,可以简单规范允许或者不允许搜索引擎所抓取某些网页内容,下面的视频就为大家详细讲解下robots协议。 robots协议的本质 robots协议,即机器人协议,全称网络爬虫排除标准,本质是位于网站根目录的一个名为robots.txt的文本文件,作用就是用于网站与搜索引擎进行沟通。 1994年,robots协议由一位荷兰籍网络工程师提出,初衷是为了保护网站后台信息和减轻服务器压力,当搜索引擎蜘蛛(spider)访问一个站点时,会首先检测这个站点是否存在robots.txt文件,如果...
阅读全文