前言

网络爬虫（又称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

——百度百科

内容

抓取系统重要的组成部分，抓取的是一整张页面

建立在通用爬虫基础之上，抓取页面中特定的局部内容

检测网站中数据更新的情况，只会抓取网站中最新出来的数据

可以制定相关策略或者相关技术手段，可以防止爬虫程鑫进行网站数据的爬取

君子协议，规定了网站中哪些数据刻印被爬取而哪些数据不可被爬取

基于网络请求的模块，用于模拟浏览器发送请求