前言
网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。
——百度百科
内容
爬虫的相关分类
- 通用爬虫
抓取系统重要的组成部分,抓取的是一整张页面
- 聚焦爬虫
建立在通用爬虫基础之上,抓取页面中特定的局部内容
- 增量式爬虫
检测网站中数据更新的情况,只会抓取网站中最新出来的数据
反爬机制
可以制定相关策略或者相关技术手段,可以防止爬虫程鑫进行网站数据的爬取
robots.txt
君子协议,规定了网站中哪些数据刻印被爬取而哪些数据不可被爬取
常用请求头信息
- User-Agent:请求载体的身份标识
- Connection:请求完毕之后,断开连接还是保持连接
- Content-Type:服务器响应回客户端的数据类型
requests模块
基于网络请求的模块,用于模拟浏览器发送请求
使用步骤(requests模块使用)
- 制定url
- 发起请求
- 获取响应数据
- 持久化存储数据