ZHYCarge的博客

旧平台,已不再维护,请点击下方链接转至新平台访问

0%

爬虫简介

前言

网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

​ ——百度百科

内容

爬虫的相关分类

  • 通用爬虫

抓取系统重要的组成部分,抓取的是一整张页面

  • 聚焦爬虫

建立在通用爬虫基础之上,抓取页面中特定的局部内容

  • 增量式爬虫

检测网站中数据更新的情况,只会抓取网站中最新出来的数据

反爬机制

可以制定相关策略或者相关技术手段,可以防止爬虫程鑫进行网站数据的爬取

robots.txt

君子协议,规定了网站中哪些数据刻印被爬取而哪些数据不可被爬取

常用请求头信息

  • User-Agent:请求载体的身份标识
  • Connection:请求完毕之后,断开连接还是保持连接
  • Content-Type:服务器响应回客户端的数据类型

requests模块

基于网络请求的模块,用于模拟浏览器发送请求

使用步骤(requests模块使用)

  • 制定url
  • 发起请求
  • 获取响应数据
  • 持久化存储数据
-------------我也是有底线的哦如需更多,欢迎打赏-------------