优草派 > Python

python爬虫的基本流程是什么？爬虫的四个基本流程

翟嘉慧 2022-07-05 16:17:24 来源：优草派

python爬虫的作用多到你想不到，之前学过爬虫的一些基本原理，今天一起来学习有关“python爬虫的基本流程是什么？爬虫的四个基本流程”，希望对大家有所帮助。

一、用户获取网络数据的方式：

方式1：向浏览器提交请求--->获取网页代码--->解析成页面

方式2：模拟浏览器发送请求(获取网页代码)->提取需要的数据->存放于数据库或文件中

爬虫需要做的工作就是方式2。

1、发起请求

使用http库向目标站点发起请求，就相当于是发送有关Request

Request包含请求头、请求体等

Request模块有一个缺陷就是不能执行JS 和CSS 代码

2、获取响应内容

如果服务器能正常响应，就会得到一个Response

Response包含：html、json、图片、视频等

3、解析内容

解析html数据：利用正则表达式（RE模块）和第三方解析库

解析二进制数据:以wb的方式写入文件

解析json数据：使用json模块

4、保存数据

使用数据库（MySQL，Mongdb、Redis）对数据进行保存。

二、http协议请求与响应

Request：用户将自己的信息通过浏览器（客户端）发送给服务器（服务端）

Response：服务器接收到请求后，分析用户发来的请求信息，然后返回数据，返回的数据可能会包含图片视频等。爬虫程序在模拟浏览器发送请求然后接收Response后，是要提取其中的有用数据。

三、 request

1、请求方式：

常见的请求方式：GET / POST

2、请求的URL

url全球统一资源定位符，用来定义互联网上一个唯一的资源，一张照片，一份文件都可以用来定义。

3、请求头

User-agent：请求头中需要有user-agent客户端配置，如果没有服务端可能将你当做一个非法用户host

cookies：cookie用来保存登录信息

需要注意的地方爬虫一般都会加上请求头

4、请求体

请求体

如果是get方式，请求体没有内容，url参数在get后面可直接看见

如果是post方式，请求体是format data

需要注意的是

1、登录窗口，文件上传等，信息都会被附加到请求体内

2、登录，输入错误的用户名密码，然后提交，就可以看到post，正确登录后页面通常会跳转，无法捕捉到post

四、常见的响应状态码

200：代表成功

301：代表跳转

404：文件不存在

403：无权限访问

502：服务器错误

以上就是关于“python爬虫的基本流程是什么？爬虫的四个基本流程”的简单介绍，感兴趣的同学可以继续关注哦，我会给大家继续更新有关python爬虫的内容。

Python python爬虫 python流程控制

【原创声明】凡注明“来源：优草派”的文章，系本站原创，任何单位或个人未经本站书面授权不得转载、链接、转贴或以其他方式复制发表。否则，本站将依法追究其法律责任。

相关问答: sql判断字段是否存在; MySQL查看表命令; csv文件python; python键值对; anaconda3安装后找不到; cpu系统是什么

相关阅读: 1 gre怎么安装？; 2 python封装成exe文件？; 3 python判断一个文件是否存在？; 4 python后台执行命令？; 5 python友好时间？; 6 python下载到d盘能用吗？

热门标签

python变量 python就业方向 python流程控制 python基础 python方法 python特点 Django框架 python算法 python工作 python技巧

TOP 10

周排行
月排行

python爬虫的基本流程是什么？爬虫的四个基本流程

微信扫码，学习更方便