优草派  >   Python

python爬虫的基本流程是什么?爬虫的四个基本流程

翟嘉慧            来源:优草派

python爬虫的作用多到你想不到,之前学过爬虫的一些基本原理,今天一起来学习有关“python爬虫的基本流程是什么?爬虫的四个基本流程”,希望对大家有所帮助。

python爬虫的基本流程是什么?爬虫的四个基本流程

一 、用户获取网络数据的方式:

方式1:向浏览器提交请求--->获取网页代码--->解析成页面

方式2:模拟浏览器发送请求(获取网页代码)->提取需要的数据->存放于数据库或文件中

爬虫需要做的工作就是方式2。

1、发起请求

使用http库向目标站点发起请求,就相当于是发送有关Request

Request包含请求头、请求体等

Request模块有一个缺陷就是不能执行JS 和CSS 代码

2、获取响应内容

如果服务器能正常响应,就会得到一个Response

Response包含:html、json、图片、视频等

3、解析内容

解析html数据:利用正则表达式(RE模块)和第三方解析库

解析二进制数据:以wb的方式写入文件

解析json数据:使用json模块

4、保存数据

使用数据库(MySQL,Mongdb、Redis)对数据进行保存。

二、http协议 请求与响应

Request:用户将自己的信息通过浏览器(客户端)发送给服务器(服务端)

Response:服务器接收到请求后,分析用户发来的请求信息,然后返回数据,返回的数据可能会包含图片视频等。爬虫程序在模拟浏览器发送请求然后接收Response后,是要提取其中的有用数据。

三、 request

1、请求方式:

常见的请求方式:GET / POST

2、请求的URL

url全球统一资源定位符,用来定义互联网上一个唯一的资源,一张照片,一份文件都可以用来定义。

3、请求头

User-agent:请求头中需要有user-agent客户端配置,如果没有服务端可能将你当做一个非法用户host

cookies:cookie用来保存登录信息

需要注意的地方爬虫一般都会加上请求头

4、请求体

请求体

如果是get方式,请求体没有内容,url参数在get后面可直接看见

如果是post方式,请求体是format data

需要注意的是

1、登录窗口,文件上传等,信息都会被附加到请求体内

2、登录,输入错误的用户名密码,然后提交,就可以看到post,正确登录后页面通常会跳转,无法捕捉到post

四、 常见的响应状态码

200:代表成功

301:代表跳转

404:文件不存在

403:无权限访问

502:服务器错误

 以上就是关于“python爬虫的基本流程是什么?爬虫的四个基本流程”的简单介绍,感兴趣的同学可以继续关注哦,我会给大家继续更新有关python爬虫的内容。

【原创声明】凡注明“来源:优草派”的文章,系本站原创,任何单位或个人未经本站书面授权不得转载、链接、转贴或以其他方式复制发表。否则,本站将依法追究其法律责任。
TOP 10
  • 周排行
  • 月排行