使用Python爬虫的脚本抓取网页的文本内容是比较简单的,只要获取标签内的文本数据就行了。但是图片的格式会有很多的不同,下文就详细介绍python使用requests库爬取图片的详细步骤。
1.导入所需要使用的库并复制想要抓取图片的页面在变量之中,代码如下:
import requests import json import os # url变量内的值根据自己想要抓取图片的网页链接进行赋值 url = https://...
2.在打开的网页中按下F12打开开发者模式,在出现的界面中找到Network选项,然后在鼠标移动到随便一张图片上面。在开发者界面的Headers的Request URL属性中就会显示这个图片的相关属性了,将其复制下来。
3.使用requests库与网站进行请求连接,并设置请求头的属性防止被网站拦截,代码如下:
header = {'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; WOW64), 'Cookie' : 'uuid_tt_dd=10_30826311340-1612520858912-361156} # 向网站发送请求并转为JSON格式的数据 data = requests.get(url,headers = header).text data_dist = json.loads(data)
4.去除重复的图片并重命名
differ = math.sqrt(reduce(operator.add, list(map(lambda a,b: (a-b)**2,histogram1, histogram2)))/len(histogram1))
5.将图片保存在一个空的文件内
request.urlretrieve(url,filename='D:\rycpython...\'+differ)
以上就是关于“Python如何使用requests爬取图片?使用方法看这里”的全部内容了,想要了解更多python的实用知识和代码示例可以在网页顶部栏目中找到python查看更多哦。