python爬虫如果向指定网页发送带参数的get请求,那么就可以去抓取该服务器上指定网页或者是指定内容的数据,例如需要抓取站内某些指定搜索项时。所以下面文章主要介绍的内容就是python发送带参数get请求的方法解析,想学习的可以继续阅读参考一下。
1.目前主流的python版本都是3.6及其以上了,而这些版本都是用第三方库requests来完成爬虫程序的开发以抓取数据。所以在使用之前需要将其给下载安装好,打开命令行或者终端执行如下命令即可:
pip install requests -i https://pypi.tuna.tsinghua.edu.cn/simple
2.安装完成之后就可以在程序和脚本内导入其去使用了,那么带参数的get()请求仍然是通过这个同名方法来完成的,不过调用时需要去使用的参数多了几个。而这几个参数分别就是请求的链接url、请求时传入的参数数据params、以及绕过网页验证的请求头信息headers,详细代码示例如下所示:
import requests url = 'https://tieba.baidu.com/f?' params = {'kw':'小说', 'pn':'3'} headers = {'User-Agent' : 'Mozilla/5.0 (Windows NT 6.1; WOW64)'} html = requests.get(url=url, params=params, headers=headers).text print(html)
3.以上方法之中最为关键的就是params参数了,它里面的数据是字典键值对格式,并且会直接添加到url链接问号的位置作为替代。这样就可以实现访问该站点内指定页面的操作了,上面就是带参数并且实现了跳转到小说吧第三页来实现数据抓取的操作。
总的来说,python之中发送带参数的get()请求需要使用第三方库requests内的同名方法,并且这个参数需要写在方法中params的后面,请求时所带的参数必须是可以直接添加在url链接后的有效数据。