很多小伙伴在学习了爬虫之后都能够使用它去抓取一些网页上的数据了,但是最近有小伙伴问我微信公众号上的文章要怎么去抓取出来。那这一篇文章将会以实际的代码示例来介绍如何去使用python爬虫抓取微信公众号的文章。
1.下载wkhtmltopdf1这个应用程序,它可以将HTML格式的数据转换成PDF格式的。
2.打开python编辑器,新建一个python项目命名为wxgzhPDF并在里面创建一个空白的python文件。打开编辑器的终端窗口输入下面的命令来下载所需要的库,如下所示:
pip install wechatsogou --upgrade pip install pdfkit
3.下载完成后在python文件的开头写导入模块的代码以及初始化抓取公众号文章的API,如下所示:
import os import pdfkit import datetime import wechatsogou ws_api = wechatsogou.WechatSogouAPI(captcha_break_time=3)
4.导入模块之后就可以来编写抓取公众号文章的代码了,这里的话可以使用一个函数将代码包括起来方便调用,如下所示:
# 这里的三个参数为公众号文章的url,文章标题以及存储路径 def url2pdf(url, title, targetPath): try: content_info = ws_api.get_article_content(url) except: return False # 对HTML格式进行处理 html = f'''{title}{title}{content_info['content_html']}''' try: # 调用第一步的程序转为pdf格式并存储 path_wk="E:/softwareAPP/wkhtmltopdf/bin/wkhtmltopdf.exe"; config=pdfkit.configuration(wkhtmltopdf=path_wk) pdfkit.from_string(input=html, output_path=targetPath,configuration=config) except: # 处理文章标题,把特殊符号去掉 filename = datetime.datetime.now().strftime('%Y%m%d%H%M%S') + '.pdf' pdfkit.from_string(html, targetPath + os.path.sep + filename)
5.函数创建完毕后就可以直接去调用了,代码如下:
# 判断公众号名称是否正确 if __name__ == '__main__': url2pdf("这里是文章的url", "这里是公众号文章名称","G:/test/hbase文档.pdf" )
以上就是python爬虫抓取公众号文章并转为PDF格式保存的详细代码示例解析了。