优草派  >   Python

Python怎么去抓取公众号的文章?Python爬虫爬取微信公众号方法

罗西汉            来源:优草派

很多小伙伴在学习了爬虫之后都能够使用它去抓取一些网页上的数据了,但是最近有小伙伴问我微信公众号上的文章要怎么去抓取出来。那这一篇文章将会以实际的代码示例来介绍如何去使用python爬虫抓取微信公众号的文章。

Python怎么去抓取公众号的文章?Python爬虫爬取微信公众号方法

1.下载wkhtmltopdf1这个应用程序,它可以将HTML格式的数据转换成PDF格式的。

2.打开python编辑器,新建一个python项目命名为wxgzhPDF并在里面创建一个空白的python文件。打开编辑器的终端窗口输入下面的命令来下载所需要的库,如下所示:

pip install wechatsogou --upgrade
pip install pdfkit

3.下载完成后在python文件的开头写导入模块的代码以及初始化抓取公众号文章的API,如下所示:

import os
import pdfkit
import datetime
import wechatsogou
ws_api = wechatsogou.WechatSogouAPI(captcha_break_time=3)

4.导入模块之后就可以来编写抓取公众号文章的代码了,这里的话可以使用一个函数将代码包括起来方便调用,如下所示:

# 这里的三个参数为公众号文章的url,文章标题以及存储路径
def url2pdf(url, title, targetPath):
    try:
        content_info = ws_api.get_article_content(url)
    except:
        return False
    # 对HTML格式进行处理
    html = f'''{title}{title}{content_info['content_html']}'''
try:
# 调用第一步的程序转为pdf格式并存储
        path_wk="E:/softwareAPP/wkhtmltopdf/bin/wkhtmltopdf.exe";
        config=pdfkit.configuration(wkhtmltopdf=path_wk)
        pdfkit.from_string(input=html, output_path=targetPath,configuration=config)
    except:
        # 处理文章标题,把特殊符号去掉
        filename = datetime.datetime.now().strftime('%Y%m%d%H%M%S') + '.pdf'
        pdfkit.from_string(html, targetPath + os.path.sep + filename)

5.函数创建完毕后就可以直接去调用了,代码如下:

# 判断公众号名称是否正确
if __name__ == '__main__':
    url2pdf("这里是文章的url", "这里是公众号文章名称","G:/test/hbase文档.pdf" )

以上就是python爬虫抓取公众号文章并转为PDF格式保存的详细代码示例解析了。

【原创声明】凡注明“来源:优草派”的文章,系本站原创,任何单位或个人未经本站书面授权不得转载、链接、转贴或以其他方式复制发表。否则,本站将依法追究其法律责任。
TOP 10
  • 周排行
  • 月排行