Python怎么去抓取公众号的文章？Python爬虫爬取微信公众号方法

罗西汉 2022-04-20 08:56:46 来源：优草派

很多小伙伴在学习了爬虫之后都能够使用它去抓取一些网页上的数据了，但是最近有小伙伴问我微信公众号上的文章要怎么去抓取出来。那这一篇文章将会以实际的代码示例来介绍如何去使用python爬虫抓取微信公众号的文章。

1.下载wkhtmltopdf1这个应用程序，它可以将HTML格式的数据转换成PDF格式的。

2.打开python编辑器，新建一个python项目命名为wxgzhPDF并在里面创建一个空白的python文件。打开编辑器的终端窗口输入下面的命令来下载所需要的库，如下所示：

pip install wechatsogou --upgrade
pip install pdfkit

3.下载完成后在python文件的开头写导入模块的代码以及初始化抓取公众号文章的API，如下所示：

import os
import pdfkit
import datetime
import wechatsogou
ws_api = wechatsogou.WechatSogouAPI(captcha_break_time=3)

4.导入模块之后就可以来编写抓取公众号文章的代码了，这里的话可以使用一个函数将代码包括起来方便调用，如下所示：

# 这里的三个参数为公众号文章的url，文章标题以及存储路径
def url2pdf(url, title, targetPath):
    try:
        content_info = ws_api.get_article_content(url)
    except:
        return False
    # 对HTML格式进行处理
    html = f'''{title}{title}{content_info['content_html']}'''
try:
# 调用第一步的程序转为pdf格式并存储
        path_wk="E:/softwareAPP/wkhtmltopdf/bin/wkhtmltopdf.exe";
        config=pdfkit.configuration(wkhtmltopdf=path_wk)
        pdfkit.from_string(input=html, output_path=targetPath,configuration=config)
    except:
        # 处理文章标题，把特殊符号去掉
        filename = datetime.datetime.now().strftime('%Y%m%d%H%M%S') + '.pdf'
        pdfkit.from_string(html, targetPath + os.path.sep + filename)

5.函数创建完毕后就可以直接去调用了，代码如下：

# 判断公众号名称是否正确
if __name__ == '__main__':
    url2pdf("这里是文章的url", "这里是公众号文章名称","G:/test/hbase文档.pdf" )

以上就是python爬虫抓取公众号文章并转为PDF格式保存的详细代码示例解析了。

Python python爬虫

【原创声明】凡注明“来源：优草派”的文章，系本站原创，任何单位或个人未经本站书面授权不得转载、链接、转贴或以其他方式复制发表。否则，本站将依法追究其法律责任。

相关问答: sql判断字段是否存在; MySQL查看表命令; csv文件python; python键值对; anaconda3安装后找不到; cpu系统是什么

相关阅读: 1 gre怎么安装？; 2 python封装成exe文件？; 3 python判断一个文件是否存在？; 4 python后台执行命令？; 5 python友好时间？; 6 python下载到d盘能用吗？

热门标签

python人工智能 python代码 python窗口 python文件 python编写规则 python重载 python枚举类少儿编程 python数据处理 python软件

TOP 10

周排行
月排行

Python怎么去抓取公众号的文章？Python爬虫爬取微信公众号方法

微信扫码，学习更方便