Skip to content

使用python爬取指定微信公众号的文章

Notifications You must be signed in to change notification settings

Padavan2019/py_wechat

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

9 Commits
 
 
 
 

Repository files navigation

py_wechat

暂停更新 使用python爬取指定微信公众号的文章

先如今我知道的有两种思路:

第一种思路:进入公众号管理平台,在那个网页里进行爬取,但是速度不可过快,否则会被封,缺点是爬的很慢,不太稳定

第二种思路:使用fiddler对指定公众号进行抓包,通过过滤出微信文章,然后把json格式的数据包全都保存到本地,再使用json批量进行数据提取

两种方法都试过,但是最好使用第二种思路,本次我就是用的第二种思路 要记得设置过滤条件:mp.weixin.qq.com/mp/profile_ext?action=getmsg

我抓包抓出来的是这样的

image

格式化后是这样

image

然后使用python获取里面标题、发布时间、文章url等等 我保存在excel里面的

image

当然也可以把网页下载到本地,或者转成PDF格式

image

网页里的图片可以保存在PDF中,视频就不能保存了。 本项目是因为需要查看很多文章做数据分析,做研究。

本次只是提供思路,并不进行恶意爬取。 请勿用于商业用途,否则一切后果自行承担。

About

使用python爬取指定微信公众号的文章

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published