本项目目标1:抓取自己的博客园文章,转换为 Hexo 所用的Mardown格式,并且持久化保存。 方便大家将博客迁移到 Hexo 搭建的站点上。
本项目目标2: 制作个人博客园的年度报告
本项目具有以下功能:
- 支持将博客园的文章保存为html文件
- 支持将文章中的图片也保存下来
- 支持将html文件批量转换为mardown格式的文档
- 保存博客的图片到同名的文件夹下,能够在typora中实现图片预览。typora中如何实现图片预览可以参考Hexo博客写作与图片处理的经验
from blog2markdown import html2markdown
from blog2markdown import blog2html
# 将博客文章和博客用到的图片保存到本地,文章保存为html格式,图片保存到markdown文件夹下
# 输入博客的入口,则自动将所有博客文章下载到本地的 cnblogs-{blog-name}/html 文件夹下
b2h = blog2html()
b2h.get_cnblogs('https://www.cnblogs.com/ityouknow/')
# 将文件夹下的html文件批量转换为markdown文件
h2m = html2markdown()
h2m.convertFolder('html-path', 'markdown-path')
在做这个项目之前,试着查找了一些现有的文档,但是都没有办法成功的实现我的目标
- html2markdown:无法对整段的HTML进行解析,不支持table的解析和转换
- h2md:能够解析整段的HTML,不支持table
- [2020-07-09] 根据网友
marklove5102
创建的issure,增加了str
的支持 - [2020-04-13] 完善了支持的元素,完善了生成md的格式
- [2020-04-09] 最近几天调整了下递归方法,支持了 table\a\ul\li 等元素
- [2020-03-30] 创建 blog2markdown 的包,将相关操作都封装到包中
- [2020-03-16] 将Scrapy方式改为requests方式