一系列根据各论坛 / 网站帖子 / 文章 ID 生成指定格式 markdown 文件的爬虫。
目前功能较为完善的网站:
- 贴吧
- 虎扑
- bilibili
- NGA
- Stage1
安装 Python 并下载本仓库,在仓库目录输入命令如下:
python xxx.py id
其中 xxx.py
是对应平台的文件名称,id
是帖子 ID。
如需正常使用以 GitHub 作为图床的功能,请确保目录满足以下条件:
.
├─hibikilogy.github.io
│ └─images
└─spiders(当前目录)
图片需要提交 hibikilogy.github.io
内的更改后方可查看。如果有更好的解决方法,欢迎贡献。
咕咕咕
- 全局
- 自动上传图床。
- 模块化。
- 当 sm.ms 图床不可用时使用 GitHub 图床。
- 修改 html2text 使其不自动删除 <span> 标签。
- 将第一幅图自动设置为头图。
- NGA 文章内的图片链接会中间换行,咋办?
- 面向对象。
- Bilibili
- 基本功能实现。
- 虎扑
- 基本功能实现。
- NGA
- 基本功能实现。
- 修复只能找到 UID 的问题。
- S1
- 基本功能实现。
- 贴吧
- 基本功能实现。
-
修复日期有时变成“一楼”的问题。似乎暂无可靠的方法。
- 图床 sm.ms 限制每个 IP 一小时上传 100 张图片(如果上传太频繁似乎会变成每周 50 张)。
只要功能 OK 代码可观性高就行了。