本工程是一个基于java实现的爬虫工具包,初衷是想能简单高效爬取互联网数据,我个人比较感兴趣的还是股票数据,因此测试用例全是爬的股票数据 目前只是个半成品,慢慢来吧。
- 支持http/https
html页面、restapi、文件流
- 文件下载
- 自动分页并发爬取数据
- http代理设置
❗ 👉 本项目初衷纯属技术交流,勿作商业用途❗
☑️ A股所有股票代码
☑️ 开盘交易日数据
☑️ 大盘指数(上证、深圳、沪深300)
☑️ 上市公司历史财报Excel下载
☑️ 历史分红
☑️ 公司简介
☑️ top10 股东
☑️ 股东人数
测试用例爬取的网站如下
同花顺
新浪财经
雪球
深交所
- lombok
- slf4j
- logback
- jsoup
- fastjson
- freemarker
- junit
- commons-io
下面是单元测试类,本工程所有测试用例全在这里 https://github.com/kingschan1204/easycrawl/tree/main/src/test/java/com/github/kingschan1204/easycrawl