Skip to content

Latest commit

 

History

History
26 lines (10 loc) · 954 Bytes

zheng-ti-jia-gou.md

File metadata and controls

26 lines (10 loc) · 954 Bytes

cheetah整体架构

cheetah依赖httpclient进行请求的封装和下载,使用jsoup进行网页解析,使用fastjson进行json的转换操作。

项目使用slf4j日志框架,您可以自由选择其他日志框架与之配合。

cheetah分为3个子模块。分别是cheetah-corecheetah-datastorecheetah-sample。介绍如下:

  • cheetah-core

    cheetah核心包,包括下载器、选择器、结果处理器等爬虫基本元素。

  • cheetah-datastore

    cheetah的数据处理与储存模块。你可以选择合适的储存介质。目前支持ElasticSearchRedis储存。

  • cheetah-sample

    爬虫示例,如知乎豆瓣电影网易云音乐等知名网站的爬虫demo。