Skip to content

Latest commit

 

History

History
22 lines (10 loc) · 1.4 KB

pa-chong-liu-cheng-she-ji.md

File metadata and controls

22 lines (10 loc) · 1.4 KB

爬虫流程设计

在软件开发中,都有一些固定的模式及流程步骤,把这些步骤抽象出来并加以封装,这就是所谓的框架。本爬虫框架同样如此,需要经历诸如下载原网页、解析网页、获取数据等步骤。理解这些步骤对框架的理解有至关重要的作用,下面便是cheetah爬取数据的大致步骤模块。

1. 下载器部分

位于downloader包内,主要负责下载网页及下载时配置cookie、header等的操作。依赖 httpclient 类库。cheetah封装了下载操作,也就是说该部分对用户不可见。

2. 解析网页

位于selector 包内,用来解析下载来的网页并获取解析结果。解析过程依赖jsoup类库。用户需在自己编写的爬虫类中使用此部分提供的API完成网页的解析操作,我们在稍后将会看到。

3. 处理结果

位于 handler 包内,用于处理爬取结果。handler包内包含了各种处理结果的方法,如输出到控制台、储存到redis、elasticsearch等。我们仅需在开启爬虫时设置你想要的处理方式即可。


以上就是一个爬虫主要经历的步骤。想想也很容易理解是不是?将这些步骤串联起来再丰富一些辅助功能,比如定时爬取、承接上次的爬取等功能,就是一个爬虫的架构了。