爬虫流程设计

在软件开发中，都有一些固定的模式及流程步骤，把这些步骤抽象出来并加以封装，这就是所谓的框架。本爬虫框架同样如此，需要经历诸如下载原网页、解析网页、获取数据等步骤。理解这些步骤对框架的理解有至关重要的作用，下面便是cheetah爬取数据的大致步骤模块。

位于downloader包内，主要负责下载网页及下载时配置cookie、header等的操作。依赖 httpclient 类库。cheetah封装了下载操作，也就是说该部分对用户不可见。

位于selector 包内，用来解析下载来的网页并获取解析结果。解析过程依赖jsoup类库。用户需在自己编写的爬虫类中使用此部分提供的API完成网页的解析操作，我们在稍后将会看到。

位于 handler 包内，用于处理爬取结果。handler包内包含了各种处理结果的方法，如输出到控制台、储存到redis、elasticsearch等。我们仅需在开启爬虫时设置你想要的处理方式即可。

以上就是一个爬虫主要经历的步骤。想想也很容易理解是不是？将这些步骤串联起来再丰富一些辅助功能，比如定时爬取、承接上次的爬取等功能，就是一个爬虫的架构了。

Provide feedback