Skip to content

Latest commit

 

History

History
23 lines (15 loc) · 634 Bytes

chuang-jian-yi-ge-shi-xian-lei.md

File metadata and controls

23 lines (15 loc) · 634 Bytes

创建一个实现类

所有的爬虫类都需要实现PageProcessor这个接口。我们把爬虫类命名为ZhihuCrawler,目前像是这样:

public class ZhihuCrawler implements PageProcessor{

    @Override
    public void process(Page page, CheetahResult result) {

    }

    @Override
    public SiteConfig setAndGetSiteConfig() {
        return null;
    }
}

这里有两个必须实现的方法:process()setAndGetSiteConfig()

process()方法用于解析你需要爬取的网站并处理其结果,setAndGetSiteConfig用于设置网站的userAgent、cookie及爬取速度等配置。