Skip to content

Latest commit

 

History

History
20 lines (10 loc) · 1.02 KB

she-zhi-api-pa-qu.md

File metadata and controls

20 lines (10 loc) · 1.02 KB

分析网站

在之前的豆瓣电影网站中,从电影分类页 https://movie.douban.com/tag 进去根据分类爬取即可。新版网站做了改动,电影详情页的链接也拿不到了。

打开调试器,进入Network选项,选取XHR,仔细查找便能发现请求电影数据的请求。

![](/assets/屏幕快照 2017-10-28 13.51.23.png)

由图可知最后一个请求为请求电影数据的。该请求链接为

https://movie.douban.com/j/new_search_subjects?sort=T&range=0,10&tags=&start=0

其中的几个参数不难猜测其含义,这样我们就可以通过模拟这个链接给豆瓣发送请求获取数据了。不过,这样获取的每个电影的数据不是完全的。它没有上映日期、影片类型等信息。要想获取详细数据还需要爬取它的详情页。

这样一下思路就清晰了,我们利用API JSON获取每个影片的详情页URL,再根据这些URL爬取数据(详情页可以直接通过解析网页获取结果)。