python3.x 爬虫小项目

自己平时做数据分析时爬的数据就当做练习爬虫了 😸

抖音APP视频爬取下载(Fiddler)---2018/2
scrapy学习(依赖官方文档) ---2018/3
xpath学习 ---2018/3
文件下载(浏览器下载的太慢了,ubuntu上还未发现好的下载软件,就自己简单实现了一个) ---/2018/3
爬取ted的视频的文本内容，为后续的分析准备
WIFI 暴力破解

添加百度文库的爬取（最近在用百度文库，经常提示粘贴超过用量，就弄了该脚本）
并发爬取IMDB的数据

环境搭建与讲解

1. qq空间说说爬取

步骤:

通过模拟登录获取,因为说说中的请求链接需要的参数是在cookie中获取的,当然也可以通过其他的方式获取对应的cookies. 其中g_qzonetoken的获取是在网页的源码中获取的,
分析说说的链接, 构造参数, 传入即可

环境:

selenuim
request

注意事项

若是使用的是chrome, 注意chromedriver的版本和自己chrome的版本对应
使用模拟登录, 注意设置合适的睡眠时间, 避免还未执行登录操作, 后续的程序就直接执行了(可添加判断, 未做)

TODO

并发爬取
支持断点爬取

Name		Name	Last commit message	Last commit date
Latest commit History 53 Commits
Maoyantop100		Maoyantop100
aqistudy		aqistudy
baidu		baidu
bing		bing
concurrentSpider		concurrentSpider
douban		douban
douyin		douyin
downloader		downloader
geetest		geetest
github		github
image		image
jingdong		jingdong
novel		novel
qq		qq
saike		saike
scrapyLearnings		scrapyLearnings
starbucks		starbucks
strong		strong
ted		ted
vip_downloader		vip_downloader
wangyiMusic		wangyiMusic
weixin		weixin
wifi_crack		wifi_crack
xpath		xpath
.gitignore		.gitignore
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

python3.x 爬虫小项目

环境搭建与讲解

1. qq空间说说爬取

步骤:

环境:

注意事项

TODO

About

Releases

Packages

Languages

Winniekun/spider

Folders and files

Latest commit

History

Repository files navigation

python3.x 爬虫小项目

环境搭建与讲解

1. qq空间说说爬取

步骤:

环境:

注意事项

TODO

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages