各大网站爬虫,后续陆续上传源码,但是从不更新,仅供学习!!!
————————————————————————————————————————————————————————————————
OSS2存储_1.0:对接阿里云OSS对象存储服务器,这里实现的是图片存储共功能:对接第三方服务器,连接数据库,以及一些小工具的封装。
OSS2存储_2.0:在1.0的版本上新增了hash指纹去重(未实现),数据库保存指纹。
爬虫0594666:莆田鞋货源供给商网站,全站信息爬虫,包括youpa图片网对于的商品的图片爬虫。
s0594.com站爬虫:0594666下的一个子网站,全站爬虫。
flightclub爬虫1.0:飞行俱乐部,是一些关于潮鞋潮服介绍的网站,实现全站爬虫。
mysql连接池:mysql数据库连接工具。
QQ好友获取:获取所有的QQ好友账号。
获取QQ关系网:从一个QQ账号出发,多层级爬取好友的好友QQ账号。
爱企查:对已有的企业数据进行筛选、排查和更新。
存储模块封装_1.0:在OSS2基础上升级,真正意义上实现图片存储,封装了一些小工具,方便开发。
存储优化:在存储模块封装_1.0的基础上进行实现:最主要的是实现了简单的hash指纹去重,保存指纹,达到去重的目的。
夺冠魔方:小程序模板案例爬虫,封装了一些小工具。
集志达:小程序模板案例爬虫,封装了一些小工具。
数据处理demo:对疫情数据爬虫和实时监控,实现了简单的数据分析和展示。
淘宝爬虫:使用scrapy框架爬取淘宝网的商品信息。
一品威客:爬取平台上面的部分任务清单。
猪八戒:获取猪八戒外包平台上面的聊天窗口,为了实现多对象同时发送信息(未实现完全)。
装机命令:爬取网宿科技内用服务平台接口,对接CDN服务器的异常进行自动化运维。
桌面监控:监控win桌面,对接邮箱平台,实现监控桌面的功能。
BloomFilter.py:布隆过滤器的实现,一个工具,目前从未使用过,为了后期开发中可能会遇到。
install_python3.py:支持在linux系统下自动安装py3.6版本。
导师点评网.py:一个全国高校研究生导师的评价和师资网站,全站爬虫。
京东自动化1.0:采取京东SKU(商品型号),对接到京东云仓,实现全程自动化。
京东自动化2.0:在1.0版本上面修复了一些已知BUG,并进行了一些优化。
淘宝秒杀1.0:用web自动化工具实现监控淘宝秒杀页,实现web自动化提交订单秒杀功能(速度慢一些1.2s)。
淘宝秒杀2.0:用web自动化工具实现监控淘宝秒杀页,用协议请求提交订单功能,实现秒杀(速度较快0.5s)。
淘宝秒杀3.0:在2.0基础上优化了代码,改了一些BUG,优化页面风格,是一个较完整的exe桌面应用程序。
淘宝秒杀4.0:在3.0基础上优化了代码,更改了协议登录方式,是一个较完整的exe桌面应用程序,但是淘宝的防爬比较严重,设置代理好像没啥作用,我猜他应该检测账号的吧?如果程序死了别意外,一定是被反爬了,过5分钟再试试。
RSA长文本加密:可以加密长文本