在这个项目中,我们将带你深入探索 Python 爬虫的世界。从基础的网页结构到高级的数据获取技巧,我们的课程为你准备了全面的实战演练。
本项目计划用于2024成都理工大学人工智能协会技术培训使用。
- 第0节 网页前端基础
- 第1节 爬虫基础
- 第2节 图片爬取
- 第3节 小说爬取
- 第4节 使用API获取数据
- 第5节 使用selenium爬取动态内容
- 第6节 使用scrapy框架进行爬虫
- 演示代码1 使用正则表达式获取特定文本
- 演示代码2 使用高德地图API爬经纬度数据
- 演示代码3 使用Selenium爬取b站视频评论
- 演示代码4 使用异步并发进行爬虫
- 掌握HTML的语言逻辑和文件基本结构
- 能够识别HTML的常用标签,掌握通用容器的概念
- 了解HTML和CSS的关系
- 了解HTML和DOM、JavaScript之间的关系
- 初步了解爬虫程序的设计逻辑
- 初步掌握request、beautifulsoup库的用法
- 学会用os库创建文件夹并保存文件
- 了解HTTP/HTTPS协议的基本内容
- 理解爬虫的伦理和法律
- 进一步掌握爬虫程序的设计逻辑
- 进一步掌握beautifulsoup库的用法
- 学会异常处理、使用代理头等爬虫优化方法
- 学会通过读取csv文件进行爬虫(pandas基础)
- 进一步了解爬虫程序的设计逻辑
- 进一步掌握beautifulsoup、os库的用法
- 学会延长响应时间、增加请求次数等爬虫优化方法
- 学会将请求失败的日志信息输出到csv文件中(pandas基础)
- 进一步掌握request库的用法
- 学会使用JSON文件保存数据
- 学会看懂官方文档
- 进一步掌握os库的用法
- 学会下载安装chrome和chromedriver
- 了解使用selenium进行爬虫的流程
- 感受所谓“框架”的含义
- 了解使用scrapy框架进行爬虫的基本流程
演示代码不做教学要求(即不用手把手书写过程),而是作为正面/反面教材去讲解其中值得学习/反思的地方
本项目采用 MIT 许可证。详情请参阅 LICENSE 文件。