Skip to content

moenn/ncwucrawler

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

36 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

功能

爬取华北水利水电大学的通知页面,可指定开始页面和结束页面。

爬取格式:  

  1. 若通知文章无附件,则直接将通知正文保存为文本文件,文件名为 [部门][标题][创建时间]。   无附件例子  
  2. 若通知文章带有附件,则创建一个文件夹,放置通知正文的文本文件和所有附件。
    文件夹:       有附件例子_文件夹   内容:
    有附件例子_  

依赖  

python3
requests
beautifulsoup4
lxml

使用方法  

  1. clone 此仓库到本地  
  2. 打开命令行, cd 到仓库目录 ncwu_crawler
  3. pip 安装依赖  pip install -r requirements
  4. 输入 python notice.py 运行

测试平台  

ubuntu 16.04
Windows 8,10

About

华北水利水电大学 (http://www.ncwu.edu.cn/) 相关的爬虫

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages