Skip to content
This repository has been archived by the owner on Feb 8, 2022. It is now read-only.

tkliuxing/bookspider

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

【R.I.P.】 Book Spider

概况

本项目已停止维护!所用技术和依赖库可能已过时,请谨慎fork!仅供学习参考!

  1. 包含一个Scrapy爬虫项目
  2. 包含一个Django站点, 用来显示书籍
  3. 爬虫与站点的数据模型相关联
  4. 爬虫实现了以下站点的内容收集:
网站域名 爬虫名称
www.86696.cc douluo
  1. 站点已完成功能:
  • 用户登录
  • 用户书架
  • 评论系统
  • 书籍书签的增加与删除
  • 起点推荐排名获取
  • 手机端样式的适配
  • 按书籍名称搜索
  • 按作者浏览
  • 分类浏览
  • 排行榜
  • 点击排行
  • 收藏排行
  • 推荐排行
  1. 未完成事项:
  • 书目整理
  • 投票系统
  • 书籍更新内容获取方式

安装使用

  1. 安装PostgreSQL(>=9.4)
  2. 安装Python 2.7
  3. 安装Pip
  4. 使用pip安装Scrapy(1.0.) Django(1.9.)
  5. clone本项目
  6. cd booksite && python setup.py develop
  7. 配置Django项目的 local_settings.py 文件,位于:PROJECT_DIR/booksite/booksite,配置数据库, 如:
	DATABASES = {
		'default': {
			'ENGINE': 'django.db.backends.postgresql',
			'NAME': 'bookspider',
			'USER': 'spider',
			'PASSWORD': 'admin',
			'HOST': '127.0.0.1',
		}
	}
  1. 生成数据库 python manage.py syncdb
  2. 进入目录 PROJECT_DIR/bookspider
  3. 使用Scrapy进行抓取, scrapy crawl "爬虫名称"