- mobile_phone_spider.py: 抓取了几个提供免费接收手机验证码的网站,获取有效的手机号码,启动tornado_app/captcha_app.py,使用server酱的上行命令功能,在微信server酱公众号中使用语音,说出"注册xxx",就会发送一个手机号码供你注册某个服务,当你点击了获取验证码之后,大约一到两分钟微信就会收到相关验证码
- 为每个request增加默认的error_back,如果它没有error_back 的话,这样就可以减少代码量
- 关键字过滤(从response过滤):
- 从 response.text 过滤关键词
- 从 response.url 过滤关键词
- 从 response.header 过滤关键词
- 增加cookie 池的功能, 使得request能够添加额外的cookie(比如登录之后获取的cookie)
- 检查response body 在 http status code 为200的时候是否为空
- 随机增加user-agent
- 切换代理
- 根据item的 _id 字段或者 _dup_str 字段去重
- 根据settings中定义的 FIELDS_JSON_SCHEMA,检查是否包含需要的字段
- 将一个response生成的parsed_item组装为列表,以便pipeline批量写入到目标数据库,提高效率
- dianping_css_crack.py: 破解大众点评加密数字和文字