From 2f8abcd54c9399ec9f0e68fb632279bc100a1678 Mon Sep 17 00:00:00 2001 From: Lewis Chen Date: Tue, 30 Apr 2019 22:41:12 +0800 Subject: [PATCH] NDRC NEA Scraper V0.1 --- README.md | 4 ++-- 1 file changed, 2 insertions(+), 2 deletions(-) diff --git a/README.md b/README.md index ae288e3..b5d2b2a 100644 --- a/README.md +++ b/README.md @@ -42,8 +42,8 @@ Scrapy ### 细节 1. 增量爬取(已经爬取的不重复爬取,利用DeltaFetch库,使用Berkeley DB) -1. 使用百度AI平台对文件扫描件进行图像识别 -1. 读取附件防阻塞,读取大型超过设定时间 +1. 使用百度AI平台对文件扫描件进行图像识别(主要是国家能源局) +1. 读取附件防阻塞,读取大型PDF超过设定时间自动放弃 # Elasticsearch搜索引擎