Асинхронный парсер официальной документации Python и документов PEP на базе фреймворка Scrapy.
Парсер выводит собранную информацию в два файла формата .csv
.
-
В первый файл выводится список всех PEP: номер, название и статус
-
Второй файл содержит сводку по статусам PEP:
- Сколько найдено документов в каждом статусе (статус, количество).
- В последней строке этого файла стоит общее количество всех документов.
Скачанная информация сохраняется в папке results
с указанием даты и времени.
- Склонируйте репозиторий
git clone git@github.com:dmsnback/scrapy_parser_pep.git
- Установите и активируйте виртуальное окружение
python3 -m venv venv
Для Windows
source venv/Scripts/activate
Для Mac/Linux
source venv/bin/activate
- Установите зависимости из файла
requirements.txt
pip install -r requirements.txt
- Парсер запускается через терминал.
scrapy crawl pep