Skip to content

Асинхронный парсер официальной документации Python и документов PEP

Notifications You must be signed in to change notification settings

dmsnback/parser_pep

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

6 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Асинхронный парсер PEP

Асинхронный парсер официальной документации Python и документов PEP на базе фреймворка Scrapy.

Технологии

Python

Описание

Парсер выводит собранную информацию в два файла формата .csv.

  • В первый файл выводится список всех PEP: номер, название и статус

  • Второй файл содержит сводку по статусам PEP:

    • Сколько найдено документов в каждом статусе (статус, количество).
    • В последней строке этого файла стоит общее количество всех документов.

Скачанная информация сохраняется в папке results с указанием даты и времени.

Запуск парсера

  • Склонируйте репозиторий
git clone git@github.com:dmsnback/scrapy_parser_pep.git
  • Установите и активируйте виртуальное окружение
python3 -m venv venv

Для Windows

source venv/Scripts/activate

Для Mac/Linux

source venv/bin/activate
  • Установите зависимости из файла requirements.txt
pip install -r requirements.txt
  • Парсер запускается через терминал.
scrapy crawl pep

Автор

Вернуться в начало

About

Асинхронный парсер официальной документации Python и документов PEP

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages