Парсер, разработанный с использованием фреймворка Scrapy, разработан для получения информации о товарах интернет-магазина maksavit.ru. Он осуществляет сбор данных о товарах из списка заданных категорий и предоставляет их в виде списка словарей, сохраняемых в файле формата .json. Выходные данные для каждого товара представлены в формате словаря, содержащего информацию о товаре, такую как дата и время сбора, уникальный код товара, ссылка на страницу товара, название товара, маркетинговые теги и другие характеристики.
- Клонируйте проект на свой компьютер.
- Создайте и активируйте виртуальное окружение, обновите менеджер пакетов pip и установите зависимости из файла requirements.txt.
- Для запуска парсера введите в терминале:
scrapy crawl maksavit
Парсер сохраняет данные в формате JSON в папку results в файл с именем scrapy_result.json и представляет собой список словарей. Для каждого товара создается отдельный словарь со следующими полями:
timestamp
- дата и время сбора данных в формате timestamp.RPC
- уникальный код товара.url
- ссылка на страницу товара.title
- название товара с учетом цвета или объема, если они указаны в карточке товара.marketing_tags
- список маркетинговых тэгов.brand
- бренд товара.section
- иерархия разделов.price_data
- информация о цене товара.stock
- информация о наличии товара.assets
- информация об изображениях и видео товара.metadata
- дополнительная информация о товаре.variants
- количество вариантов у товара в карточке (цвет или объем/масса).