Парсер сайтов на Python
Техническое задание на разработку парсера на Python
1. Общее описание
Необходимо разработать парсер на языке Python для автоматического сбора данных с веб-сайта(ов). Парсер должен извлекать структурированную информацию, сохранять её в базу данных и/или файл определённого формата.
2. Функциональные требования
Поддержка работы через requests или selenium (в зависимости от необходимости рендеринга JavaScript).
Извлечение данных по заданным критериям (указать, какие данные извлекать).
Поддержка обхода пагинации (если применимо).
Обход блокировок (User-Agent, прокси, задержки запросов).
Логирование работы скрипта.
Обработка ошибок (повтор запросов при неудачах, игнорирование проблемных страниц).
Экспорт данных в:
.csv, .json или .xlsx
Базу данных (PostgreSQL, MySQL, SQLite — указать, если необходимо).
3. Процесс работы парсера
1.Чтение настроек из config.py (URL, заголовки, задержки и т. д.).
2.Отправка HTTP-запроса (requests или selenium).
3.Извлечение данных с нужных элементов HTML (BeautifulSoup или XPath).
4.Обход пагинации (если применимо).
5.Очистка и нормализация данных.
6.Сохранение данных в файл или базу данных.
7.Логирование результатов работы.
.
Скрипты и боты