Парсер сайтов объявлений недвижимости
Необходимо создать парсер, который будет собирать данные с сайтов недвижимости. Парсер должен быть способен обрабатывать страницы поиска объявлений и извлекать информацию о каждом объявлении, включая название, описание, цену, адрес, дату публикации и другие параметры. Данные должны быть сохранены в Google Sheets.
Функциональные требования:
Сбор данных:
Парсер должен автоматически переходить по ссылкам на страницах поиска и собирать данные о каждом объявлении.
Должна быть возможность указания URL-адресов для парсинга через конфигурационный файл.
Собранные данные должны быть структурированы и сохранены в таблицу Google Sheets.
Обработка данных:
Парсер должен форматировать даты публикации объявлений в нужный формат.
Нужно удалить все символы, кроме цифр и точки, из некоторых полей (например, цены).
Объявления должны быть проверены на уникальность перед добавлением в базу данных.
Многопоточность:
Для повышения производительности парсинга следует использовать многопоточность. Максимальное количество потоков должно быть настраиваемым через конфигурационный файл.
Логирование:
Весь процесс работы парсера должен быть логирован с использованием библиотеки loguru.
Обход блокировок:
Поскольку использование прокси не дало результата, необходимо найти альтернативные способы обхода блокировок сайтов.
Скрипты и боты