Нужен парсер ВИ
Приветствую, Вас, уважаемые фрилансеры.
Пока прицениваюсь, сколько будет стоит парсер ВИ?
Разработка интересует на питоне.
Что нужно:
Парсер только по Москве. Есть СКю товаров или ссылки на них, нужно как-то по умному парсить так, чтобы не попадать на смены блоков хтмл.
Есть свой парсер, но ввиду того, что не до конца понимаю, как ВИ определяет бота, даже с прокси - идет день через день подмена хтмл кода, и нужно каждый раз менять что-то в коде, особенно на выходных нет возможности этого сделать, а данные нужны корректны. Пока логика такая: берется список СКю, по каждому идет поиск и переход на страницу товара, далее:
В целом парсится немного:
Название товара
Бренд
Цена до скидки (если есть при акции)
Название акции (если есть)
Цена после скидки или текущая
Персональная цена (если есть)
Количество отзывов (если есть)
Количество вопросов (если есть)
Технические характеристики (через ключ : значение n)
Комплектация (значение n, если есть)
Текущий урл товара
В общем, нужно как-то универсально все оформить. Чтобы был прогресс файл какой и скрипт в случае чего мог начать работу с обрыва. А так же отдельно запись ошибочных обработок, чтобы после всего списка скрипт обрабатывал их. Так же предполагаю нужна проверка на наличие значений которые как минимум всегда должны быть.
Может у кого есть готовый вариант и предложения ? Или может реализация на node.js ? Или еще на чем? Главное - стабильность.
Скрипты и боты