Парсер с эмуляцией (bas, phyton, content downloader?)
Сервис по парсингу, автоматизированный, парсить по запросу json файл с урл источника. Наша система отправляет запрос - парсер парсит и возвращает данные (обсуждается как данные передать в нашу систему).
Нужна эмуляция браузера, не запросами!, чтобы более стабильно работало и с перспективой на будущее. Многопоточность.
Сейчас система работает на впс линукс на php на curl запросах и все это не стабильно, там где защита от парсинга.
Источник парсинга показался простой, но может ошибаюсь: открываю урл, нетворк fetch и вижу файл json с данными, все (на одном источнике данные только в памяти, сам файл не открывается). Источников (сайтов) пока два.
Основной загвоздкой мне показалось совмещение с нашей системой, разработка коннектора, чтобы парсило по запросу онлайн.
На чем: bas, phyton, content downloader, я не знаю, хотел бы услышать мнения. Основное это бОльшая стабильность и % успеха даже в ущерб скорости + задел на будущее (эмуляция).
Сейчас прикидывал около 600 запросов в сутки, но могу ошибаться, и это 90% в рабочее время суток, ночью минимум. В пики сезона думаю 1000,2000 запросов и больше может быть.
- эмуляция браузера;
- стабильность, держать потоки и нагрузки;
- многопоточность;
- источников пока два, подключение новых;
- управление нашей системой онлайн;
- json обработка обсуждается, на месте или у нас;
- лог, информирование;
Вопрос цены обсуждается, готов выслушать предложения и советы на чем это сделать.
Подробнее в файле, тут ограничение по тексту.
Скрипты и боты