Написать парсер для Facebook, Instagram, TikTok и Twitter
Создать сервис для парсинга постов из Facebook, Instagram, Tik-Tok и Twitter, который будет собирать посты из публичных групп и профилей (по 10,000 аккаунтов или групп в каждой соцсети). Парсер должен поддерживать текст, изображения и комментарии.Важно, чтобы он справлялся с ограничениями API, обрабатывал ошибки, чтобы система не банила парсер при большом количестве запросов, т.е нужна ротация прокси, обход капчи и другие способы обхода блокировки, также чтобы поддерживал фильтры для поиска по ключевым словам, временным рамкам и другим параметрам. Данные должны обновляться в реальном времени или с минимальной задержкой. Сервис должен собирать и сохранять следующую информацию: Текст поста Количество лайков Количество комментариев Количество репостов Количество просмотров (обход каждые 3 часа до сутки) Дата публикации поста Ссылка на пост Название группы, в которой опубликован пост Ссылка на группу, в которой опубликован пост Имя и фамилия автора поста Ссылка на автора поста Тип автора(Personal profile, Mass media account, community) Пол автора (если доступно) Возраст автора (если доступно) Аудитория профиля или группы, в которой опубликован пост Country, Region, City, Place, Address (если доступно) Использовать python3, arsenic, selenium. Данные сохранять в базу данных (mongodb и elasticsearch). Задачу принимаем в Github репозитории. Надо также развернуть сервис в виртуальной машине Ubuntu.
Bots