Парсинг Базы данных
Техническое задание на парсинг данных по компаниям в сфере туризма и круизов !!!
1. Сбор контактных данных (телефон, почта, сайт, название компании) организаций, работающих на рынках США, Германии, Испании, Греции, Италии, России и Франции в следующих категориях:
Организаторы групповых туров для путешественников
Организаторы групповых туров для предпренимателей
Платформы которые сдают яхты в чартер
Клубы путешественников различных тематик
Тревел-гиды (вело гиды, дайв гиды, гастро гиды, гиды по винодельням)
Платформы по продаже круизов
Платформы по продаже велокруизов
Клубы и платформы, которые продают дайвинг-круизы
2. Источники данных
Поисковые системы: Google.
Бизнес-каталоги: Yelp, TripAdvisor, Trustpilot, Kompass, YellowPages, 11880.com (Германия), Europages, Crunchbase (если есть такая возможность)
Социальные сети: Facebook, LinkedIn, Instagram (при наличии email/телефонов в описании)
Официальные сайты организаций
Данные для сбора
Название компании
Официальный сайт
Электронная почта
Инстаграмм
Телефон
СтранКатегория (из списка выше)
Технические требования
Сохранение данных в форматах:
Excel таблиц
JSON (для API интеграции)
Фильтрация и обработка данных
Исключение дубликатов компаний
Удаление невалидных email-адресов и телефонов
Проверка доступности сайтов
Классификация компаний по категориям на основе ключевых слов в описании и названии
Выгрузка и структура данных
Название компанииСайт Инстаграм EmailТелефонСтранаКатегория
Базы данных и клиентов