Структурировать базу в 120 000 записей запчастей
Нам нужно очистить и структурировать базу в 120 000 записей запчастей: объединить дубли и взаимозаменяемые артикулы, выбрать «master»-SKU и подготовить итоговый CSV для Airtable.
Задачи:
Написать скрипты на Python/Pandas для нормализации полей (артикулы, описания).
Удалить точные дубли (drop_duplicates) и реализовать fuzzy-matching (RapidFuzz).
Построить граф связей (NetworkX), выделить connected components.
Для каждого кластера выбрать «мастер-запись» по заданным метрикам (частота источника, длина описания, наличие фото).
Сгенерировать итоговый файл с колонками: master_sku, aliases, description, characteristics, sources, photo_urls.
Требования:
Уверенный Python, опыт с pandas, rapidfuzz, networkx.
Знание алгоритмов кластеризации и фраззи-сравнения.
Опыт работы с таблицами >50 000 строк.
Умение писать чистый, документированный код.
Условия:
Удалённо, гибкий график.
Фикс-прайс за этап или почасовая оплата.
Срок реализации: 2–3 недели.
Скрипты и боты