Прогнозирование продаж на основе временных рядов
Основная информация представлена в файле train.csv:
store_nbr — идентификатор магазина.
family — категория товаров.
onpromotion — количество товаров, участвующих в акциях на определенную дату.
sales — общий объем продаж для категории товаров в магазине на заданную дату (возможно указание дробных значений).
Также доступны метаданные о праздничных днях в файле holidays_events.csv:
Содержит информацию о праздниках и событиях.
Включены дополнительные дни, связанные с праздниками (например, канун Рождества).
Инструменты и методы
Язык программирования: Python.
Библиотеки: Pandas, NumPy, Matplotlib, Scikit-learn, Prophet.
Методы: декомпозиция временных рядов, ARIMA, экспоненциальное сглаживание, Prophet и другие подходящие методы.
Задачи:
1) Загрузить данные из train.csv, выбрать один магазин и не менее пяти категорий товаров. Провести исследование данных: проверить дубликаты, пропуски, визуализировать временные ряды.
2) Очистить данные: заполнить пропуски, устранить дубликаты и выбросы.
3) Провести статистический анализ для выявления тенденций и сезонности (используя тест Дики-Фуллера, автокорреляцию и др.).
4) Выбрать и обосновать три модели для прогнозирования, обучить их и оценить качество, используя подходящую метрику (например, MAE, RMSE).
5) Сделать прогноз на следующий месяц, представить его на графике и дать рекомендации по использованию этой информации в бизнесе.
Ссылка на диск с train.csv (116мб): https://disk.yandex.ru/d/WImnF_vp7K0UnQ
Десктоп программирование