Агент для игры Hearthstone (CORL, offline обучение)
Ищу исполнителя для создания агента, играющего в Hearthstone, на основе готового набора данных (в формате JSON).
Данные содержат эпизоды с состояниями игры, действиями и результатами.
Цель:
Обучить агента принимать разумные действия в новых ситуациях, опираясь на поведение из датасета. Обучение должно учитывать, что:
- Данные фиксированы, и генерация новых эпизодов невозможна
- Поведение агента не должно сильно отклоняться от поведения в данных
Желаемые навыки:
Опыт с обучением с подкреплением (Reinforcement Learning) — особенно офлайн-RL (CORL, KL-регуляризация и др.)
Допустимы и альтернативные подходы (например, имитационное обучение, поведенческие модели, etc), если они работают лучше
Умение разрабатывать и отлаживать ML-модели или системы принятия решений.
Открыт к любым предложениям по методологии.
Спасибо!
Скрипты и боты