Нейросеть для озвучки книг с возможностью выбора голоса
Развернуть в Docker нейросеть, обучаемую на голосе, способную озвучивать текст и предоставлять API-доступ. Реализовать веб-интерфейс для управления моделью, выбора голоса, загрузки данных и контроля обучения. Обеспечить развертывание и запуск системы на платформе.
1. Основные требования
Контейнеризация: Развертывание в Docker.
Голосовой синтез: Использование современных TTS-моделей (например, VITS, Bark, FastSpeech2, Tacotron2).
Выбор голоса: Возможность переключения между разными голосами (предустановленные + обучаемые).
API-доступ: REST / GraphQL / WebSocket для интеграции.
Веб-интерфейс: Управление обучением, загрузкой текстов, выбором голоса.
Обучение на пользовательских данных: Возможность загрузки новых голосов и их адаптации.
Развертывание на платформе: Исполнитель должен довести проект до рабочего состояния.
Оптимизация: Поддержка GPU для ускорения работы модели.
2. Функционал
2.1 API (REST / GraphQL / WebSocket)
Генерация аудиофайлов по тексту.
Выбор голоса перед генерацией.
Настройки параметров речи (тон, темп, эмоции).
Обучение модели на пользовательских данных (загрузка аудиофайлов + текста).
Документация по API.
2.2 Веб-интерфейс..................
Скрипты и боты