Доработать голосового помощника Python
В проекте на Python имеются: ASR (2 модели оффлайн, 1 онлайн), выбор языковых моделей через g4f при помощи провайдера (онлайн), TTS модели для озвучки ответа GPT (2 модели оффлайн, 1 онлайн). Голосовой помощник умеет выполнять запросы пользователя в браузере с помощью Selenium, управлять файлами компьютера при помощи GPT , открывать программы, искать по файлам, выполнять элементы навигации: вперед, назад, приближать, отдалять, напоминать, записывать в заметки. На данный момент запросы гпт выполняются в отдельных потоках при помощи библиотеки threading.Необходимо решить задачу классификации голоса (берём запись конкретного голоса и записи нескольких других голосов на одном и том же тексте. Думаю длинной до 5 минут будет достаточно. Эти записи нарезаются программой на небольшие куски и из них с помощью быстрого преобразования Фурье извлекаются признаки, по которым мы будем пытаться обучить модель классификации. Для решения необходимо использовать сверточную нейронную сеть для классификации изображений. Можно и ей эти признаки подсунуть)Необходимо внедрить в проект голосового помощника сделанный выше классификатор, а также оффлайн русскую языковую модель gpt (аналог), которая будет работать без интернета. Далее нужно разбить все по потокам: 1 - основной поток с окошком2 - голос захватывает и распознает3,4,5.... - работа с gpt (использовать popen, multiprocessing).Собрать проект в exe и сделать простенький лаконичный интерфейс заместо консольного.Ищу ответственного разработчика на Python, которому близка данная тематика.Срок 2-3 недели - не затягивать с проектом.
Desktop