Распознавать mp3 russian в текст с пунктуацией-python
Нужно сделать сборку на python для запуска оффлайн распознавания аудио файлов mp3 на русском ( мой домашний компьютер) Windows 10 скорей всего на whisperX или аналоги, с пунктуацией, с учетом версии python ( возможно подробную инструкцию с запуском в окружении, так как некоторые работают только на 3.10 ( punctuator)
Аналог это сервис guruscribe ( не поленитесь- на минутку запишите mp3 туда и увидите, как здорово он расставляет запятые, точки и форматирует текст). Или смотрите пример.
По сути нужен аналог по качеству, я на диктофоне наговариваю, загружаю и на выходе txt, в идеале word с форматированием.
Пытался сделать на whisperX, но у меня почему-то распознает только одну фразу из центра текста, из этого же mp3 ( прилагается), а результат как его распознал guruscribe вы видите. Идеально!
Также раньше ставил обычный whisper он нормально распознает, но это просто тупо текст без запятых и форматирования, каша такая не нужная.
Ключевой момент именно распознание текста и форматирование(пунктуация), для этого используются разные нейромодели, короче говоря если вы с этой темой знакомы, думаю вам не составит труда сделать такую сборку, нужна будет полная инструкция от А до Я по ее установке ( у меня уже стоит python 3.12), поэтому возможно нужно будет в окружении запускать.
Жду решения под ключ:-) Видео инструкция для установки и демо как это вас работает. Возможно есть уже готовые рабочие варианты ( это было бы вообще идеально)
p.s. Небольшое добавление- голый виспер vs скрайб
Скрипты и боты