AI-телефония с ИИ-обработкой в реальном времени
Цель проекта: реализовать программный комплекс AI-телефонии, способный принимать входящие звонки с сервиса Zvonok по SIP, распознавать речь в реальном времени, генерировать осмысленные ответы через Yandex GPT, озвучивать их голосом Speechify и вести двустороннюю коммуникацию с задержкой не более 500 мс. Подключить Telegram-чат для уведомлений и логирования диалогов.
Интеграции: Zvonok (входящие звонки по SIP), Yandex SpeechKit (streaming ASR), Yandex GPT (генерация текста), Speechify (озвучка), Telegram Bot API (уведомления, лог).
Поток вызова: входящий звонок от Zvonok по SIP, обрабатывается invite, отправляются ответы 100 Trying, 180 Ringing, 200 OK, затем ACK. Устанавливается SIP-сессия. RTP-аудио поток передаётся в Yandex SpeechKit, полученные реплики пользователя буферизуются, формируется история диалога. История и последняя реплика передаются в Yandex GPT, на выходе получаем текст-ответ. Ответ передаётся в Speechify, генерируется аудиофайл, начинается RTP-передача пользователю. При обнаружении новой речи пользователя озвучка прерывается, начинается новое распознавание. В Telegram отправляется уведомление о новом звонке, по окончании звонка — лог в .txt.
Скрипты и боты