Комментарии 13
А код с GitHub куда пропал?)
А есть пример видео/аудио сессии с пользователем? что бы посмотреть на реальный пользовательский опыт?
Есть opensource версия для онбординга студентов, которых крайне удобно использовать на подбор промптов методом тыка, она использует nemotron-mini
, чтобы можно было запустить на ноутбучной видеокарте

Есть NDA версия, которая совсем по другой предметной области и использует другие модели. Одна из них дообученый whisper. В этом проекте смысл приседания - сделать применение языковых моделей масштабируемым, для этого написана библиотека и тесты
https://github.com/tripolskypetr/agent-swarm-kit/tree/master/test
мне интересно именно аудио версия... ведь аудиоинтерфейсы это не один в один текстовые, там есть куча нюансов, превращающие пользовательский опыт в ад.
Могу предложить в https://github.com/ggerganov/whisper.cpp. На текущий момент чего-то вменяемого в опенсорсе я не нашел: разве что пайпить ChatGPT в локальный бек, обрабатывающий текстовую речь
Я не про преобразование речи в текст, а о создании на основе этого рабочей системы
В создании схемы с голосом так или иначе присутствует преобразование речи в текст. "За кадром" все равно работа идёт с текстом. Другой вопрос, какие методы применяются для tts и применяется ли нейросеть в процессе.
Или я что-то упустил в этом быстроразвивающемся мире?
Да, речь преобразуется в текст. Просто, ранее это делал SAPI 5.0 на ванильном дотнетовском C++/CLI,а сейчас нейронка openai whisper
Nomic грозятся выкатить в opensource асинхронный итератор - в реальном времени кормить новыми словами ответа озвучку голоса, но застряли на технической части
OpenAI предоставляют WebRTC для коннекта к говорилки в реальном времени, но у оперсорс сообщества плохо с этим протоколом, халявы в естественной речи можно пока не ждать
https://platform.openai.com/docs/guides/realtime-webrtc
Ну да, так было, до появления мультимодальный gpt. Но речь не про них,.. вы хоть раз в жизни пробовали чем то управлять голосом, по сложнее чем вкл/выкл? вы пробовали набивать текст в каком-нибудь текстовом редакторе голосом? да просто сообщения? Вы понимаете чем отличается ввод текста руками от голосового?
Текст, он редактируемый, в нем есть пунктуация, структура текста (параграфы, списки, таблицы), вы его читаете перед отправкой...
Голосовые же системы работают в реальном времени, ты даешь команду и она уже в процессе должна обрабатываться и уйти на исполнение почти сразу как отзвучит последнее слово команды и таймаут паузы.
Это сильно отличается, система, которая обрабатывает голос как текст должна быть готова к тому что бы догадываться о том что хочет человек, давать свободу формулировкам и терпимой к ошибкам... почему я и спрашивал, есть ли уже что то готовое для посмотреть или как обычно, голосовые системы дальше 'современных' голосовых меню типа нажмите 1 чтобы перейти в подменю такое то, нажмите 2 - в другое...?
В этом и прикол, при навигации агенты видят переписку друг друга. Ты говоришь: Подскажи какие продукты продаёте, а в программе автоматически дергаются три операции 1 - переключение на агент продаж, 2 - поиск в бд по запросу, 3 - ответ списка товаров пользователю. Поиск товара по смыслу, а не буквам, есть в репо, через embedding model и cosine distance.

В облаке монго уже есть векторный поиск по смыслу, https://www.mongodb.com/docs/manual/reference/operator/aggregation/vectorSearch/
Мы кажется друг друга не понимаем. Я понимаю разницу текста и голоса.
Под капотом перед выполнением команды идет преобразование голоса в текст, либо после таймаута, либо в реалтайме, но преобразуется. Не для вас, а для дальнейшего выполнения команды. И именно речь тут о tts системах ( чуть более хитрых, стоит уточнить, с постобработкой, правильнее даже назвать их automatic speech recognition, но суть та же на входе ), о которых tripolskypetr чуть выше написал.
К чему вы это все написали?
Вам уже написали все текущие решения, которые сейчас можно использовать из оперсорса, whisper - самый торт.. Да, из опенсорса надо самому собирать решение из некоторых кубиков. Готовые all-in решения, чтобы вам не пришлось ничего делать, я пока не видел в фри доступе, да и вряд ли увижу, однако за денюжку вам что угодно могут внедрить "под ключ"
У ЦРТ есть облако для распознавания и генерации речи. Они работают с нейронками в проде года так с 2017.
https://cloud.speechpro.com/
Что могу сказать, их ценовая политика: плати - лети
Многопользовательский рой агентов для Ollama