Как стать автором
Обновить

Комментарии 13

А есть пример видео/аудио сессии с пользователем? что бы посмотреть на реальный пользовательский опыт?

Есть opensource версия для онбординга студентов, которых крайне удобно использовать на подбор промптов методом тыка, она использует nemotron-mini, чтобы можно было запустить на ноутбучной видеокарте

4b opensource нейронка моросит
4b opensource нейронка моросит

Есть NDA версия, которая совсем по другой предметной области и использует другие модели. Одна из них дообученый whisper. В этом проекте смысл приседания - сделать применение языковых моделей масштабируемым, для этого написана библиотека и тесты

https://github.com/tripolskypetr/agent-swarm-kit/tree/master/test

мне интересно именно аудио версия... ведь аудиоинтерфейсы это не один в один текстовые, там есть куча нюансов, превращающие пользовательский опыт в ад.

Могу предложить в https://github.com/ggerganov/whisper.cpp. На текущий момент чего-то вменяемого в опенсорсе я не нашел: разве что пайпить ChatGPT в локальный бек, обрабатывающий текстовую речь

Я не про преобразование речи в текст, а о создании на основе этого рабочей системы

В создании схемы с голосом так или иначе присутствует преобразование речи в текст. "За кадром" все равно работа идёт с текстом. Другой вопрос, какие методы применяются для tts и применяется ли нейросеть в процессе.

Или я что-то упустил в этом быстроразвивающемся мире?

  1. Да, речь преобразуется в текст. Просто, ранее это делал SAPI 5.0 на ванильном дотнетовском C++/CLI,а сейчас нейронка openai whisper

  2. Nomic грозятся выкатить в opensource асинхронный итератор - в реальном времени кормить новыми словами ответа озвучку голоса, но застряли на технической части

  3. OpenAI предоставляют WebRTC для коннекта к говорилки в реальном времени, но у оперсорс сообщества плохо с этим протоколом, халявы в естественной речи можно пока не ждать

    https://platform.openai.com/docs/guides/realtime-webrtc

Ну да, так было, до появления мультимодальный gpt. Но речь не про них,.. вы хоть раз в жизни пробовали чем то управлять голосом, по сложнее чем вкл/выкл? вы пробовали набивать текст в каком-нибудь текстовом редакторе голосом? да просто сообщения? Вы понимаете чем отличается ввод текста руками от голосового?

Текст, он редактируемый, в нем есть пунктуация, структура текста (параграфы, списки, таблицы), вы его читаете перед отправкой...

Голосовые же системы работают в реальном времени, ты даешь команду и она уже в процессе должна обрабатываться и уйти на исполнение почти сразу как отзвучит последнее слово команды и таймаут паузы.

Это сильно отличается, система, которая обрабатывает голос как текст должна быть готова к тому что бы догадываться о том что хочет человек, давать свободу формулировкам и терпимой к ошибкам... почему я и спрашивал, есть ли уже что то готовое для посмотреть или как обычно, голосовые системы дальше 'современных' голосовых меню типа нажмите 1 чтобы перейти в подменю такое то, нажмите 2 - в другое...?

В этом и прикол, при навигации агенты видят переписку друг друга. Ты говоришь: Подскажи какие продукты продаёте, а в программе автоматически дергаются три операции 1 - переключение на агент продаж, 2 - поиск в бд по запросу, 3 - ответ списка товаров пользователю. Поиск товара по смыслу, а не буквам, есть в репо, через embedding model и cosine distance.

В облаке монго уже есть векторный поиск по смыслу, https://www.mongodb.com/docs/manual/reference/operator/aggregation/vectorSearch/

Мы кажется друг друга не понимаем. Я понимаю разницу текста и голоса.
Под капотом перед выполнением команды идет преобразование голоса в текст, либо после таймаута, либо в реалтайме, но преобразуется. Не для вас, а для дальнейшего выполнения команды. И именно речь тут о tts системах ( чуть более хитрых, стоит уточнить, с постобработкой, правильнее даже назвать их automatic speech recognition, но суть та же на входе ), о которых tripolskypetr чуть выше написал.

К чему вы это все написали?

Вам уже написали все текущие решения, которые сейчас можно использовать из оперсорса, whisper - самый торт.. Да, из опенсорса надо самому собирать решение из некоторых кубиков. Готовые all-in решения, чтобы вам не пришлось ничего делать, я пока не видел в фри доступе, да и вряд ли увижу, однако за денюжку вам что угодно могут внедрить "под ключ"

У ЦРТ есть облако для распознавания и генерации речи. Они работают с нейронками в проде года так с 2017.

https://cloud.speechpro.com/

Что могу сказать, их ценовая политика: плати - лети

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации