Обновить
18.78

Голосовые интерфейсы *

управляем устройствами при помощи голосовых команд

Сначала показывать
Порог рейтинга
Уровень сложности

Реально ли привлечь РЖД за нарушение лицензии модели синтеза из репозитория silero-models?

Уровень сложностиПростой
Время на прочтение1 мин
Количество просмотров34K

Увидел новость про виртуального помощника "Валеру", которого только что презентовала РЖД. Судя по голосу, взят наш голос aidar из репозитория silero-models … опубликованный под некоммерческой под лицензией CC BY-NC-SA.

Обсудить

Как сделать голосового бота техподдержки и не разочароваться?

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров2.8K

Привет, Хабр! Меня зовут Алексей Борщов и я занимаюсь проектированием голосовых диалоговых систем в компании Just AI. Как вы уже догадались по заголовку, речь сейчас пойдет о процессе создания голосового бота техподдержки, который может быть использован как для внутрикорпоративной, так и для внешней (клиентской) поддержки. И начнем мы с очевидного вопроса – а зачем он вообще нужен?

Читать далее

Адаптация языковой модели vosk

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров22K

Приветствую, Хабр. В данной статье хочу рассмотреть процесс добавления слов в языковую модель vosk'а (vosk - библиотека для распознавания речи, в основе которой kaldi).

Читать далее

«Что нам стоит „Капсулу“ построить?» — как мы создавали VK Капсулу Нео

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров5.6K

Многие подсознательно воспринимают умные колонки как что-то несложное в разработке. «Ну правда, что там такого: динамик, микрофон, светодиоды да Wi-Fi». Мы в VK захотели создать инновационный продукт, и в итоге прошли интересный путь от идеи до выхода на рынок нашей малышки для всех и каждого — VK Капсулы Нео. С виду вполне типичная умная колонка таит в себе технологические решения, которые в будущем постараются повторить в своих продуктах другие компании. 

Меня зовут Борис Каганович, я директор по разработке и производству умных устройств в VK. В этой статье я расскажу о том, как появилась идея создать колонку и какой путь мы прошли от идеи продукта до его реализации.

Читать далее

Собака лает — ветер носит, или решил ли Bark синтез речи?

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров7.1K

Время от времени мне в личку присылают посты с телеграм-каналов, специализирующихся на "ИИ" хайпе. Обычно такие посты сопровождаются весьма сомнительного качества журналистикой, мол задача X теперь уже решена и мы были облагодетельствованы.

В этот раз мне прислали ссылку на репозиторий Bark, который является некой интерпретацией статьи VALL-E от известной корпорации добра. В частности их репозиторий обещает:

Синтез на всех популярных языках от английского до китайского;

Возможность GPT-style управления выдаваемым аудио;

Возможность дикторов "говорить" на иностранных языках;

Войс-клонинг "этичненько" залочен;

Всё это в высоком качестве как у современного нейросетевого синтеза и в "риалтайме", с моделями "более 100M параметров";

Давайте разберемся так ли это.

Давайте!

Как одно агентство голосового робота попробовало

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров2K

Возможно вы знаете, что у нас кадровое агентство по подбору программистов. Сегодня расскажу наш опыт того как мы решили использовать высокие технологии совместно с маркетингом на пользу агентству. Речь пойдёт о голосовом роботе, с типа искусственным интеллектом.

Во‑первых, 2022год был наполненным различными событиями, с вытекающими потребностями и задачами. Например, иностранные заказчики персонала, внезапно взволновались и начали разрывать контракты. Часть росссийских компаний попали под прямые и косвенные санкции и начали резать косты. Но компании нужно как‑то жить, поэтому нужно искать заказчиков.

Факт второй — то что кадровых агентств в России поубавилось, правда как и много чего другого... Единственную статистику которой я могу оперировать в цифрах — это статистика по Новосибу. Как‑то смотрел что у нас в 2019–2021года, на весь Новосибирск было около 100–120 кадровых агентств, а в СФО примерно 300 — 400. А вот на апрель 2023 в Новосибирске, из живых боюсь что осталось порядка 20, ну плюс минус ещё 10, а в СФО не более 100 агентств. И похоже что подобная картинка наблюдается по России.

Жить хочется всем, а жить хорошо хочется ещё больше, поэтому нужны клиенты. Если сидеть на попе ровно, не искать заказы, то скорее всего ещё живые агентства разберут заказчиков которые до тебя могут не дойти. Вот и поддавшись «осенним позитивным» настроениям, мы решили по активничать.

Как вы поняли, история началась в сентябре 2022года. На меня вышла компания которая предоставляет таких голосовых «ботов». Поразмышляв, и заплатив порядка 50тыс руб за сборку робота и первоначальный бюджет на звонки — взялись за работу.

Читать далее

openHAB + Алиса = OH Cloud

Время на прочтение6 мин
Количество просмотров8.4K

Доброго времени суток, уважаемые хабровчане!

Сегодня я хотел бы рассказать про навык (интеграцию) голосового помошника Яндекс Алисы с умным домом, построенным на openHAB. Как мы все знаем, управление умным домом с помощью голосовых команд прочно вошло в нашу жизнь - GoogleHome, Homekit, Умный дом с Алисой и прочее прочее давно уже на слуху у каждого. Не обошел этот тренд и опенсурс систем умного дома, но именно голосовой ассистент Яндекса из коробки нигде не поддерживается.

И если для HomeAssistant давно уже был написан компонент Yandex Smart Home , позволяющий интегрировать Алису в умный дом, то в случае с openHAB все гораздо печальнее.

Единственным способом интеграции Алисы в openHAB был навык от KnopkaDom, но судьба его, к сожалению, сложилась не очень. На данным момент навык не работает как должно, сайт недоступен, и дальнейшее развитие проекта крайне туманно.

Идея создать простую и удобную, а главное надежную, интеграцию Алисы в УД openHAB витала в воздухе давно, но только сегодня получилось ее осуществить! Всем, кому стало интересно, добро пожаловать под кат.

Читать далее

Почему 90% звонков бесполезны, и как правильно применять конструктор ботов

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров2.4K

Звонки от спамеров воспринимают негативно более 76% абонентов, пишут Tinkoff Data. 65% опрошенных раздражают такие звонки вне зависимости от того, звонит робот или человек. И всё это от того, что компании просто не умеют настраивать сценарии или используют неправильную стратегию общения с клиентами. А если совсем честно — в большинстве компаний просто нет достаточной культуры продвижения своих услуг. 

Читать далее

Исторический момент: ChatGPT обрёл «суперсилу Wolfram»

Уровень сложностиСредний
Время на прочтение18 мин
Количество просмотров34K

Четвёртая версия ChatGPT одних заставила пищать от восторга, а других повергла в уныние. Кто-то уже нашёл этой системе множество творческих применений, а кто-то пророчит, что эта нейросеть лишит работы кучу людей. Теперь возможности ChatGPT стали ещё шире: систему интегрировали с Wolfram | Alpha, легендарным движком для вычисления ответов в самых разных областях знания. Мы перевели для вас огромную подробную статью об этом от одного из разработчиков Wolfram | Alpha.

Читать далее

Ирина, голосовой помощник — теперь и со вкусом GPT-3

Уровень сложностиСредний
Время на прочтение5 мин
Количество просмотров24K

«Лама... Альпака...Чатгпт...» — раздавалась в уютненьком чатике по Ирине.

Хабр был не лучше — статьи по работе с GPT множились как грибы, а в комментах раздавались возгласы в духе «Дайте мне голосового помощника, с которым можно болтать!»

Если честно, еще в первой статье про Ирину я говорил, что небольшой фанат именно общения с виртуальным помощником. Помощник должен выполнять команды, казалось мне.

Тем не менее, и меня заинтересовало, насколько весело будет именно болтать с GPT, но самому в коде и платном API‑доступе разбираться не хотелось. Но сегодня утром меня снабдили и примером, и ключиком...

‑-

Это продолжение моих статей о разработке голосового помощника Ирины, не зависящего от крупных корпораций. У нас есть печеньки:

— Полностью оффлайн SpeechToText и TextToSpeech
— Поддержка плагинов
— Готовые команды «таймер», «погода» и ряд прочих. Поддержка HomeAssistant.
— Поддержка работы в клиент‑серверном режиме — сервер + куча микрофонов + Телеграм‑клиент, например.

Расскажу, что улучшилось за прошедший год с момента прошлой статьи.

TL;DR> Добавлен плагин для общения с GPT-3 нейросетью. Сделан пакет упрощенной установки под Windows — «скачай и запусти». Сделано два веб‑клиента — один распознает слова прям в браузере (тяжелый), другой отправляет весь звуковой поток на сервер (легкий) — так что можно запускать клиенты, например, на смартфоне. Добавлен TTS Silero v3 — имхо, лучшее озвучивание доступное в открытом доступе. Сделан докер‑образ для быстрого запуска Ирины без установки зависимостей. Добавлено нечеткое распознавание фраз. Обновлена VOSK‑модель распознавания голоса на специально натренированную для Ирины.

Читать далее

Что не так с умными колонками и голосовыми ассистентами?

Время на прочтение8 мин
Количество просмотров41K

Если вы когда-нибудь слышали фразу "дьявол в деталях", вы понимаете, что условная Лада Гранта от условного Мерседеса отличается не более, чем на несколько процентов. Фактически обе машины ездят и возят своих пассажиров - это и есть главная их функция. Но внимание к мелочам и продуманный пользовательский опыт (UX) это и есть те самые несколько процентов, которые так разительно влияют на наше восприятие продукта.

Попробуем применить этот угол зрения к умным колонкам и голосовым ассистентам. И попытаемся понять, почему же все они пока ещё Гранты. И чего именно им не хватает до Мерседесов.

Что же с ним не так и как это исправить?

Как я сделал синтез своего голоса

Уровень сложностиПростой
Время на прочтение12 мин
Количество просмотров39K

Всем привет! Меня зовут Гриша Стерлинг, я занимаюсь синтезом речи в SberDevices. Недавно прошла конференция AI Journey, где я рассказал, как сделал синтез своего голоса. За 15 минут выступления я не успел рассказать все, поэтому решил написать большой пост с деталями. Он будет интересен датасаентистам, людям из бизнеса и ai‑энтузиастам. Приглашаю всех под кат.

Читать дальше

Как мы делали AEC для воспроизведения звука через HDMI на Станции Макс

Уровень сложностиСредний
Время на прочтение7 мин
Количество просмотров18K


В недавнем апдейте прошивки для Яндекс Станции Макс мы добавили поддержку вывода звука по кабелю HDMI при просмотре фильмов. Если у вашего телевизора хорошая акустика (или к нему подключена качественная аудиосистема), теперь можно слушать аудиодорожку через неё. Это обновление мы выпустили только сейчас, потому что оно потребовало нетривиальных технических решений. Например, нужно было сделать эхоподавление для HDMI. Вот об этом и поговорим — сначала обсудим историю технологий и проблемы с подавлением собственного звука устройства, а затем перейдём к нашему решению.
Читать дальше →

Ближайшие события

Выпускные проекты наших «бауманцев»

Время на прочтение11 мин
Количество просмотров6.6K

Новая порция выпускных проектов, на этот раз — студентов нашего образовательного проекта в МГТУ им. Баумана. Ребята сами опишут свои разработки, а посмотреть видео с защиты можно здесь. Если вы хотите попасть на учебу в образовательные центры VK, информацию об открытых наборах и курсах можно найти здесь.

Читать далее

Что под капотом «ответов на вопросы» Маруси?

Время на прочтение16 мин
Количество просмотров4.4K

Привет, это команда ответов на вопросы Маруси.

Этот материал состоит из двух частей. Это вторая часть (первая часть). В ней мы чуть глубже копнём технический аспект того, как устроены ответы на вопросы Маруси.

В первой части мы поверхностно рассмотрели механизм, позволяющий нашему голосовому помощнику понимать вопросы и реагировать на них. Теперь поговорим о том, как мы некоторое время назад создавали систему ответов на вопросы, и с помощью каких решений достигался результат, соответствующий как требованиям пользователей, так и техническим ограничениям.

Материал может быть интересен тем, кто только начинает свой путь в NLP или разрабатывает аналогичные решения, но не обладает несколькими стойками c DGX.

Читать далее

Предоставляем бесплатное облачное распознавание речи ASR

Уровень сложностиПростой
Время на прочтение2 мин
Количество просмотров3.5K

В этой статье мы, расскажем, как сделали первое действительно бесплатное облачное распознавание речи и как им воспользоваться.

Разработчики систем распознавания речи, как правило, используют поминутную тарификацию распознавания. В одной из прошлых статей я уточнял почему считаю это далеко не всегда правильным (если кратко, то при такой тарификации вендоры округляют длительность в большую сторону, а значит, за распознавание коротких записей вы заметно переплачиваете, а при большом трафике это очень дорого).  

Давайте теперь разберемся, действительно ли для вендоров экономически оправданно брать деньги с хобби-проектов и небольших компаний, которым нужно распознавать не миллионы, а всего лишь десятки или сотни минут в день.

Читать далее

Как создать бота для своей отрасли бизнеса

Время на прочтение4 мин
Количество просмотров2.6K

Всем привет! В прошлый раз мы начали работать с готовыми переменными, научились использовать их в сценариях и в блоках. Сегодня задача будет чуть сложнее: рассмотрим три типичных сценария, в которых будем записывать в переменные ответы абонентов. Как и обычно, любой из этих сценариев вы затем сможете легко изменить под свои задачи.

Читать далее

Как Маруся отвечает на вопросы пользователей обо всём на свете

Время на прочтение10 мин
Количество просмотров12K

Привет, это команда ответов на вопросы Маруси. Мы все привыкли к тому, что голосовые помощники отвечают на любые вопросы. Не всегда правильно, но обычно вполне толково и с пользой. А вы когда‑нибудь задумывались, как это устроено? Сейчас расскажем на примере нашей Маруси.

Материал состоит из двух частей, это первая часть. В ней мы дадим поверхностный обзор того как устроена Маруся, локализуем место навыка «ответов на вопросы» и расскажем на концептуальном уровне, как можно решать эту задачу.

Читать далее

Обновляем сравнение систем распознавания русского языка

Время на прочтение2 мин
Количество просмотров6.5K

Наконец-то пришло время обновить наше исследование качества систем распознавания русского языка. Лучше поздно, чем никогда! С момента прошлого исследования утекло много воды … и мы думали, что мы не добежим до обновления, но таки добежали.

По сравнению с предыдущим исследованием изменилось следующее:

Посмотреть результаты

Страх и ненависть в переговорке: курим VideoSDK API, Vosk и Python

Уровень сложностиПростой
Время на прочтение13 мин
Количество просмотров8.8K

Сегодня поговорим о кастомных решениях для видеоконференцсвязи (далее — ВКС) с минимальными затратами человеко-часов и финансов на их создание. Я параноик Брать готовый open-source – меня не устраивает, всем известны случаи встраивания bad code в проекты с открытым исходным кодом с целью нанести ущерб пользователям из России. Поэтому за основу берём что-то отечественное с корпоративным уклоном, с открытым API и подходом «без регистрации и смс».

Читать далее