Голосовые интерфейсы *

управляем устройствами при помощи голосовых команд

СтатьиПостыНовостиАвторыКомпании

@snakers4 17 авг 2023 в 09:38

Теперь наш синтез на 22 языках с кириллицей и ещё в 4 раза быстрее

Средний

4 мин

7.5K

Natural Language Processing * Голосовые интерфейсы * ЗвукМашинное обучение *

Источник карты — Проект «Языки России» Институт языкознания РАН, 2021 год

Давненько мы не выпускали новых статей про наш синтез речи! В прошлый раз мы добавили синтез на 9 языках народов Индии, существенно улучшили автоматическую простановку ударений, добавили 1 русский голос и "наследовали" SSML для всех моделей.

В этот раз мы сделали следующее:

Ускорили все v4 модели в 3-4 раза;
Существенно повысили качество синтеза в 8 kHz;
Обновили и пересобрали нашу модель для русского языка;
Обновили модель для 9 языков народов Индии с 17 голосами;
Добавили единую модель для 22 языков с кириллическим алфавитом с 31 голосом;
Прекратили поддержку моделей романо-германских языков (старые модели будут доступны для скачивания без изменений);
Обновили модели для языков народов СНГ: узбекского и украинского (татарский и калмыцкий были "поглощены" единой моделью);

Читать дальше →

+31

@telecomgod 15 авг 2023 в 06:20

Когда робот тебя обманывает

Простой

6 мин

2.3K

Блог компании МТТИскусственный интеллектОблачные сервисы * Голосовые интерфейсы *

Обзор

Многие пользователи до сих пор не представляют, что ИИ-боты могут лгать. Причем не случайно дезинформировать человека, а лгать преднамеренно, что может быть задумано разработчиками. И проблема здесь в том, что после того как пользователь узнает о том, что робот ему солгал, у него может полностью пропасть доверие к ИИ.

@kventinel 26 июл 2023 в 07:58

Как мы научили Алису реагировать на быстрые команды

9 мин

25K

Блог компании ЯндексМашинное обучение * Искусственный интеллектЗвукГолосовые интерфейсы *

Голосовые ассистенты активируются «по имени» — это всем привычно. Но как быть, если нужно несколько раз повторять команду из одного слова? Например, чтобы настроить музыку, говорить каждый раз «Алиса, громче» и «Алиса, дальше» утомляет. Кроме того, в некоторых сценариях важна скорость выполнения действия: например, когда нужно включить свет в комнате.

Для таких случаев мы научили Алису распознавать быстрые команды — то есть те, для которых её не нужно звать по имени. Достаточно просто сказать «громче», «дальше» или «включи свет». И в этой статье я расскажу, что из себя представляет новая функция, как мы её разрабатывали, с какими сложностями столкнулись. А ещё немного поговорим про распознавание и свёрточные модели.

Дальше!

+31

@Bottookku 25 июл 2023 в 16:45

Как подружить Asterisk с потоковым распознаванием от Яндекс SpeechKit через EAGI и Python

3 мин

8.5K

Яндекс API * Голосовые интерфейсы * Python * Asterisk *

Из песочницы

До этого самого времени, я никогда не писал код на Pyhton и Node JS. И поэтому мне было очень сложно скрестить эти системы. И поэтому решил написать об этом пост, так как готовых примеров в Яндексе нет за исключением MRCP про которого было немало нелестных отзывов от пользователей этой системы, но пруфы в данное время предоставить не могу. Я решил не пользоваться этим костылем и изобрести велосипед на костылях сам. Для этого мне в помощь прослужила сама документация с Яндекса и некоторые примеры с StackOverflow.

Читать дальше →

@mvideo 11 июл 2023 в 08:52

Ума палата: Алиса, Маруся и другие

Простой

8 мин

14K

Блог компании М.Видео-ЭльдорадоГаджетыИскусственный интеллектГолосовые интерфейсы *

Ретроспектива

Если вы до сих пор не пользуетесь голосовым помощником, то вы лишаете себя множества полезных возможностей. Мы не станем рассказывать о том, как облегчают жизнь Siri, Алиса или Google Assistant, для этого у нас имеется воображение. Все, что вы можете представить об этих человекоголосых роботах уже реализовано, или будет доступно в обозримом будущем. Сегодня мы расскажем о российских голосовых помощниках

+25

@virtual_explorer 27 июн 2023 в 10:25

Meta* Voicebox: голосовой генеративный ИИ, которого боится сама компания

6 мин

7.7K

Блог компании FirstVDSЗвукГолосовые интерфейсы * Искусственный интеллектБудущее здесь

Пару недель назад Meta* представила ИИ-модель Voicebox, которая генерирует и редактирует устную речь. Они говорят, что это очередная революция в сфере генеративных ИИ. Модель не только создает речь в точном стиле и голосе любого человека по короткому образцу, но также умеет автоматически удалять шум, поправлять оговорки, понимать контекст. Авторы проекта охарактеризовали Voicebox как «прорыв в моделях речевого ИИ» и «самый универсальный ИИ для генерации речи».

В нашем распоряжении оказался документ с подробностями о реализации этого проекта. Спешим ознакомить с ним вас.

+16

@ligofff 22 июн 2023 в 14:54

Нейросеть «Жириновский» — на что способна новая нейросеть от Наносемантики

Простой

4 мин

23K

Голосовые интерфейсы * Будущее здесьИскусственный интеллектМашинное обучение *

Не так давно компания «Наносемантика» представила свою новую нейросеть - «Жириновский», способную на синтез текста, синтез речи, и компиляцию всего указанного в видеоряд (Lip Sync).

И в статье специалисты компании продемонстрировали возможности «Жириновского», задав несколько вопросов из разных сфер жизни, в которых проект может быть задействован в будущем.

-18

@eran 15 июн 2023 в 09:23

Как мы создаём новые языки в Yandex SpeechKit. Рассказываем на примере узбекского

Простой

8 мин

Блог компании Yandex Cloud & Yandex InfrastructureГолосовые интерфейсы * Искусственный интеллектОблачные сервисы * Машинное обучение *

Всем привет! Меня зовут Антон Ермилов, я руковожу командой разработки эффективных моделей машинного обучения в Yandex Cloud. Самый популярный среди наших ML-сервисов — Yandex SpeechKit, сервис распознавания и синтеза речи. В SpeechKit мы уже создали модели распознавания речи для 10 европейских языков, турецкого и казахского, а также модели синтеза речи для пяти языков. Недавно мы добавили узбекский язык.

В этой статье я расскажу на примере узбекского, как мы добавляем новый язык в сервис: как создаются технологии синтеза и распознавания речи, как мы обучаем модели, какие встречаются сложности.

+27

@telecomgod 13 июн 2023 в 07:12

Адаптивный синтез речи вместо типичного ИИ: что это, для чего и как работает

Простой

4 мин

Блог компании МТТГолосовые интерфейсы * Облачные сервисы *

Обзор

Некоторые клиенты Voicebox хотят, чтобы бот говорил особенным голосом. Что ж, раз нужно — значит, можно, и скоро адаптивный синтез будет доступен для всех. Пока же мы экспериментируем с голосами в тестовом режиме, и кое-чем я хочу поделиться с вами в этой статье.

@requiem-ame 8 июн 2023 в 11:55

Создаем бота: какая ответственность лежит на проектировании разговорных интерфейсов

Средний

10 мин

2.9K

Блог компании Just AIУправление проектами * Голосовые интерфейсы *

Обзор

Привет, Хабр! Меня зовут Юля, и я дизайнер диалоговых интерфейсов в команде Just AI. В этой статье я расскажу о том, какая ответственность возложена на этап дизайна, как сценарий бота помогает в процессе разработки, о принципах эффективной сценарной работы и о подводных камнях подхода «проектирую сразу в коде».

@snakers4 1 июн 2023 в 16:46

Реально ли привлечь РЖД за нарушение лицензии модели синтеза из репозитория silero-models?

Простой

1 мин

34K

Open source * Законодательство в ITГолосовые интерфейсы *

Мнение

Увидел новость про виртуального помощника "Валеру", которого только что презентовала РЖД. Судя по голосу, взят наш голос aidar из репозитория silero-models … опубликованный под некоммерческой под лицензией CC BY-NC-SA.

Обсудить

+188

198

@AlexeyBorschov 17 мая 2023 в 11:58

Как сделать голосового бота техподдержки и не разочароваться?

Средний

6 мин

3.3K

Блог компании Just AIАнализ и проектирование систем * Голосовые интерфейсы * Natural Language Processing * Service Desk *

Туториал

Привет, Хабр! Меня зовут Алексей Борщов и я занимаюсь проектированием голосовых диалоговых систем в компании Just AI. Как вы уже догадались по заголовку, речь сейчас пойдет о процессе создания голосового бота техподдержки, который может быть использован как для внутрикорпоративной, так и для внешней (клиентской) поддержки. И начнем мы с очевидного вопроса – а зачем он вообще нужен?

@gist59 16 мая 2023 в 13:45

Адаптация языковой модели vosk

Простой

3 мин

31K

Голосовые интерфейсы * Python * Open source *

Туториал

Из песочницы

Приветствую, Хабр. В данной статье хочу рассмотреть процесс добавления слов в языковую модель vosk'а (vosk - библиотека для распознавания речи, в основе которой kaldi).

+11

@Boris_Kaganovich 11 мая 2023 в 08:20

«Что нам стоит „Капсулу“ построить?» — как мы создавали VK Капсулу Нео

Простой

6 мин

6.4K

Блог компании VKПроизводство и разработка электроники * ГаджетыГолосовые интерфейсы *

Кейс

Многие подсознательно воспринимают умные колонки как что-то несложное в разработке. «Ну правда, что там такого: динамик, микрофон, светодиоды да Wi-Fi». Мы в VK захотели создать инновационный продукт, и в итоге прошли интересный путь от идеи до выхода на рынок нашей малышки для всех и каждого — VK Капсулы Нео. С виду вполне типичная умная колонка таит в себе технологические решения, которые в будущем постараются повторить в своих продуктах другие компании.

Меня зовут Борис Каганович, я директор по разработке и производству умных устройств в VK. В этой статье я расскажу о том, как появилась идея создать колонку и какой путь мы прошли от идеи продукта до его реализации.

+24

@snakers4 25 апр 2023 в 08:30

Собака лает — ветер носит, или решил ли Bark синтез речи?

Средний

6 мин

7.9K

Машинное обучение * Голосовые интерфейсы * Искусственный интеллект

Аналитика

Время от времени мне в личку присылают посты с телеграм-каналов, специализирующихся на "ИИ" хайпе. Обычно такие посты сопровождаются весьма сомнительного качества журналистикой, мол задача X теперь уже решена и мы были облагодетельствованы.

В этот раз мне прислали ссылку на репозиторий Bark, который является некой интерпретацией статьи VALL-E от известной корпорации добра. В частности их репозиторий обещает:

• Синтез на всех популярных языках от английского до китайского;

• Возможность GPT-style управления выдаваемым аудио;

• Возможность дикторов "говорить" на иностранных языках;

• Войс-клонинг "этичненько" залочен;

• Всё это в высоком качестве как у современного нейросетевого синтеза и в "риалтайме", с моделями "более 100M параметров";

Давайте разберемся так ли это.

Давайте!

+23

@adurnetsov 19 апр 2023 в 04:37

Как одно агентство голосового робота попробовало

Простой

6 мин

2.1K

Интернет-маркетинг * Повышение конверсии * Управление продажами * Искусственный интеллектГолосовые интерфейсы *

Мнение

Возможно вы знаете, что у нас кадровое агентство по подбору программистов. Сегодня расскажу наш опыт того как мы решили использовать высокие технологии совместно с маркетингом на пользу агентству. Речь пойдёт о голосовом роботе, с типа искусственным интеллектом.

Во‑первых, 2022год был наполненным различными событиями, с вытекающими потребностями и задачами. Например, иностранные заказчики персонала, внезапно взволновались и начали разрывать контракты. Часть росссийских компаний попали под прямые и косвенные санкции и начали резать косты. Но компании нужно как‑то жить, поэтому нужно искать заказчиков.

Факт второй — то что кадровых агентств в России поубавилось, правда как и много чего другого... Единственную статистику которой я могу оперировать в цифрах — это статистика по Новосибу. Как‑то смотрел что у нас в 2019–2021года, на весь Новосибирск было около 100–120 кадровых агентств, а в СФО примерно 300 — 400. А вот на апрель 2023 в Новосибирске, из живых боюсь что осталось порядка 20, ну плюс минус ещё 10, а в СФО не более 100 агентств. И похоже что подобная картинка наблюдается по России.

Жить хочется всем, а жить хорошо хочется ещё больше, поэтому нужны клиенты. Если сидеть на попе ровно, не искать заказы, то скорее всего ещё живые агентства разберут заказчиков которые до тебя могут не дойти. Вот и поддавшись «осенним позитивным» настроениям, мы решили по активничать.

Как вы поняли, история началась в сентябре 2022года. На меня вышла компания которая предоставляет таких голосовых «ботов». Поразмышляв, и заплатив порядка 50тыс руб за сборку робота и первоначальный бюджет на звонки — взялись за работу.

-8

@kerenskiy 17 апр 2023 в 14:11

openHAB + Алиса = OH Cloud

6 мин

11K

Умный домСофтЛайфхаки для гиковГолосовые интерфейсы * Интернет вещей

Доброго времени суток, уважаемые хабровчане!

Сегодня я хотел бы рассказать про навык (интеграцию) голосового помошника Яндекс Алисы с умным домом, построенным на openHAB. Как мы все знаем, управление умным домом с помощью голосовых команд прочно вошло в нашу жизнь - GoogleHome, Homekit, Умный дом с Алисой и прочее прочее давно уже на слуху у каждого. Не обошел этот тренд и опенсурс систем умного дома, но именно голосовой ассистент Яндекса из коробки нигде не поддерживается.

И если для HomeAssistant давно уже был написан компонент Yandex Smart Home , позволяющий интегрировать Алису в умный дом, то в случае с openHAB все гораздо печальнее.

Единственным способом интеграции Алисы в openHAB был навык от KnopkaDom, но судьба его, к сожалению, сложилась не очень. На данным момент навык не работает как должно, сайт недоступен, и дальнейшее развитие проекта крайне туманно.

Идея создать простую и удобную, а главное надежную, интеграцию Алисы в УД openHAB витала в воздухе давно, но только сегодня получилось ее осуществить! Всем, кому стало интересно, добро пожаловать под кат.

@telecomgod 13 апр 2023 в 06:09

Почему 90% звонков бесполезны, и как правильно применять конструктор ботов

Простой

5 мин

2.6K

Блог компании МТТГолосовые интерфейсы * Облачные сервисы *

Мнение

Звонки от спамеров воспринимают негативно более 76% абонентов, пишут Tinkoff Data. 65% опрошенных раздражают такие звонки вне зависимости от того, звонит робот или человек. И всё это от того, что компании просто не умеют настраивать сценарии или используют неправильную стратегию общения с клиентами. А если совсем честно — в большинстве компаний просто нет достаточной культуры продвижения своих услуг.

-1

@JetHabr 5 апр 2023 в 12:01

Исторический момент: ChatGPT обрёл «суперсилу Wolfram»

Средний

18 мин

36K

Блог компании Инфосистемы ДжетПоисковые технологии * Машинное обучение * Голосовые интерфейсы * Искусственный интеллект

Обзор

Перевод

Четвёртая версия ChatGPT одних заставила пищать от восторга, а других повергла в уныние. Кто-то уже нашёл этой системе множество творческих применений, а кто-то пророчит, что эта нейросеть лишит работы кучу людей. Теперь возможности ChatGPT стали ещё шире: систему интегрировали с Wolfram | Alpha, легендарным движком для вычисления ответов в самых разных областях знания. Мы перевели для вас огромную подробную статью об этом от одного из разработчиков Wolfram | Alpha.

+52

@janvarev 27 мар 2023 в 13:44

Ирина, голосовой помощник — теперь и со вкусом GPT-3

Средний

5 мин

28K

Open source * Python * Умный домГолосовые интерфейсы *

«Лама... Альпака...Чатгпт...» — раздавалась в уютненьком чатике по Ирине.

Хабр был не лучше — статьи по работе с GPT множились как грибы, а в комментах раздавались возгласы в духе «Дайте мне голосового помощника, с которым можно болтать!»

Если честно, еще в первой статье про Ирину я говорил, что небольшой фанат именно общения с виртуальным помощником. Помощник должен выполнять команды, казалось мне.

Тем не менее, и меня заинтересовало, насколько весело будет именно болтать с GPT, но самому в коде и платном API‑доступе разбираться не хотелось. Но сегодня утром меня снабдили и примером, и ключиком...

‑-

Это продолжение моих статей о разработке голосового помощника Ирины, не зависящего от крупных корпораций. У нас есть ~~печеньки~~:

— Полностью оффлайн SpeechToText и TextToSpeech
— Поддержка плагинов
— Готовые команды «таймер», «погода» и ряд прочих. Поддержка HomeAssistant.
— Поддержка работы в клиент‑серверном режиме — сервер + куча микрофонов + Телеграм‑клиент, например.

Расскажу, что улучшилось за прошедший год с момента прошлой статьи.

TL;DR> Добавлен плагин для общения с GPT-3 нейросетью. Сделан пакет упрощенной установки под Windows — «скачай и запусти». Сделано два веб‑клиента — один распознает слова прям в браузере (тяжелый), другой отправляет весь звуковой поток на сервер (легкий) — так что можно запускать клиенты, например, на смартфоне. Добавлен TTS Silero v3 — имхо, лучшее озвучивание доступное в открытом доступе. Сделан докер‑образ для быстрого запуска Ирины без установки зависимостей. Добавлено нечеткое распознавание фраз. Обновлена VOSK‑модель распознавания голоса на специально натренированную для Ирины.

+38

1 2 3 4

6 7 ...

15 16

Голосовые интерфейсы *

Теперь наш синтез на 22 языках с кириллицей и ещё в 4 раза быстрее

Когда робот тебя обманывает

Как мы научили Алису реагировать на быстрые команды

Как подружить Asterisk с потоковым распознаванием от Яндекс SpeechKit через EAGI и Python

Ума палата: Алиса, Маруся и другие

Meta* Voicebox: голосовой генеративный ИИ, которого боится сама компания

Нейросеть «Жириновский» — на что способна новая нейросеть от Наносемантики

Как мы создаём новые языки в Yandex SpeechKit. Рассказываем на примере узбекского

Адаптивный синтез речи вместо типичного ИИ: что это, для чего и как работает

Создаем бота: какая ответственность лежит на проектировании разговорных интерфейсов

Реально ли привлечь РЖД за нарушение лицензии модели синтеза из репозитория silero-models?

Как сделать голосового бота техподдержки и не разочароваться?

Адаптация языковой модели vosk

Ближайшие события

«Что нам стоит „Капсулу“ построить?» — как мы создавали VK Капсулу Нео

Собака лает — ветер носит, или решил ли Bark синтез речи?

Как одно агентство голосового робота попробовало

openHAB + Алиса = OH Cloud

Почему 90% звонков бесполезны, и как правильно применять конструктор ботов

Исторический момент: ChatGPT обрёл «суперсилу Wolfram»

Ирина, голосовой помощник — теперь и со вкусом GPT-3

Вклад авторов