Голосовые интерфейсы *

управляем устройствами при помощи голосовых команд

Статьи Посты Новости Авторы Компании

MimusTriurus 14 апр в 09:39

Интерактивный NPC на Unreal Engine

5 мин

6.2K

Разработка игр*Unreal Engine*Искусственный интеллектИгры и игровые консолиГолосовые интерфейсы*

Из песочницы

Всем привет.

Я хочу с вами поделиться результатами эксперимента по созданию интерактивного NPC на Unreal Engine 5.

Speech recognition, Text-to-speech, LLM модели, LipSync, MetaHuman и все это без использования сторонних сервисов.

Видео работы и ссылка на демо версию прилагается.

Если вам интересно увидеть результат и обсудить перспективы интерактивных NPC в игровой индустрии - добро пожаловать под кат.

+20

Axelus 29 янв в 15:08

Робот, ты нелюдь! Статья, которая ничего не изменит

5 мин

6.3K

Блог компании RegionSoftIT-инфраструктура*CRM-системы*Будущее здесьГолосовые интерфейсы*

Я хорошо помню начало бума IVR в России: с появлением доступной IP-телефонии компании бросились заказывать и самостоятельно проектировать схемы голосовых меню. Казалось, найдена таблетка от всего: можно сокращать размер колл-центров, экономить время сотрудников и клиентов, не переживать за то, что клиент интроверт и изольёт свою боль на голову несчастного менеджера. А главное, стоит копейки! Но шло время и тропа технологической эволюции пошла туда же, куда и биологической: видовое разнообразие и освоение территорий. В общем, задолбали эти роботы! Но почему-то они продолжают оставаться в слепой зоне компаний, так активно ратующих за идеальный сервис.

+32

nkremer 25 дек 2023 в 13:40

Секрет внутренней связи: откровения Маруси о том, как она научилась слушать себя

Средний

10 мин

2.8K

Блог компании VKРазработка мобильных приложений*Машинное обучение*ГаджетыГолосовые интерфейсы*

Кейс

Привет, Хабр! Меня зовут Коля Кремер, уже 4 года я работаю в команде мобильного приложения Маруси, где мы постоянно стараемся сделать так, чтобы с нашим помощником было удобно и интересно общаться.

Я несколько раз начинал писать и откладывал этот ретроспективный пост, но потом к нему подключились ребята из нашей команды и помог довести его до публикации. Хочу поблагодарить Влада Голоднюка, старшего программиста, и Пашу Муханова, руководителя мобильной разработки, и рассказать сообществу Хабра о том, как мы отучили Марусю в приложении триггериться на себя и научили правильно слышать и понимать ваши запросы.

+19

BarakAdama 28 ноя 2023 в 11:01

Станция Дуо Макс. Как мы создавали первую умную колонку Яндекса с экраном

9 мин

24K

Блог компании ЯндексГаджетыИскусственный интеллектУмный домГолосовые интерфейсы*

✏️ Технотекст 2023

Недавно на YaC 2023 мы показали нашу новую колонку — Станцию Дуо Макс. Это первая умная колонка Яндекса с сенсорным экраном и флагман в нашей новой категории устройств. Дуо Макс предложит пользователям как уже знакомые возможности других Станций, так и новые способы взаимодействия с Алисой.

Под катом — не только подробности об устройстве и наше видение назначения экрана, но и несколько историй разработки. Например, вы узнаете, как экран влияет на акустику устройства и к каким неожиданным изменениям привела возможность повернуть его на 90 градусов. Расскажем про видеозвонки в Telegram и нейросетевой фокус. Ну и закончим пост историей о том, как мы приняли участие в отладке процессора.

+55

BarakAdama 16 ноя 2023 в 12:00

Станция Миди и голосовое управление Zigbee-устройствами без интернета. История разработки

Простой

7 мин

28K

Блог компании ЯндексИскусственный интеллектУмный домIT-компанииГолосовые интерфейсы*

Недавно мы представили нашу новую умную колонку — Яндекс Станцию Миди. Она больше, чем Лайт или Мини, поэтому в ней уместились вуфер и два высокочастотных динамика с суммарной мощностью звука 24 Вт. Но при этом она легче и компактнее, чем Станция 2 или Макс. Кроме того, в Миди мы внедрили технологии, которые позволили Алисе научиться новому. В частности, благодаря более современному процессору и бо́льшему объёму оперативной памяти, Алиса в Станции Миди впервые стала понимать и выполнять голосовые команды умного дома локально, без интернета.

Сегодня коротко расскажем, какие задачи пришлось решить команде Алисы и умных устройств, чтобы у пользователей появилась возможность управлять Zigbee-совместимыми устройствами с помощью голоса и не зависеть при этом от удалённого сервера или провайдера.

Что важно: это полезно не только при проблемах со связью. Теперь Zigbee-устройства будут реагировать на команды быстрее даже при наличии хорошего интернета (чуть подробнее — в блоке про замеры скорости в конце поста).

Про локальный умный дом мы впервые заговорили весной этого года. Возможно, вы даже читали на Хабре статью о том, как мы научили наши колонки со встроенным Zigbee-модулем хранить и выполнять сценарии умного дома напрямую, без посредника в виде сервера. Но были ограничения: это работало только для тех сценариев, которые запускались по кнопке или таймеру. Потому что работа с голосовыми командами была доступна только через наше облако. Слишком уж тяжеловесной была это задача для железа.

+45

akimovpro 13 ноя 2023 в 13:51

Революция от OpenAI — полный обзор: что означают последние анонсы для продуктовой разработки

Простой

11 мин

22K

Машинное обучение*Искусственный интеллектNatural Language Processing*Голосовые интерфейсы*

Обзор

Неделю назад я получил уведомление о начале трансляции первой разработческой конференции от OpenAI. Было неудобно смотреть эфир живьём, так что я уложил детей спать, и ночью, заварив себе какао, с предвкушением открыл YouTube.

Конечно, я к тому времени не выдержал и посмотрел краткие описания анонсов, так что был готов к тому, что увижу, но скажу честно: не смотря на презентацию в стиле студенческих конференций (на финальный слайд (под катом) вообще без слёз не взглянешь), чем дольше я слушал об анонсах, тем больше у меня отвисала челюсть.

Это не просто небольшие улучшения; это действительно скачок вперед. Я слушаю про увеличение длины контекста до 128К, обновлении данных до апреля текущего года, об интеграции в API интерпретатора, нового "рисователя" DALLE-3, анализ изображений, извлечение данных из массивов, безлимитных "ассистентов" и чуть ли не подпрыгиваю на стуле от оживления: решилось огромное количество проблем, которые до этого требовали человеко-месяцы доработки довольно квалифицированной командой.

Как только презентация подходит к концу, я судорожно открываю беклог и начинаю записывать и редактировать идеи. Я уверен, что перед разработчиками открыли действительно большие возможности, которые переопределят способ разработки и восприятия продуктов. И если тема AI вас как минимум интересует и вы ещё и занимаетесь продуктовой разработкой, а перепосченных по 150 раз новостей не хватает понять, что это значит лично для вас и команды, этот обзор будет весьма кстати.

Итак, что нового

+13

AlexxIT 9 окт 2023 в 09:00

Разговоры с кроватью, про Яндекс Алису и умный дом Home Assistant

Простой

7 мин

17K

Яндекс API*Разработка для интернета вещей*ГаджетыУмный домГолосовые интерфейсы*

В прошлой статье мы с вами добавляли голосовое управление кофеварке Jura. Но это была лишь тренировка в ожидании доставки по-настоящему космического устройства - умной кровати Ergomotion от Аскона.

+30

AlexxIT 19 сен 2023 в 09:04

Диалоги с кофеваркой, про Яндекс Алису и умный дом Home Assistant

Простой

6 мин

20K

Яндекс API*Разработка для интернета вещей*ГаджетыУмный домГолосовые интерфейсы*

Умная кофемашина это одно из самых глупых устройств на рынке. Обычно, сразу после включения, в них есть стадия автоматической промывки. И ещё одна перед выключением. Это значит, что вы не можете оставить в кофемашине кружку и приготовить напиток удалённо.

Но, при наличии умной колонки на кухне, открывается полёт для фантазии. Особенно, когда кофемашина из списка старших моделей и умеет более десятка напитков, где каждый напиток регулируется большим набором параметров.

+48

denis-19 22 авг 2023 в 11:01

«Яндекс ТВ Станция» и «Яндекс ТВ Станция Про» поступили в продажу

6 мин

20K

Производство и разработка электроники*ГаджетыУмный домГолосовые интерфейсы*

22 августа 2023 года в открытую продажу поступили два новых устройства «Яндекса» с «Алисой»: «Яндекс ТВ Станция» и «Яндекс ТВ Станция Про».

+11

snakers4 17 авг 2023 в 12:38

Теперь наш синтез на 22 языках с кириллицей и ещё в 4 раза быстрее

Средний

4 мин

5.6K

Машинное обучение*ЗвукNatural Language Processing*Голосовые интерфейсы*

Источник карты — Проект «Языки России» Институт языкознания РАН, 2021 год

Давненько мы не выпускали новых статей про наш синтез речи! В прошлый раз мы добавили синтез на 9 языках народов Индии, существенно улучшили автоматическую простановку ударений, добавили 1 русский голос и "наследовали" SSML для всех моделей.

В этот раз мы сделали следующее:

Ускорили все v4 модели в 3-4 раза;
Существенно повысили качество синтеза в 8 kHz;
Обновили и пересобрали нашу модель для русского языка;
Обновили модель для 9 языков народов Индии с 17 голосами;
Добавили единую модель для 22 языков с кириллическим алфавитом с 31 голосом;
Прекратили поддержку моделей романо-германских языков (старые модели будут доступны для скачивания без изменений);
Обновили модели для языков народов СНГ: узбекского и украинского (татарский и калмыцкий были "поглощены" единой моделью);

Читать дальше →

+32

kventinel 26 июл 2023 в 10:58

Как мы научили Алису реагировать на быстрые команды

9 мин

18K

Блог компании ЯндексМашинное обучение*Искусственный интеллектЗвукГолосовые интерфейсы*

Голосовые ассистенты активируются «по имени» — это всем привычно. Но как быть, если нужно несколько раз повторять команду из одного слова? Например, чтобы настроить музыку, говорить каждый раз «Алиса, громче» и «Алиса, дальше» утомляет. Кроме того, в некоторых сценариях важна скорость выполнения действия: например, когда нужно включить свет в комнате.

Для таких случаев мы научили Алису распознавать быстрые команды — то есть те, для которых её не нужно звать по имени. Достаточно просто сказать «громче», «дальше» или «включи свет». И в этой статье я расскажу, что из себя представляет новая функция, как мы её разрабатывали, с какими сложностями столкнулись. А ещё немного поговорим про распознавание и свёрточные модели.

Дальше!

+31

mvideo 11 июл 2023 в 11:52

Ума палата: Алиса, Маруся и другие

Простой

8 мин

6.5K

Блог компании М.Видео-ЭльдорадоГаджетыИскусственный интеллектГолосовые интерфейсы*

Ретроспектива

Если вы до сих пор не пользуетесь голосовым помощником, то вы лишаете себя множества полезных возможностей. Мы не станем рассказывать о том, как облегчают жизнь Siri, Алиса или Google Assistant, для этого у нас имеется воображение. Все, что вы можете представить об этих человекоголосых роботах уже реализовано, или будет доступно в обозримом будущем. Сегодня мы расскажем о российских голосовых помощниках

+25

virtual_explorer 27 июн 2023 в 13:25

Meta* Voicebox: голосовой генеративный ИИ, которого боится сама компания

6 мин

5.4K

Блог компании FirstVDSИскусственный интеллектЗвукБудущее здесьГолосовые интерфейсы*

Пару недель назад Meta* представила ИИ-модель Voicebox, которая генерирует и редактирует устную речь. Они говорят, что это очередная революция в сфере генеративных ИИ. Модель не только создает речь в точном стиле и голосе любого человека по короткому образцу, но также умеет автоматически удалять шум, поправлять оговорки, понимать контекст. Авторы проекта охарактеризовали Voicebox как «прорыв в моделях речевого ИИ» и «самый универсальный ИИ для генерации речи».

В нашем распоряжении оказался документ с подробностями о реализации этого проекта. Спешим ознакомить с ним вас.

+17

eran 15 июн 2023 в 12:23

Как мы создаём новые языки в Yandex SpeechKit. Рассказываем на примере узбекского

Простой

8 мин

5.7K

Блог компании Yandex Cloud & Yandex InfrastructureМашинное обучение*Облачные сервисы*Искусственный интеллектГолосовые интерфейсы*

Всем привет! Меня зовут Антон Ермилов, я руковожу командой разработки эффективных моделей машинного обучения в Yandex Cloud. Самый популярный среди наших ML-сервисов — Yandex SpeechKit, сервис распознавания и синтеза речи. В SpeechKit мы уже создали модели распознавания речи для 10 европейских языков, турецкого и казахского, а также модели синтеза речи для пяти языков. Недавно мы добавили узбекский язык.

В этой статье я расскажу на примере узбекского, как мы добавляем новый язык в сервис: как создаются технологии синтеза и распознавания речи, как мы обучаем модели, какие встречаются сложности.

+27

snakers4 1 июн 2023 в 19:46

Реально ли привлечь РЖД за нарушение лицензии модели синтеза из репозитория silero-models?

Простой

1 мин

33K

Open source*Законодательство в ITГолосовые интерфейсы*

Мнение

Увидел новость про виртуального помощника "Валеру", которого только что презентовала РЖД. Судя по голосу, взят наш голос aidar из репозитория silero-models … опубликованный под некоммерческой под лицензией CC BY-NC-SA.

Обсудить

+188

198

gist59 16 мая 2023 в 16:45

Адаптация языковой модели vosk

Простой

3 мин

7.8K

Open source*Python*Голосовые интерфейсы*

Туториал

Из песочницы

Приветствую, Хабр. В данной статье хочу рассмотреть процесс добавления слов в языковую модель vosk'а (vosk - библиотека для распознавания речи, в основе которой kaldi).

+11

Boris_Kaganovich 11 мая 2023 в 11:20

«Что нам стоит „Капсулу“ построить?» — как мы создавали VK Капсулу Нео

Простой

6 мин

4.3K

Блог компании VKПроизводство и разработка электроники*ГаджетыГолосовые интерфейсы*

Кейс

Многие подсознательно воспринимают умные колонки как что-то несложное в разработке. «Ну правда, что там такого: динамик, микрофон, светодиоды да Wi-Fi». Мы в VK захотели создать инновационный продукт, и в итоге прошли интересный путь от идеи до выхода на рынок нашей малышки для всех и каждого — VK Капсулы Нео. С виду вполне типичная умная колонка таит в себе технологические решения, которые в будущем постараются повторить в своих продуктах другие компании.

Меня зовут Борис Каганович, я директор по разработке и производству умных устройств в VK. В этой статье я расскажу о том, как появилась идея создать колонку и какой путь мы прошли от идеи продукта до его реализации.

+24

snakers4 25 апр 2023 в 11:30

Собака лает — ветер носит, или решил ли Bark синтез речи?

Средний

6 мин

5.8K

Машинное обучение*Искусственный интеллектГолосовые интерфейсы*

Аналитика

Время от времени мне в личку присылают посты с телеграм-каналов, специализирующихся на "ИИ" хайпе. Обычно такие посты сопровождаются весьма сомнительного качества журналистикой, мол задача X теперь уже решена и мы были облагодетельствованы.

В этот раз мне прислали ссылку на репозиторий Bark, который является некой интерпретацией статьи VALL-E от известной корпорации добра. В частности их репозиторий обещает:

• Синтез на всех популярных языках от английского до китайского;

• Возможность GPT-style управления выдаваемым аудио;

• Возможность дикторов "говорить" на иностранных языках;

• Войс-клонинг "этичненько" залочен;

• Всё это в высоком качестве как у современного нейросетевого синтеза и в "риалтайме", с моделями "более 100M параметров";

Давайте разберемся так ли это.

Давайте!

+23

JetHabr 5 апр 2023 в 15:01

Исторический момент: ChatGPT обрёл «суперсилу Wolfram»

Средний

18 мин

32K

Блог компании Инфосистемы ДжетПоисковые технологии*Машинное обучение*Искусственный интеллектГолосовые интерфейсы*

Обзор

Перевод

Четвёртая версия ChatGPT одних заставила пищать от восторга, а других повергла в уныние. Кто-то уже нашёл этой системе множество творческих применений, а кто-то пророчит, что эта нейросеть лишит работы кучу людей. Теперь возможности ChatGPT стали ещё шире: систему интегрировали с Wolfram | Alpha, легендарным движком для вычисления ответов в самых разных областях знания. Мы перевели для вас огромную подробную статью об этом от одного из разработчиков Wolfram | Alpha.

+52

janvarev 27 мар 2023 в 16:44

Ирина, голосовой помощник — теперь и со вкусом GPT-3

Средний

5 мин

18K

Open source*Python*Умный домГолосовые интерфейсы*

«Лама... Альпака...Чатгпт...» — раздавалась в уютненьком чатике по Ирине.

Хабр был не лучше — статьи по работе с GPT множились как грибы, а в комментах раздавались возгласы в духе «Дайте мне голосового помощника, с которым можно болтать!»

Если честно, еще в первой статье про Ирину я говорил, что небольшой фанат именно общения с виртуальным помощником. Помощник должен выполнять команды, казалось мне.

Тем не менее, и меня заинтересовало, насколько весело будет именно болтать с GPT, но самому в коде и платном API‑доступе разбираться не хотелось. Но сегодня утром меня снабдили и примером, и ключиком...

‑-

Это продолжение моих статей о разработке голосового помощника Ирины, не зависящего от крупных корпораций. У нас есть ~~печеньки~~:

— Полностью оффлайн SpeechToText и TextToSpeech
— Поддержка плагинов
— Готовые команды «таймер», «погода» и ряд прочих. Поддержка HomeAssistant.
— Поддержка работы в клиент‑серверном режиме — сервер + куча микрофонов + Телеграм‑клиент, например.

Расскажу, что улучшилось за прошедший год с момента прошлой статьи.

TL;DR> Добавлен плагин для общения с GPT-3 нейросетью. Сделан пакет упрощенной установки под Windows — «скачай и запусти». Сделано два веб‑клиента — один распознает слова прям в браузере (тяжелый), другой отправляет весь звуковой поток на сервер (легкий) — так что можно запускать клиенты, например, на смартфоне. Добавлен TTS Silero v3 — имхо, лучшее озвучивание доступное в открытом доступе. Сделан докер‑образ для быстрого запуска Ирины без установки зависимостей. Добавлено нечеткое распознавание фраз. Обновлена VOSK‑модель распознавания голоса на специально натренированную для Ирины.

+38

2 3 ...

6 7

Голосовые интерфейсы *

Интерактивный NPC на Unreal Engine

Новости

Робот, ты нелюдь! Статья, которая ничего не изменит

Секрет внутренней связи: откровения Маруси о том, как она научилась слушать себя

Станция Дуо Макс. Как мы создавали первую умную колонку Яндекса с экраном

Истории

Станция Миди и голосовое управление Zigbee-устройствами без интернета. История разработки

Революция от OpenAI — полный обзор: что означают последние анонсы для продуктовой разработки

Разговоры с кроватью, про Яндекс Алису и умный дом Home Assistant

Диалоги с кофеваркой, про Яндекс Алису и умный дом Home Assistant

«Яндекс ТВ Станция» и «Яндекс ТВ Станция Про» поступили в продажу

Теперь наш синтез на 22 языках с кириллицей и ещё в 4 раза быстрее

Как мы научили Алису реагировать на быстрые команды

Ума палата: Алиса, Маруся и другие

Meta* Voicebox: голосовой генеративный ИИ, которого боится сама компания

Ближайшие события

Как мы создаём новые языки в Yandex SpeechKit. Рассказываем на примере узбекского

Реально ли привлечь РЖД за нарушение лицензии модели синтеза из репозитория silero-models?

Адаптация языковой модели vosk

«Что нам стоит „Капсулу“ построить?» — как мы создавали VK Капсулу Нео

Собака лает — ветер носит, или решил ли Bark синтез речи?

Исторический момент: ChatGPT обрёл «суперсилу Wolfram»

Ирина, голосовой помощник — теперь и со вкусом GPT-3

Вклад авторов