Как стать автором
Обновить
18.19

Голосовые интерфейсы *

управляем устройствами при помощи голосовых команд

Сначала показывать
Порог рейтинга
Уровень сложности

Всё идет по плану: как задавать роботу список действий с помощью языковых моделей и голосовых команд

Уровень сложности Средний
Время на прочтение 18 мин
Количество просмотров 1K
Кейс

Всем привет! Этим летом мы с командой участвовали в летней школе AIRI, где нам было предложено реализовать учебный проект. Мы выбрали себе задачу на стыке языковых моделей и робототехники. В частности, мы реализовали полноценный фреймворк, в котором можно строить собственные пайплайны для построения системы генерации плана с помощью языковых моделей, причем с интерфейсом ввода на основе распознавания русской речи. Кроме того, мы придумали собственную систему валидирования и подсчета метрик качества выполнения задач.

Работа оказалась настолько сложной и интересной, что нам захотелось рассказать о ней большему числу людей, а не только тем, кто был на школе. Ну а чтобы контекст работы был немного понятнее, мы добавили в наше повествование небольшой обзор методов планирования (в том числе с помощью языковых моделей), а также распознавания речи. Надеемся, наш рассказ будет интересным и полезным. Погнали!

Читать далее
Всего голосов 4: ↑4 и ↓0 +4
Комментарии 0

Новости

Голос разума: как мы в Fix Price применяем голосовых роботов-помощников

Уровень сложности Простой
Время на прочтение 5 мин
Количество просмотров 430
Кейс

Привет, Хабр! На связи ведущий методолог Fix Price Алексей Черепецкой, и сегодня я расскажу вам о том, чем бизнесу могут быть полезны голосовые боты, а также где и как мы используем эту технологию у себя. И конечно, остановимся подробнее на технических решениях и интересных моментах.

Читать далее
Всего голосов 10: ↑8 и ↓2 +6
Комментарии 4

S.T.A.R.K. — первый фреймворк для создания голосового ассистента

Уровень сложности Простой
Время на прочтение 3 мин
Количество просмотров 5.5K
Обзор
Перевод

Сегодня я рад представить вам S.T.A.R.K. (Speech and Text Algorithmic Recognition Kit). Если вы когда-либо мечтали создать голосового ассистента, который будет автономным, приватным, продвинутым и невероятно интуитивным, S.T.A.R.K. - лучшее решение.

Читать далее
Всего голосов 7: ↑7 и ↓0 +7
Комментарии 10

Диалоги с кофеваркой, про Яндекс Алису и умный дом Home Assistant

Уровень сложности Простой
Время на прочтение 6 мин
Количество просмотров 14K

Умная кофемашина это одно из самых глупых устройств на рынке. Обычно, сразу после включения, в них есть стадия автоматической промывки. И ещё одна перед выключением. Это значит, что вы не можете оставить в кофемашине кружку и приготовить напиток удалённо.

Но, при наличии умной колонки на кухне, открывается полёт для фантазии. Особенно, когда кофемашина из списка старших моделей и умеет более десятка напитков, где каждый напиток регулируется большим набором параметров.

Читать далее
Всего голосов 47: ↑47 и ↓0 +47
Комментарии 21

Истории

Голосовой поиск: путь к удобству и оперативности в цифровой эпохе

Уровень сложности Простой
Время на прочтение 5 мин
Количество просмотров 443
Recovery Mode

Раньше обращение человека к компьютеру голосом можно было увидеть только в фантастическом кино. В настоящее время больше половины пользователей предпочитают голосовые запросы. Это очень удобно: не нужно отвлекаться от текущих дел, чтобы напечатать свой вопрос, поэтому ежедневно люди разговаривают со своими девайсами. Да и сказать гораздо быстрее, чем ввести текст, даже если в настоящий момент руки свободны.

Распространено убеждение, что голосовой ввод заменяет собой текст. На самом деле письменный формат остаётся основным: компьютер умеет всего лишь фиксировать речь, но не обрабатывать её. Алгоритмы переводят сказанную фразу в тестовый формат, а только потом анализируют и ищут в глобальной сети ответ на запрос.

Читать далее
Всего голосов 6: ↑3 и ↓3 0
Комментарии 0

«Oh no! code» или как создать голосового помощника без единой строчки кода с помощью VoiceBox

Уровень сложности Простой
Время на прочтение 10 мин
Количество просмотров 1.5K
Кейс

В последнее время на меня практически из каждого утюга льется реклама различных курсов по no-code разработке, в которой радостно рассказывают, что программировать скоро сможет каждый и это светлое будущее человечества. Но так получилось, что я хоть и не разработчик, но свой путь к азам программирования начал с учебника по Turbo Pascal 7. Поэтому на no-code я смотрю с некоторым подозрением. 

Я решил изучить данный вопрос, как всегда, посмотрев на него с необычной стороны.

Читать далее
Всего голосов 7: ↑7 и ↓0 +7
Комментарии 0

«Яндекс ТВ Станция» и «Яндекс ТВ Станция Про» поступили в продажу

Время на прочтение 6 мин
Количество просмотров 7.6K

22 августа 2023 года в открытую продажу поступили два новых устройства «Яндекса» с «Алисой»: «Яндекс ТВ Станция» и «Яндекс ТВ Станция Про».

Читать далее
Всего голосов 19: ↑15 и ↓4 +11
Комментарии 14

Теперь наш синтез на 22 языках с кириллицей и ещё в 4 раза быстрее

Уровень сложности Средний
Время на прочтение 4 мин
Количество просмотров 4.5K


Источник карты — Проект «Языки России» Институт языкознания РАН, 2021 год

Давненько мы не выпускали новых статей про наш синтез речи! В прошлый раз мы добавили синтез на 9 языках народов Индии, существенно улучшили автоматическую простановку ударений, добавили 1 русский голос и "наследовали" SSML для всех моделей.


В этот раз мы сделали следующее:


  • Ускорили все v4 модели в 3-4 раза;
  • Существенно повысили качество синтеза в 8 kHz;
  • Обновили и пересобрали нашу модель для русского языка;
  • Обновили модель для 9 языков народов Индии с 17 голосами;
  • Добавили единую модель для 22 языков с кириллическим алфавитом с 31 голосом;
  • Прекратили поддержку моделей романо-германских языков (старые модели будут доступны для скачивания без изменений);
  • Обновили модели для языков народов СНГ: узбекского и украинского (татарский и калмыцкий были "поглощены" единой моделью);
Читать дальше →
Всего голосов 32: ↑32 и ↓0 +32
Комментарии 15

Когда робот тебя обманывает

Уровень сложности Простой
Время на прочтение 6 мин
Количество просмотров 1.2K
Обзор

Многие пользователи до сих пор не представляют, что ИИ-боты могут лгать. Причем не случайно дезинформировать человека, а лгать преднамеренно, что может быть задумано разработчиками. И проблема здесь в том, что после того как пользователь узнает о том, что робот ему солгал, у него может полностью пропасть доверие к ИИ. 

Читать далее
Всего голосов 4: ↑2 и ↓2 0
Комментарии 2

Как мы научили Алису реагировать на быстрые команды

Время на прочтение 9 мин
Количество просмотров 13K

Голосовые ассистенты активируются «по имени» — это всем привычно. Но как быть, если нужно несколько раз повторять команду из одного слова? Например, чтобы настроить музыку, говорить каждый раз «Алиса, громче» и «Алиса, дальше» утомляет. Кроме того, в некоторых сценариях важна скорость выполнения действия: например, когда нужно включить свет в комнате. 

Для таких случаев мы научили Алису распознавать быстрые команды — то есть те, для которых её не нужно звать по имени. Достаточно просто сказать «громче», «дальше» или «включи свет». И в этой статье я расскажу, что из себя представляет новая функция, как мы её разрабатывали, с какими сложностями столкнулись. А ещё немного поговорим про распознавание и свёрточные модели.

Дальше!
Всего голосов 31: ↑31 и ↓0 +31
Комментарии 51

Как подружить Asterisk с потоковым распознаванием от Яндекс SpeechKit через EAGI и Python

Время на прочтение 3 мин
Количество просмотров 1.7K
До этого самого времени, я никогда не писал код на Pyhton и Node JS. И поэтому мне было очень сложно скрестить эти системы. И поэтому решил написать об этом пост, так как готовых примеров в Яндексе нет за исключением MRCP про которого было немало нелестных отзывов от пользователей этой системы, но пруфы в данное время предоставить не могу. Я решил не пользоваться этим костылем и изобрести велосипед на костылях сам. Для этого мне в помощь прослужила сама документация с Яндекса и некоторые примеры с StackOverflow.
Читать дальше →
Всего голосов 4: ↑4 и ↓0 +4
Комментарии 1

Ума палата: Алиса, Маруся и другие

Уровень сложности Простой
Время на прочтение 8 мин
Количество просмотров 3.6K
Ретроспектива

Если вы до сих пор не пользуетесь голосовым помощником, то вы лишаете себя множества полезных возможностей. Мы не станем рассказывать о том, как облегчают жизнь Siri, Алиса или Google Assistant, для этого у нас имеется воображение. Все, что вы можете представить об этих человекоголосых роботах уже реализовано, или будет доступно в обозримом будущем. Сегодня мы расскажем о российских голосовых помощниках

Читать далее
Всего голосов 29: ↑27 и ↓2 +25
Комментарии 30

Meta* Voicebox: голосовой генеративный ИИ, которого боится сама компания

Время на прочтение 6 мин
Количество просмотров 4K

Пару недель назад Meta* представила ИИ-модель Voicebox, которая генерирует и редактирует устную речь. Они говорят, что это очередная революция в сфере генеративных ИИ. Модель не только создает речь в точном стиле и голосе любого человека по короткому образцу, но также умеет автоматически удалять шум, поправлять оговорки, понимать контекст. Авторы проекта охарактеризовали Voicebox как «прорыв в моделях речевого ИИ» и «самый универсальный ИИ для генерации речи».

В нашем распоряжении оказался документ с подробностями о реализации этого проекта. Спешим ознакомить с ним вас.

Читать далее
Всего голосов 17: ↑17 и ↓0 +17
Комментарии 2

Ближайшие события

Битва пет-проектов
Дата 25 сентября – 30 ноября
Место Онлайн
PG Boot Camp Russia 2023
Дата 5 октября
Время 10:00 – 17:00
Место Москва Онлайн
Joker
Дата 9 – 14 октября
Время 16:00 – 19:30
Место Санкт-Петербург Онлайн
Открытый урок «Kafka Streams»
Дата 16 октября
Время 10:00
Место Онлайн
Питч-сессия pravo (tech) impulse
Дата 19 октября
Время 15:45 – 17:30
Место Москва
Russia Risk Conference 2023 — 19-я конференция по риск-менеджменту
Дата 25 – 26 октября
Время 10:00 – 19:00
Место Москва Онлайн
IT Recruiting – HR Forum 2023
Дата 8 – 10 ноября
Время 9:00 – 18:00
Место Москва
Онлайн IT HR-конференция HR42
Дата 17 – 18 ноября
Время 10:00 – 14:00
Место Онлайн
HighLoad++ 2023
Дата 27 – 28 ноября
Время 9:00 – 20:00
Место Москва Онлайн

Нейросеть «Жириновский» — на что способна новая нейросеть от Наносемантики

Уровень сложности Простой
Время на прочтение 4 мин
Количество просмотров 15K

Не так давно компания «Наносемантика» представила свою новую нейросеть - «Жириновский», способную на синтез текста, синтез речи, и компиляцию всего указанного в видеоряд (Lip Sync).

И в статье специалисты компании продемонстрировали возможности «Жириновского», задав несколько вопросов из разных сфер жизни, в которых проект может быть задействован в будущем.

Читать далее
Всего голосов 50: ↑15 и ↓35 -20
Комментарии 43

Как мы создаём новые языки в Yandex SpeechKit. Рассказываем на примере узбекского

Уровень сложности Простой
Время на прочтение 8 мин
Количество просмотров 5.1K

Всем привет! Меня зовут Антон Ермилов, я руковожу командой разработки эффективных моделей машинного обучения в Yandex Cloud. Самый популярный среди наших ML-сервисов — Yandex SpeechKit, сервис распознавания и синтеза речи. В SpeechKit мы уже создали модели распознавания речи для 10 европейских языков, турецкого и казахского, а также модели синтеза речи для пяти языков. Недавно мы добавили узбекский язык. 

В этой статье я расскажу на примере узбекского, как мы добавляем новый язык в сервис: как создаются технологии синтеза и распознавания речи, как мы обучаем модели, какие встречаются сложности.

Читать дальше
Всего голосов 31: ↑29 и ↓2 +27
Комментарии 13

Адаптивный синтез речи вместо типичного ИИ: что это, для чего и как работает

Уровень сложности Простой
Время на прочтение 4 мин
Количество просмотров 1K
Обзор

Некоторые клиенты Voicebox хотят, чтобы бот говорил особенным голосом. Что ж, раз нужно — значит, можно, и скоро адаптивный синтез будет доступен для всех. Пока же мы экспериментируем с голосами в тестовом режиме, и кое-чем я хочу поделиться с вами в этой статье.

Читать далее
Всего голосов 3: ↑3 и ↓0 +3
Комментарии 3

Создаем бота: какая ответственность лежит на проектировании разговорных интерфейсов

Уровень сложности Средний
Время на прочтение 10 мин
Количество просмотров 1.8K
Обзор

Привет, Хабр! Меня зовут Юля, и я дизайнер диалоговых интерфейсов в команде Just AI. В этой статье я расскажу о том, какая ответственность возложена на этап дизайна, как сценарий бота помогает в процессе разработки, о принципах эффективной сценарной работы и о подводных камнях подхода «проектирую сразу в коде».

Читать далее
Всего голосов 6: ↑6 и ↓0 +6
Комментарии 3

Реально ли привлечь РЖД за нарушение лицензии модели синтеза из репозитория silero-models?

Уровень сложности Простой
Время на прочтение 1 мин
Количество просмотров 33K
Мнение

Увидел новость про виртуального помощника "Валеру", которого только что презентовала РЖД. Судя по голосу, взят наш голос aidar из репозитория silero-models … опубликованный под некоммерческой под лицензией CC BY-NC-SA.

Обсудить
Всего голосов 224: ↑206 и ↓18 +188
Комментарии 198

Внутри MajorDom v1.0 — Разбираем архитектуру новой системы умного дома

Уровень сложности Простой
Время на прочтение 2 мин
Количество просмотров 3.1K

В предыдущей статье я рассказал о том, как возникла идея создания умного дома. Теперь я хочу более подробно рассмотреть архитектуру первой версии этой системы.

МажорДом состоит из нескольких ключевых компонентов: девайсы, хаб, облако, мост, мобильное приложение и голосовой ассистент.

Девайсы обеспечивают управление физическими устройствами в доме. С помощью радиомодулей и протокола "Мерлин", они обмениваются данными, получают команды от хаба и отправляют ему события.

Читать далее
Всего голосов 6: ↑0 и ↓6 -6
Комментарии 2

MajorDom v1.0 — От голосового помощника к умному дому

Уровень сложности Простой
Время на прочтение 4 мин
Количество просмотров 2.3K
Ретроспектива

Статья на английском / read in english

В 2019 году я впервые узнал про возможность распознавания и синтеза речи на языке python. Гугл ассистент, сири, кортана и другие ассистенты тогда были еще более ограниченными и беспомощными, чем сейчас. О добавлении своих команд речи не шло от слова совсем. Тогда я и загорелся идеей создать своего голосового помощника, который не будет уступать даже Джарвису Тони Старка.

Читать далее
Всего голосов 5: ↑1 и ↓4 -3
Комментарии 1

Вклад авторов