Голосовые интерфейсы *

управляем устройствами при помощи голосовых команд

СтатьиПостыНовостиАвторыКомпании

AndrewYaremko 14 янв 2024 в 23:58

UI / UX — когда миллионы людей ошибаются

Простой

3 мин

15K

Интерфейсы*Дизайн мобильных приложений*Графический дизайн*Голосовые интерфейсы*

UI-дизайн — это про то, как выглядит интерфейс, UX — про то как с ним работает пользователь. Хочется спросить — «Вы откуда это вообще взяли»?

artmaro 28 дек 2023 в 10:40

Как GPT и голосовые ассистенты изменят работу со смартфонами

Простой

5 мин

2.3K

Блог компании RaftИскусственный интеллектБудущее здесьГолосовые интерфейсы*

В начале года мы уже стали свидетелями того, как AutoGPT, а затем GPT Engineer демонстрировали, что приложения на GPT способны совместно писать код и решать сложные задачи. Следующий этап — это автоматическое взаимодействие с приложениями с помощью голоса.

Сегодня мы рассмотрим свежую работу исследователей из Tencent, которые сделали прототип ассистента AppAgent для мобильных приложений. Этот ассистент способен учиться взаимодействовать с любыми приложениями, обеспечивая доступ к ним через голосовой интерфейс без необходимости интеграции с API или изменения пользовательского интерфейса. Теперь достаточно сказать: “Эй, банк, переведи 300 рублей Васе за обед на карту Сбера”, и AppAgent самостоятельно откроет ваше любимое банковское приложение, найдет друга и переведет ему деньги. Конечно, возможно пока приложение учится оно отправит не 300, а 3000 рублей и не Васе, а Пете, но прогресс не остановить и такое упрощение работы с девайсами наше будущее. Кстати, в статье утверждается, что на этапе прототипа уже достигнута точность (success rate) порядка 95%.

Добро пожаловать под КАТ за подробностями.

nkremer 25 дек 2023 в 10:40

Секрет внутренней связи: откровения Маруси о том, как она научилась слушать себя

Средний

10 мин

3.3K

Блог компании VKРазработка мобильных приложений*ГаджетыМашинное обучение*Голосовые интерфейсы*

Кейс

Привет, Хабр! Меня зовут Коля Кремер, уже 4 года я работаю в команде мобильного приложения Маруси, где мы постоянно стараемся сделать так, чтобы с нашим помощником было удобно и интересно общаться.

Я несколько раз начинал писать и откладывал этот ретроспективный пост, но потом к нему подключились ребята из нашей команды и помог довести его до публикации. Хочу поблагодарить Влада Голоднюка, старшего программиста, и Пашу Муханова, руководителя мобильной разработки, и рассказать сообществу Хабра о том, как мы отучили Марусю в приложении триггериться на себя и научили правильно слышать и понимать ваши запросы.

+19

BarakAdama 28 ноя 2023 в 08:01

Станция Дуо Макс. Как мы создавали первую умную колонку Яндекса с экраном

9 мин

27K

Блог компании ЯндексГаджетыИскусственный интеллектУмный домГолосовые интерфейсы*

✏️ Технотекст 2023

Недавно на YaC 2023 мы показали нашу новую колонку — Станцию Дуо Макс. Это первая умная колонка Яндекса с сенсорным экраном и флагман в нашей новой категории устройств. Дуо Макс предложит пользователям как уже знакомые возможности других Станций, так и новые способы взаимодействия с Алисой.

Под катом — не только подробности об устройстве и наше видение назначения экрана, но и несколько историй разработки. Например, вы узнаете, как экран влияет на акустику устройства и к каким неожиданным изменениям привела возможность повернуть его на 90 градусов. Расскажем про видеозвонки в Telegram и нейросетевой фокус. Ну и закончим пост историей о том, как мы приняли участие в отладке процессора.

+55

APPKODE 24 ноя 2023 в 13:11

ТРИЗ в разговорном дизайне: как находить оптимальные решения при проектировании сложных сценариев

Простой

11 мин

3.1K

Голосовые интерфейсы*Дизайн

Мнение

Я проектирую сценарии голосовых помощников и периодически сталкиваюсь с нетривиальными проблемами. Их решение часто связано с издержками — то диалог получается слишком длинным, то ответ становится неестественным, то пользователь сваливается в бесконечный цикл уточнений и переспросов.

Устранить подобные противоречия помогают приёмы ТРИЗ — теории решения изобретательских задач. Вот только есть проблема: эти приёмы были сформулированы для решения инженерных задач, поэтому их использование в дизайне выглядит неуместным — как можно сделать бота пористым, изменить его агрегатное состояние или привести в колебательное движение?

Меня зовут Кирилл Богатов, я дизайнер разговорных продуктов в KODE. В этой статье я на примерах покажу, как адаптировал ТРИЗ для работы над голосовым навыком для Алисы. Материал будет полезен дизайнерам и любителям мозговых штурмов.

BarakAdama 16 ноя 2023 в 09:00

Станция Миди и голосовое управление Zigbee-устройствами без интернета. История разработки

Простой

7 мин

38K

Блог компании ЯндексИскусственный интеллектУмный домIT-компанииГолосовые интерфейсы*

Недавно мы представили нашу новую умную колонку — Яндекс Станцию Миди. Она больше, чем Лайт или Мини, поэтому в ней уместились вуфер и два высокочастотных динамика с суммарной мощностью звука 24 Вт. Но при этом она легче и компактнее, чем Станция 2 или Макс. Кроме того, в Миди мы внедрили технологии, которые позволили Алисе научиться новому. В частности, благодаря более современному процессору и бо́льшему объёму оперативной памяти, Алиса в Станции Миди впервые стала понимать и выполнять голосовые команды умного дома локально, без интернета.

Сегодня коротко расскажем, какие задачи пришлось решить команде Алисы и умных устройств, чтобы у пользователей появилась возможность управлять Zigbee-совместимыми устройствами с помощью голоса и не зависеть при этом от удалённого сервера или провайдера.

Что важно: это полезно не только при проблемах со связью. Теперь Zigbee-устройства будут реагировать на команды быстрее даже при наличии хорошего интернета (чуть подробнее — в блоке про замеры скорости в конце поста).

Про локальный умный дом мы впервые заговорили весной этого года. Возможно, вы даже читали на Хабре статью о том, как мы научили наши колонки со встроенным Zigbee-модулем хранить и выполнять сценарии умного дома напрямую, без посредника в виде сервера. Но были ограничения: это работало только для тех сценариев, которые запускались по кнопке или таймеру. Потому что работа с голосовыми командами была доступна только через наше облако. Слишком уж тяжеловесной была это задача для железа.

+45

akimovpro 13 ноя 2023 в 10:51

Революция от OpenAI — полный обзор: что означают последние анонсы для продуктовой разработки

Простой

11 мин

26K

Голосовые интерфейсы*Natural Language Processing*Искусственный интеллектМашинное обучение*

Обзор

Неделю назад я получил уведомление о начале трансляции первой разработческой конференции от OpenAI. Было неудобно смотреть эфир живьём, так что я уложил детей спать, и ночью, заварив себе какао, с предвкушением открыл YouTube.

Конечно, я к тому времени не выдержал и посмотрел краткие описания анонсов, так что был готов к тому, что увижу, но скажу честно: не смотря на презентацию в стиле студенческих конференций (на финальный слайд (под катом) вообще без слёз не взглянешь), чем дольше я слушал об анонсах, тем больше у меня отвисала челюсть.

Это не просто небольшие улучшения; это действительно скачок вперед. Я слушаю про увеличение длины контекста до 128К, обновлении данных до апреля текущего года, об интеграции в API интерпретатора, нового "рисователя" DALLE-3, анализ изображений, извлечение данных из массивов, безлимитных "ассистентов" и чуть ли не подпрыгиваю на стуле от оживления: решилось огромное количество проблем, которые до этого требовали человеко-месяцы доработки довольно квалифицированной командой.

Как только презентация подходит к концу, я судорожно открываю беклог и начинаю записывать и редактировать идеи. Я уверен, что перед разработчиками открыли действительно большие возможности, которые переопределят способ разработки и восприятия продуктов. И если тема AI вас как минимум интересует и вы ещё и занимаетесь продуктовой разработкой, а перепосченных по 150 раз новостей не хватает понять, что это значит лично для вас и команды, этот обзор будет весьма кстати.

Итак, что нового

+14

MR_VF 26 окт 2023 в 21:06

Ад Топинамбура

Простой

7 мин

Искусственный интеллектNatural Language Processing*Голосовые интерфейсы*

Кейс

Нейросети все прочнее укрепляются в нашей жизни. Многие уже попробовали писать с помощью нейросети сочинения на заданную тему, и её тексты становятся всё лучше и лучше.

Если брать визуальные возможности нейросетей, то последняя версия GPT-4V(ision) научилась распознавать изображения. С помощью некоторых сетей, обрабатывающих видео, уже создаются клипы на музыкальные произведения. Конечно, видеоряд, можно сказать, на любителя. Недавно появились сервисы, позволяющие изменить язык в видео так, что даже выражение и движения губ соответствуют языку. Ну а нейросети поисковика Бинг и Google вполне себе умеет копаться в поисках информации в Сети. С помощью голосовых нейросетей музыканты подменяют голоса в известных песнях.

Превращение холста и создание симфоний видео уже более-менее понятны. В плане же создания литературы, как мне кажется, нейросети тоже продвинулись вперёд. Давайте разберём то, чего мне удалось найти нового в сочинении текстов. За подопытного возьмем Microsoft Bing.

AnatolyBelov 20 окт 2023 в 07:56

Распознавание речи (транскрибация) по аудиозаписям диалогов. Whisper. Личный опыт

5 мин

23K

Python*Искусственный интеллектNatural Language Processing*Голосовые интерфейсы*

Распознаем речь по аудиозаписям диалогов сотрудников и клиентов.
Сохраняем по разным дорожкам, в тексте и с таймингом.
Модель Whisper, работаем в Colab.
Личный опыт.

ritabelkova 13 окт 2023 в 10:25

Перебивание как фича: как голосовому боту выжить в мире, где ему не дают договорить

Средний

7 мин

2.8K

Блог компании Just AIГолосовые интерфейсы*Управление разработкой*

Туториал

Меня зовут Маргарита Белкова, я дизайнер-скриптолог в компании Just AI. И в этой статье я бы хотела рассказать о феномене перебиваний и о перебивании как фиче. Мы постоянно сталкиваемся с этим явлением в реальном общении, но как быть, когда это происходит в разговорах с голосовыми ботами? Разберем, как устроена эта функция голосового бота, какие виды бывают и в каких точках сценария перебивания наиболее уместны.

AlexxIT 9 окт 2023 в 06:00

Разговоры с кроватью, про Яндекс Алису и умный дом Home Assistant

Простой

7 мин

22K

Яндекс API*ГаджетыУмный домГолосовые интерфейсы*Интернет вещей

В прошлой статье мы с вами добавляли голосовое управление кофеварке Jura. Но это была лишь тренировка в ожидании доставки по-настоящему космического устройства - умной кровати Ergomotion от Аскона.

+30

Arseny_AI 29 сен 2023 в 11:50

Всё идет по плану: как задавать роботу список действий с помощью языковых моделей и голосовых команд

Средний

18 мин

3.5K

Блог компании AIRIАлгоритмы*Машинное обучение*РобототехникаГолосовые интерфейсы*

Кейс

Всем привет! Этим летом мы с командой участвовали в летней школе AIRI, где нам было предложено реализовать учебный проект. Мы выбрали себе задачу на стыке языковых моделей и робототехники. В частности, мы реализовали полноценный фреймворк, в котором можно строить собственные пайплайны для построения системы генерации плана с помощью языковых моделей, причем с интерфейсом ввода на основе распознавания русской речи. Кроме того, мы придумали собственную систему валидирования и подсчета метрик качества выполнения задач.

Работа оказалась настолько сложной и интересной, что нам захотелось рассказать о ней большему числу людей, а не только тем, кто был на школе. Ну а чтобы контекст работы был немного понятнее, мы добавили в наше повествование небольшой обзор методов планирования (в том числе с помощью языковых моделей), а также распознавания речи. Надеемся, наш рассказ будет интересным и полезным. Погнали!

Alexey_Cherepetckoi 27 сен 2023 в 08:51

Голос разума: как мы в Fix Price применяем голосовых роботов-помощников

Простой

5 мин

1.3K

Блог компании Fix PriceГолосовые интерфейсы*

Кейс

Привет, Хабр! На связи ведущий методолог Fix Price Алексей Черепецкой, и сегодня я расскажу вам о том, чем бизнесу могут быть полезны голосовые боты, а также где и как мы используем эту технологию у себя. И конечно, остановимся подробнее на технических решениях и интересных моментах.

MarkParker5 20 сен 2023 в 09:27

S.T.A.R.K. — первый фреймворк для создания голосового ассистента

Простой

3 мин

9.4K

Python*Программирование*Умный домNatural Language Processing*Голосовые интерфейсы*

Обзор

Перевод

Сегодня я рад представить вам S.T.A.R.K. (Speech and Text Algorithmic Recognition Kit). Если вы когда-либо мечтали создать голосового ассистента, который будет автономным, приватным, продвинутым и невероятно интуитивным, S.T.A.R.K. - лучшее решение.

AlexxIT 19 сен 2023 в 06:04

Диалоги с кофеваркой, про Яндекс Алису и умный дом Home Assistant

Простой

6 мин

26K

Яндекс API*ГаджетыУмный домГолосовые интерфейсы*Интернет вещей

Умная кофемашина это одно из самых глупых устройств на рынке. Обычно, сразу после включения, в них есть стадия автоматической промывки. И ещё одна перед выключением. Это значит, что вы не можете оставить в кофемашине кружку и приготовить напиток удалённо.

Но, при наличии умной колонки на кухне, открывается полёт для фантазии. Особенно, когда кофемашина из списка старших моделей и умеет более десятка напитков, где каждый напиток регулируется большим набором параметров.

+48

LyudmilaAlt 13 сен 2023 в 09:44

Голосовой поиск: путь к удобству и оперативности в цифровой эпохе

Простой

5 мин

1.4K

Блог компании AltcraftГолосовые интерфейсы*Управление продажами*Интернет-маркетинг*

Recovery Mode

Раньше обращение человека к компьютеру голосом можно было увидеть только в фантастическом кино. В настоящее время больше половины пользователей предпочитают голосовые запросы. Это очень удобно: не нужно отвлекаться от текущих дел, чтобы напечатать свой вопрос, поэтому ежедневно люди разговаривают со своими девайсами. Да и сказать гораздо быстрее, чем ввести текст, даже если в настоящий момент руки свободны.

Распространено убеждение, что голосовой ввод заменяет собой текст. На самом деле письменный формат остаётся основным: компьютер умеет всего лишь фиксировать речь, но не обрабатывать её. Алгоритмы переводят сказанную фразу в тестовый формат, а только потом анализируют и ищут в глобальной сети ответ на запрос.

BosonBeard 13 сен 2023 в 09:31

«Oh no! code» или как создать голосового помощника без единой строчки кода с помощью VoiceBox

Простой

10 мин

2.4K

Блог компании МТТПрограммирование*Проектирование API*Сотовая связьГолосовые интерфейсы*

Кейс

В последнее время на меня практически из каждого утюга льется реклама различных курсов по no-code разработке, в которой радостно рассказывают, что программировать скоро сможет каждый и это светлое будущее человечества. Но так получилось, что я хоть и не разработчик, но свой путь к азам программирования начал с учебника по Turbo Pascal 7. Поэтому на no-code я смотрю с некоторым подозрением.

Я решил изучить данный вопрос, как всегда, посмотрев на него с необычной стороны.

snakers4 17 авг 2023 в 09:38

Теперь наш синтез на 22 языках с кириллицей и ещё в 4 раза быстрее

Средний

4 мин

6.6K

Машинное обучение*ЗвукГолосовые интерфейсы*Natural Language Processing*

Источник карты — Проект «Языки России» Институт языкознания РАН, 2021 год

Давненько мы не выпускали новых статей про наш синтез речи! В прошлый раз мы добавили синтез на 9 языках народов Индии, существенно улучшили автоматическую простановку ударений, добавили 1 русский голос и "наследовали" SSML для всех моделей.

В этот раз мы сделали следующее:

Ускорили все v4 модели в 3-4 раза;
Существенно повысили качество синтеза в 8 kHz;
Обновили и пересобрали нашу модель для русского языка;
Обновили модель для 9 языков народов Индии с 17 голосами;
Добавили единую модель для 22 языков с кириллическим алфавитом с 31 голосом;
Прекратили поддержку моделей романо-германских языков (старые модели будут доступны для скачивания без изменений);
Обновили модели для языков народов СНГ: узбекского и украинского (татарский и калмыцкий были "поглощены" единой моделью);

Читать дальше →

+31

telecomgod 15 авг 2023 в 06:20

Когда робот тебя обманывает

Простой

6 мин

Блог компании МТТГолосовые интерфейсы*Облачные сервисы*Искусственный интеллект

Обзор

Многие пользователи до сих пор не представляют, что ИИ-боты могут лгать. Причем не случайно дезинформировать человека, а лгать преднамеренно, что может быть задумано разработчиками. И проблема здесь в том, что после того как пользователь узнает о том, что робот ему солгал, у него может полностью пропасть доверие к ИИ.

kventinel 26 июл 2023 в 07:58

Как мы научили Алису реагировать на быстрые команды

9 мин

21K

Блог компании ЯндексМашинное обучение*Искусственный интеллектЗвукГолосовые интерфейсы*

Голосовые ассистенты активируются «по имени» — это всем привычно. Но как быть, если нужно несколько раз повторять команду из одного слова? Например, чтобы настроить музыку, говорить каждый раз «Алиса, громче» и «Алиса, дальше» утомляет. Кроме того, в некоторых сценариях важна скорость выполнения действия: например, когда нужно включить свет в комнате.

Для таких случаев мы научили Алису распознавать быстрые команды — то есть те, для которых её не нужно звать по имени. Достаточно просто сказать «громче», «дальше» или «включи свет». И в этой статье я расскажу, что из себя представляет новая функция, как мы её разрабатывали, с какими сложностями столкнулись. А ещё немного поговорим про распознавание и свёрточные модели.

Дальше!

+31

1 2

4 5 ...

14 15

Голосовые интерфейсы *

UI / UX — когда миллионы людей ошибаются

Как GPT и голосовые ассистенты изменят работу со смартфонами

Секрет внутренней связи: откровения Маруси о том, как она научилась слушать себя

Станция Дуо Макс. Как мы создавали первую умную колонку Яндекса с экраном

ТРИЗ в разговорном дизайне: как находить оптимальные решения при проектировании сложных сценариев

Станция Миди и голосовое управление Zigbee-устройствами без интернета. История разработки

Революция от OpenAI — полный обзор: что означают последние анонсы для продуктовой разработки

Ад Топинамбура

Распознавание речи (транскрибация) по аудиозаписям диалогов. Whisper. Личный опыт

Перебивание как фича: как голосовому боту выжить в мире, где ему не дают договорить

Разговоры с кроватью, про Яндекс Алису и умный дом Home Assistant

Всё идет по плану: как задавать роботу список действий с помощью языковых моделей и голосовых команд

Голос разума: как мы в Fix Price применяем голосовых роботов-помощников

Ближайшие события

S.T.A.R.K. — первый фреймворк для создания голосового ассистента

Диалоги с кофеваркой, про Яндекс Алису и умный дом Home Assistant

Голосовой поиск: путь к удобству и оперативности в цифровой эпохе

«Oh no! code» или как создать голосового помощника без единой строчки кода с помощью VoiceBox

Теперь наш синтез на 22 языках с кириллицей и ещё в 4 раза быстрее

Когда робот тебя обманывает

Как мы научили Алису реагировать на быстрые команды

Вклад авторов