Все потоки
Поиск
Написать публикацию
Обновить
3.78

Голосовые интерфейсы *

управляем устройствами при помощи голосовых команд

Сначала показывать
Порог рейтинга
Уровень сложности

Интерактивный NPC на Unreal Engine

Время на прочтение5 мин
Количество просмотров8.6K

Всем привет.

Я хочу с вами поделиться результатами эксперимента по созданию интерактивного NPC на Unreal Engine 5.

Speech recognition, Text-to-speech, LLM модели, LipSync, MetaHuman и все это без использования сторонних сервисов.

Видео работы и ссылка на демо версию прилагается.

Если вам интересно увидеть результат и обсудить перспективы интерактивных NPC в игровой индустрии - добро пожаловать под кат.

Читать далее

Превращаем голосовое сообщение в структурированную заметку

Уровень сложностиПростой
Время на прочтение2 мин
Количество просмотров2.2K

Вы когда-нибудь оказывались в ситуации, когда голова была полна идей, но записать их нет возможности? Тогда вы знаете, как бывает сложно быстро и качественно зафиксировать свои мысли. А может вам знакома ситуация, когда собеседник записывает голосовое сообщение на 5 минут с описанием какого-нибудь проекта, и вам приходится переслушивать его снова и снова, чтобы понять все детали. Столкнувшись с этим, я решил сделать Telegram-бота, который может превратить голосовое сообщение в структурированную заметку.

Читать далее

Как правильно написать скрипт для виртуального ассистента

Время на прочтение6 мин
Количество просмотров2.1K

Здравствуйте! Меня зовут Михаил Абрамов, я работаю техническим писателем в МТС Exolve. Мы разрабатываем и тестируем цифровых ботов на платформе VoiceBox — это конструктор голосовых роботов.

Мы запустили этот проект в 2020 году. Он создавался для бизнеса, наших клиентов, которые хотели автоматизировать рутину, например, подтверждение брони, доставки, адреса и так далее.

Сразу предупрежу возможный негатив: наш сервис можно использовать только для звонков людям, которые готовы к этому звонку. Вы заказали пиццу и робот позвонил, сообщил номер заказа, проговорил все его позиции и время доставки. Словом, полезный робот.

Сегодня расскажу, как можно легко и просто разрабатывать скрипты звонков в графическом интерфейсе нашего конструктора.

Читать далее

Как написать ТЗ на разработку чат-бота или AI-ассистента

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров10K

 Привет, Хабр! Меня зовут Элина Тедеева, и я тимлид команды внедрения в команде Just AI. 

В идеальном мире разработка бота или голосового ассистента начинается с технического задания — именно оно должно определять все этапы: от идеи до реализации. О том, почему ТЗ нельзя пренебрегать, как его грамотно составить и какие подводные камни могут встретиться в процессе, я расскажу в этой статье.

Читать далее

Робот, ты нелюдь! Статья, которая ничего не изменит

Время на прочтение5 мин
Количество просмотров6.6K

Я хорошо помню начало бума IVR в России: с появлением доступной IP-телефонии компании бросились заказывать и самостоятельно проектировать схемы голосовых меню. Казалось, найдена таблетка от всего: можно сокращать размер колл-центров, экономить время сотрудников и клиентов, не переживать за то, что клиент интроверт и изольёт свою боль на голову несчастного менеджера. А главное, стоит копейки! Но шло время и тропа технологической эволюции пошла туда же, куда и биологической: видовое разнообразие и освоение территорий. В общем, задолбали эти роботы! Но почему-то они продолжают оставаться в слепой зоне компаний, так активно ратующих за идеальный сервис.

Читать далее

UI / UX — когда миллионы людей ошибаются

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров16K

UI-дизайн — это про то, как выглядит интерфейс, UX — про то как с ним работает пользователь. Хочется спросить — «Вы откуда это вообще взяли»? 

Читать далее

Как GPT и голосовые ассистенты изменят работу со смартфонами

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров2.3K

В начале года мы уже стали свидетелями того, как AutoGPT, а затем GPT Engineer демонстрировали, что приложения на GPT способны совместно писать код и решать сложные задачи. Следующий этап — это автоматическое взаимодействие с приложениями с помощью голоса.

Сегодня мы рассмотрим свежую работу исследователей из Tencent, которые сделали прототип ассистента AppAgent для мобильных приложений. Этот ассистент способен учиться взаимодействовать с любыми приложениями, обеспечивая доступ к ним через голосовой интерфейс без необходимости интеграции с API или изменения пользовательского интерфейса. Теперь достаточно сказать: “Эй, банк, переведи 300 рублей Васе за обед на карту Сбера”, и AppAgent самостоятельно откроет ваше любимое банковское приложение, найдет друга и переведет ему деньги. Конечно, возможно пока приложение учится оно отправит не 300, а 3000 рублей и не Васе, а Пете, но прогресс не остановить и такое упрощение работы с девайсами наше будущее. Кстати, в статье утверждается, что на этапе прототипа уже достигнута точность (success rate) порядка 95%.

Добро пожаловать под КАТ за подробностями.

Читать далее

Секрет внутренней связи: откровения Маруси о том, как она научилась слушать себя

Уровень сложностиСредний
Время на прочтение10 мин
Количество просмотров3.3K

Привет, Хабр! Меня зовут Коля Кремер, уже 4 года я работаю в команде мобильного приложения Маруси, где мы постоянно стараемся сделать так, чтобы с нашим помощником было удобно и интересно общаться. 

Я несколько раз начинал писать и откладывал этот ретроспективный пост, но потом к нему подключились ребята из нашей команды и помог довести его до публикации. Хочу поблагодарить Влада Голоднюка, старшего программиста, и Пашу Муханова, руководителя мобильной разработки, и рассказать сообществу Хабра о том, как мы отучили Марусю в приложении триггериться на себя и научили правильно слышать и понимать ваши запросы.

Читать далее

Станция Дуо Макс. Как мы создавали первую умную колонку Яндекса с экраном

Время на прочтение9 мин
Количество просмотров28K

Недавно на YaC 2023 мы показали нашу новую колонку — Станцию Дуо Макс. Это первая умная колонка Яндекса с сенсорным экраном и флагман в нашей новой категории устройств. Дуо Макс предложит пользователям как уже знакомые возможности других Станций, так и новые способы взаимодействия с Алисой. 

Под катом — не только подробности об устройстве и наше видение назначения экрана, но и несколько историй разработки. Например, вы узнаете, как экран влияет на акустику устройства и к каким неожиданным изменениям привела возможность повернуть его на 90 градусов. Расскажем про видеозвонки в Telegram и нейросетевой фокус. Ну и закончим пост историей о том, как мы приняли участие в отладке процессора.

Читать далее

ТРИЗ в разговорном дизайне: как находить оптимальные решения при проектировании сложных сценариев

Уровень сложностиПростой
Время на прочтение11 мин
Количество просмотров3.1K

Я проектирую сценарии голосовых помощников и периодически сталкиваюсь с нетривиальными проблемами. Их решение часто связано с издержками — то диалог получается слишком длинным, то ответ становится неестественным, то пользователь сваливается в бесконечный цикл уточнений и переспросов.

Устранить подобные противоречия помогают приёмы ТРИЗ — теории решения изобретательских задач. Вот только есть проблема: эти приёмы были сформулированы для решения инженерных задач, поэтому их использование в дизайне выглядит неуместным — как можно сделать бота пористым, изменить его агрегатное состояние или привести в колебательное движение?

Меня зовут Кирилл Богатов, я дизайнер разговорных продуктов в KODE. В этой статье я на примерах покажу, как адаптировал ТРИЗ для работы над голосовым навыком для Алисы. Материал будет полезен дизайнерам и любителям мозговых штурмов.

Читать далее

Станция Миди и голосовое управление Zigbee-устройствами без интернета. История разработки

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров39K

Недавно мы представили нашу новую умную колонку — Яндекс Станцию Миди. Она больше, чем Лайт или Мини, поэтому в ней уместились вуфер и два высокочастотных динамика с суммарной мощностью звука 24 Вт. Но при этом она легче и компактнее, чем Станция 2 или Макс. Кроме того, в Миди мы внедрили технологии, которые позволили Алисе научиться новому. В частности, благодаря более современному процессору и бо́льшему объёму оперативной памяти, Алиса в Станции Миди впервые стала понимать и выполнять голосовые команды умного дома локально, без интернета.

Сегодня коротко расскажем, какие задачи пришлось решить команде Алисы и умных устройств, чтобы у пользователей появилась возможность управлять Zigbee-совместимыми устройствами с помощью голоса и не зависеть при этом от удалённого сервера или провайдера.

Что важно: это полезно не только при проблемах со связью. Теперь Zigbee-устройства будут реагировать на команды быстрее даже при наличии хорошего интернета (чуть подробнее — в блоке про замеры скорости в конце поста).

Про локальный умный дом мы впервые заговорили весной этого года. Возможно, вы даже читали на Хабре статью о том, как мы научили наши колонки со встроенным Zigbee-модулем хранить и выполнять сценарии умного дома напрямую, без посредника в виде сервера. Но были ограничения: это работало только для тех сценариев, которые запускались по кнопке или таймеру. Потому что работа с голосовыми командами была доступна только через наше облако. Слишком уж тяжеловесной была это задача для железа. 

Читать далее

Революция от OpenAI — полный обзор: что означают последние анонсы для продуктовой разработки

Уровень сложностиПростой
Время на прочтение11 мин
Количество просмотров27K

Неделю назад я получил уведомление о начале трансляции первой разработческой конференции от OpenAI. Было неудобно смотреть эфир живьём, так что я уложил детей спать, и ночью, заварив себе какао, с предвкушением открыл YouTube.

Конечно, я к тому времени не выдержал и посмотрел краткие описания анонсов, так что был готов к тому, что увижу, но скажу честно: не смотря на презентацию в стиле студенческих конференций (на финальный слайд (под катом) вообще без слёз не взглянешь), чем дольше я слушал об анонсах, тем больше у меня отвисала челюсть.

Это не просто небольшие улучшения; это действительно скачок вперед. Я слушаю про увеличение длины контекста до 128К, обновлении данных до апреля текущего года, об интеграции в API интерпретатора, нового "рисователя" DALLE-3, анализ изображений, извлечение данных из массивов, безлимитных "ассистентов" и чуть ли не подпрыгиваю на стуле от оживления: решилось огромное количество проблем, которые до этого требовали человеко-месяцы доработки довольно квалифицированной командой.

Как только презентация подходит к концу, я судорожно открываю беклог и начинаю записывать и редактировать идеи. Я уверен, что перед разработчиками открыли действительно большие возможности, которые переопределят способ разработки и восприятия продуктов. И если тема AI вас как минимум интересует и вы ещё и занимаетесь продуктовой разработкой, а перепосченных по 150 раз новостей не хватает понять, что это значит лично для вас и команды, этот обзор будет весьма кстати.

Итак, что нового

Ад Топинамбура

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров6K

Нейросети все прочнее укрепляются в нашей жизни. Многие уже попробовали писать с помощью нейросети сочинения на заданную тему, и её тексты становятся всё лучше и лучше.

Если брать визуальные возможности нейросетей, то последняя версия GPT-4V(ision) научилась распознавать изображения. С помощью некоторых сетей, обрабатывающих видео, уже создаются клипы на музыкальные произведения. Конечно, видеоряд, можно сказать, на любителя. Недавно появились сервисы, позволяющие изменить язык в видео так, что даже выражение и движения губ соответствуют языку. Ну а нейросети поисковика Бинг и Google вполне себе умеет копаться в поисках информации в Сети. С помощью голосовых нейросетей музыканты подменяют голоса в известных песнях.

Превращение холста и создание симфоний видео уже более-менее понятны. В плане же создания литературы, как мне кажется, нейросети тоже продвинулись вперёд. Давайте разберём то, чего мне удалось найти нового в сочинении текстов. За подопытного возьмем Microsoft Bing.

Читать далее

Ближайшие события

Распознавание речи (транскрибация) по аудиозаписям диалогов. Whisper. Личный опыт

Время на прочтение5 мин
Количество просмотров25K

Распознаем речь по аудиозаписям диалогов сотрудников и клиентов.
Сохраняем по разным дорожкам, в тексте и с таймингом.
Модель Whisper, работаем в Colab.
Личный опыт.

Читать далее

Перебивание как фича: как голосовому боту выжить в мире, где ему не дают договорить

Уровень сложностиСредний
Время на прочтение7 мин
Количество просмотров2.8K

Меня зовут Маргарита Белкова, я дизайнер-скриптолог в компании Just AI. И в этой статье я бы хотела рассказать о феномене перебиваний и о перебивании как фиче. Мы постоянно сталкиваемся с этим явлением в реальном общении, но как быть, когда это происходит в разговорах с голосовыми ботами? Разберем, как устроена эта функция голосового бота, какие виды бывают и в каких точках сценария перебивания наиболее уместны.

Читать далее

Разговоры с кроватью, про Яндекс Алису и умный дом Home Assistant

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров22K

В прошлой статье мы с вами добавляли голосовое управление кофеварке Jura. Но это была лишь тренировка в ожидании доставки по-настоящему космического устройства - умной кровати Ergomotion от Аскона.

Читать далее

Всё идет по плану: как задавать роботу список действий с помощью языковых моделей и голосовых команд

Уровень сложностиСредний
Время на прочтение18 мин
Количество просмотров3.6K

Всем привет! Этим летом мы с командой участвовали в летней школе AIRI, где нам было предложено реализовать учебный проект. Мы выбрали себе задачу на стыке языковых моделей и робототехники. В частности, мы реализовали полноценный фреймворк, в котором можно строить собственные пайплайны для построения системы генерации плана с помощью языковых моделей, причем с интерфейсом ввода на основе распознавания русской речи. Кроме того, мы придумали собственную систему валидирования и подсчета метрик качества выполнения задач.

Работа оказалась настолько сложной и интересной, что нам захотелось рассказать о ней большему числу людей, а не только тем, кто был на школе. Ну а чтобы контекст работы был немного понятнее, мы добавили в наше повествование небольшой обзор методов планирования (в том числе с помощью языковых моделей), а также распознавания речи. Надеемся, наш рассказ будет интересным и полезным. Погнали!

Читать далее

Голос разума: как мы в Fix Price применяем голосовых роботов-помощников

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров1.3K

Привет, Хабр! На связи ведущий методолог Fix Price Алексей Черепецкой, и сегодня я расскажу вам о том, чем бизнесу могут быть полезны голосовые боты, а также где и как мы используем эту технологию у себя. И конечно, остановимся подробнее на технических решениях и интересных моментах.

Читать далее

S.T.A.R.K. — первый фреймворк для создания голосового ассистента

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров9.5K

Сегодня я рад представить вам S.T.A.R.K. (Speech and Text Algorithmic Recognition Kit). Если вы когда-либо мечтали создать голосового ассистента, который будет автономным, приватным, продвинутым и невероятно интуитивным, S.T.A.R.K. - лучшее решение.

Читать далее

Диалоги с кофеваркой, про Яндекс Алису и умный дом Home Assistant

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров27K

Умная кофемашина это одно из самых глупых устройств на рынке. Обычно, сразу после включения, в них есть стадия автоматической промывки. И ещё одна перед выключением. Это значит, что вы не можете оставить в кофемашине кружку и приготовить напиток удалённо.

Но, при наличии умной колонки на кухне, открывается полёт для фантазии. Особенно, когда кофемашина из списка старших моделей и умеет более десятка напитков, где каждый напиток регулируется большим набором параметров.

Читать далее