Голосовые интерфейсы *

управляем устройствами при помощи голосовых команд

СтатьиПостыНовостиАвторыКомпании

AlexBobovnikov 10 апр 2022 в 19:57

Уход Google из России — контрольный выстрел в голову технологий страны?

4 мин

108K

Голосовые интерфейсы * Будущее здесьСмартфоныГаджетыПлатежные системы *

Технотекст 2022

За последние два месяца сфера технологий в России претерпела множество изменений. Крупные корпорации, да и в целом бизнес IT выходит из страны так стремительно, что порой кажется, что это невозможно, ведь уходят даже такие столпы, которые инвестировали в нашу страну больше, чем во все остальные вместе взятые. И вот одной из немногих в этом списке стоит корпорация добра -- Google. Сразу отмечу, что статья будет ориентирована на технологии и эту часть, политическую сторону вопроса обсуждать не будем. Все данные и предположения являются точкой зрения автора и направлены на обсуждение картины, которую пока никто описывать не хочет.

Россия для Google или Google для России?

Так уж повелось, что часто иностранный бизнес в нашей стране использовал ее только как площадку продаж, не инвестируя в разработки и локализацию сервисов. В качестве примера можно привести Apple, которая выжимала рынок по-максимуму, но новые технологии не привносила в страну или делала этот "напоследок".

Модель Google здесь была буквально наоборот: компания приносила и инициировала самые передовые технологии именно в нашу страну. О чем же речь?

Бесконтактные платежи в России

Именно Google одной из первых в нашей стране в начале 2017 года запустила бесконтактную оплату платежей Android Pay (Google Pay), доступную как на смартфонах, так и на умных часах. До 2021 года Россия была одной из 8 стран мира (наряду с США, Великобританией и т.д.), где эта технология работала на умных часах.

В середине 2021 года Google pay первым в мире (за пределами США) получил поддержку эмуляции транспортных карт "Тройка" и записи их в телефон (подробнее здесь).

+138

712

AndreyPavlov 1 апр 2022 в 11:39

А как настроен ваш умный дом? Homekit, Яндекс дом, голосовые сценарии, web интерфейс с управлением и аналитикой

6 мин

12K

ГаджетыУмный домИнтернет вещейDIY или Сделай самГолосовые интерфейсы *

Давно я думал о внедрении системы умного дома в свою квартиру, сравнивал технологии и контроллеры, читал обзоры, и когда подошел момент делать электрику в квартире решил остановиться на беспроводной технологии Z-Wave - большой ассортимент производителей и совместимых устройств, шифрование данных, возможности по интеграции. Задачи были простые: управление освещением, теплым полом, радиаторами отопления, кондиционером для летнего времени года, защита от протечек воды, смарт замок на входную дверь и базовая система безопасности.

В качестве основной системы выбрал контроллер с ПО Z-Way на основе платы расширения RaZberry 7 Pro.

Плата позволяет мини-компьютеру Raspberry Pi управлять оборудованием умного дома Z-Wave. Есть встроенная интеграция с HomeKit, Яндекс Алисой, Google Home и понятный web интерфейс. Совместим с Raspberry Pi 1/2/3A/3B/3A+/3B+/4B и даже возможно подключить к Orange Pi.

Нужно только установить ПО Z-Way. Я использовался имеющийся у меня Raspbery Pi 3b+.

+12

Christina29 1 апр 2022 в 09:09

Бесплатный Telegram-бот для расшифровки аудио. Рассказываем кратко, как мы его сделали

3 мин

89K

Блог компании SberDevicesГолосовые интерфейсы * Контент и копирайтинг * Управление медиа *

Бот конвертирует голосовые сообщения на русском языке в текстовый формат, также работает с загруженными одноканальными аудиофайлами. Его можно использовать даже в групповых чатах. В основе решения — технологии SmartSpeech от SberDevices.

+15

jekyll2017 28 мар 2022 в 10:16

Собственный голосовой помощник off-line

12 мин

20K

C# * Умный домГолосовые интерфейсы *

Из песочницы

Microphone вектор создан(а) storyset - ru.freepik.com

Никогда не был любителем голосового интерфейса, но пробовал дома и Amazon Echo, и Алису. Все-таки очень долго это и недостаточно надежно - произносить фразу и думать потом - правильно ли меня поняли и всё ли сделано, как я хотел.
Но после прочтения статьи и, главное, обсуждений после нее я пришел к выводу, что есть варианты, когда это правда удобно. Собственно, самым ярким мне показался пример с кухонным таймером - не хочется грязными руками что-то трогать - голосовой интерфейс тут идеален. А попробовав приложение и почитав код коллеги @janvarev я понял, что современные средства распознавания уже вышли на очень приличный уровень и легко подключаются в проекты с открытым кодом. Дальше стало интересно сделать что-то более удобное и более стабильно работающее (без обид, но проект "Ирина" у меня не весь заработал при вменяемых затратах времени и настроек там меньше, чем мне хотелось бы).

+13

just_ai 23 мар 2022 в 09:58

Как создать своего бота: 4 способа для новичков и профи

18 мин

101K

Блог компании Just AIГолосовые интерфейсы * Natural Language Processing * Искусственный интеллектРазработка под e-commerce *

Чем выше спрос на разговорные интерфейсы, тем больше решений на рынке для разработки ботов. Но не всегда понятно, какое выбрать — речь даже не про конкретный продукт или вендора, а про сам инструмент. Например, можно купить уже готового бота, заказать разработку, сделать все своими силами в конструкторе, с помощью фреймворка или диалоговой платформы. Мы подготовили подробнейший гайд по основным способам создания бота.

blognetology 19 мар 2022 в 16:19

Что такое компьютерная лингвистика и как технологии на её основе помогают людям с ограниченными возможностями здоровья

17 мин

30K

Блог компании НетологияИскусственный интеллектNatural Language Processing * Голосовые интерфейсы * Data Engineering *

Многие из нас ежедневно пользуются поисковыми системами, голосовыми помощниками и переводчиками текстов. Появление этих технологий стало возможным благодаря компьютерной лингвистике — области искусственного интеллекта, которая занимается описанием естественных языков при помощи математических моделей. Рассказываем, что такое компьютерная лингвистика и обработка естественного языка, какие задачи они решают и как помогают расширять возможности людей с инвалидностью.

nurtdinovadf 3 мар 2022 в 10:46

Наши сервисы для бесплатного распознавания речи стали лучше и удобнее

3 мин

12K

Natural Language Processing * Голосовые интерфейсы * ЗвукМашинное обучение * Развитие стартапа

Сейчас для всех желающих доступны два наших сервиса для распознавания речи:

Бот в телеграме для коротких и не очень длинных аудио (мы не стали обходить ограничения телеграма, основная задача бота — распознавать голосовые сообщения);
Сервис audio-v-text.silero.ai для более длинных аудио, в котором можно скачать отчет в виде эксельки.

Сервис написан нашими собственными силами, работает на нашем собственном движке распознавания речи, без проксирования во внешние сервисы и с минимально возможным количеством зависимостей. В случае нарушения связности возможен оперативный перевод хостинга в другие регионы.

Мы провели и продолжаем работу над ошибками и внесли ряд улучшений для пользователей, о которых мы бы хотели рассказать.

Читать дальше →

+26

m4ks1k 17 фев 2022 в 08:25

Как создать голосовой навык для Яндекс.Алисы, используя Spring Boot и Яндекс.Облако

23 мин

14K

Облачные сервисы * Голосовые интерфейсы * Java *

Из песочницы

В статье рассказывается, как разработать навык для платформы Яндекс.Диалоги, используя Java и фреймворк Spring Boot, а затем развернуть его в Яндекс.Облаке.

Для примера описывается приложение, которое помогает запоминать английские слова. Алиса проверяет, как пользователь пытается перевести случайно подобранные русские или английские слова.

vladpriv 14 фев 2022 в 17:11

Хитрости разработки смартапов для SmartMarket

3 мин

1.7K

Голосовые интерфейсы *

Начиная с сентября 2020 года подразделение Сбера SberDevices развивает собственную платформу для разработки приложений, основанных на семействе виртуальных ассистентов (Сбер, Афина и Джой) или смартапов. SberDevices предоставляет набор инструментов для разработки таких приложений - SmartApp Studio, SmartApp Code и другие, а также маркетплейс для загрузки и продажи приложений - SmartMarket. В этой статье я расскажу о локальном тестировании смартапа без необходимости приобретения устройства от Сбера.

Solarom 8 фев 2022 в 11:18

Как в Тинькофф разрабатывают навыки голосового ассистента Олега

8 мин

6.2K

Блог компании Т-БанкГолосовые интерфейсы *

Из песочницы

Привет! Я Тамара, дизайнер навыков голосового финансового ассистента Олега. Сегодня я расскажу, из чего состоит работа дизайнера диалогов и какое будущее ждет голосовых ассистентов. Это будет полезно тем, кто интересуется голосовыми интерфейсами, работает в этой сфере или думает попробовать.

+11

janvarev 7 фев 2022 в 11:58

Ирина — опенсорс русский голосовой помощник. Offline-ready

9 мин

67K

Open source * Python * Голосовые интерфейсы *

- Ирина, таймер...
- Ставлю таймер на пять минут.

Вполне себе обыденная история из моего быта. Я таки сделал собственного автономного голосового помощника.

TL;DR> Ирина вполне неплохо работает дома 24x7.

Потребуется установить Python 3.5+ и зависимости через pip (немного знаний Python).

Скиллы "из коробки": таймер, погода, контроль медиа (громче/тише/дальше), контроль плеера MPC-HC, запуск медиа из папки, расписание ближайших электричек, "подбрось кубик/монетку".

Плагинами добавляются: другие скиллы, Text-to-Speech и Speech-to-Text движки.

Интересно? Поехали >

+106

Deniva3 30 дек 2021 в 10:26

Написание навыка для голосового помощника «Маруся»

2 мин

4.3K

Голосовые интерфейсы * Проектирование API *

Из песочницы

Всем привет, меня зовут Денис. Я хотел бы рассказать о своем опыте разработки навыка для голосового помощника "Маруся".

«Маруся» — голосовой помощник, разработанный в компании Mail.ru Group. Запущен 17 июня 2019 года в тестовом режиме.

Пункт 1: ознакомление с API Маруси.

С полной схемой взаимодействия с Марусей можно ознакомиться в документации. Здесь я опишу основные моменты:

Фаза вызова скилла строится по следующей схеме.

APPKODE 25 дек 2021 в 07:00

Охота на Вампуса. Переосмысление классической игры для Алисы

20 мин

4.4K

Разработка игр * Интерфейсы * Голосовые интерфейсы *

Привет! Меня зовут Кирилл Богатов, я дизайнер голосовых интерфейсов в команде TORTU и заядлый геймер. Когда эти две страсти сталкиваются, рождаются необычные концепты для голосовых игр.

Месяц назад я выпустил игру «Охота на Вампуса» для голосового ассистента Алисы. Игра получила много положительных отзывов и побывала в топ-10 развлекательных навыков. В этой статье я поэтапно расскажу о процессе её создания: от переосмысления идей первоисточника — до технической реализации.

+11

Wavemaker 20 дек 2021 в 09:07

TOO LITTLE. TOO LATE: топ-5 технологий «сегодня», которые обеспечат победу в борьбе за потребителя «завтра»

5 мин

Исследования и прогнозы в IT * AR и VRГолосовые интерфейсы *

Из песочницы

«Это слишком инновационно для нас. Это очень нишево и неэффективно. Это быстро надоест и забудется» – часто говорят о новых технологиях. И вдруг то, что еще вчера казалось незначительным, буквально «взрывает» мир, меняет наши привычки и надолго проникает во все сферы жизни. Как отличить хайп от продукта с высоким потенциалом? Как понять, в какую технологическую новинку инвестировать время и деньги? Как разглядеть за «сырым» стартапом технологии, которые изменят опят пользователя, откроют новые источники роста и станут фундаментом трансформации вашего бизнеса? Елена Коршак рассказала о пяти реальных, но недооцененных технологиях, с которыми брендам нужно познакомиться «сегодня», чтобы не сожалеть «завтра».

adamnsandle 10 дек 2021 в 12:32

А ты используешь VAD? Что это такое и зачем он нужен

5 мин

19K

Машинное обучение * Искусственный интеллектГолосовые интерфейсы * Python *

Очень часто при работе мы обращаем внимание на то, что все люди знают, что такое распознавание речи, но не знают, что такое Voice Activity Detector (VAD) или детектор речи. А ведь именно VAD на самом деле самый важный алгоритм при работе с речью людей в естественной среде обитания.

Как ни странно, если поискать поддерживаемые и высококачественные решения данной задачи в публичном доступе — найдутся буквально пара проектов достаточного уровня. Но вот незадача — академические решения тяжелы (и иногда работают запретительно долго) и зачастую принимают только целые аудио на вход (нельзя использовать потоково). Решение от Google (WebRTC) очень быстрое но плохо отличает речь от шума (но его можно использовать потоково). А некоторые коммерческие решения "привязаны" к личному кабинету и шлют какую-то телеметрию.

Мы решили исправить это недоразумение и сделать уникальный VAD мирового уровня (судите сами по метрикам), который работает на 1 ядре процессора с задержкой в 1 миллисекунду на кусочках аудио от 30 миллисекунд. В этой статье мы расскажем вам, что такое VAD, покажем на примерах как использовать его и наглядно потестировать на своем голосе.

Читать дальше →

+22

zavanton 9 дек 2021 в 17:25

Android: как подружить ваше приложение с Google Ассистентом?

14 мин

9.2K

Блог компании ПСБXML * Android * Kotlin * Голосовые интерфейсы *

Многие из вас прекрасно знают, что такое Google Ассистент. Это голосовой помощник, подобный Siri, Алисе, Алексе и другим. Когда пользователь что-то говорит, Google Ассистент понимает это с помощью natural language understanding (NLU). NLU преобразует человеческую речь в специальную структуру данных, которую уже можно обработать.

У разработчиков Android есть возможность интегрировать NLU в свои приложения через специальный api, который называется App Actions. Точнее, существует два вида интеграции: мы можем получить и использовать Deep Link из речи пользователя или получить данные из приложения, не открывая его, и показать их прямо в Google Ассистенте через Slice.

+11

vvkiri 8 дек 2021 в 08:06

Шёпот и эмоции в Алисе: история развития голосового синтеза Яндекса

15 мин

39K

Блог компании ЯндексГолосовые интерфейсы * Искусственный интеллектМашинное обучение * Научно-популярное

Технотекст 2021

Четыре года назад мы запустили Алису. С самого начала она обладала собственным, узнаваемым голосом. Хотя проблемы тоже были: интонации хромали, эмоции скакали от слова к слову, а омонимы и вовсе ставили синтез в тупик. Алиса звучала пусть и не как робот, но ещё и не как человек.

Исследования показывают, что желание общаться с голосовым помощником напрямую зависит от того, насколько точно он имитирует речь людей. Поэтому мы постоянно работаем над «очеловечениванием» голоса Алисы. С тех пор сменилось несколько поколений нашего голосового синтеза. Мы научились расставлять интонации, отличать «замОк» от «зАмка» и многое другое.

Сейчас мы переходим на следующий уровень: учим Алису управлять эмоциями и стилем своей речи, распознавать шёпот и отвечать на него шёпотом. Казалось бы, что в этом сложного и почему всё это было невозможно ещё несколько лет назад? Вот об этом я и расскажу сегодня сообществу Хабра.

Читать дальше →

+72

Tianno 3 дек 2021 в 10:38

Мультимодальность для человекоподобного робота

10 мин

2.8K

Анализ и проектирование систем * Usability * РобототехникаИскусственный интеллектГолосовые интерфейсы *

Из песочницы

"Итак, восстание машин победило: вы когда-нибудь видели робота, доказывающего людям, что он робот?" В этой шутке и есть доля того, что мы сейчас делаем. Наш робот стремится не просто доказывать какой бы то ни было факт языком аргументов, но и использовать древнейший способ быть убедительным за счет харизмы и быть харизматичным за счет умелого использования инструментов мультимодальности.

Узнай больше

snakers4 25 ноя 2021 в 12:40

Telegram-бот Silero бесплатно переводит речь в текст

3 мин

194K

Голосовые интерфейсы * Искусственный интеллектМашинное обучение * Мессенджеры * Развитие стартапа

header

Мы сделали бесплатного телеграм-бота, который переводит аудио в текст. В отличие от нашего бесплатного публичного решения для транскрибации длинных аудио, этот бот скорее настроен для удобства работы с короткими голосовыми сообщениями, заметками и аудио средней длины (несколько минут).

Боту можно послать аудио как напрямую, так и добавить в группу. В группе бот будет реагировать на все аудиофайлы (но сообщения об ошибках выводиться не будут). Более подробно об ограничениях и особенностях работы можно узнать в методах /help и /faq.

Основная UX фишка работы бота — проработанный и удобный формат чтения и навигации по распознанным сообщениям и заметкам (а не стена текста).

попробовать

+46

TripleAVerAlpha 21 ноя 2021 в 22:33

Голосовое управление

8 мин

13K

Голосовые интерфейсы * Машинное обучение * Python *

Из песочницы

Алиса, Siri, Маруся - это далеко не весь список проектов в области голосовых помощников. С каждым днем проектов становиться больше, а функционал шире и кажется настал тот момент, когда всерьез можно подумать о переводе компьютера на голосовое управление.

В рамках данного цикла статей я разберу создание голосового ассистента, работающего локально на вашем компьютере и имеющего широкий функционал, начиная с "запусти музыку" и заканчивая "создай новый проект в PyCharm".

+11

1 2 ...

6 7

9 10 ...

14 15

Голосовые интерфейсы *

Уход Google из России — контрольный выстрел в голову технологий страны?

А как настроен ваш умный дом? Homekit, Яндекс дом, голосовые сценарии, web интерфейс с управлением и аналитикой

Бесплатный Telegram-бот для расшифровки аудио. Рассказываем кратко, как мы его сделали

Собственный голосовой помощник off-line

Как создать своего бота: 4 способа для новичков и профи

Что такое компьютерная лингвистика и как технологии на её основе помогают людям с ограниченными возможностями здоровья

Наши сервисы для бесплатного распознавания речи стали лучше и удобнее

Как создать голосовой навык для Яндекс.Алисы, используя Spring Boot и Яндекс.Облако

Хитрости разработки смартапов для SmartMarket

Как в Тинькофф разрабатывают навыки голосового ассистента Олега

Ирина — опенсорс русский голосовой помощник. Offline-ready

Написание навыка для голосового помощника «Маруся»

Охота на Вампуса. Переосмысление классической игры для Алисы

Ближайшие события

TOO LITTLE. TOO LATE: топ-5 технологий «сегодня», которые обеспечат победу в борьбе за потребителя «завтра»

А ты используешь VAD? Что это такое и зачем он нужен

Android: как подружить ваше приложение с Google Ассистентом?

Шёпот и эмоции в Алисе: история развития голосового синтеза Яндекса

Мультимодальность для человекоподобного робота

Telegram-бот Silero бесплатно переводит речь в текст

Голосовое управление

Вклад авторов