Обновить
19.1

Голосовые интерфейсы *

управляем устройствами при помощи голосовых команд

Сначала показывать
Порог рейтинга
Уровень сложности

Уход Google из России — контрольный выстрел в голову технологий страны?

Время на прочтение4 мин
Количество просмотров108K

За последние два месяца сфера технологий в России претерпела множество изменений. Крупные корпорации, да и в целом бизнес IT выходит из страны так стремительно, что порой кажется, что это невозможно, ведь уходят даже такие столпы, которые инвестировали в нашу страну больше, чем во все остальные вместе взятые. И вот одной из немногих в этом списке стоит корпорация добра -- Google. Сразу отмечу, что статья будет ориентирована на технологии и эту часть, политическую сторону вопроса обсуждать не будем. Все данные и предположения являются точкой зрения автора и направлены на обсуждение картины, которую пока никто описывать не хочет.

Россия для Google или Google для России?

Так уж повелось, что часто иностранный бизнес в нашей стране использовал ее только как площадку продаж, не инвестируя в разработки и локализацию сервисов. В качестве примера можно привести Apple, которая выжимала рынок по-максимуму, но новые технологии не привносила в страну или делала этот "напоследок".

Модель Google здесь была буквально наоборот: компания приносила и инициировала самые передовые технологии именно в нашу страну. О чем же речь?

Бесконтактные платежи в России

Именно Google одной из первых в нашей стране в начале 2017 года запустила бесконтактную оплату платежей Android Pay (Google Pay), доступную как на смартфонах, так и на умных часах. До 2021 года Россия была одной из 8 стран мира (наряду с США, Великобританией и т.д.), где эта технология работала на умных часах.

В середине 2021 года Google pay первым в мире (за пределами США) получил поддержку эмуляции транспортных карт "Тройка" и записи их в телефон (подробнее здесь).

Читать далее

А как настроен ваш умный дом? Homekit, Яндекс дом, голосовые сценарии, web интерфейс с управлением и аналитикой

Время на прочтение6 мин
Количество просмотров12K

Давно я думал о внедрении системы умного дома в свою квартиру, сравнивал технологии и контроллеры, читал обзоры, и когда подошел момент делать электрику в квартире решил остановиться на беспроводной технологии Z-Wave - большой ассортимент производителей и совместимых устройств, шифрование данных, возможности по интеграции. Задачи были простые: управление освещением, теплым полом, радиаторами отопления, кондиционером для летнего времени года, защита от протечек воды, смарт замок на входную дверь и базовая система безопасности.

В качестве основной системы выбрал контроллер с ПО Z-Way на основе платы расширения RaZberry 7 Pro.

Плата позволяет мини-компьютеру Raspberry Pi управлять оборудованием умного дома Z-Wave. Есть встроенная интеграция с HomeKit, Яндекс Алисой, Google Home и понятный web интерфейс. Совместим с Raspberry Pi 1/2/3A/3B/3A+/3B+/4B и даже возможно подключить к Orange Pi.

Нужно только установить ПО Z-Way. Я использовался имеющийся у меня Raspbery Pi 3b+.

Читать далее

Бесплатный Telegram-бот для расшифровки аудио. Рассказываем кратко, как мы его сделали

Время на прочтение3 мин
Количество просмотров89K

Бот конвертирует голосовые сообщения на русском языке в текстовый формат, также работает с загруженными одноканальными аудиофайлами. Его можно использовать даже в групповых чатах. В основе решения — технологии SmartSpeech от SberDevices.

Читать далее

Собственный голосовой помощник off-line

Время на прочтение12 мин
Количество просмотров20K

Microphone вектор создан(а) storyset - ru.freepik.com

Никогда не был любителем голосового интерфейса, но пробовал дома и Amazon Echo, и Алису. Все-таки очень долго это и недостаточно надежно - произносить фразу и думать потом - правильно ли меня поняли и всё ли сделано, как я хотел.
Но после прочтения статьи и, главное, обсуждений после нее я пришел к выводу, что есть варианты, когда это правда удобно. Собственно, самым ярким мне показался пример с кухонным таймером - не хочется грязными руками что-то трогать - голосовой интерфейс тут идеален. А попробовав приложение и почитав код коллеги @janvarev я понял, что современные средства распознавания уже вышли на очень приличный уровень и легко подключаются в проекты с открытым кодом. Дальше стало интересно сделать что-то более удобное и более стабильно работающее (без обид, но проект "Ирина" у меня не весь заработал при вменяемых затратах времени и настроек там меньше, чем мне хотелось бы).

Читать далее

Как создать своего бота: 4 способа для новичков и профи

Время на прочтение18 мин
Количество просмотров101K

Чем выше спрос на разговорные интерфейсы, тем больше решений на рынке для разработки ботов. Но не всегда понятно, какое выбрать — речь даже не про конкретный продукт или вендора, а про сам инструмент. Например, можно купить уже готового бота, заказать разработку, сделать все своими силами в конструкторе, с помощью фреймворка или диалоговой платформы. Мы подготовили подробнейший гайд по основным способам создания бота.

Читать далее

Что такое компьютерная лингвистика и как технологии на её основе помогают людям с ограниченными возможностями здоровья

Время на прочтение17 мин
Количество просмотров30K

Многие из нас ежедневно пользуются поисковыми системами, голосовыми помощниками и переводчиками текстов. Появление этих технологий стало возможным благодаря компьютерной лингвистике — области искусственного интеллекта, которая занимается описанием естественных языков при помощи математических моделей. Рассказываем, что такое компьютерная лингвистика и обработка естественного языка, какие задачи они решают и как помогают расширять возможности людей с инвалидностью. 

Читать далее

Наши сервисы для бесплатного распознавания речи стали лучше и удобнее

Время на прочтение3 мин
Количество просмотров12K

image


Сейчас для всех желающих доступны два наших сервиса для распознавания речи:


  • Бот в телеграме для коротких и не очень длинных аудио (мы не стали обходить ограничения телеграма, основная задача бота — распознавать голосовые сообщения);
  • Сервис audio-v-text.silero.ai для более длинных аудио, в котором можно скачать отчет в виде эксельки.

Сервис написан нашими собственными силами, работает на нашем собственном движке распознавания речи, без проксирования во внешние сервисы и с минимально возможным количеством зависимостей. В случае нарушения связности возможен оперативный перевод хостинга в другие регионы.


Мы провели и продолжаем работу над ошибками и внесли ряд улучшений для пользователей, о которых мы бы хотели рассказать.

Читать дальше →

Как создать голосовой навык для Яндекс.Алисы, используя Spring Boot и Яндекс.Облако

Время на прочтение23 мин
Количество просмотров14K

В статье рассказывается, как разработать навык для платформы Яндекс.Диалоги, используя Java и фреймворк Spring Boot, а затем развернуть его в Яндекс.Облаке.

Для примера описывается приложение, которое помогает запоминать английские слова. Алиса проверяет, как пользователь пытается перевести случайно подобранные русские или английские слова.

Читать далее

Хитрости разработки смартапов для SmartMarket

Время на прочтение3 мин
Количество просмотров1.7K

Начиная с сентября 2020 года подразделение Сбера SberDevices развивает собственную платформу для разработки приложений, основанных на семействе виртуальных ассистентов (Сбер, Афина и Джой) или смартапов. SberDevices предоставляет набор инструментов для разработки таких приложений - SmartApp Studio, SmartApp Code и другие, а также маркетплейс для загрузки и продажи приложений - SmartMarket. В этой статье я расскажу о локальном тестировании смартапа без необходимости приобретения устройства от Сбера.

Читать далее

Как в Тинькофф разрабатывают навыки голосового ассистента Олега

Время на прочтение8 мин
Количество просмотров6.2K

Привет! Я Тамара, дизайнер навыков голосового финансового ассистента Олега. Сегодня я расскажу, из чего состоит работа дизайнера диалогов и какое будущее ждет голосовых ассистентов. Это будет полезно тем, кто интересуется голосовыми интерфейсами, работает в этой сфере или думает попробовать. 

Читать далее

Ирина — опенсорс русский голосовой помощник. Offline-ready

Время на прочтение9 мин
Количество просмотров67K

- Ирина, таймер...
- Ставлю таймер на пять минут.

Вполне себе обыденная история из моего быта. Я таки сделал собственного автономного голосового помощника.

TL;DR> Ирина вполне неплохо работает дома 24x7.

Потребуется установить Python 3.5+ и зависимости через pip (немного знаний Python).

Скиллы "из коробки": таймер, погода, контроль медиа (громче/тише/дальше), контроль плеера MPC-HC, запуск медиа из папки, расписание ближайших электричек, "подбрось кубик/монетку".

Плагинами добавляются: другие скиллы, Text-to-Speech и Speech-to-Text движки.

Интересно? Поехали >

Написание навыка для голосового помощника «Маруся»

Время на прочтение2 мин
Количество просмотров4.3K

Всем привет, меня зовут Денис. Я хотел бы рассказать о своем опыте разработки навыка для голосового помощника "Маруся".

«Маруся» — голосовой помощник, разработанный в компании Mail.ru Group. Запущен 17 июня 2019 года в тестовом режиме.

Пункт 1: ознакомление с API Маруси.

С полной схемой взаимодействия с Марусей можно ознакомиться в документации. Здесь я опишу основные моменты:

Фаза вызова скилла строится по следующей схеме.

Читать далее

Охота на Вампуса. Переосмысление классической игры для Алисы

Время на прочтение20 мин
Количество просмотров4.4K

Привет! Меня зовут Кирилл Богатов, я дизайнер голосовых интерфейсов в команде TORTU и заядлый геймер. Когда эти две страсти сталкиваются, рождаются необычные концепты для голосовых игр.

Месяц назад я выпустил игру «Охота на Вампуса» для голосового ассистента Алисы. Игра получила много положительных отзывов и побывала в топ-10 развлекательных навыков. В этой статье я поэтапно расскажу о процессе её создания: от переосмысления идей первоисточника — до технической реализации.

Читать далее

Ближайшие события

TOO LITTLE. TOO LATE: топ-5 технологий «сегодня», которые обеспечат победу в борьбе за потребителя «завтра»

Время на прочтение5 мин
Количество просмотров2K

«Это слишком инновационно для нас. Это очень нишево и неэффективно. Это быстро надоест и забудется» – часто говорят о новых технологиях. И вдруг то, что еще вчера казалось незначительным, буквально «взрывает» мир, меняет наши привычки и надолго проникает во все сферы жизни. Как отличить хайп от продукта с высоким потенциалом? Как понять, в какую технологическую новинку инвестировать время и деньги? Как разглядеть за «сырым» стартапом технологии, которые изменят опят пользователя, откроют новые источники роста и станут фундаментом трансформации вашего бизнеса? Елена Коршак рассказала о пяти реальных, но недооцененных технологиях, с которыми брендам нужно познакомиться «сегодня», чтобы не сожалеть «завтра».

Читать далее

А ты используешь VAD? Что это такое и зачем он нужен

Время на прочтение5 мин
Количество просмотров19K

Очень часто при работе мы обращаем внимание на то, что все люди знают, что такое распознавание речи, но не знают, что такое Voice Activity Detector (VAD) или детектор речи. А ведь именно VAD на самом деле самый важный алгоритм при работе с речью людей в естественной среде обитания.


Как ни странно, если поискать поддерживаемые и высококачественные решения данной задачи в публичном доступе — найдутся буквально пара проектов достаточного уровня. Но вот незадача — академические решения тяжелы (и иногда работают запретительно долго) и зачастую принимают только целые аудио на вход (нельзя использовать потоково). Решение от Google (WebRTC) очень быстрое но плохо отличает речь от шума (но его можно использовать потоково). А некоторые коммерческие решения "привязаны" к личному кабинету и шлют какую-то телеметрию.


Мы решили исправить это недоразумение и сделать уникальный VAD мирового уровня (судите сами по метрикам), который работает на 1 ядре процессора с задержкой в 1 миллисекунду на кусочках аудио от 30 миллисекунд. В этой статье мы расскажем вам, что такое VAD, покажем на примерах как использовать его и наглядно потестировать на своем голосе.

Читать дальше →

Android: как подружить ваше приложение с Google Ассистентом?

Время на прочтение14 мин
Количество просмотров9.2K

Многие из вас прекрасно знают, что такое Google Ассистент. Это голосовой помощник, подобный Siri, Алисе, Алексе и другим. Когда пользователь что-то говорит, Google Ассистент понимает это с помощью natural language understanding (NLU). NLU преобразует человеческую речь в специальную структуру данных, которую уже можно обработать.

У разработчиков Android есть возможность интегрировать NLU в свои приложения через специальный api, который называется App Actions. Точнее, существует два вида интеграции: мы можем получить и использовать Deep Link из речи пользователя или получить данные из приложения, не открывая его, и показать их прямо в Google Ассистенте через Slice.

Читать далее

Шёпот и эмоции в Алисе: история развития голосового синтеза Яндекса

Время на прочтение15 мин
Количество просмотров39K


Четыре года назад мы запустили Алису. С самого начала она обладала собственным, узнаваемым голосом. Хотя проблемы тоже были: интонации хромали, эмоции скакали от слова к слову, а омонимы и вовсе ставили синтез в тупик. Алиса звучала пусть и не как робот, но ещё и не как человек.

Исследования показывают, что желание общаться с голосовым помощником напрямую зависит от того, насколько точно он имитирует речь людей. Поэтому мы постоянно работаем над «очеловечениванием» голоса Алисы. С тех пор сменилось несколько поколений нашего голосового синтеза. Мы научились расставлять интонации, отличать «замОк» от «зАмка» и многое другое.

Сейчас мы переходим на следующий уровень: учим Алису управлять эмоциями и стилем своей речи, распознавать шёпот и отвечать на него шёпотом. Казалось бы, что в этом сложного и почему всё это было невозможно ещё несколько лет назад? Вот об этом я и расскажу сегодня сообществу Хабра.
Читать дальше →

Мультимодальность для человекоподобного робота

Время на прочтение10 мин
Количество просмотров2.8K

"Итак, восстание машин победило: вы когда-нибудь видели робота, доказывающего людям, что он робот?" В этой шутке и есть доля того, что мы сейчас делаем. Наш робот стремится не просто доказывать какой бы то ни было факт языком аргументов, но и использовать древнейший способ быть убедительным за счет харизмы и быть харизматичным за счет умелого использования инструментов мультимодальности.

Узнай больше

Telegram-бот Silero бесплатно переводит речь в текст

Время на прочтение3 мин
Количество просмотров194K

header


Мы сделали бесплатного телеграм-бота, который переводит аудио в текст. В отличие от нашего бесплатного публичного решения для транскрибации длинных аудио, этот бот скорее настроен для удобства работы с короткими голосовыми сообщениями, заметками и аудио средней длины (несколько минут).


Боту можно послать аудио как напрямую, так и добавить в группу. В группе бот будет реагировать на все аудиофайлы (но сообщения об ошибках выводиться не будут). Более подробно об ограничениях и особенностях работы можно узнать в методах /help и /faq.


Основная UX фишка работы бота — проработанный и удобный формат чтения и навигации по распознанным сообщениям и заметкам (а не стена текста).

попробовать

Голосовое управление

Время на прочтение8 мин
Количество просмотров13K

Алиса, Siri, Маруся - это далеко не весь список проектов в области голосовых помощников. С каждым днем проектов становиться больше, а функционал шире и кажется настал тот момент, когда всерьез можно подумать о переводе компьютера на голосовое управление.

В рамках данного цикла статей я разберу создание голосового ассистента, работающего локально на вашем компьютере и имеющего широкий функционал, начиная с "запусти музыку" и заканчивая "создай новый проект в PyCharm".

Читать далее