SedovArtem23 июл 2015 в 08:39

Сравнение голосовых помощников по заявленным функциям и характеристикам (Лекси, Ubi, Ivee, Amazon Echo, Jibo, Cubic)

4 мин

13K

IT-инфраструктура *

Комментарии 21

littleone 23 июл 2015 в 09:51

Обладает эмоциями? Я в этом сомневаюсь.

saboteur_kiev 23 июл 2015 в 11:07

Более серьезные конкуренты типа Siri и Cortana намеренно пропущены?

SedovArtem 23 июл 2015 в 11:16

Это совершенно другой сегмент (мобильные голосовые помощники). Про них сравнительная таблица составляется.

saboteur_kiev 23 июл 2015 в 12:09

Хм. Cortana же доступна в настольной Windows?
Меня просто очень интересуют все голосовые помощники, работающие на русском языке.

SedovArtem 23 июл 2015 в 12:25

Да. Но в данной таблице я рассмотрел ассистентов, которые представлены как самостоятельные. У них есть рад преимуществ перед другими.

saboteur_kiev 23 июл 2015 в 13:10

А будет какое-то API для управления домашним компьютером?
Очень бы хотелось, например я даю команду, Лекси отправляет ее на мой комп, где запускается скрипт/программа?

SedovArtem 23 июл 2015 в 15:38

Или управление горячими клавишами при работе в фотошопе ;-)

Насчет взаимодействия с мониторами. Есть идея, например, выводить визуальную информацию по запросу типа «Открой эту новость», «Включи скайп», «Скачай фильм» и т.д.

saboteur_kiev 23 июл 2015 в 22:06

Сделать полноценную систему управления сложно, но как же в большинстве помощников не хватает тупо заранее запрограммированных действий, которые часто встречаются в рутине:

Сделай скриншот (файл с датой-временем)
Запусти «ключевое слово», задать список команд
Апи, чтобы задать фразу для произношения, которое можно выполнить из cmd (по голосовой команде например запустил скрипт, который проверил почту и тут же отправил в API текст типа «почта проверена xx новых писем», а помощник его вслух сказал.

В Кортане мне жутко не хватает нормальных голосовых напоминаний на русском. Не обязательно его распознавать, просто как wav/mp3 файл проиграть мне же в указанное время.

DexterKZ 23 июл 2015 в 12:08

Очень интересное устройство, Ваш Лекси. Главное, чтобы заявленный функционал не был маркетинговым ходом. Желаю удачи!
P.S. Модуляция голоса в видео немного топорная, надеюсь к релизу будет лучше

SedovArtem 23 июл 2015 в 12:21

Синтез на видео олпенсорсный. На этом прототипе новый голос не стоит. Тот голос, который есть сейчас мы будем еще раз переделывать.

abyss 23 июл 2015 в 14:52

Проект интересный, если распознавание быстрое и точно.
Но лично мне нужен ещё и API как минимум для:
1. Чтобы можно было выполнять команды (например, настроить по фразе вызов определенного URL, а дальше я сам делаю что мне надо)
2. Чтобы озвучить какой-то текст
Планируется? Насколько полно покроете возможности устройства?

Ещё не очень понятно что за дополнительные гаджеты для работы в разных комнатах.
В идеале бы доп приборы для распознавания и озвучивания раздельно по комнатам. Включая возможность получать/указывать в API.
Как конкретно у вас планируется, сколько будет стоить и как общаются гаджеты с основным устройством?

SedovArtem 24 июл 2015 в 08:09

Мы говорим про Лекси, правильно?)

Суть дополнительных приборов заключается в удаленной связи с Лекси. 1. Это может быть прибор типа «ухорот» (сами мы их производить не будем, а продавать — возможно), который слушает, передает звук на борт Лекси и отвечает его же голосом. С помощью таких приборов Лекси сможет локализовать свое общение с говорящим, определяя в какой он комнате. 2. Это может быть телефон. Через приложение можно будет просто позвонить Лекси или написать.

API для открытия заготовленных URL тоже планируем.

Озвучивание текста с возможностью прерывания Лекси вопросом — делаем.

lightcaster 24 июл 2015 в 09:17

Распознавание на устройстве, это интересно. А что за технология, хотяб приблизительно? Сами сделали, или что-то адаптировали? Качество измеряли на каком-нибудь стандартном датасете?

SedovArtem 24 июл 2015 в 12:41

У нас очень хорошие отношения с отечественной компанией СТЭЛ. Их распознавание речи мы совместно адаптировали под наше железо и наши цели. Качество еще не измеряли, так как полностью устройство не собрали. Сейчас измерять качество нет смысла и необходимости.

Предвижу ваш вопрос и поясню от чего зависит качество распознавание.
Во-первых, необходимо качественно получить звук с помощью массива микрофонов. Эта часть системы соединяет несколько каналов воедино, обрабатывая звук, усиливая человеческий голос и подавляя шумы.

Затем обработанный звук отправляется системе распознавания. Здесь есть аспект: мы используем множество языковых моделей — это называется контекстное распознавание речи, когда знание темы реплики позволяет сузить языковую базу.
Получается, что качество распознавания зависит от совместной работы массива микрофонов, виртуального собеседника (для определения контекста диалога) и «пучка» систем распознавания.

Чтобы повысить качество распознавания звука с массива микрофонов, записывается акустическая модель: необходимо в разных условиях записать большое количество дикторов на разных расстояниях. Тогда распознавание речи приспосабливается к тому звуку, что будет слать массив. Дальнейшее адаптация системы к конкретному пользователю происходит очень быстро.

В данный момент мы только занимаемся акустической моделью для массива микрофонов и создаем множество языковых моделей. По каждой из них качество распознавания может варьироваться, т.к. они отличаются объёмом. Т.е. качество зависит от конкретной языковой модели.

lightcaster 24 июл 2015 в 12:49

Я говорю не о качестве устройства, а о качестве модели (аккустической, либо акустической + языковой).

Интересует как раз реализация акустической модели. На сайте Стэл ничего не нашел.

SedovArtem 24 июл 2015 в 14:42

Если вы про акустическую модель, то мы занимаемся ей сами. Пока раскрывать все карты мы не хотим.

lightcaster 24 июл 2015 в 14:52

Почему? Гугл вот расрывает. На ICML 2015 довольно подробный доклад был. Фейсбук тоже довольно открытый.

Ну дело ваше.

s_shablovsky 2 мар 2017 в 18:28

Hi, there!
Living in Russia You are totally misunderstanding how Alexa voice service and exactly Amazon Echo, Tap, Dot and other devices (https://www.youtube.com/results?search_query=alexa-enabled+devices) work: this is NOT musical speaker as You indicate, this is voice interface for most already used TODAY devices, like thermostats, lights, tv.
Yes, initial y Amazon has a plan to make Echo like perfect music player not only for Amazon Prime. BUT time goes on. And peoples make a book by using Echo, Dot, Tap more other ways. NORMAL peoples, not tech geeks like we all here, like all Gizmodo or GeekTech readers. And this people drive industry.
Because of this, Chubi goes off, and Ubi and Ivee stay like some sort of home toy for tech geeks.
Some peoples like technical toy, yes, but most of them like devices that really help every day. No?

s_shablovsky 2 мар 2017 в 18:33

P.S. Echo is not sound speaker, let propose You to see more widely, Amazon Alexa-driven devices (https://www.youtube.com/results?search_query=alexa-enabled+devices) also a gate to a very big Amazon Alexa voice recognition service.
On a YT link I posted here You may see how a lo of peoples with DIFFERENT native nationality have a good relationship with Alexa. And of course, Amazon spend a millions of dollars that nor You company of Ubi, Ivee have.

s_shablovsky 3 мар 2017 в 03:13

Please take a look on this video https://www.youtube.com/watch?v=phXJgqKRqjE

And realize how far away from reality is Your imagination about Amazon Alexa is «Amazon music sound device».

s_shablovsky 4 мар 2017 в 00:46

Also see how all this stuff work https://www.youtube.com/watch?v=Avb-IMy9YVU&t=328s

Please make point on the all this assistant is NOT single device, they are VOICE INTERFACE to mostly to physical services, that not exist in Russia at all. Single exception we not counting, ok?

More then sure, You have no so much databases and voice-recognition technology to be competitive. And comparing Your product in this manner was incorrect.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий