Сравнение голосовых помощников по заявленным функциям и характеристикам (Лекси, Ubi, Ivee, Amazon Echo, Jibo, Cubic)

    Добрый день, Хабрчане!

    vk.com/rtrg?r=MyfvmSagVGcKoVRPBQ92U5CfxIhCPah9BpgCNi*VQ5Z*GZClBfq8O6Xqoc4FgyLmY/t2xfXW*b/pLNakil70J2BgItRALRcbqLdyvvbQaL48Y3InrmCX91lp3jlslzoTrQWAQ2odZccwu06QSKcDISHi4yplYcjlvQQqCvYweCs-&pixel_id=1000020818

    В этом посте представлена сравнительная таблица технических и заявленных функциональных характеристик устройств с голосовым интерфейсом: Лекси, Ubi, Ivee, Amazon Echo, Jibo, Cubic.

    В прикрепленном pdf-файле также добавлен проект Robotalk.



    Как выглядят устройства:

    image
    image
    image
    image
    image
    image
    image

    Если вы нашли несоответствие данных таблицы с действительными, сообщите об этом автору статьи!

    Устройство Лекси Ubi Ivee Amazon Echo Jibo Cubic
    Решаемые задачи Естественное общение на заданную тему, справочная информация, управление умными устройствами, голосовое управление почтовыми сервисами, будильник, напоминания, новости Будильник, справочная информация, напоминания, цифровая няня Управление приборами, справочная информация, новости Таймер, будильник, список покупок и дел, новостей, справочная информация, управление воспроизведением музыки Сообщения, кулинарный консультант, сказки, селфи, справочная информация Естественное общение на заданную тему, справочная информация, управление умными устройствами, голосовое управление почтовыми сервисами, будильник, напоминания, новости
    Эмоции Да Нет Нет Нет Да Да
    Подвижность Нет Нет Нет Нет Вращается вокруг платформы Нет
    Датчики Датчики давления, освещения и температуры, сенсорные датчики, камера Датчики давления, влажности, освещения и температуры Датчики температуры и освещения Нет Сенсорные датчики, камера Нет
    Материал корпуса Пластик покрытый софт-тач Пластик Пластик Пластик Алюминий, ABS-пластик, стекло Пластик
    Интеграция с социальными сетями и почтовыми сервисами Да Да Нет Нет Да Да
    Характер общения Живое существо, домашний питомец Дух, взаимодействие с пустотой Настольный предмет Музыкальная колонка Живое существо, домашний питомец Настольный предмет, персональный ассистент
    Опредление направления на собеседника Да Нет Нет Да Да Нет
    Персонализация общения Может адаптироваться к привычкам каждого пользователя. Если речь идет о семье, то сможет приспособиться к любому члену семьи, учитывая персональные особенности каждого. Нет Нет Нет Реагирует на настроение человека, и ведет себя соответствующим образом. Может адаптироваться к привычкам любого человека. Может приспособиться к любому члену семьи, для каждого найдет собственный подход. Нет
    Разделение голосов нескольких говорящих Да Нет Нет Нет Да Нет
    Визуальная составляющая Светодиодная подсветка Светодиодная подсветка 4,3-дюймовый экран с голубой подсветкой Светодиодная подсветка HD дисплей с полным спектром LED Светодиодная подсветка
    3g модуль Да Нет Нет Нет Нет Нет
    Питание и аккумулятор От розетки, подставка для беспроводного питания, аккумулятор на случай отключения электричества От розетки От розетки, аккумулятор От розетки От розетки (зарядная подставка), аккумулятор (покупается отдельно) От розетки
    Активационная фраза Лекси Уби Hello, Ivee Alexa Джибо Кубик
    Обращение к устройству по имени перед каждой командой Нет Да Да Да Да Да
    Подключение к интернету Не обязательно Обязательно Обязательно Обязательно Обязательно Обязательно
    Распознание голоса Локальное, на самом устройстве В облаке В облаке В облаке В облаке В облаке
    Приватность пользователя Не нарушена Нарушена Нарушена Нарушена Нарушена Нарушена
    Радиотюнер Нет Нет Да Нет Нет Нет
    Необходимое количество для нормальной работы Один, для общения в пределах квартиры используются дополнительные гаджеты В одной квартире может быть много Уби, они синхронизируются друг с другом, работают как одно устройство В каждую комнату В каждом необходимом месте. Есть пульт для дистанционного управления. Ничего не сказано Один на одного человека
    Для всей семьи/ сотрудников Да Нет Нет Да Да Персональное устройство
    Понимает произвольную речь Да Да Да Нет Да Да
    Узнает собеседника Да Нет Нет Нет Да Нет
    Обладает эмоциями Да Нет Нет Нет Да Да
    Компьютерное зрение Да Нет Нет Нет Да Нет
    Управление Голосовое, вспомогательные гаджеты, мобильное устройство Голосовое Голосовое Голосовое, мобильное устройство, пульт Голосовое Голосовое, мобильное устройство
    Мобильное приложение Android, iOS Android Android, iOS Android, iOS Android, iOS Android, iOS
    Технология распознавания речи СТЭЛ - Watson от сотового оператора AT&T - - Яндекс, Google (в западных странах)
    Общение вне дома с устройством Через приложение мобильного телефона или часов, а также через Telegram Messenger Нет Нет Нет Нет Через приложение мобильного телефона. Гарнитура с фирменным логотипом для телефона покупается отдельно.
    Язык Русский, английский Английский Английский Английский Английский Английский, русский
    Магазин приложений LexyStore Нет Нет Нет Jibo Store Да
    Платформа Linux Android4.1 JellyBean - - Embedded Linux VOIS
    Процессор АРМ7-процессор 800 мегагерц (ARM Cortex-A8) 400-мегагерцевый процессор ARM9 - ARM-процессор 1,5 ГГц
    Модули Wi-Fi и Bluetooth Wi-Fi и Bluetooth Wi-Fi и Bluetooth Wi-fi Wi-Fi и Bluetooth Wi-Fi и Bluetooth Wi-Fi и Bluetooth
    Оперативная память 2 Гб 1 Гб 128 Мб 256 Мб - 1 Гб
    Встроенная память 16 Гб 4 Гб Флеш-модуль вместимостью 256 Гб 4 Гб - 8 Гб
    Габариты Диаметр сферы 13 см 100 х 100 х 30 мм - Цилиндрическая форма с диаметром 82 и высотой 232 мм 150х150х280 мм 110 х 110 х 110 мм
    Страна Россия Канада Америка Америка Америка Россия
    Компания ЛЕКСИ Unified Computer Intelligence Corporation Ivee Amazon Группа Бризил Cubic Robotics (отделились от Лекси на раннем этапе)
    Стадия Выход на Краудфандинг Краудфандинг Продажи Продажи Краудфандинг Краудфандинг
    Стоимость $400 $300 $200 $200 $500 $250


    Таблица в pdf-файле.
    Ads
    AdBlock has stolen the banner, but banners are not teeth — they will be back

    More

    Comments 21

      +2
      Обладает эмоциями? Я в этом сомневаюсь.
        –3
        Более серьезные конкуренты типа Siri и Cortana намеренно пропущены?
          +2
          Это совершенно другой сегмент (мобильные голосовые помощники). Про них сравнительная таблица составляется.
            0
            Хм. Cortana же доступна в настольной Windows?
            Меня просто очень интересуют все голосовые помощники, работающие на русском языке.
              +1
              Да. Но в данной таблице я рассмотрел ассистентов, которые представлены как самостоятельные. У них есть рад преимуществ перед другими.
                0
                А будет какое-то API для управления домашним компьютером?
                Очень бы хотелось, например я даю команду, Лекси отправляет ее на мой комп, где запускается скрипт/программа?

                  0
                  Или управление горячими клавишами при работе в фотошопе ;-)

                  Насчет взаимодействия с мониторами. Есть идея, например, выводить визуальную информацию по запросу типа «Открой эту новость», «Включи скайп», «Скачай фильм» и т.д.
                    +1
                    Сделать полноценную систему управления сложно, но как же в большинстве помощников не хватает тупо заранее запрограммированных действий, которые часто встречаются в рутине:

                    Сделай скриншот (файл с датой-временем)
                    Запусти «ключевое слово», задать список команд
                    Апи, чтобы задать фразу для произношения, которое можно выполнить из cmd (по голосовой команде например запустил скрипт, который проверил почту и тут же отправил в API текст типа «почта проверена xx новых писем», а помощник его вслух сказал.

                    В Кортане мне жутко не хватает нормальных голосовых напоминаний на русском. Не обязательно его распознавать, просто как wav/mp3 файл проиграть мне же в указанное время.
          0
          Очень интересное устройство, Ваш Лекси. Главное, чтобы заявленный функционал не был маркетинговым ходом. Желаю удачи!
          P.S. Модуляция голоса в видео немного топорная, надеюсь к релизу будет лучше
            0
            Синтез на видео олпенсорсный. На этом прототипе новый голос не стоит. Тот голос, который есть сейчас мы будем еще раз переделывать.
            0
            Проект интересный, если распознавание быстрое и точно.
            Но лично мне нужен ещё и API как минимум для:
            1. Чтобы можно было выполнять команды (например, настроить по фразе вызов определенного URL, а дальше я сам делаю что мне надо)
            2. Чтобы озвучить какой-то текст
            Планируется? Насколько полно покроете возможности устройства?

            Ещё не очень понятно что за дополнительные гаджеты для работы в разных комнатах.
            В идеале бы доп приборы для распознавания и озвучивания раздельно по комнатам. Включая возможность получать/указывать в API.
            Как конкретно у вас планируется, сколько будет стоить и как общаются гаджеты с основным устройством?
              0
              Мы говорим про Лекси, правильно?)

              Суть дополнительных приборов заключается в удаленной связи с Лекси. 1. Это может быть прибор типа «ухорот» (сами мы их производить не будем, а продавать — возможно), который слушает, передает звук на борт Лекси и отвечает его же голосом. С помощью таких приборов Лекси сможет локализовать свое общение с говорящим, определяя в какой он комнате. 2. Это может быть телефон. Через приложение можно будет просто позвонить Лекси или написать.

              API для открытия заготовленных URL тоже планируем.

              Озвучивание текста с возможностью прерывания Лекси вопросом — делаем.
              0
              Распознавание на устройстве, это интересно. А что за технология, хотяб приблизительно? Сами сделали, или что-то адаптировали? Качество измеряли на каком-нибудь стандартном датасете?
                0
                У нас очень хорошие отношения с отечественной компанией СТЭЛ. Их распознавание речи мы совместно адаптировали под наше железо и наши цели. Качество еще не измеряли, так как полностью устройство не собрали. Сейчас измерять качество нет смысла и необходимости.

                Предвижу ваш вопрос и поясню от чего зависит качество распознавание.
                Во-первых, необходимо качественно получить звук с помощью массива микрофонов. Эта часть системы соединяет несколько каналов воедино, обрабатывая звук, усиливая человеческий голос и подавляя шумы.

                Затем обработанный звук отправляется системе распознавания. Здесь есть аспект: мы используем множество языковых моделей — это называется контекстное распознавание речи, когда знание темы реплики позволяет сузить языковую базу.
                Получается, что качество распознавания зависит от совместной работы массива микрофонов, виртуального собеседника (для определения контекста диалога) и «пучка» систем распознавания.

                Чтобы повысить качество распознавания звука с массива микрофонов, записывается акустическая модель: необходимо в разных условиях записать большое количество дикторов на разных расстояниях. Тогда распознавание речи приспосабливается к тому звуку, что будет слать массив. Дальнейшее адаптация системы к конкретному пользователю происходит очень быстро.

                В данный момент мы только занимаемся акустической моделью для массива микрофонов и создаем множество языковых моделей. По каждой из них качество распознавания может варьироваться, т.к. они отличаются объёмом. Т.е. качество зависит от конкретной языковой модели.
                  0
                  Я говорю не о качестве устройства, а о качестве модели (аккустической, либо акустической + языковой).

                  Интересует как раз реализация акустической модели. На сайте Стэл ничего не нашел.
                    0
                    Если вы про акустическую модель, то мы занимаемся ей сами. Пока раскрывать все карты мы не хотим.
                      0
                      Почему? Гугл вот расрывает. На ICML 2015 довольно подробный доклад был. Фейсбук тоже довольно открытый.

                      Ну дело ваше.
                0
                Hi, there!
                Living in Russia You are totally misunderstanding how Alexa voice service and exactly Amazon Echo, Tap, Dot and other devices (https://www.youtube.com/results?search_query=alexa-enabled+devices) work: this is NOT musical speaker as You indicate, this is voice interface for most already used TODAY devices, like thermostats, lights, tv.
                Yes, initial y Amazon has a plan to make Echo like perfect music player not only for Amazon Prime. BUT time goes on. And peoples make a book by using Echo, Dot, Tap more other ways. NORMAL peoples, not tech geeks like we all here, like all Gizmodo or GeekTech readers. And this people drive industry.
                Because of this, Chubi goes off, and Ubi and Ivee stay like some sort of home toy for tech geeks.
                Some peoples like technical toy, yes, but most of them like devices that really help every day. No?
                  0
                  P.S. Echo is not sound speaker, let propose You to see more widely, Amazon Alexa-driven devices (https://www.youtube.com/results?search_query=alexa-enabled+devices) also a gate to a very big Amazon Alexa voice recognition service.
                  On a YT link I posted here You may see how a lo of peoples with DIFFERENT native nationality have a good relationship with Alexa. And of course, Amazon spend a millions of dollars that nor You company of Ubi, Ivee have.
                    0
                    Please take a look on this video https://www.youtube.com/watch?v=phXJgqKRqjE

                    And realize how far away from reality is Your imagination about Amazon Alexa is «Amazon music sound device».
                      0
                      Also see how all this stuff work https://www.youtube.com/watch?v=Avb-IMy9YVU&t=328s

                      Please make point on the all this assistant is NOT single device, they are VOICE INTERFACE to mostly to physical services, that not exist in Russia at all. Single exception we not counting, ok?

                      More then sure, You have no so much databases and voice-recognition technology to be competitive. And comparing Your product in this manner was incorrect.

                      Only users with full accounts can post comments. Log in, please.