Домашний робот: от идеи к продукту

    С древних времен человек хотел разговаривать с окружающим миром. Говорящие вещи окружали его в сказках и легендах. Злая королева общается с говорящим зеркалом, Горлум жалуется на тяготы и невзгоды бытия Кольцу Всевластья, Тамерлан разговаривал с камнями и давал им имена.

    Все это потому, что голос — самый естественный способ общения для человека, вербальные коммуникации заложены в наших генах. И вот сегодня мы вплотную приблизились к воплощению древнейшей мечты человечества при помощи высоких технологий.

    В Cubic Robotics мы верим, что скорейший путь к “говорящему миру” лежит через создание универсальной голосовой операционной системы, которую с одной стороны можно было бы установить на любое устройство. С другой стороны такую систему могли бы развивать независимые разработчики по всему миру. Именно такой является разработанная и запатентованная нами голосовая операционная система V.O.I.S. (Voice Operation Intellectual System).

    image

    V.O.I.S. — универсальная голосовая операционная система, при помощи которой можно сделать говорящим почти любой предмет. Разговаривать значит, не просто принимать голосовые приказы, но действительно понимать человека, поддерживать и даже инициировать разговор. Это тот самый искусственный интеллект, находящийся внутри нашей разработки — роботе-ассистенте Cubic (о нем мы рассказывали подробно в прошлой статье).

    Также на базе V.O.I.S. уже создаются и проектируются разговаривающие автомобили, интеллектуальные помощники для смартфонов и носимых гаджетов.

    Принципы работы

    Нужно быть честными с самими собой: создать настоящий искусственный интеллект вряд ли удастся в ближайшее время: на это нужны огромные деньги, вычислительные мощности огромных лабораторий, и лучшие умы планеты. Однако существующие сегодня технологии позволяют создать операционную систему с элементами ИИ.

    С технологической точки зрения, V.O.I.S. представляет собой язык программирования, ядро системы и набор приложений управляющих разнообразными речевыми функциями.

    Основой принцип работы V.O.I.S. – это умение понимать контекст разговора, а так же эмуляция человеческой беседы. Вы задаете вопрос и получаете ответ, а не набор ссылок, найденных в поисковой системе.
    На самом деле изнутри процесс выглядит примерно так: как только к серверу приходит фраза пользователя, то он начинает искать варианты, которые могли бы подойти в качестве ответа. Для этого у нас используется несколько разных движков от классического чат-бота до статистического алгоритма поиска по базе диалогов. Например, пользователь спрашивает – «Что там на улице»?

    На этот вопрос существует несколько вариантов ответа. Среди прочего, сервер будет рассматривать такие варианты:
    — На улице 25 градусов и светит солнце.
    — На улице очень серьезные пробки, не стоит ехать на машине.

    А поиск по базе удачных диалогов может выдать что-нибудь вроде: «Ты и сам можешь посмотреть, в отличие от меня, у тебя есть ноги».

    Относительно правильных ответов может быть довольно много (сотни). Важно выбрать из них тот, который нужен пользователю именно сейчас. За это отвечает алгоритм проверки контекста (статистический).
    Он может показать, что если в базе данных есть информация о том, что у пользователя есть автомобиль, то ему скорее всего интересны пробки. А если пользователь только что говорил о погоде (например, спросил погоду на завтра), то логичнее ответить ему про погоду на улице.



    Определение контекста – сложная задача. Частично она строится на анализе имеющейся базы корректных диалогов. Некоторые правила приходится прописывать вручную, другие вытекают из формальной логики. Например, самое простое и действенное правило: если два ответа одинаково хороши, то будет выбран тот, тема которого ближе всего к последнему разговору.

    Конечно, на нынешнем этапе развития V.O.I.S. периодически дает очень странные ответы: многие сценарии еще не прописаны и не внесены в его базу данных, поэтому случаются курьезы.



    Что будет дальше
    Сегодня ряд компаний уже проявил интерес к V.O.I.S. и устройствам на ее базе: не так давно мы общались с представителями корпорации Samsung и автоконцерна КАМАЗ.
    Samsung дважды встречались с нами, на одну из встреч прибыли представители из головного офиса компании, которых очень заинтересовал проект Cubic. В свою очередь КАМАЗ предложил создать голосовой интерфейс для бортового компьютера новой модели КАМАЗа.

    В обоих случаях конкретных договоренностей мы пока не достигли, но переговоры продолжаются.
    Однако, наши главные цели сейчас – это запуск серийного производства робота Cubic (сейчас идут отладочные работы на фабрике в Китае) и создание API для V.O.I.S., чтобы таким образом сделать систему доступной для каждого разработчика.

    image

    Мы надеемся, что уже к концу 2014 года будет создана инфраструктура обеспечивающая возможность всем желающим разрабатывать собственные приложения под V.O.I.S. или создавать говорящие устройства на ее базе.

    Тем более, что разработка приложений для V.O.I.S. – дело куда более простое, чем создание подобных вещей для смартфонов: графические интерфейсы пользователя не нужны.
    О примерах интегрирования в нашей системы в различные устройства мы расскажем в следующей статье, а пока готовы ответить на ваши вопросы.
    CubicRobotics
    0.00
    Company
    Share post
    AdBlock has stolen the banner, but banners are not teeth — they will be back

    More
    Ads

    Comments 70

      +2
      Когда уже тестовую партию продавать начнёте? Сроки прежние? Хочу принимать участие в бета-тестировании!
        +4
        Так тестовую давно уже продали. Сейчас речь о первой промышленной серии, старт продаж — лето 2014, т.е. очень скоро.
          0
          Как так продали?((( А я — наивный ждал когда мне ответят на мою заявку на предзаказ(((
          И на сайте у Вас до сих пор инфа про первую партию в 100шт…
            0
            Тестовая партия была всего 10 штук. 100 штук будут летом 2014, все правильно. Их еще не продали, сейчас производство в Китае идет.
        +1
        «В обоих случаях конкретных договоренностей мы пока не достигли, но переговоры продолжаются.»

        Возможно ваши будущие партнеры хотели бы держать вещи в тайне, а вы тут их раз и так громогласно раскрыли :)
        Кстати, вопрос: а почему VOISE? Как я понимаю это аббревиатура, но может сложиться впечатление что это опечатка.
          +1
          Надеюсь, что никаких секретов я тут не выдал. Я хотел показать, что сегодня многие компании активно работают над внедрением голосовых интерфейсов в наш мир и мне кажется, что это очень хорошо.

          Пока расшифровка у VOISE, это «voice operation intelligent system», но есть и другие варианты :) Надо выбрать.
            0
            P.S. Мне коллеги подсказали, что я не правильно написал. В посте заменил VOISE на V.O.I.S.
              0
              В таком случае еще следует расшифровку поправить на «operated» или, с некоторым смещением смысла — «operations». Иначе это не укладывается в правила языка, если для вас это, конечно играет роль больше, чем условная красота нечеткого соответствия vois — voice, которая может возникнуть в некоторых неокрепших умах ).

              Это если не вдаваться в подробности, что операционная система — operating system, что вроде бы тоже как-то предполагается по предлагаемой расшифровке, но я могу и ошибаться, поскольку, в отличие от Кубика не владею контекстом, в рамках которого генерировалось название.

              ps. это не упрек, и не попытка докопаться на пустом месте. Просто мне очень не хочется, чтобы такая расшифровка названия формировала неправильное представление о продукте и команде.
          +1
          V.O.I.S. — это операционная система, которая ставится на «кубик», стоящий в квартире и работающий автономно, или это совокупность относительно тупого «кубика» и ваших серверов, на которых и крутится всё?
            0
            Пока мозги находятся в облаке. Урезанная оффлайн версия будет, но уже после выхода первой версии устройства.
              0
              А вот это замечательно!
                0
                Можно ли будет ее ставить на устройства типа телефон с Андроидом? (особенно когда экран у девайса не работает)
                  0
                  Теоретически — да. Практически смысла не много. Мобильных ассистентов и без нас хватает.
                    0
                    Мобильных ассистентов, которые бы могли отвечать на вопросы? Вот за такого ассистента в телефон я бы в AppStore купил. (при разумной цене). Эдакая мобильная-видеорегистрирующая интелектуальная система.
                      0
                      Попробуйте у Google Now поспрашивать, большинство определений он отлично рассказывает. Правда, не знаю как дела с ним в AppStore, но по-моему он там тоже есть.
                        0
                        сорри. Гугл Плей конечно. Попробую. Просто понравился ваш вариант, чисто голосовой (чтобы исключить всякие картинки и прочее (то есть ситуацию, когда у железа экрана уже нет).
              +2
              Молодцы ребята! Очень круто!
              Планируются ли к нему веб-интерфейс, или личный кабинет с настройками?
              Какова у него память на интересы пользователя? Вспомнит ли он о том, о чем с ним говорили вчера?
                0
                Спасибо!
                Для работы кубику не нужен никакой интерфейс, кроме голосового.
                Но для разработки новых функций с помощью API интерфейс, конечно, будет (Доступ к API планируется уже после начала продаж).

                Видов памяти у кубика два — длинная и короткая. В длинной хранятся накопленные знания о пользователе (где живет, что любит и т.п.), она не очищается. В короткой хранится контекст текущего разговора. Кубик забивает его в течении десятков минут.
                0
                Когда кубик в ответ на вопрос «Когда узнаешь?» сказал «Через 2 дня», это какое то реальное ЕТА и действительно будет что то предпринято или это такой вежливый пнх робота человеку? :)

                Кстати, а он теоритически мог бы полезть в википедию и посмотреть значение слова?
                  +1
                  Это более-менее реально. Когда кубик сталкивается с вопросом, на который не смог ответить, то у нас открывается тикет на доработку его базы знаний. Мы заполняем пробел и через пару дней он начинает отвечать. Более того, в планах сделать так, чтобы кубик сообщил об этом человеку, сказав, что теперь он знает ответ на вопрос.

                  А искать в википедии он умеет, более того, он должен был поискать :) На видео заснят баг.
                  +2
                  Если у кого-то есть желание протестировать кубик, то приходите в гости в Лабораторию трёхмерной печати или в Хакспейс Нейрон.
                  У нас находится самый первый вариант, а в Хакспейсе Нейрон собирают предсерийный и постоянно его допиливают ;)
                    0
                    Вот сижу я в деревне, пью молоко, наслаждаюсь отсутствием инета и стоит у меня Ваш кубик, захотел с ним поговорить, ан нет… тупит кубик… нужен ему инет… profit
                    Я конечно желаю Вам удачи и успехов, но не взлетит Ваш продукт с таким раскладом и ценой.
                      +1
                      В деревне нужно наслаждаться тишиной и березками )
                      Не правильно современный гаджет делать автономным. Это как компьютер, планшет или смартфон без интернета. Активный пользователь смартфона, через 5 минут исчезновения интернета на нем, начинает испытывать дискомфорт.
                      Плюс ко всему объем данных которые использует Cubic для ответов поражает, это 10 Gb информации только с википедии. Новости и погода должна быть самой свежей и т.д.
                      О минимальная автономной версии мы думаем, но пока она отложена на конец года!
                        0
                        Активный пользователь смартфона, через 5 минут исчезновения интернета на нем, начинает испытывать дискомфорт.


                        Ой ли? Мне кажется это называется интернет-ломкой и от этого уже начинают лечить в развитых странах.

                        Плюс ко всему объем данных которые использует Cubic для ответов поражает, это 10 Gb информации только с википедии. Новости и погода должна быть самой свежей и т.д.


                        Я же не говорю, что хочу поговорить с кубиком о ядерной энергетике, можен нужно обычная болтовня на тему: Привет, как дела?
                        Я понимаю, что это маркетинг и желание заработать, поэтому Вы не делаете оффлайн версию, не нужно прикрываться словами, что мол у вас много данных, нужно забирать погоду с интернеты и т.д., скажите прямо — оффлайн версии нет, потому что мы используем онлайн распознавание от яндекса или гугла, без него кубик — набор «шестеренок».

                        P.S. Сейчас 1 Gb флеш-памяти стоит копейки, и встроить в устройство 64Gb не составляет труда и цена от этого не сильно увеличиться, так что вариант отговорки, мол нужно много места не проёдет.
                          +1
                          Мы и не скрываем, что используем Google-распознавание. Но оно работает и без интернета, так что дело не в этом.
                          Память нужна не флеш, а RAM, потому что обработка каждого запроса пользователей требует сканирования всех доступных знаний кубика.
                      0
                      Это очень крутая штука) Если понатыкать по квартире видеокамер и совместить ваш V.O.I.S.E с системой компьютерного зрения, то можно действительно создать умный дом) А какие у него требования по ширине канала(я так понимаю, что для качественного распознавания голоса сильно жать поток нельзя?) И вы не планируете распространять помимо кубика еще и серверную часть?
                      з.ы. А есть возможность преобрести такой гаджет уже сейчас?) И сколько он у вас будет стоить в серии?:)
                        0
                        1-2 мбит хватит за глаза.
                        Серверную часть не планируем, только в виде законченных продуктов на основе V.O.I.S.
                        Оставляйте заявку на нашем сайте cubicrobotics.ru/. Скоро мы обновим сайт и начнем продажу промышленных Cubic.
                        Цена 20 тыс рублей. Первая партия всего 100 штук.
                          0
                          1-2 мбит хватит за глаза.


                          Жесть, вы там фильмы что ли скачиваете в кубик? Зачем такая скорость? Для передачи голоса 128кбит/c по заглаза, конечно быстрее это лучше, но пардонте, не во всех городах есть такой шустрый инет, а про мобильный инет я и не говорю — выехали за город и нет там 3G.
                            0
                            Кубик может включать онлайн радио, которое бывает до 512 мБит/сек. А простой разговор неплохо работает даже через EDGE, т.к. синтез выполняется на устройстве.
                            0
                            Хм, а чем обусловлена такая цена?(кроме малой партии конечно)
                              0
                              С ростом объемов, конечно, цена будет спадать. Ничего такого, что нельзя было бы удешевить, в кубике нет.

                              Если интересно узнать про компоненты, то дороже всего стоит многоканальная плата микрофонов (hi end акустика всегда дорого). Ну и остального по чуть-чуть. Материнская плата, акустика, фронтальная панель с диодами, модуль радиосвязи с розетками и сам корпус.
                                0
                                А что за микрофоны используете? У меня в Intel Creative Camera торчит обычный стереомикрофон и с него нормально распознается голос из любой точки комнаты)
                                А на самом кубике какие-то вычисления есть, или только кодирование звука и отправка его на сервер?
                                  0
                                  > с него нормально распознается голос из любой точки комнаты

                                  Мы очень много экспериментов поставили и пришли к выводу, что системы распознавания речи на больших словарях не работают на расстоянии больше 1-1.5 метра. Бывают исключения — если в комнате много мебели и мягких поверхностей (ковров, диванов и т.п.), то может распознаваться метров с пяти. Но в среднем, нельзя обойтись одним микрофоном, даже самым качественным.
                          0
                          Мне кажется это очень интересная наработка. В этом будущее всех существующих (безликих) операционных систем. Желаю вам удачи и скорейшего внедрения ваших наработок в виде расширяемого кроссплатформенного программного продукта. Думаю, что ваш кубик — это только начало. Очень надеюсь увидеть что то подобное во взаимодействии со всеми будущими операционными системами. Это действительно здорово!
                            0
                            Спасибо большое!!! Удачи!
                            +1
                            Очень понравилось :-) Возникло пару вопросов:
                            1. Поддерживается только русский язык?
                            2. Какой движок используется для синтеза речи? Можно ли его сменить, чтобы кубик говорил, скажем, женским голосом?
                            p.s. Баг понравился. Почему именно через несколько дней? :-)
                              0
                              Спасибо!
                              Сейчас только русский, но уже есть демо-версия на английском языке.
                              Движок используем один из опенсорсных, но пришлось много дорабатывать. В принципе можно использовать любой TTS, работающий на андроиде.
                                0
                                Движок используем один из опенсорсных

                                Какой именно, если не секрет? Планируете ли открывать код?
                                  0
                                  Сейчас используется RHVoice. Открывать — да, конечно!
                                    0
                                    А что используется для распознавания речи? Тоже какой-то опенсорсный движок?
                                      0
                                      Используем легальное Google-распознавание в рамках Android. Опенсорсные к сожалению пока очень далеки от него.
                                0
                                Поддерживаю вопрос про движок TTS. Не очень качественно говорит, если честно.
                                  0
                                  TTS можно было выбрать любой, поддерживаемый Android. Мы честно протестировали все, что можно достать (легальное и нелегальное :)) в этой области. «Красивых» женских голосов полно, но в итоге они начинают вызывать отторжение. Я думаю, что тут дело в «зловещей долине» — лучше быть похожим на робота, чем на зомби.
                                    0
                                    Хм, скорее, это дело вкуса. Зловещая долина, емнип, не относится к голосу. У меня, наоборот, отторжение вызывает робоголос, а GoogleNow или Кортана весьма нравятся.
                                    Хотя, конечно, когда дело дойдет до полноценного производства и продажи крупными партиями, выбор движков можно будет и допилить.
                                      0
                                      Ясно! На самом деле у нас в команде тоже мнения разделились о том, какой должен быть голос. Возможно к моменту выхода первой партии с ним что-то сделаем. А уж про крупные партии и говорить нечего — наверняка там все будет иначе…
                                  +1
                                  Да, в RHVoice есть 3 женских русских голоса и 1 русский мужской. Мне больше всего женский «irina» нравится.
                                  Нужно заметить, что RHVoice пишет слепая девушка, в свободное время.
                                  Irina говорит примерно так:


                                  Кстати, Rai220, RHVoice лицензирован под GPLv3. Будете ли вы соблюдать условия лицензии?
                                    0
                                    В смысле «RHVoice пишет слепая девушка, в свободное время.»? Сэмплы голоса пишет слепая девушка, или код?
                                    0
                                    Да, мы общаемся с Ольгой и она нам сильно помогла с синтезом! Спасибо ей за это огромное! Что касается лицензии, то мы, конечно, опубликуем все свои правки. Более того, я аккуратно использую движок через Android TTS API, чтобы не подцепить так называемый «вирус GPL».
                                  0
                                  Он все-таки сказал Вам зачем нужна кофемолка?)
                                    +1
                                    Да, уже поправил этот вопрос. Теперь отвечает вполне складно.
                                    > Для чего нужна кофемолка?
                                    < Кофемолка — устройство для размола зёрен кофе.
                                      0
                                      Можно придраться? Спрашивалось, для чего она нужна, а не что это такое :-)
                                    0
                                    Сценарные варианты ведения диалога — это тупик. Упретесь в сложность довольно быстро.
                                      0
                                      У нас не только сценарные. В случае, показанном на видео, в кубик заложены знания о фильме, но сценарий разговора нигде не прописан. Он сам выстроился, когда я задавал вопросы. Также есть чисто статистические алгоритмы ведения беседы, которым не нужны никакие сценарии.

                                      Но в некоторых случаях от сценариев невозможно отказаться, особенно когда нужен строгий и хорошо работающий командный интерфейс.
                                        0
                                        Когда вы говорите «знания», что конкретно вы имеете ввиду?
                                          0
                                          Набор прописанных реакций на стандартные ситуации по этому вопросу (нравится-не нравится-что такое-когда-куда-зачем-почему). То есть понятно, что ответы явно прописаны сценаристым, а вот распознавание того, что наступила ситуация, когда надо выдавать ответ на стороне алгоритма. Это не тупой шаблон вида «мне не нравится терминатор 1..N».
                                      0
                                      Еще, кстати, было бы здорово уменьшить время ответа. Я понимаю, конечно, что это общая проблема облачно-экспертных голосовых систем, но все равно, более быстрые ответы подняли бы общее впечатление о продукте.
                                        0
                                        Полностью согласен! К сожалению на тех технологиях, что мы используем, это практически минимум, т.к. наш сервер выдает ответ за 200 мс, остальное — распознавание. Надеюсь, что со временем эта проблема решится.
                                          0
                                          Можно сделать чтобы кубик, пока ждет ответа от сервера, говорил общими фразами, вроде таких «ммм сейчас вспомню», «придется напрячься», «секундочку, мм, а, вот, нашел!» и тд. Благодаря этому не будет этих провисающих пауз, да и общение станет более живым
                                        0
                                        Рад, что проект продолжается. Жаль, что решили без нас делать.
                                        А с материнской платой уже окончательно определились? Rockchip двухъядерный? Или это слишком интимный вопрос? :-)
                                          0
                                          Привет, спасибо! Да, делаем на RK3066.
                                            0
                                            У них новое поколение гораздо более дешевое и маложрущее (ибо кортекс A7, а не A9). Ну, может, чуток менее производительное…
                                          0
                                          Я вот только не понял как включается полезная нагрузка для умного дома? Это какой-то отдельный контролер от Вас, или что-то общепринятое?
                                            0
                                            Внутри кубика есть контроллер для управления радиорозетками. В комплекте идут две штуки, дополнительные можно будет докупить.
                                            0
                                            И какова ориентировочно будет цена вопроса? (вопрос на уровень выше был)
                                              0
                                              Кубик — 20000, розетка — 1000.
                                                0
                                                Спасибо за ответ
                                              +1
                                              Слышал, что скоро будет русская локализация Siri. Набирают разработчиков русскоязычных.
                                                +2
                                                Друзья, кто не в курсе, у Cubic новый крутой дизайн.

                                                  0
                                                  Простите, а чем это отличается от обычного чат-бота, того же Гусмана? Или Наносемантики? Я уже не говорю о Siri или Google Now. Получается отличие только в том, что вы засунули его в красивую портативную колонку и приделали управление розетками (стандартный контроллер). Мне кажется, что такой проект, если он объявлен вами именно как голосовая операционная, должен строиться на каких новых возможностях диалога, на прорыве в «понимании» смысла фраз с учетом контекста. Но об этом во всех ваших постах очень мало что говориться. Зато много о том, куда вы его хотите пристроить и сколько вы хотите за него денег )) В том же ролике вы показываете вполне банальные реакции на ключевые слова. Это сейчас может сделать бесплатно любой программист. Более крутой учтет и контекст предыдущего диалога. В чем ваша фишка?

                                                  Only users with full accounts can post comments. Log in, please.