Как стать автором
Обновить

Комментарии 123

Выглядит очень круто! Было бы очень круто почитать статьи от вас по теме.
Спасибо! Если тема окажется интересной, то я напишу статью о том, как устроен интеллект кубика и о том, что может его API.
Было бы круто. Ещё круче было бы, если бы Вы выложили исходники, но это вряд ли возможно, насколько я понимаю.
Ниже Вы упомянули граф, который развёртывается в облаке: алгоритмы кубика основаны на семантических сетях?
А расскажите, пожалуйста, когда планируется, если планируется — продажа широкой публике?
Я бы с удовольствием такое устройство приобрёл.
Ориентировочно первая промышленная партия (100 штук) появится июне 2014. Можно оставить предзаказ у нас на сайте: cubicrobotics.ru
0. Спасибо за статью и саму разработку. Очень радует, что постепенно подобные «фантастические» штуки начинают появляться.

1. Субъективно, дороговат кубик. Хотя и вполне приемлемо. Интересует, в первую очередь, вот какой вопрос: «первая партия» — это бета (по качеству/готовому функционалу), или же все готово, просто хочется проверить спрос на маленьком объеме?
Извиняюсь, проспал коммент…
По поводу цены — надеюсь, что при переходе к более крупным партиям, кубик будет дешеветь.
Первая версия будет не бетой, а уже промышленным продуктом. С «бетой» мы уже вовсю работаем сейчас. Но наверняка первая версия будет не такая стабильная, как последующие.
Для первой партии уже будет возможность писать что-то своё?
Какая у вас бизнес-модель? Вы планируете зарабатывать на подключаемых/отключаемых плагинах? (~Cubic Market)
Будет API, но, скорее всего, оно появится уже после выхода — не успеваем. Продажа дополнительных приложений если и будет, то скорее всего от сторонних разработчиков. Сами мы планируем совершенствовать интеллект и добавлять новые функции бесплатно.
А распознавание голоса у него автономное или нужен интернет?
Ну явно автономное, похоже что Sphinx/Pocketsphinx. И похоже что Festival для синтеза речи.
Нет, у нас распознавание гугловское. Sphinx/Pocketsphinx пока к сожалению не реально использовать для фриспича — только для заранее определенного набора голосовых команд.
можно ведь и то и другое прицепить: сперва поиск в наборе, если не нашел — гугл.
Качество распознавания и рядом не лежало с Гуглом. И что значит поиск в наборе? Sphinx выдает самую подходящую фразу. Если сказать «кошка», а в словаре из похожих только лошка, то Sphinx выдаст лошка с 90% вероятностью…
А как распознается кодовая фраза? Тоже Гугл?
Уже нашел ниже. MFCC
А кубу ведь нужен интернет? По-моему, без него распознавание речи не работает у Андройдов. Если я не ошибся, то откуда он его берёт?
Автономное распознавание есть, но без доступа к облаку оно работает хуже (как и сам интеллект куба). Поэтому для нормальной работы куб должен иметь доступ в к интернету по Wi-Fi.
Получается что у Вас будет возможность подслушивать Ваших клиентов?
Теоретически такая возможность есть, как и любого производителя гаджетов, подключаемых к интернету.
use wi-fi, luke
там внутри Айфон, да?
Да.
Так Айфон или Андроид?
Ответ не согласован, я бы сказал что ответ писал сам кубик. На вопрос «какой» отвечает «да». Процессор, как я понимаю, ARM: т. к. автор упомянул Android.
Извиняюсь, уже поправил. Процессор ARM, RK3066. Вообще наше ПО будет работать на любом двухядерном ARM v7 в разумных пределах.
А нельзя ли ИИ выполнить отдельно в виде программы для PC (без распознавания речи)? В качестве демо-версии?
А еще лучше для андроида, можно и за денежку.
Смартфоны есть не у всех.
Значит, будут — Кубик настолько близок к смартфону со специальным аппом, что и разницы почти не видно
Я про софт для домашнего кубика. Современные планшеты много чего могут — воспроизведение 1080p без проблем, miracast, у большинства вполне приемлемые микрофоны для распознавания голоса, а некоторое их подмножество имеет с кубиком одинаковую SoC, так что для обучения и проверки технологии на «пощупать» вполне сойдет.

Я понимаю, что подобный софт опасно для бизнеса делать свободным, но создать обширное и лояльное сообщество вокруг продукта вам вполне под силу.
Авторы Кубика потому и говорят о «массиве» микрофонов, потому что эта реализация позволяет пользоваться девайсом хоть на сколь-нибудь приемлемо комфортном уровне. Один микрофон — это вы по дому будете с собой носить клиента, и говорить в него. Не спорю, возможно, именно это вы и хотите, но это действительно только «пощупать», а не пользоваться.

Проблема в том, что коммерческие продукты, как мне видится, вредно делать в версии «пощупать», поскольку это может вызвать неудовлетворенность потенциального клиента раньше, чем выйдет нормальный продукт с нормально реализованными функциями. Т.е. может получиться так, что «Битлз — бездари, я знаю, мне Рабинович по телефону напел».

Ну и в целом, наверное, имеет смысл дождаться комментария авторов на эту тему.
Серверную часть кубика на рядовом PC запустить будет сложно. Например, он разворачивает полный граф своих знаний в оперативной памяти, для этого нужно как минимум 32 Гб оперативной памяти. Но со временем все возможно.
А в самом кубике тоже 32 Гб?
Нет, там 1 Гб, но без доступа в облако его интеллект сильно ограничен.
Жаль, что не смог вам помочь и поучаствовать в таком клёвом проекте!
А можно ли будет его подключить к телефону? Например сделать что-то типа умного автоответчика или что-то типа телефонного помощника для простых вопросов? Типа человек звонит в поисках помощи, а ему отвечает вот такой умник, который сможет помочь в простых вопросах да и просто составит компанию тем, кто звонит из скуки и ищут кого-нибудь, кто их выслушает, пока человек-оператор занят чем-то другим?
Это уже Watson получается. :-)
Мы делаем диалоговой ИИ, который можно будет запихнуть куда угодно — в машину, в робота, в часы. Так что да, возможно. Но со временем.
Мда… 20 тыр за девайз на ширпотребском ARM'е и программе которая что-то умеет автономно, но для большего ей нужно держать связь с неким облаком. Микрофон + динамик + передатчик на 433 Мгц и за все это 20 тык, я вас умоляю… красная цена этому чуду 5 т.р.
Простите если грубо, но на такие мысли наталкивает Ваша статья, в которой нет никаких технических характеристик устройства, ни характеристик программной части, да и демонстрация возможностей оооочень скудная.
Надо учесть, что весомый вклад в цену вносит производство корпуса и массива hi-end микрофонов. Производство, доставка и сборка такой небольшой серии тоже добавляет цену. Если продукт пойдет в массовое производство, то, конечно, цена может быть значительно снижена.
Если смотреть на варианты развития, то можно интегрировать ваш софт в систему умного дома, как раз как с джарвисом.
И тогда вместо кубика с массивом микрофонов нужно будет просто добавить по микрофону в оконечные устройства (выключатели, датчики), которые размещены по квартире.
Получится, что система одновременно будет охватывать квартиру аудио, и, в добавок, будет знать обо всех своих смарт-хаус девайсах.
Прямо Дом-3 какой-то получается
Видимо, основная ценность в ПО
Да, это действительно так. У нас в штате лингвисты, программисты, сценаристы, которые постоянно работают над улучшением ИИ, разработкой новых сервисов и т.д, поэтому цена ПО получается выше цены железа.
Я слышал, что Google таки разрешила ту несправедливость, которая существовала в их сервисе распознавания голоса, — а точнее offline распознавание русского языка. Вы можете подтвердить это? Я видел пару роликов в YouTube про якобы использование этой библиотеки, но так и не нашел примеров с открытым исходным кодом. Я сам сейчас делаю проект, подобие системы умного дома, правда моя задача больше сводится к помощи маломобильным пользователям. Я использую все тот же гугловский API и Интернет. Как показывает практика, у такого способа в моей задаче уйма минусов. Особенно это касается связи Интернет. Использую USB-модемы и иногда запросы не проходят. Причину пока выяснить не могу, но кажется это из-за большого количества запросов. Наверное провайдер рубит.

Подскажите какую-нибудь опенсорсную систему распознавания русского языка OFFLINE. Мой проект называется LIFE Guide Assistant v2.0, и о нем позже я напишу свою статью.

image

Частично, потрепанное описание можно увидеть тут, в виде отладки.

Буду признателен за полезную информацию.
Да, оффлайн распознавание русской речи в Android работает. Начиная с 4.0 есть voice type (голосовая клавиатура), начиная с 4.2 есть полноценное оффлайн-распознавание. Правда для работы нужен Android + установленные google services. Но есть минус — оффлайн распознавание работает значительно хуже обычного (но значительно лучше, чем Sphinx).
Я думаю написать клиентское ПО под Android, которое будет взаимодействовать по беспроводному сетевому протоколу с моим автономным ПК, а то уже будет обрабатывать приходящие запросы. То есть получается пользователь будет иметь при себе мобильный, где-то поблизости, который будет его слушать и ждать команд. Услышав он свяжется с основным ПК и уже начнет исполнение. Есть ли какие-нибудь примеры и статьи для написания своего ПО с этими библиотеками?
Можно так сделать. Отдельной библиотеки нет, нужно просто настроить android на распознавание и пользоваться стандартным API. При этом если на устройстве нет интернета, распознавание автоматически переключится в оффлайн. Как настроить, показано вот здесь: stackoverflow.com/a/21329845/921194
Есть ли уже возможность изменить голос кубика, выбрать другой язык? Есть ли уже ночной (тихий, менее яркий) режим работы?
Можно использовать любой TTS, доступную для Android. Сейчас разрабатывается поддержка английского языка. Тихого режима пока нет (спасибо за идею!), но можно попросить кубик говорить тише или громче.
Если я правильно понял, Вы предлагаете только кубик и подключение к Вашем облаку?
Или, по желанию клиента, он может прикупить для своих нужд и серверную часть для управления неограниченным (ограниченным ?) количеством своих кубиков? Можно по подробнее о серверной части? Кроме требований к большому (ну по крайне мере для домашнего серверочка) объему ОЗУ?
А если кубик поставить на платформу с колесами (например iRobot Create) и дать манипуляторы…
Как раз сейчас тестируем установку кубика на роботов R.Bot.
То есть у вас в планах аксессуары для сопряжения с разными платформами?
Думаю, в первой версии таких аксессуаров не будет. Но разрабатывается API, с помощью которого можно будет подключить наш ИИ к чем угодно. Сами мы экспериментируем не только с кубом, но и с телефонами, часами, автомобилями и роботами.
Не нашел на вашем сайте RSS. Хочу следить за последними Вашими новостями.
RSS не успели сделать еще… обязательно добавим.
Почему девушка которая моет посуду не захотела узнать подробнее о фильме? Да и вообще по правде говоря примеры кажутся срежисированными — вы разработчики и знаете список команд на зубок, но дайте кубик кому угодно и будет множество недоразумений и глюков.
Такие обзоры делаются только после поступления гаджета в продажу… Поживём — увидим.
Любая реклама (сюрприз!) является срежиссированной. И я бы, если делал ролик, то конечно бы подбирал примеры для демонстрации возможностей, а не глюков и недоразумений.

На самом деле, что касается голосового управления, у меня постоянно перед глазами сцена из каких-то SW новых, где джедаи прилетели на государственном корыте к барыгам на переговоры, а те решили потихоньку избавиться от ненужных гостей. Корыто было военное и умное, поэтому когда на него навели пушки, включило тревогу. Но вот незадача: управление системой защиты по сценарию — голосовое, поэтому до экстерминатуса дежурный офицер успел сказать только «shields u...». Ну и все.

А была бы большая красная кнопка — до сих пор бы с нами чай пил.
Про фильмы подробнее он рассказывает, но это долго — ролик бы получился слишком длинным. Но вообще вы правы, конечно — в роликах никто не покажет, что куб может и затупить, и не распознать. Длинный ролик не всегда получалось снимать с первого дубля. Но язык у нас не командный. Мы закладываемся на то, что пользователь может сказать что угодно и куб всегда на это будет как-то реагировать. На это направлены основные усилия в разработке.
Вот и хотелось бы честную запись того, как робот тупит и ошибается, что бы знать его истинные возможности.
Вообще была бы не лишней функция сложного калькулятора: куб посчитай корень из синуса два пи.
И записывать ответ на слух? Не знаю, мне кажется, что голосовые технологии все как-то переоценивают. Они хороши в фильмах (потому что там все срежиссировано) и чтобы удивить друзей.

А реальная жизнь гораздо разнообразнее.
Согласен, не представляю ситуацию, в которой мне бы было удобно сначала диктовать формулу для рассчета компьютеру, а потом на слух записывать ответ.
С матлабом под рукой куда удобнее.
Да, если нужно что-то быстро посчитать, открываю всегда python.
Но! Бытовые вычисления, в стиле, «сколько будет 100 долларов в рублях» или «100 тысяч под 10% на 10 лет» облегчили бы жизнь в некоторых ситуациях.
«100 тысяч под 10% на 10 лет»

И ответ — «чувак, да не связывайся ты с этими ипотеками»
Это самый правильный ответ ) Лучше накопить предварительно.
Ну почему же — табличные значения было бы совсем неплохо голосом спрашивать. Коэффициент теплоемкости олова? Тангенс 13 градусов?
А это уже не вычисления, это справочные значения — как цитирование википедии.
Вот именно вычисления вряд ли пригодятся. Да даже справочные тоже очень маловероятно — вы же с ними что-то делать будете потом, в какое-то выражение подставлять, а значит — у вас уже наготове инструменты для этого вычисления.
Потрясная штучка) Тоже возник вопрос: если попросить рассказать про фильм подробнее — расскажет или это еще не допилено?)
Хочется еще статей, конечно же.
Спасибо! Про фильм рассказывает, просто рассказ долгий, а ролики хотелось сделать короткими. Вообще сейчас у нас более 120 работающих функций.
Колыбельную петь — вполне хорошая тема бы была. )
Краудфандинг не рассматривали?
Рассматривали. Будем выходить на кикстартер с английской версией устройства. Российский краудфандинг не стали брать, потому что есть несколько неудачных запусков у схожих проектов.
Было бы круто, если бы он был обучаемым и подстраивался под каждого пользователя, а его граф знаний разрастался. Так недалеко, и можно иметь собственный Jarvis как в Iron Man.
А насчет открытого API для разработчиков, вы молодцы! Я бы точно попробовал бы написать что-то для кубика.
Ну, Jarvis еще далеко. Но Тринадцать-девять уже близко :)
Главное начать, Jarvis — это только вопрос времени и мощностей) То, что ребята уже сделали — большой шаг на пути к русскоязычному персональному ассистенту с ИИ.
А кто это — «Тринадцать-девять»?
Это классика :)

Пока он отсутствовал, автоматы-уборщики сделали свое дело: искусственный мох был промыт и аккуратно причесан, свежо и опрятно пахло геранью. Из спального отделения исчезло белье. Рабочие стол и кресло тоже исчезли — в холле, кроме портфеля, ничего не было. Портфель не значился в программном регистре уборщиков.
— Тринадцать-девять, — произнес Андрей формулу обращения для автомата-бытопроизводителя. — Завтрак.
Метровый участок ковра вспучился, неприятно зашевелился (словно там задергалось что-то живое), мох сошел пухлыми складками и, пропустив наружу матово-белую полусферу, снова сомкнулся вокруг ножки подъемника.
— Кресло, — добавил Андрей.
Ковер повторил неприятное шевеление. Усевшись, Андрей ощутил последнюю судорогу кресла, подумал: «Гармония между вещами и человеками». Ударом пальца о край полусферы заставил ее распахнуться: раскрылась подобно бутону нимфеи. Приятный сюрприз: в хрустальном вазоне живая ветка расконсервированного багульника. Не успел он наполнить бокал кумысом — тишину под сводами грота разогнали прозрачные, как весенняя капель, звуки клавира Гайдна. Завтрак был сервирован хрусталем алмазной огранки. Давно бы так. Металл надоел… О, салат из омаров!
— Тринадцать-девять, будь любезен… окно.
(Хрусталь, омары и Гайдн располагали к некоторому изяществу манер.)
Лунный блеск таежной поляны угас — за пределами грота распахнулась звездно-черная пропасть.
По сути так и будет — ии подстраивается под человека, собирает про него знания. Например, на вопрос «что там на улице» куб разным людям будет отвечать по-разному. Если человек живет в крупном городе и известно, что у него есть машина, то куб выдаст информацию о пробках. В противном случае — о погоде.
Плюс к тому, мы постоянно мониторим о чем говорят с ии (логи анонимны). Если видим, что где-то у нас ии не отвечает, то сразу это допиливаем. Поскольку решение облачное, то у всех пользователей сразу появляются эти изменения.
Как именно «собирает про него знания»? Какая-то интеграция с гуглом и его статистикой запросов (если честно, есть ли вообще api для этого я не знаю) или же какое-то свое решение?
Знания собираются из разговоров. Куб будет интересоваться человеком — как его зовут, сколько ему лет, есть ли у него домашние животные и т.п. Плюс собирается статистика — какие сревисы чаще используются, какие реже. Какие новости человеку интересны. а какие нет. Все это влияет на выбор ответа в неоднозначных случаях.
Ну если куб подстраивается под человека, то он обязан синхронизироваться с моими соц сетями, уметь читать заголовки статей в лентах моих любимых соц. сообществ, а если я скажу слово «подробнее» то читать статьи на том же хабре вслух.

Уже представляю как слушаю новости утром за чашечкой кофе) Или же слушаю музыку из Вконтакте.
Все будет. Интеграция с соцсетями сейчас в разработке. Правда там много проблем. Оказалось, что если зачитывать ленту сообщений друзей, например, вконтакте, то там 90% репостов и фоток. Их не почитаешь особо.
ну а заголовки статей на хабре зачитать можно проще простого, а нужный мне открыть и прочитать подробнее
Можно, сразу спрашивать от каких друзей вас интересуют новости, и по мере появление спрашивать, интересныли вам новости этой тематики (группы, ресурса) по началу будет конечно небольшой хаос, но этого не избежать.
Ребята, вы молодцы, очень круто.
Приятно когда софтовые навороты приобретают осязаемую форму. Будущее становится ближе ;)
Действительно круто) Уже год мечтаю о подобной штуке, только двигающейся… Но знаний для разработки не хватает.
Расскажите, как работает отслеживание фразы активатора?
Система постоянно слушает окружающий мир и сравнивает услышанное с записанным образцом. Алгоритм там в общем-то банальный — MFCC. Фразу активатор мы записали на нескольких людях и в 90% случаев она отлично срабатывает на всех. Пользователь может обучить куб своей фразе-активатору, тогда качество срабатывания будет лучше, но на других людей он срабатывать не будет.
Ну вот, наконец-то и вы здесь :) Удачи Кубику!
Клаааасс!!! Не знаю, как в реальном бытовом применении, но на видео выглядит просто здорово! Будущее здесь)
Где можно купить акции вашей компании??)
Пока только в наших мечтах :)
Динамик находится прямо на кубике? Можно ли научить его передавать свой голос куда-то еще? Ну как вариант, аудиосистема в соседней комнате.
Вообще в кубе есть bluetooth и через него можно настроить внешний звук. Но к моменту запуска интерфейс настройки звука вряд ли успеем сделать, так что настройка будет возможно только через консоль и подключение к компьютеру.
Мне очень хочется интегрировать кубик с какой-нибудь MUD.
В мад, имхо, будет трудновато так играть.
Вот какой-нибудь старую текстовую RPG, типа ZORK — самое оно.
Такое уже есть!
вам что-то кроме денег требуется? тестирование, написание кода, проектирование?
хочется чем-то помочь…
Вообще нам очень нужны электронщики, программисты и вообще любые люди с мечтами, которые хотят поучаствовать в развитии робототехники. К сожалению у нас пока сильно ограниченный бюджет, но я очень надеюсь на скорое расширение.
А какой у вас стек технологий? Что на чём пишите?
Серверная часть — чистая Java
Клиент — Android нижнего уровня (NDK, свои сборки, свои драйвера).
Микрофоны — Sitara (Си).
Отличный проект, молодцы! Будет очень интересно почитать ваши статьи.
а всяких гиковских баек он знает столько, что регулярно расходится на цитаты

Даешь видео с байками в студию!!!
Зачем же спойлерить)
Это же отличная реклама! 20к за кубик дороговато, хотя он и привел меня в полный восторг. А вот с кучей гиковских баек, да рассказываемых по голосовой просьбе… Могу соблазниться к покупке.
Согласен, что 20к дороговато, но я соблазнился и уже отложил денюшку на него.) Надеюсь первая эксклюзивная партия кубиков будет сопровождаться какими-нибудь дополнительными «ништяками» от разработчиков)
Интересно, а можно перебивать кубик когда он говорит?
к примеру он начал рассказывать про фильм, я понял что мне не интересно, могу я спросить что-то еще или задать уточнение по ходу? Или нужно дослушать выступление до конца?
К сожалению сейчас заткнуть его можно только коснувшись рукой верхней грани. Но функция «заткнись!» в разработке, я думаю что она может появится с очередным обновлением.
Отличный проект, молодцы! Внимательно слежу за прогрессом и надеюсь в будущем подружить ваш кубик с Алисой (MajorDoMo).
Спасибо! Я думаю, это вполне возможно будет сделать через API. Ну или мы напрямую подружимся — сейчас смотрим в сторону того, чтобы поддержать популярные проекты умных домов.
Только мне напомнило?
image
Я думаю, это будет первый же кастомный корпус/чехол для него.
НЛО прилетело и опубликовало эту надпись здесь
Спасибо!

Я думаю, что с помощью API можно будет делать практически все из вышеперечисленного. Люди смогу писать свои голосовые программы в дополнение к имеющимся. Если это пойдет, то вполне можно ожидать появления чего-то вроде магазина приложений.

На самом устройстве мы концентрируемся, но не очень сильно. Мы его ставим на все, что тянет андроид — часы, телефоны, автомобили, роботов. Но устройство тоже важно. Проблема всех сегодняшних систем распознавания речи в том, что они работают только когда человек держит устройства в руках. Даже для робота, который стоит рядом с человеком их не хватает. Поэтому нам пришлось разрабатывать свою систему микрофонов.
А можно подробнее про систему микрофонов. В чем сложность? В аппаратной части? Можете подробнее рассказать
Просто я как то устанавливал в продуктовом магазине микрофон «шорох» миниатюрный, который рублей 150 стоил. И слышно было довольно хорошо на расстоянии метров 5. Уверен китайцы и по-мощнее что-то придумыли.
Наверное, у вас также есть идея выносных микрофонов, т.е. чтобы ухо «Кубика» было в любом помещении, создавая эффект всевидения и всезнания?
Зарегистрируйтесь на Хабре, чтобы оставить комментарий