Комментарии 123
Выглядит очень круто! Было бы очень круто почитать статьи от вас по теме.
Спасибо! Если тема окажется интересной, то я напишу статью о том, как устроен интеллект кубика и о том, что может его API.
А расскажите, пожалуйста, когда планируется, если планируется — продажа широкой публике?
Я бы с удовольствием такое устройство приобрёл.
Я бы с удовольствием такое устройство приобрёл.
Ориентировочно первая промышленная партия (100 штук) появится июне 2014. Можно оставить предзаказ у нас на сайте: cubicrobotics.ru
0. Спасибо за статью и саму разработку. Очень радует, что постепенно подобные «фантастические» штуки начинают появляться.
1. Субъективно, дороговат кубик. Хотя и вполне приемлемо. Интересует, в первую очередь, вот какой вопрос: «первая партия» — это бета (по качеству/готовому функционалу), или же все готово, просто хочется проверить спрос на маленьком объеме?
1. Субъективно, дороговат кубик. Хотя и вполне приемлемо. Интересует, в первую очередь, вот какой вопрос: «первая партия» — это бета (по качеству/готовому функционалу), или же все готово, просто хочется проверить спрос на маленьком объеме?
Для первой партии уже будет возможность писать что-то своё?
Какая у вас бизнес-модель? Вы планируете зарабатывать на подключаемых/отключаемых плагинах? (~Cubic Market)
Какая у вас бизнес-модель? Вы планируете зарабатывать на подключаемых/отключаемых плагинах? (~Cubic Market)
А распознавание голоса у него автономное или нужен интернет?
Ну явно автономное, похоже что Sphinx/Pocketsphinx. И похоже что Festival для синтеза речи.
Нет, у нас распознавание гугловское. Sphinx/Pocketsphinx пока к сожалению не реально использовать для фриспича — только для заранее определенного набора голосовых команд.
можно ведь и то и другое прицепить: сперва поиск в наборе, если не нашел — гугл.
А как распознается кодовая фраза? Тоже Гугл?
А кубу ведь нужен интернет? По-моему, без него распознавание речи не работает у Андройдов. Если я не ошибся, то откуда он его берёт?
там внутри Айфон, да?
Какой процессор используете в кубе?
А нельзя ли ИИ выполнить отдельно в виде программы для PC (без распознавания речи)? В качестве демо-версии?
А еще лучше для андроида, можно и за денежку.
Смартфоны есть не у всех.
Оно в некотором виде делается
Я про софт для домашнего кубика. Современные планшеты много чего могут — воспроизведение 1080p без проблем, miracast, у большинства вполне приемлемые микрофоны для распознавания голоса, а некоторое их подмножество имеет с кубиком одинаковую SoC, так что для обучения и проверки технологии на «пощупать» вполне сойдет.
Я понимаю, что подобный софт опасно для бизнеса делать свободным, но создать обширное и лояльное сообщество вокруг продукта вам вполне под силу.
Я понимаю, что подобный софт опасно для бизнеса делать свободным, но создать обширное и лояльное сообщество вокруг продукта вам вполне под силу.
Авторы Кубика потому и говорят о «массиве» микрофонов, потому что эта реализация позволяет пользоваться девайсом хоть на сколь-нибудь приемлемо комфортном уровне. Один микрофон — это вы по дому будете с собой носить клиента, и говорить в него. Не спорю, возможно, именно это вы и хотите, но это действительно только «пощупать», а не пользоваться.
Проблема в том, что коммерческие продукты, как мне видится, вредно делать в версии «пощупать», поскольку это может вызвать неудовлетворенность потенциального клиента раньше, чем выйдет нормальный продукт с нормально реализованными функциями. Т.е. может получиться так, что «Битлз — бездари, я знаю, мне Рабинович по телефону напел».
Ну и в целом, наверное, имеет смысл дождаться комментария авторов на эту тему.
Проблема в том, что коммерческие продукты, как мне видится, вредно делать в версии «пощупать», поскольку это может вызвать неудовлетворенность потенциального клиента раньше, чем выйдет нормальный продукт с нормально реализованными функциями. Т.е. может получиться так, что «Битлз — бездари, я знаю, мне Рабинович по телефону напел».
Ну и в целом, наверное, имеет смысл дождаться комментария авторов на эту тему.
Серверную часть кубика на рядовом PC запустить будет сложно. Например, он разворачивает полный граф своих знаний в оперативной памяти, для этого нужно как минимум 32 Гб оперативной памяти. Но со временем все возможно.
Жаль, что не смог вам помочь и поучаствовать в таком клёвом проекте!
А можно ли будет его подключить к телефону? Например сделать что-то типа умного автоответчика или что-то типа телефонного помощника для простых вопросов? Типа человек звонит в поисках помощи, а ему отвечает вот такой умник, который сможет помочь в простых вопросах да и просто составит компанию тем, кто звонит из скуки и ищут кого-нибудь, кто их выслушает, пока человек-оператор занят чем-то другим?
Мда… 20 тыр за девайз на ширпотребском ARM'е и программе которая что-то умеет автономно, но для большего ей нужно держать связь с неким облаком. Микрофон + динамик + передатчик на 433 Мгц и за все это 20 тык, я вас умоляю… красная цена этому чуду 5 т.р.
Простите если грубо, но на такие мысли наталкивает Ваша статья, в которой нет никаких технических характеристик устройства, ни характеристик программной части, да и демонстрация возможностей оооочень скудная.
Простите если грубо, но на такие мысли наталкивает Ваша статья, в которой нет никаких технических характеристик устройства, ни характеристик программной части, да и демонстрация возможностей оооочень скудная.
Надо учесть, что весомый вклад в цену вносит производство корпуса и массива hi-end микрофонов. Производство, доставка и сборка такой небольшой серии тоже добавляет цену. Если продукт пойдет в массовое производство, то, конечно, цена может быть значительно снижена.
Если смотреть на варианты развития, то можно интегрировать ваш софт в систему умного дома, как раз как с джарвисом.
И тогда вместо кубика с массивом микрофонов нужно будет просто добавить по микрофону в оконечные устройства (выключатели, датчики), которые размещены по квартире.
Получится, что система одновременно будет охватывать квартиру аудио, и, в добавок, будет знать обо всех своих смарт-хаус девайсах.
И тогда вместо кубика с массивом микрофонов нужно будет просто добавить по микрофону в оконечные устройства (выключатели, датчики), которые размещены по квартире.
Получится, что система одновременно будет охватывать квартиру аудио, и, в добавок, будет знать обо всех своих смарт-хаус девайсах.
Видимо, основная ценность в ПО
Я слышал, что Google таки разрешила ту несправедливость, которая существовала в их сервисе распознавания голоса, — а точнее offline распознавание русского языка. Вы можете подтвердить это? Я видел пару роликов в YouTube про якобы использование этой библиотеки, но так и не нашел примеров с открытым исходным кодом. Я сам сейчас делаю проект, подобие системы умного дома, правда моя задача больше сводится к помощи маломобильным пользователям. Я использую все тот же гугловский API и Интернет. Как показывает практика, у такого способа в моей задаче уйма минусов. Особенно это касается связи Интернет. Использую USB-модемы и иногда запросы не проходят. Причину пока выяснить не могу, но кажется это из-за большого количества запросов. Наверное провайдер рубит.
Подскажите какую-нибудь опенсорсную систему распознавания русского языка OFFLINE. Мой проект называется LIFE Guide Assistant v2.0, и о нем позже я напишу свою статью.
Частично, потрепанное описание можно увидеть тут, в виде отладки.
Буду признателен за полезную информацию.
Подскажите какую-нибудь опенсорсную систему распознавания русского языка OFFLINE. Мой проект называется LIFE Guide Assistant v2.0, и о нем позже я напишу свою статью.
Частично, потрепанное описание можно увидеть тут, в виде отладки.
Буду признателен за полезную информацию.
Да, оффлайн распознавание русской речи в Android работает. Начиная с 4.0 есть voice type (голосовая клавиатура), начиная с 4.2 есть полноценное оффлайн-распознавание. Правда для работы нужен Android + установленные google services. Но есть минус — оффлайн распознавание работает значительно хуже обычного (но значительно лучше, чем Sphinx).
Я думаю написать клиентское ПО под Android, которое будет взаимодействовать по беспроводному сетевому протоколу с моим автономным ПК, а то уже будет обрабатывать приходящие запросы. То есть получается пользователь будет иметь при себе мобильный, где-то поблизости, который будет его слушать и ждать команд. Услышав он свяжется с основным ПК и уже начнет исполнение. Есть ли какие-нибудь примеры и статьи для написания своего ПО с этими библиотеками?
Можно так сделать. Отдельной библиотеки нет, нужно просто настроить android на распознавание и пользоваться стандартным API. При этом если на устройстве нет интернета, распознавание автоматически переключится в оффлайн. Как настроить, показано вот здесь: stackoverflow.com/a/21329845/921194
Есть ли уже возможность изменить голос кубика, выбрать другой язык? Есть ли уже ночной (тихий, менее яркий) режим работы?
Если я правильно понял, Вы предлагаете только кубик и подключение к Вашем облаку?
Или, по желанию клиента, он может прикупить для своих нужд и серверную часть для управления неограниченным (ограниченным ?) количеством своих кубиков? Можно по подробнее о серверной части? Кроме требований к большому (ну по крайне мере для домашнего серверочка) объему ОЗУ?
Или, по желанию клиента, он может прикупить для своих нужд и серверную часть для управления неограниченным (ограниченным ?) количеством своих кубиков? Можно по подробнее о серверной части? Кроме требований к большому (ну по крайне мере для домашнего серверочка) объему ОЗУ?
А если кубик поставить на платформу с колесами (например iRobot Create) и дать манипуляторы…
Как раз сейчас тестируем установку кубика на роботов R.Bot.
То есть у вас в планах аксессуары для сопряжения с разными платформами?
Почему девушка которая моет посуду не захотела узнать подробнее о фильме? Да и вообще по правде говоря примеры кажутся срежисированными — вы разработчики и знаете список команд на зубок, но дайте кубик кому угодно и будет множество недоразумений и глюков.
Такие обзоры делаются только после поступления гаджета в продажу… Поживём — увидим.
Любая реклама (сюрприз!) является срежиссированной. И я бы, если делал ролик, то конечно бы подбирал примеры для демонстрации возможностей, а не глюков и недоразумений.
На самом деле, что касается голосового управления, у меня постоянно перед глазами сцена из каких-то SW новых, где джедаи прилетели на государственном корыте к барыгам на переговоры, а те решили потихоньку избавиться от ненужных гостей. Корыто было военное и умное, поэтому когда на него навели пушки, включило тревогу. Но вот незадача: управление системой защиты по сценарию — голосовое, поэтому до экстерминатуса дежурный офицер успел сказать только «shields u...». Ну и все.
А была бы большая красная кнопка — до сих пор бы с нами чай пил.
На самом деле, что касается голосового управления, у меня постоянно перед глазами сцена из каких-то SW новых, где джедаи прилетели на государственном корыте к барыгам на переговоры, а те решили потихоньку избавиться от ненужных гостей. Корыто было военное и умное, поэтому когда на него навели пушки, включило тревогу. Но вот незадача: управление системой защиты по сценарию — голосовое, поэтому до экстерминатуса дежурный офицер успел сказать только «shields u...». Ну и все.
А была бы большая красная кнопка — до сих пор бы с нами чай пил.
Про фильмы подробнее он рассказывает, но это долго — ролик бы получился слишком длинным. Но вообще вы правы, конечно — в роликах никто не покажет, что куб может и затупить, и не распознать. Длинный ролик не всегда получалось снимать с первого дубля. Но язык у нас не командный. Мы закладываемся на то, что пользователь может сказать что угодно и куб всегда на это будет как-то реагировать. На это направлены основные усилия в разработке.
Вот и хотелось бы честную запись того, как робот тупит и ошибается, что бы знать его истинные возможности.
Вообще была бы не лишней функция сложного калькулятора: куб посчитай корень из синуса два пи.
Вообще была бы не лишней функция сложного калькулятора: куб посчитай корень из синуса два пи.
И записывать ответ на слух? Не знаю, мне кажется, что голосовые технологии все как-то переоценивают. Они хороши в фильмах (потому что там все срежиссировано) и чтобы удивить друзей.
А реальная жизнь гораздо разнообразнее.
А реальная жизнь гораздо разнообразнее.
Согласен, не представляю ситуацию, в которой мне бы было удобно сначала диктовать формулу для рассчета компьютеру, а потом на слух записывать ответ.
С матлабом под рукой куда удобнее.
С матлабом под рукой куда удобнее.
Да, если нужно что-то быстро посчитать, открываю всегда python.
Но! Бытовые вычисления, в стиле, «сколько будет 100 долларов в рублях» или «100 тысяч под 10% на 10 лет» облегчили бы жизнь в некоторых ситуациях.
Но! Бытовые вычисления, в стиле, «сколько будет 100 долларов в рублях» или «100 тысяч под 10% на 10 лет» облегчили бы жизнь в некоторых ситуациях.
Ну почему же — табличные значения было бы совсем неплохо голосом спрашивать. Коэффициент теплоемкости олова? Тангенс 13 градусов?
А это уже не вычисления, это справочные значения — как цитирование википедии.
Вот именно вычисления вряд ли пригодятся. Да даже справочные тоже очень маловероятно — вы же с ними что-то делать будете потом, в какое-то выражение подставлять, а значит — у вас уже наготове инструменты для этого вычисления.
Вот именно вычисления вряд ли пригодятся. Да даже справочные тоже очень маловероятно — вы же с ними что-то делать будете потом, в какое-то выражение подставлять, а значит — у вас уже наготове инструменты для этого вычисления.
Потрясная штучка) Тоже возник вопрос: если попросить рассказать про фильм подробнее — расскажет или это еще не допилено?)
Хочется еще статей, конечно же.
Хочется еще статей, конечно же.
Краудфандинг не рассматривали?
Было бы круто, если бы он был обучаемым и подстраивался под каждого пользователя, а его граф знаний разрастался. Так недалеко, и можно иметь собственный Jarvis как в Iron Man.
А насчет открытого API для разработчиков, вы молодцы! Я бы точно попробовал бы написать что-то для кубика.
А насчет открытого API для разработчиков, вы молодцы! Я бы точно попробовал бы написать что-то для кубика.
Ну, Jarvis еще далеко. Но Тринадцать-девять уже близко :)
Главное начать, Jarvis — это только вопрос времени и мощностей) То, что ребята уже сделали — большой шаг на пути к русскоязычному персональному ассистенту с ИИ.
А кто это — «Тринадцать-девять»?
Это классика :)
Пока он отсутствовал, автоматы-уборщики сделали свое дело: искусственный мох был промыт и аккуратно причесан, свежо и опрятно пахло геранью. Из спального отделения исчезло белье. Рабочие стол и кресло тоже исчезли — в холле, кроме портфеля, ничего не было. Портфель не значился в программном регистре уборщиков.
— Тринадцать-девять, — произнес Андрей формулу обращения для автомата-бытопроизводителя. — Завтрак.
Метровый участок ковра вспучился, неприятно зашевелился (словно там задергалось что-то живое), мох сошел пухлыми складками и, пропустив наружу матово-белую полусферу, снова сомкнулся вокруг ножки подъемника.
— Кресло, — добавил Андрей.
Ковер повторил неприятное шевеление. Усевшись, Андрей ощутил последнюю судорогу кресла, подумал: «Гармония между вещами и человеками». Ударом пальца о край полусферы заставил ее распахнуться: раскрылась подобно бутону нимфеи. Приятный сюрприз: в хрустальном вазоне живая ветка расконсервированного багульника. Не успел он наполнить бокал кумысом — тишину под сводами грота разогнали прозрачные, как весенняя капель, звуки клавира Гайдна. Завтрак был сервирован хрусталем алмазной огранки. Давно бы так. Металл надоел… О, салат из омаров!
— Тринадцать-девять, будь любезен… окно.
(Хрусталь, омары и Гайдн располагали к некоторому изяществу манер.)
Лунный блеск таежной поляны угас — за пределами грота распахнулась звездно-черная пропасть.
По сути так и будет — ии подстраивается под человека, собирает про него знания. Например, на вопрос «что там на улице» куб разным людям будет отвечать по-разному. Если человек живет в крупном городе и известно, что у него есть машина, то куб выдаст информацию о пробках. В противном случае — о погоде.
Плюс к тому, мы постоянно мониторим о чем говорят с ии (логи анонимны). Если видим, что где-то у нас ии не отвечает, то сразу это допиливаем. Поскольку решение облачное, то у всех пользователей сразу появляются эти изменения.
Плюс к тому, мы постоянно мониторим о чем говорят с ии (логи анонимны). Если видим, что где-то у нас ии не отвечает, то сразу это допиливаем. Поскольку решение облачное, то у всех пользователей сразу появляются эти изменения.
Как именно «собирает про него знания»? Какая-то интеграция с гуглом и его статистикой запросов (если честно, есть ли вообще api для этого я не знаю) или же какое-то свое решение?
Знания собираются из разговоров. Куб будет интересоваться человеком — как его зовут, сколько ему лет, есть ли у него домашние животные и т.п. Плюс собирается статистика — какие сревисы чаще используются, какие реже. Какие новости человеку интересны. а какие нет. Все это влияет на выбор ответа в неоднозначных случаях.
Ну если куб подстраивается под человека, то он обязан синхронизироваться с моими соц сетями, уметь читать заголовки статей в лентах моих любимых соц. сообществ, а если я скажу слово «подробнее» то читать статьи на том же хабре вслух.
Уже представляю как слушаю новости утром за чашечкой кофе) Или же слушаю музыку из Вконтакте.
Уже представляю как слушаю новости утром за чашечкой кофе) Или же слушаю музыку из Вконтакте.
Все будет. Интеграция с соцсетями сейчас в разработке. Правда там много проблем. Оказалось, что если зачитывать ленту сообщений друзей, например, вконтакте, то там 90% репостов и фоток. Их не почитаешь особо.
ну а заголовки статей на хабре зачитать можно проще простого, а нужный мне открыть и прочитать подробнее
Можно, сразу спрашивать от каких друзей вас интересуют новости, и по мере появление спрашивать, интересныли вам новости этой тематики (группы, ресурса) по началу будет конечно небольшой хаос, но этого не избежать.
Ребята, вы молодцы, очень круто.
Приятно когда софтовые навороты приобретают осязаемую форму. Будущее становится ближе ;)
Приятно когда софтовые навороты приобретают осязаемую форму. Будущее становится ближе ;)
Действительно круто) Уже год мечтаю о подобной штуке, только двигающейся… Но знаний для разработки не хватает.
Расскажите, как работает отслеживание фразы активатора?
Система постоянно слушает окружающий мир и сравнивает услышанное с записанным образцом. Алгоритм там в общем-то банальный — MFCC. Фразу активатор мы записали на нескольких людях и в 90% случаев она отлично срабатывает на всех. Пользователь может обучить куб своей фразе-активатору, тогда качество срабатывания будет лучше, но на других людей он срабатывать не будет.
Ну вот, наконец-то и вы здесь :) Удачи Кубику!
Клаааасс!!! Не знаю, как в реальном бытовом применении, но на видео выглядит просто здорово! Будущее здесь)
Где можно купить акции вашей компании??)
Динамик находится прямо на кубике? Можно ли научить его передавать свой голос куда-то еще? Ну как вариант, аудиосистема в соседней комнате.
>Есть даже голосовая RPG
Да это ж электронный данжен-мастер!
Да это ж электронный данжен-мастер!
вам что-то кроме денег требуется? тестирование, написание кода, проектирование?
хочется чем-то помочь…
хочется чем-то помочь…
Отличный проект, молодцы! Будет очень интересно почитать ваши статьи.
а всяких гиковских баек он знает столько, что регулярно расходится на цитаты
Даешь видео с байками в студию!!!
Зачем же спойлерить)
Это же отличная реклама! 20к за кубик дороговато, хотя он и привел меня в полный восторг. А вот с кучей гиковских баек, да рассказываемых по голосовой просьбе… Могу соблазниться к покупке.
Интересно, а можно перебивать кубик когда он говорит?
к примеру он начал рассказывать про фильм, я понял что мне не интересно, могу я спросить что-то еще или задать уточнение по ходу? Или нужно дослушать выступление до конца?
к примеру он начал рассказывать про фильм, я понял что мне не интересно, могу я спросить что-то еще или задать уточнение по ходу? Или нужно дослушать выступление до конца?
Отличный проект, молодцы! Внимательно слежу за прогрессом и надеюсь в будущем подружить ваш кубик с Алисой (MajorDoMo).
Только мне напомнило?
НЛО прилетело и опубликовало эту надпись здесь
Спасибо!
Я думаю, что с помощью API можно будет делать практически все из вышеперечисленного. Люди смогу писать свои голосовые программы в дополнение к имеющимся. Если это пойдет, то вполне можно ожидать появления чего-то вроде магазина приложений.
На самом устройстве мы концентрируемся, но не очень сильно. Мы его ставим на все, что тянет андроид — часы, телефоны, автомобили, роботов. Но устройство тоже важно. Проблема всех сегодняшних систем распознавания речи в том, что они работают только когда человек держит устройства в руках. Даже для робота, который стоит рядом с человеком их не хватает. Поэтому нам пришлось разрабатывать свою систему микрофонов.
Я думаю, что с помощью API можно будет делать практически все из вышеперечисленного. Люди смогу писать свои голосовые программы в дополнение к имеющимся. Если это пойдет, то вполне можно ожидать появления чего-то вроде магазина приложений.
На самом устройстве мы концентрируемся, но не очень сильно. Мы его ставим на все, что тянет андроид — часы, телефоны, автомобили, роботов. Но устройство тоже важно. Проблема всех сегодняшних систем распознавания речи в том, что они работают только когда человек держит устройства в руках. Даже для робота, который стоит рядом с человеком их не хватает. Поэтому нам пришлось разрабатывать свою систему микрофонов.
А можно подробнее про систему микрофонов. В чем сложность? В аппаратной части? Можете подробнее рассказать
Просто я как то устанавливал в продуктовом магазине микрофон «шорох» миниатюрный, который рублей 150 стоил. И слышно было довольно хорошо на расстоянии метров 5. Уверен китайцы и по-мощнее что-то придумыли.
Просто я как то устанавливал в продуктовом магазине микрофон «шорох» миниатюрный, который рублей 150 стоил. И слышно было довольно хорошо на расстоянии метров 5. Уверен китайцы и по-мощнее что-то придумыли.
Наверное, у вас также есть идея выносных микрофонов, т.е. чтобы ухо «Кубика» было в любом помещении, создавая эффект всевидения и всезнания?
Зарегистрируйтесь на Хабре, чтобы оставить комментарий
Как мы делали домашнего робота