Гик-порно мы не очень умеем, но будем учиться)
Рома (Wicron) промахнулся немного комментом, он ниже привёл характеристики. Вот ещё порно-деталей можно из него вытянуть в комментах.
Спасибо! Следите за нами, мы будем бета-тест проводить, обратная связь нам очень полезна.
Распознавание у нас совместное с отечественной компанией «Стэл»: адаптировали под ARM, строим языковые и акустические модели конкретно под Лекси, в общем.
Синтез — из open source, тоже отечественный (RHVoice, на гитхабе есть). Мы для этого синтеза умеем делать свои голоса для своих роботов.
Echo мы тестировали, с ней невозможно общаться: во-первых, долгий пинг очень раздражает, диалог всё время обрывается. Во-вторых, любую фразу, обращённую к Алексе, надо начинать со слова «Алекса, ...». Если интересно, попробуйте с женой или товарищем так пообщаться — это трудно, убого и неестественно.
У нас своё оффлайновое распознавание, поэтому мы не завязаны на активационные фразы а-ля «Алекса, ...».
Ну и у нас много других фишечек, мне больше всего нравится концепция контекстного распознавания речи: когда система распознавания речи взаимодействует с виртуальным собеседником, чтобы учитывать контекст разговора, повышая качество и скорость распознавания.
Как бы то ни было, мы в Лекси реализуем обучение устному счёту, иностранным языкам, географии и всему такому.
Хочется, условно говоря, чтобы родитель мог дать ребёнку Лекси, а через три дня получить образованного человека =)
Это верно, но не совсем. Вот если к вам на улице подойдёт незнакомый человек и начнёт вам задавать вопросы, например, ваш вопрос, вы ему ответите «Буква бэ»? Вряд ли. Скорее всего, вы постараетесь закончить разговор. Это показывает, что ответы на конкретные вопросы зависят от контекста происходящего диалога. И именно здесь лежит возможность пройти тест Тьюринга — необходимо управлять контекстом диалога, как Женя Густман и делал.
Движок виртуального собеседника у нас сделан нашими партнёрами — компанией «Наносемантика». У них изначально серверное решение, очень быстро отвечает.
В ролике голос ещё старый, дефолтный, но не гугловский) Сейчас у нас другие голоса.
Сейчас камера используется для трёх вещей: заметить, что стало светло/темно; выложить фотографию в соц. сеть; когда Лекси спит и в кадре появляется человек — увидеть лицо и отправить сообщение Лекси о выходе из режима сна. Пока только это, но потом что-нибудь ещё придумаем.
Мы про них знаем, у них нет готового продукта.
Если говорить про технологические отличия — во-первых, у нас оффлайновое распознавание, а у них серверное. Соответственно, работа Лекси не завязана на интернет. И наше распознавание можно обучить под наши темы, можно переключать базы распознавания по темам на лету. Движок виртуального собеседника у нас более мощный, быстрый. Синтезированные голоса у нас свои, создаём их специально для Лекси. В плане железа — у нас есть датчики на борту (температура, давление, датчик тряски), есть камера для разных задач.
В продуктовом плане мы больший упор делаем на конкретный домашний гаджет, хотим его хорошо сделать, а потом создавать экосистему. У них же сразу заявлена экосистема из двух устройств и мобильного приложения. Посмотрим, мы пока на второе устройство не замахивались, приложение же есть в задачах.
В прототипе на видео/фото — вандборд, но сейчас у нас своя материнка, в ней и наши датчики, и формфактор сделан под корпус. Как-нибудь запилим статью о разработке такой платы, если интересно.
Хахахахха, конечно, узнаете. Я ведь вам скажу. Более того, у нас это написано в официальной группе (https://vk.com/lexybot), да и просто упоминается многократно.
Игорь Ашманов — основатель и инвестор проекта.
Вы когда дом строите, деревья тоже выращиваете?
Мы сперва собрали на готовом железе, сейчас у нас вся электроника — своя, под наши конкретные задачи. Синтезированный голос раньше был стандартный, теперь мы научились делать свои голоса — в новой версии Лекси уже говорит хорошим, нашим голосом.
Рома (Wicron) промахнулся немного комментом, он ниже привёл характеристики. Вот ещё порно-деталей можно из него вытянуть в комментах.
Распознавание у нас совместное с отечественной компанией «Стэл»: адаптировали под ARM, строим языковые и акустические модели конкретно под Лекси, в общем.
Синтез — из open source, тоже отечественный (RHVoice, на гитхабе есть). Мы для этого синтеза умеем делать свои голоса для своих роботов.
У нас своё оффлайновое распознавание, поэтому мы не завязаны на активационные фразы а-ля «Алекса, ...».
Ну и у нас много других фишечек, мне больше всего нравится концепция контекстного распознавания речи: когда система распознавания речи взаимодействует с виртуальным собеседником, чтобы учитывать контекст разговора, повышая качество и скорость распознавания.
Хочется, условно говоря, чтобы родитель мог дать ребёнку Лекси, а через три дня получить образованного человека =)
Про носки — забавно) У меня друг-мехматянин обучил нейронную сеть распознавать по веб-камере, когда в его комнате порядок, а когда хаос.
В ролике голос ещё старый, дефолтный, но не гугловский) Сейчас у нас другие голоса.
Сейчас камера используется для трёх вещей: заметить, что стало светло/темно; выложить фотографию в соц. сеть; когда Лекси спит и в кадре появляется человек — увидеть лицо и отправить сообщение Лекси о выходе из режима сна. Пока только это, но потом что-нибудь ещё придумаем.
Если говорить про технологические отличия — во-первых, у нас оффлайновое распознавание, а у них серверное. Соответственно, работа Лекси не завязана на интернет. И наше распознавание можно обучить под наши темы, можно переключать базы распознавания по темам на лету. Движок виртуального собеседника у нас более мощный, быстрый. Синтезированные голоса у нас свои, создаём их специально для Лекси. В плане железа — у нас есть датчики на борту (температура, давление, датчик тряски), есть камера для разных задач.
В продуктовом плане мы больший упор делаем на конкретный домашний гаджет, хотим его хорошо сделать, а потом создавать экосистему. У них же сразу заявлена экосистема из двух устройств и мобильного приложения. Посмотрим, мы пока на второе устройство не замахивались, приложение же есть в задачах.
Игорь Ашманов — основатель и инвестор проекта.
Мы сперва собрали на готовом железе, сейчас у нас вся электроника — своя, под наши конкретные задачи. Синтезированный голос раньше был стандартный, теперь мы научились делать свои голоса — в новой версии Лекси уже говорит хорошим, нашим голосом.