Комментарии 21
Обладает эмоциями? Я в этом сомневаюсь.
Более серьезные конкуренты типа Siri и Cortana намеренно пропущены?
Это совершенно другой сегмент (мобильные голосовые помощники). Про них сравнительная таблица составляется.
Хм. Cortana же доступна в настольной Windows?
Меня просто очень интересуют все голосовые помощники, работающие на русском языке.
Меня просто очень интересуют все голосовые помощники, работающие на русском языке.
Да. Но в данной таблице я рассмотрел ассистентов, которые представлены как самостоятельные. У них есть рад преимуществ перед другими.
А будет какое-то API для управления домашним компьютером?
Очень бы хотелось, например я даю команду, Лекси отправляет ее на мой комп, где запускается скрипт/программа?
Очень бы хотелось, например я даю команду, Лекси отправляет ее на мой комп, где запускается скрипт/программа?
Или управление горячими клавишами при работе в фотошопе ;-)
Насчет взаимодействия с мониторами. Есть идея, например, выводить визуальную информацию по запросу типа «Открой эту новость», «Включи скайп», «Скачай фильм» и т.д.
Насчет взаимодействия с мониторами. Есть идея, например, выводить визуальную информацию по запросу типа «Открой эту новость», «Включи скайп», «Скачай фильм» и т.д.
Сделать полноценную систему управления сложно, но как же в большинстве помощников не хватает тупо заранее запрограммированных действий, которые часто встречаются в рутине:
Сделай скриншот (файл с датой-временем)
Запусти «ключевое слово», задать список команд
Апи, чтобы задать фразу для произношения, которое можно выполнить из cmd (по голосовой команде например запустил скрипт, который проверил почту и тут же отправил в API текст типа «почта проверена xx новых писем», а помощник его вслух сказал.
В Кортане мне жутко не хватает нормальных голосовых напоминаний на русском. Не обязательно его распознавать, просто как wav/mp3 файл проиграть мне же в указанное время.
Сделай скриншот (файл с датой-временем)
Запусти «ключевое слово», задать список команд
Апи, чтобы задать фразу для произношения, которое можно выполнить из cmd (по голосовой команде например запустил скрипт, который проверил почту и тут же отправил в API текст типа «почта проверена xx новых писем», а помощник его вслух сказал.
В Кортане мне жутко не хватает нормальных голосовых напоминаний на русском. Не обязательно его распознавать, просто как wav/mp3 файл проиграть мне же в указанное время.
Очень интересное устройство, Ваш Лекси. Главное, чтобы заявленный функционал не был маркетинговым ходом. Желаю удачи!
P.S. Модуляция голоса в видео немного топорная, надеюсь к релизу будет лучше
P.S. Модуляция голоса в видео немного топорная, надеюсь к релизу будет лучше
Проект интересный, если распознавание быстрое и точно.
Но лично мне нужен ещё и API как минимум для:
1. Чтобы можно было выполнять команды (например, настроить по фразе вызов определенного URL, а дальше я сам делаю что мне надо)
2. Чтобы озвучить какой-то текст
Планируется? Насколько полно покроете возможности устройства?
Ещё не очень понятно что за дополнительные гаджеты для работы в разных комнатах.
В идеале бы доп приборы для распознавания и озвучивания раздельно по комнатам. Включая возможность получать/указывать в API.
Как конкретно у вас планируется, сколько будет стоить и как общаются гаджеты с основным устройством?
Но лично мне нужен ещё и API как минимум для:
1. Чтобы можно было выполнять команды (например, настроить по фразе вызов определенного URL, а дальше я сам делаю что мне надо)
2. Чтобы озвучить какой-то текст
Планируется? Насколько полно покроете возможности устройства?
Ещё не очень понятно что за дополнительные гаджеты для работы в разных комнатах.
В идеале бы доп приборы для распознавания и озвучивания раздельно по комнатам. Включая возможность получать/указывать в API.
Как конкретно у вас планируется, сколько будет стоить и как общаются гаджеты с основным устройством?
Мы говорим про Лекси, правильно?)
Суть дополнительных приборов заключается в удаленной связи с Лекси. 1. Это может быть прибор типа «ухорот» (сами мы их производить не будем, а продавать — возможно), который слушает, передает звук на борт Лекси и отвечает его же голосом. С помощью таких приборов Лекси сможет локализовать свое общение с говорящим, определяя в какой он комнате. 2. Это может быть телефон. Через приложение можно будет просто позвонить Лекси или написать.
API для открытия заготовленных URL тоже планируем.
Озвучивание текста с возможностью прерывания Лекси вопросом — делаем.
Суть дополнительных приборов заключается в удаленной связи с Лекси. 1. Это может быть прибор типа «ухорот» (сами мы их производить не будем, а продавать — возможно), который слушает, передает звук на борт Лекси и отвечает его же голосом. С помощью таких приборов Лекси сможет локализовать свое общение с говорящим, определяя в какой он комнате. 2. Это может быть телефон. Через приложение можно будет просто позвонить Лекси или написать.
API для открытия заготовленных URL тоже планируем.
Озвучивание текста с возможностью прерывания Лекси вопросом — делаем.
Распознавание на устройстве, это интересно. А что за технология, хотяб приблизительно? Сами сделали, или что-то адаптировали? Качество измеряли на каком-нибудь стандартном датасете?
У нас очень хорошие отношения с отечественной компанией СТЭЛ. Их распознавание речи мы совместно адаптировали под наше железо и наши цели. Качество еще не измеряли, так как полностью устройство не собрали. Сейчас измерять качество нет смысла и необходимости.
Предвижу ваш вопрос и поясню от чего зависит качество распознавание.
Во-первых, необходимо качественно получить звук с помощью массива микрофонов. Эта часть системы соединяет несколько каналов воедино, обрабатывая звук, усиливая человеческий голос и подавляя шумы.
Затем обработанный звук отправляется системе распознавания. Здесь есть аспект: мы используем множество языковых моделей — это называется контекстное распознавание речи, когда знание темы реплики позволяет сузить языковую базу.
Получается, что качество распознавания зависит от совместной работы массива микрофонов, виртуального собеседника (для определения контекста диалога) и «пучка» систем распознавания.
Чтобы повысить качество распознавания звука с массива микрофонов, записывается акустическая модель: необходимо в разных условиях записать большое количество дикторов на разных расстояниях. Тогда распознавание речи приспосабливается к тому звуку, что будет слать массив. Дальнейшее адаптация системы к конкретному пользователю происходит очень быстро.
В данный момент мы только занимаемся акустической моделью для массива микрофонов и создаем множество языковых моделей. По каждой из них качество распознавания может варьироваться, т.к. они отличаются объёмом. Т.е. качество зависит от конкретной языковой модели.
Предвижу ваш вопрос и поясню от чего зависит качество распознавание.
Во-первых, необходимо качественно получить звук с помощью массива микрофонов. Эта часть системы соединяет несколько каналов воедино, обрабатывая звук, усиливая человеческий голос и подавляя шумы.
Затем обработанный звук отправляется системе распознавания. Здесь есть аспект: мы используем множество языковых моделей — это называется контекстное распознавание речи, когда знание темы реплики позволяет сузить языковую базу.
Получается, что качество распознавания зависит от совместной работы массива микрофонов, виртуального собеседника (для определения контекста диалога) и «пучка» систем распознавания.
Чтобы повысить качество распознавания звука с массива микрофонов, записывается акустическая модель: необходимо в разных условиях записать большое количество дикторов на разных расстояниях. Тогда распознавание речи приспосабливается к тому звуку, что будет слать массив. Дальнейшее адаптация системы к конкретному пользователю происходит очень быстро.
В данный момент мы только занимаемся акустической моделью для массива микрофонов и создаем множество языковых моделей. По каждой из них качество распознавания может варьироваться, т.к. они отличаются объёмом. Т.е. качество зависит от конкретной языковой модели.
Я говорю не о качестве устройства, а о качестве модели (аккустической, либо акустической + языковой).
Интересует как раз реализация акустической модели. На сайте Стэл ничего не нашел.
Интересует как раз реализация акустической модели. На сайте Стэл ничего не нашел.
Hi, there!
Living in Russia You are totally misunderstanding how Alexa voice service and exactly Amazon Echo, Tap, Dot and other devices (https://www.youtube.com/results?search_query=alexa-enabled+devices) work: this is NOT musical speaker as You indicate, this is voice interface for most already used TODAY devices, like thermostats, lights, tv.
Yes, initial y Amazon has a plan to make Echo like perfect music player not only for Amazon Prime. BUT time goes on. And peoples make a book by using Echo, Dot, Tap more other ways. NORMAL peoples, not tech geeks like we all here, like all Gizmodo or GeekTech readers. And this people drive industry.
Because of this, Chubi goes off, and Ubi and Ivee stay like some sort of home toy for tech geeks.
Some peoples like technical toy, yes, but most of them like devices that really help every day. No?
Living in Russia You are totally misunderstanding how Alexa voice service and exactly Amazon Echo, Tap, Dot and other devices (https://www.youtube.com/results?search_query=alexa-enabled+devices) work: this is NOT musical speaker as You indicate, this is voice interface for most already used TODAY devices, like thermostats, lights, tv.
Yes, initial y Amazon has a plan to make Echo like perfect music player not only for Amazon Prime. BUT time goes on. And peoples make a book by using Echo, Dot, Tap more other ways. NORMAL peoples, not tech geeks like we all here, like all Gizmodo or GeekTech readers. And this people drive industry.
Because of this, Chubi goes off, and Ubi and Ivee stay like some sort of home toy for tech geeks.
Some peoples like technical toy, yes, but most of them like devices that really help every day. No?
P.S. Echo is not sound speaker, let propose You to see more widely, Amazon Alexa-driven devices (https://www.youtube.com/results?search_query=alexa-enabled+devices) also a gate to a very big Amazon Alexa voice recognition service.
On a YT link I posted here You may see how a lo of peoples with DIFFERENT native nationality have a good relationship with Alexa. And of course, Amazon spend a millions of dollars that nor You company of Ubi, Ivee have.
On a YT link I posted here You may see how a lo of peoples with DIFFERENT native nationality have a good relationship with Alexa. And of course, Amazon spend a millions of dollars that nor You company of Ubi, Ivee have.
Please take a look on this video https://www.youtube.com/watch?v=phXJgqKRqjE
And realize how far away from reality is Your imagination about Amazon Alexa is «Amazon music sound device».
And realize how far away from reality is Your imagination about Amazon Alexa is «Amazon music sound device».
Also see how all this stuff work https://www.youtube.com/watch?v=Avb-IMy9YVU&t=328s
Please make point on the all this assistant is NOT single device, they are VOICE INTERFACE to mostly to physical services, that not exist in Russia at all. Single exception we not counting, ok?
More then sure, You have no so much databases and voice-recognition technology to be competitive. And comparing Your product in this manner was incorrect.
Please make point on the all this assistant is NOT single device, they are VOICE INTERFACE to mostly to physical services, that not exist in Russia at all. Single exception we not counting, ok?
More then sure, You have no so much databases and voice-recognition technology to be competitive. And comparing Your product in this manner was incorrect.
Зарегистрируйтесь на Хабре, чтобы оставить комментарий
Сравнение голосовых помощников по заявленным функциям и характеристикам (Лекси, Ubi, Ivee, Amazon Echo, Jibo, Cubic)