Мы очень хорошо справляемся с распознаванием акцентов и речи в шуме (Яндекс.Навигатор и водители такси тут нам очень сильно помогают); Голосовым поиском пользуется достаточно много детей, кроме того, мы отдельно собирали записи детской речи, поэтому речь детей мы распознаем достаточно хорошо.
Да, использование камеры может расширить сценарии использования Алисы.
Инструмента для тонкой настройки мы на данный момент не планировали, делаем сейчас инструмент для самостоятельного создания моделей для голосовой активации.
Как пробовать сервис-то, если у вас так «процесс отлажен»?
извините, это была временная проблема, сейчас модели мы оперативно высылаем
Извините, не понял сразу, что вы имели ввиду. Мы в ближайшем будущем не планировали создание такого модуля, но идея очень хорошая и мы возьмем её в работу. Спасибо.
Сложно тут поспорить, конечно, в тихой обстановке распознаванию речи сильно проще. Но вместе с этим, по нашим данным это не мешает миллионам людей каждый день в очень шумной обстановке использовать голосовой ввод и голосовое управление, например, в Яндекс.Навигаторе.
Да, наличие интернет соединения и качество мобильного интернета в целом пока оставляет желать лучшего, но эта отрасль развивается очень быстро и мы верим, что в ближайшем будущем качество мобильного интернета будет улучшаться. Но это не исключает того, что в ряде улучаев распознавание речи должно уметь работать в offline режиме прямо на устройстве без подключения к интернет.
Вот небольшой прототип web диктовки, можете попробовать подиктовать на ПК: webasr.yandex.net/
По нашей оценке это нижняя граница цен на подобные сервисы. Вместе с этим мы готовы рассматривать различные схемы оплаты: 1) оплата за запросы 2) оплата за установки. Кроме этого, наверняка не 100% ежедневных пользователей обычно используют голосовую функциональность того или иного приложения.
Это наш первый шаг в сторону распознавания (диктовки) свободных текстов. Для каких то тематик (например, теже стихи) мы уже показываем очень хорошее качество, для диктовки свободных текстов (надиктовать статью) качество хуже.
Вообще, это очень сложная и поэтому интересная задача — языковое моделирование для диктовки свободного текста или даже для распознавания спонтанной речи. Очевидно, что языковая модель обучается на определенных текстах и сейчас наша модель не покрывает все возможные тематики одинаково хорошо.
А возможно ли создать одну универсальную языковую модель, покрывающую одинаково хорошо все тематики нашей жизни? Скорее нет. Для высокого качества распознавания, нам очень важно знать заранее тематику, на которую будет диктоваться текст и под эту тематику обучать языковую модель. Как быть в случае когда тематика заранее неизвестна?
Мы сейчас ищем ответы на эти вопросы и экспериментируем с подходами к решению задачи распознавания спонтанной речи.
Дело в том, что рынок мобильных устройств очень быстро растет и по объемам продаж уже обгоняет десктопы и ноутбуки. На мобильных устройствах востребованность речевых технологий сильно выше по сравнению с десктопами/ноутбуками по ряду причин, например:
1) Неудобства ввода текста с помощью экранной клавиатуры;
2) Ограниченные размеры экрана — мелкие элементы графического интерфейса приложений (иногда нужно целиться), различная функциональность приложения спрятана на разных экранах интерфейса (как правило, на первом экране всё уместить не получается);
3) Использование в ситуациях когда заняты руки: на ходу, за рулем, на велосипеде и т.п.
Но мы уже начали делать шаги в сторону немобильных устройств, с помощью SpeechKit Cloud речевые технологии Яндекса уже сейчас можно встраивать в любые устройства/сервисы с доступом в интернет.
Да, использование камеры может расширить сценарии использования Алисы.
извините, это была временная проблема, сейчас модели мы оперативно высылаем
Уже автоматизируем и скоро дадим инструмент для самостоятельного создания моделей для Голосовой активации (Voice Activation).
Да, наличие интернет соединения и качество мобильного интернета в целом пока оставляет желать лучшего, но эта отрасль развивается очень быстро и мы верим, что в ближайшем будущем качество мобильного интернета будет улучшаться. Но это не исключает того, что в ряде улучаев распознавание речи должно уметь работать в offline режиме прямо на устройстве без подключения к интернет.
Вот небольшой прототип web диктовки, можете попробовать подиктовать на ПК: webasr.yandex.net/
Вообще, это очень сложная и поэтому интересная задача — языковое моделирование для диктовки свободного текста или даже для распознавания спонтанной речи. Очевидно, что языковая модель обучается на определенных текстах и сейчас наша модель не покрывает все возможные тематики одинаково хорошо.
А возможно ли создать одну универсальную языковую модель, покрывающую одинаково хорошо все тематики нашей жизни? Скорее нет. Для высокого качества распознавания, нам очень важно знать заранее тематику, на которую будет диктоваться текст и под эту тематику обучать языковую модель. Как быть в случае когда тематика заранее неизвестна?
Мы сейчас ищем ответы на эти вопросы и экспериментируем с подходами к решению задачи распознавания спонтанной речи.
1) Неудобства ввода текста с помощью экранной клавиатуры;
2) Ограниченные размеры экрана — мелкие элементы графического интерфейса приложений (иногда нужно целиться), различная функциональность приложения спрятана на разных экранах интерфейса (как правило, на первом экране всё уместить не получается);
3) Использование в ситуациях когда заняты руки: на ходу, за рулем, на велосипеде и т.п.
Но мы уже начали делать шаги в сторону немобильных устройств, с помощью SpeechKit Cloud речевые технологии Яндекса уже сейчас можно встраивать в любые устройства/сервисы с доступом в интернет.