Pull to refresh
13
0
Денис Филиппов @filldens

User

Send message
Мы очень хотим дать вторую жизнь Яндекс.Диктовке. Сейчас решаем в рамках какого приложения это лучше сделать.
Да, мы сейчас работаем над такой возможностью. Будет.
Мы очень хорошо справляемся с распознаванием акцентов и речи в шуме (Яндекс.Навигатор и водители такси тут нам очень сильно помогают); Голосовым поиском пользуется достаточно много детей, кроме того, мы отдельно собирали записи детской речи, поэтому речь детей мы распознаем достаточно хорошо.

Да, использование камеры может расширить сценарии использования Алисы.
Именно в этом направление и работаем.
Да, мы собираемся сильно переработать наш уже слегка устаревший Yandex SpeechKit SDK, добавив туда много нового добра:)
Мы подбираем оптимальные параметры для работы ваших команд — это требует времени, ответ от тех.поддержки будет. Подождите, пожалуйста.
Инструмента для тонкой настройки мы на данный момент не планировали, делаем сейчас инструмент для самостоятельного создания моделей для голосовой активации.

Как пробовать сервис-то, если у вас так «процесс отлажен»?

извините, это была временная проблема, сейчас модели мы оперативно высылаем
Спасибо за хорошую идею. Подумаем над реализацией в ближайших релизах.
Извините, пожалуйста, за столь долгое ожидание — процесс не был оптимально налажен. Модель Вам отправили сегодня.
Извините, не понял сразу, что вы имели ввиду. Мы в ближайшем будущем не планировали создание такого модуля, но идея очень хорошая и мы возьмем её в работу. Спасибо.
А можете привести пример: что Вы диктовали и что в итоге распозналось. Спасибо.
Обычно, 1-2 дня.
Уже автоматизируем и скоро дадим инструмент для самостоятельного создания моделей для Голосовой активации (Voice Activation).
Сложно тут поспорить, конечно, в тихой обстановке распознаванию речи сильно проще. Но вместе с этим, по нашим данным это не мешает миллионам людей каждый день в очень шумной обстановке использовать голосовой ввод и голосовое управление, например, в Яндекс.Навигаторе.

Да, наличие интернет соединения и качество мобильного интернета в целом пока оставляет желать лучшего, но эта отрасль развивается очень быстро и мы верим, что в ближайшем будущем качество мобильного интернета будет улучшаться. Но это не исключает того, что в ряде улучаев распознавание речи должно уметь работать в offline режиме прямо на устройстве без подключения к интернет.

Вот небольшой прототип web диктовки, можете попробовать подиктовать на ПК: webasr.yandex.net/
По нашей оценке это нижняя граница цен на подобные сервисы. Вместе с этим мы готовы рассматривать различные схемы оплаты: 1) оплата за запросы 2) оплата за установки. Кроме этого, наверняка не 100% ежедневных пользователей обычно используют голосовую функциональность того или иного приложения.
Это наш первый шаг в сторону распознавания (диктовки) свободных текстов. Для каких то тематик (например, теже стихи) мы уже показываем очень хорошее качество, для диктовки свободных текстов (надиктовать статью) качество хуже.
Вообще, это очень сложная и поэтому интересная задача — языковое моделирование для диктовки свободного текста или даже для распознавания спонтанной речи. Очевидно, что языковая модель обучается на определенных текстах и сейчас наша модель не покрывает все возможные тематики одинаково хорошо.
А возможно ли создать одну универсальную языковую модель, покрывающую одинаково хорошо все тематики нашей жизни? Скорее нет. Для высокого качества распознавания, нам очень важно знать заранее тематику, на которую будет диктоваться текст и под эту тематику обучать языковую модель. Как быть в случае когда тематика заранее неизвестна?
Мы сейчас ищем ответы на эти вопросы и экспериментируем с подходами к решению задачи распознавания спонтанной речи.
Экспериментируем сейчас с asterisk; да, возможно, выпустим свой модуль для упрощения интеграции
Дело в том, что рынок мобильных устройств очень быстро растет и по объемам продаж уже обгоняет десктопы и ноутбуки. На мобильных устройствах востребованность речевых технологий сильно выше по сравнению с десктопами/ноутбуками по ряду причин, например:
1) Неудобства ввода текста с помощью экранной клавиатуры;
2) Ограниченные размеры экрана — мелкие элементы графического интерфейса приложений (иногда нужно целиться), различная функциональность приложения спрятана на разных экранах интерфейса (как правило, на первом экране всё уместить не получается);
3) Использование в ситуациях когда заняты руки: на ходу, за рулем, на велосипеде и т.п.

Но мы уже начали делать шаги в сторону немобильных устройств, с помощью SpeechKit Cloud речевые технологии Яндекса уже сейчас можно встраивать в любые устройства/сервисы с доступом в интернет.
1

Information

Rating
Does not participate
Location
Москва, Москва и Московская обл., Россия
Works in
Date of birth
Registered
Activity