Комментарии / Профиль morfeusys / Хабр

Дмитрий Че @morfeusys

Программист

Профиль Публикации 9Комментарии 146Закладки 7

Интерактивное голосовое редактирование текста с помощью новых речевых технологий от Яндекса

morfeusys 24 ноя 2014 в 15:53

Денис, а не могли бы вы также ответить и на предыдущий мой вопрос относительно API? Спасибо.

Посмотреть

Интерактивное голосовое редактирование текста с помощью новых речевых технологий от Яндекса

morfeusys 24 ноя 2014 в 15:18

Да, и еще хотел задать вопрос насчет функции «выделения смысловых объектов». В вашем «слайдовом» примере вы показали поиск сущностей типа «command» или «organization», что не совсем соответствует действительности? Ведь сейчас сервис не поддерживает поиск такого типа сущностей? Я к тому, а не планируете ли вы дать пользователям возможность самостоятельно создавать свои сущности?
Хотя исходя из описанной вами схемы работы данного сервиса, вы продолжите наращивать базу сущностей своими методами?
Я недавно описывал систему SpeechMarkup, где логика как раз строится на описании паттернов вручную, что открывает возможность кастомизации сущностей. Не думаете о подобном? Спасибо.

Посмотреть

Интерактивное голосовое редактирование текста с помощью новых речевых технологий от Яндекса

morfeusys 24 ноя 2014 в 15:07

Отличные новости!
К сожалению только, модель голосовой активации приходится заказывать у вас… В том же Sensory TrulyHandsfree разработчик настраивает модель самостоятельно. Так что пока это сильно тормозит процесс внедрения Яндекс распознавания в проект… Не планируете что-то с этим делать?? А то вот например мне уже больше недели не отвечаете на запрос модели ))

Также есть вопросы по самой активации. В Яндекс Диктовке она пока показывает средние результаты — может легко активироваться на посторонние слова и фразы… Все же нужен инструмент для более тщательной настройки… Sensory в этом вопросе сделали довольно удобный вариант, как мне кажется.

Относительно API — ребята, сделайте пожалуйста хотя бы для того же Android "низкоуровневое" API (я не имею в виду C), где звуковой поток бы забирала не ваша собственная абстракция, а код приложения. Чтобы можно было «безшовно» отдавать поток сперва в активацию, а потом — сразу в модуль распозанвания. Иначе время на освобождение аудио рекордера плюс время на установку соединения с сервером распознавания не позволяет строить распознавания в стиле «Окей гугл», когда пользователь может слитно, без паузы произнести и активацию, и саму команду…

Посмотреть

SpeechMarkup API — превращаем речь в данные

morfeusys 12 ноя 2014 в 11:27

Было бы здорово, если бы вы написали об этом статью! А то сервис интересный и довольно сложный в использовании.

Посмотреть

SpeechMarkup API — превращаем речь в данные

morfeusys 12 ноя 2014 в 09:35

Вроде как wit.ai платный и работает только с английским?

Посмотреть

SpeechMarkup API — превращаем речь в данные

morfeusys 11 ноя 2014 в 15:56

Смотря под какую платформу. Время, даты, числа распознать можно, а вот для тех же городов, фамилий нужны стемеры и базы с интексами, которые могут работать только на серверах.

Посмотреть

SpeechMarkup API — превращаем речь в данные

morfeusys 11 ноя 2014 в 14:59

В демо-примере кажется как раз и проиллюстрирована ситуация «Пользователь сам разгребает сущности». Здесь не предлагается система, которая «поймет» любой ввод для любой функции. У вас есть сервис, который должен реагировать на вполне конкретные сущности — вот эту задачу сервис и решает. Те сущности, с которыми сервис не работает, игнорируются. Именно это я и хотел сказать, ничего более.

Посмотреть

SpeechMarkup API — превращаем речь в данные

morfeusys 11 ноя 2014 в 13:16

Под капотом смесь разных технологий, NoSQL база и тп. Обязательно расскажу.

Посмотреть

SpeechMarkup API — превращаем речь в данные

morfeusys 11 ноя 2014 в 13:15

Да, обязательно. Сразу руки не дошли. Там нужно анимацию рисовать для этого…

Посмотреть

SpeechMarkup API — превращаем речь в данные

morfeusys 11 ноя 2014 в 13:08

Да, вам вернется Позвонить подруге завтра в 11 00
Под это сейчас и заточена первая версия сервиса. Но все же — напишите о всем таком, что нашли. Спасибо.

Посмотреть

SpeechMarkup API — превращаем речь в данные

morfeusys 11 ноя 2014 в 12:53

Позвонить Анатолию И.И. — инициалы вам не распознает ни одна система распознавания речи. Но добавить распознавание инициалов — да, было бы хорошо, хотя и непонятно, кто будет стараться их вводить. Так только для тестов — да.
Насчет времени — вы бы не сочли за труд указать такие случаи? вот тут — github.com/Morfeusys/speechmarkup/issues
Спасибо

Посмотреть

SpeechMarkup API — превращаем речь в данные

morfeusys 11 ноя 2014 в 12:32

Сейчас используется довольно интересная инфраструктура, позволяющая свести к нулю все расходы на поддержку. А оптимальные алгоритмы позволяют хранить минимум данных, что также сводит к нулю и стоимость хранения информации. Быть может, я подробней расскажу об этом в следующей статье, если кому-то будет интересно…

Посмотреть

SpeechMarkup API — превращаем речь в данные

morfeusys 11 ноя 2014 в 12:31

Да, безусловно есть еще над чем работать. С одной стороны нужно все это реализовать, а с другой — сделать API понятным и простым для стороннего разработчика. Таким, чтобы он не требовал изучения сложных материй для реализации конкретных задач. Пример такой задачи я и описал в демо.

Посмотреть

SpeechMarkup API — превращаем речь в данные

morfeusys 11 ноя 2014 в 12:29

Голосовой андроид ассистент Дуся работает офлайн и использует похожий подход play.google.com/store/apps/details?id=com.dusiassistant
В принципе SpeechMarkup — это онлайн-версия этой разработки, только с более широкими возможностями.

Посмотреть

SpeechMarkup API — превращаем речь в данные

morfeusys 11 ноя 2014 в 11:00

Сервис разработан для сторонних приложений, которым нужно вытаскивать сущность заранее известного типа. А не просто «мама мыла раму». Кстати «Рама» не становится городом.

Посмотреть

SpeechMarkup API — превращаем речь в данные

morfeusys 11 ноя 2014 в 10:56

Любая система распознавания речи (тот же гугл) приводит все к нижнему регистру. Любой пользователь может все писать в нижнем регистре. SpeechMarkup не работает в контексте. Если вам не нужна какая-то сущность — то вы просто ее отбрасываете и все.

Посмотреть

SpeechMarkup API — превращаем речь в данные

morfeusys 11 ноя 2014 в 10:53

Не совсем. Как я описал — SpeechMarkup работает вне контекста. Он просто ищет сущности в тексте. Кот для него — это либо текст, либо город. Т.к. был такой город (оказывается), то он был помечен. Но суть-то в том, что затем ваше приложение потребляет результат. А значит, если город его не интересует, то он будет проигнорирован.

Посмотреть

SpeechMarkup API — превращаем речь в данные

morfeusys 11 ноя 2014 в 10:47

В любом случае, добавленные вами сущности будут видны только вашему приложению, и никому больше.

Посмотреть

SpeechMarkup API — превращаем речь в данные

morfeusys 11 ноя 2014 в 10:44

Честно говоря, очень сильное утверждение )) А что конкретно «из примеров» у вас работает неправильно?? Какие сущности «определяются неверно»?

Посмотреть

SpeechMarkup API — превращаем речь в данные

morfeusys 11 ноя 2014 в 10:03

Сперва распознаете речь в текст посредством любого стороннего сервиса распознавания — гугла, яндекса, нюанса, или прямо в браузере (есть javascript speech api). А потом передаете текст на SpeechMarkup.

Посмотреть

1 2

4 5 6 7 8