Как стать автором
Обновить
75
0
Дмитрий Че @morfeusys

Программист

Отправить сообщение
Денис, а не могли бы вы также ответить и на предыдущий мой вопрос относительно API? Спасибо.
Да, и еще хотел задать вопрос насчет функции «выделения смысловых объектов». В вашем «слайдовом» примере вы показали поиск сущностей типа «command» или «organization», что не совсем соответствует действительности? Ведь сейчас сервис не поддерживает поиск такого типа сущностей? Я к тому, а не планируете ли вы дать пользователям возможность самостоятельно создавать свои сущности?
Хотя исходя из описанной вами схемы работы данного сервиса, вы продолжите наращивать базу сущностей своими методами?
Я недавно описывал систему SpeechMarkup, где логика как раз строится на описании паттернов вручную, что открывает возможность кастомизации сущностей. Не думаете о подобном? Спасибо.
Отличные новости!
К сожалению только, модель голосовой активации приходится заказывать у вас… В том же Sensory TrulyHandsfree разработчик настраивает модель самостоятельно. Так что пока это сильно тормозит процесс внедрения Яндекс распознавания в проект… Не планируете что-то с этим делать?? А то вот например мне уже больше недели не отвечаете на запрос модели ))

Также есть вопросы по самой активации. В Яндекс Диктовке она пока показывает средние результаты — может легко активироваться на посторонние слова и фразы… Все же нужен инструмент для более тщательной настройки… Sensory в этом вопросе сделали довольно удобный вариант, как мне кажется.

Относительно API — ребята, сделайте пожалуйста хотя бы для того же Android "низкоуровневое" API (я не имею в виду C), где звуковой поток бы забирала не ваша собственная абстракция, а код приложения. Чтобы можно было «безшовно» отдавать поток сперва в активацию, а потом — сразу в модуль распозанвания. Иначе время на освобождение аудио рекордера плюс время на установку соединения с сервером распознавания не позволяет строить распознавания в стиле «Окей гугл», когда пользователь может слитно, без паузы произнести и активацию, и саму команду…
Было бы здорово, если бы вы написали об этом статью! А то сервис интересный и довольно сложный в использовании.
Вроде как wit.ai платный и работает только с английским?
Смотря под какую платформу. Время, даты, числа распознать можно, а вот для тех же городов, фамилий нужны стемеры и базы с интексами, которые могут работать только на серверах.
В демо-примере кажется как раз и проиллюстрирована ситуация «Пользователь сам разгребает сущности». Здесь не предлагается система, которая «поймет» любой ввод для любой функции. У вас есть сервис, который должен реагировать на вполне конкретные сущности — вот эту задачу сервис и решает. Те сущности, с которыми сервис не работает, игнорируются. Именно это я и хотел сказать, ничего более.
Под капотом смесь разных технологий, NoSQL база и тп. Обязательно расскажу.
Да, обязательно. Сразу руки не дошли. Там нужно анимацию рисовать для этого…
Да, вам вернется Позвонить подруге завтра в 11 00
Под это сейчас и заточена первая версия сервиса. Но все же — напишите о всем таком, что нашли. Спасибо.
Позвонить Анатолию И.И. — инициалы вам не распознает ни одна система распознавания речи. Но добавить распознавание инициалов — да, было бы хорошо, хотя и непонятно, кто будет стараться их вводить. Так только для тестов — да.
Насчет времени — вы бы не сочли за труд указать такие случаи? вот тут — github.com/Morfeusys/speechmarkup/issues
Спасибо
Сейчас используется довольно интересная инфраструктура, позволяющая свести к нулю все расходы на поддержку. А оптимальные алгоритмы позволяют хранить минимум данных, что также сводит к нулю и стоимость хранения информации. Быть может, я подробней расскажу об этом в следующей статье, если кому-то будет интересно…
Да, безусловно есть еще над чем работать. С одной стороны нужно все это реализовать, а с другой — сделать API понятным и простым для стороннего разработчика. Таким, чтобы он не требовал изучения сложных материй для реализации конкретных задач. Пример такой задачи я и описал в демо.
Голосовой андроид ассистент Дуся работает офлайн и использует похожий подход play.google.com/store/apps/details?id=com.dusiassistant
В принципе SpeechMarkup — это онлайн-версия этой разработки, только с более широкими возможностями.
Сервис разработан для сторонних приложений, которым нужно вытаскивать сущность заранее известного типа. А не просто «мама мыла раму». Кстати «Рама» не становится городом.
Любая система распознавания речи (тот же гугл) приводит все к нижнему регистру. Любой пользователь может все писать в нижнем регистре. SpeechMarkup не работает в контексте. Если вам не нужна какая-то сущность — то вы просто ее отбрасываете и все.
Не совсем. Как я описал — SpeechMarkup работает вне контекста. Он просто ищет сущности в тексте. Кот для него — это либо текст, либо город. Т.к. был такой город (оказывается), то он был помечен. Но суть-то в том, что затем ваше приложение потребляет результат. А значит, если город его не интересует, то он будет проигнорирован.
В любом случае, добавленные вами сущности будут видны только вашему приложению, и никому больше.
Честно говоря, очень сильное утверждение )) А что конкретно «из примеров» у вас работает неправильно?? Какие сущности «определяются неверно»?
Сперва распознаете речь в текст посредством любого стороннего сервиса распознавания — гугла, яндекса, нюанса, или прямо в браузере (есть javascript speech api). А потом передаете текст на SpeechMarkup.

Информация

В рейтинге
Не участвует
Откуда
Санкт-Петербург, Санкт-Петербург и область, Россия
Работает в
Дата рождения
Зарегистрирован
Активность