Как стать автором
Обновить

Комментарии 13

Тестировал Voco пару недель, для меня загадка и непонятность:
1. Voco ставиться только на Windows x64, а для работы нужен Office x86 — зачем так сделано? Это оооочень неудобно и сразу ограничивает круг использования приложения. Мы не стали его покупать только потому, что на многих ПК стоит либо Win x64 + Office x64 — Voco не будет работать или стоит Win x86 + Office x86 — Voco опять не будет работать.
2. Что Вы туда напихали для оффлайн распознавания, что оно устанавливается и занимает 2 с лишним гига?
3. Будет ли у Voco API для разработки и использования его в своем софте?

А так в принципе распознает неплохо, вот только нужен довольно мощный ПК, на каком нить Atom бесполезно использовать Voco.
А не подскажете оффлайн-распознавалку, которая нормально заработает на Атоме (рус. или англ.)? Я так понял, вы в теме.
Оффлайн распознавалки под Atom вряд ли вы найдете. ASR вещь увесистая. Поэтому все что есть работает через облако.
Увы все офлайновые системы распознавания, а их по пальцам пересчитать, слишком прожорливы.
Только онлайн, но и их не так много, можете глянуть на моё поделие — MSpeech
Спасибо за комментарий. Очень приятно видеть среди Geek'ов одного из первых пользователей продукта. Отвечаю:
1. Движок ASR изначально был разработан под 64-битные ОС. Поскольку подавляющее большинство ПК сейчас именно x64, то перевод ASR на x86 мы отложили до следующих релизов. Хотя не скрою, запросы такие от пользователей тоже есть. Более актуальной задачей сейчас является поддержка всех популярных редакций MS Office, включая недавно выпущенный Office 2016. И, конечно же, Office x64. На самом деле Office необходим только для той версии программы Voco, которая поддерживает конвертацию аудио в текст. Для сценария диктовки подойдет любой office, так как приложение фактически имитирует клавиатуру и работает в любом текстовом поле. Но поскольку запросы именно на конвертацию аудио в текст очень востребованы, то именно эту задачу мы сейчас и реализуем. Ну и небольшой анонс: обновленная версия с поддержкой Office x64 и большинства редакций выйдет уже в январе 2016. Естественно, ее смогут скачать и установить и те, у кого пробный период предыдущей версии уже закончился.
2.Больше всего весит языковая модель, так как она состоит из десятков миллионов N-грамм. Плюс пунктуатор, т.е. по сути та же языковая модель, но для автоматической пунктуации. Плюс большое количество фонем. Тем ни менее, ASR для Voco уже был оптимизирован — изначально он весил ок. 4 ГБ. Но вы правы, надо вести работы по дальнейшей оптимизации.
3.Видимо, рано или поздно жизнь заставит предоставить API для встраивания сторонними разработчиками. Несколько запросов уже таких было. Что ж, будем думать и работать дальше. Пока задачи — это добиться еще лучшего качества, в частности, на удаленных микрофонах, кое что уже для этого сделано и войдет в январский релиз. Добавить возможность голосового редактирования ну и много чего еще.
Ну а что касается мощного компьютера, ну не знаю, если посмотреть то, что продается в магазинах Core i5 4 ГБ уже практически стандарт и назвать такой ПК особо мощным как-то даже стыдно.
К сожалению офисные ПК зачастую не Core i5 и даже не Core i3, а какие-нибудь Celeron 1,8 — 2,4 GHz с 1-2 Гб ОЗУ, редко 4Гб ибо более мощные для работы с офисными программами и не нужны и не покупаются большинством компаний. Поэтому и используется Windows x86 т.к. x64 просто не потянет на таком железе. Так что делайте выводы и выбор, на кого Вы больше ориентируйтесь в продаже Voco — на рынок физиков или рынок юриков.
А как это разрядность процессора влияет на производительность?
Разрядность процессора и его тактовая частота — это основные характеристики процессора, от которых зависит производительность компьютера. Чем выше разрядность и тактовая частота, тем выше производительность процессора.
Разрядность процессора — размеры регистров (в битах). Рассказать что такое регистры? Думаю Вам лучше почитать книжку про архитектуру процессоров, начать хотя бы с простеньких Intel 8008 и 8086 (8-битный и 16-битный процессоры от Intel) и поехали вверх. С 70-х годов мало что изменилось в основных понятиях о процессорах, таких как регистры, шины, работа с памятью, система команд, тех.процесс и т.д.
Посмотрел видео и понял суть: надо говорить как синтезатор речи. Тогда компьютер примет тебя за своего и с радостью поможет. Надо вызвать у машины эмпатию :)
Получилось именно то, что и должно было получиться. Поскольку слова «чо» и «здрасьте» высокочастотные, то они есть в языковой модели и для них есть соответствующая акустика, поэтому они распознаются и отображаются именно так, как были произнесены. Конечно, можно прописать правила, по которым распознанное «чо» будет заменяться на «что», но будет ли это правильным? «Чо ты мусор гонишь шнягу не по делу» совсем ни тоже самое, что «что ты мусор гонишь шнягу не по делу.»
Т.е. статистически должно было распознаться как «что» и «здравствуйте», но вы это учли, чтобы было именно «чо» и «здрасьте»?
Да, верно. Для слова «что» две транскрипции: «чо» и «что», и для «здравствуйте» две.
Но мы замешивали нашу модель со спонтанной речью и там есть слова «чо» и «здрасьте».
Поэтому ям выбирает правильный вариант.
Зарегистрируйтесь на Хабре, чтобы оставить комментарий