Комментарии / Профиль eugenelanda / Хабр

Евгений@eugenelanda

Пользователь

ПрофильСтатьи1ПостыНовостиКомментарии9

Делитесь знаниями

eugenelanda 25 мар 2016 в 08:02

Оставьте словари! Не уничтожайте прекрасный сервис

Яндекс.Словари — Использование слов из «Тетрадок» в блоке «Проверьте себя»

eugenelanda 25 мар 2016 в 08:00

Да и вот теперь Яндекс заявил о закрытии словарей.

go-скрипт который делает аудиокнигу из текстового файла используя один из лучших синтезаторов речи — Ivona от Amazon

eugenelanda 1 фев 2016 в 11:29

Статья, в которой приведено сравнение синтеза ЦРТ и Яндекса: habrahabr.ru/post/272655

eugenelanda 25 янв 2016 в 07:52

было бы интересно провести Mos-оценку. Синтезировать один и тот же текст Ivona и ЦРТ и выложить на голосование.

eugenelanda 22 янв 2016 в 11:29

Интересное решение, но не проще ли использовать уже готовое решение с лучшим синтезом для русского языка chitatel.pro
Попробовать можно синтез от ЦРТ на: voicefabric.ru
Небольшой отрывок из Достоевского: «в начале июля, в чрезвычайно жаркое время, под вечер, один молодой человек вышел из своей каморки, которую нанимал от жильцов в С — м переулке»
Ивона: пОд вечер
Читатель: под вЕчер

И, ксати, к вопросу о женских голосах, рекомендую попробовать голос Юлия.

Пиши голосом правильно

eugenelanda 23 дек 2015 в 10:10

Да, верно. Для слова «что» две транскрипции: «чо» и «что», и для «здравствуйте» две.
Но мы замешивали нашу модель со спонтанной речью и там есть слова «чо» и «здрасьте».
Поэтому ям выбирает правильный вариант.

Пиши голосом правильно

eugenelanda 22 дек 2015 в 21:12

Получилось именно то, что и должно было получиться. Поскольку слова «чо» и «здрасьте» высокочастотные, то они есть в языковой модели и для них есть соответствующая акустика, поэтому они распознаются и отображаются именно так, как были произнесены. Конечно, можно прописать правила, по которым распознанное «чо» будет заменяться на «что», но будет ли это правильным? «Чо ты мусор гонишь шнягу не по делу» совсем ни тоже самое, что «что ты мусор гонишь шнягу не по делу.»

Пиши голосом правильно

eugenelanda 18 дек 2015 в 20:05

Оффлайн распознавалки под Atom вряд ли вы найдете. ASR вещь увесистая. Поэтому все что есть работает через облако.

Пиши голосом правильно

eugenelanda 18 дек 2015 в 20:03

Спасибо за комментарий. Очень приятно видеть среди Geek'ов одного из первых пользователей продукта. Отвечаю:
1. Движок ASR изначально был разработан под 64-битные ОС. Поскольку подавляющее большинство ПК сейчас именно x64, то перевод ASR на x86 мы отложили до следующих релизов. Хотя не скрою, запросы такие от пользователей тоже есть. Более актуальной задачей сейчас является поддержка всех популярных редакций MS Office, включая недавно выпущенный Office 2016. И, конечно же, Office x64. На самом деле Office необходим только для той версии программы Voco, которая поддерживает конвертацию аудио в текст. Для сценария диктовки подойдет любой office, так как приложение фактически имитирует клавиатуру и работает в любом текстовом поле. Но поскольку запросы именно на конвертацию аудио в текст очень востребованы, то именно эту задачу мы сейчас и реализуем. Ну и небольшой анонс: обновленная версия с поддержкой Office x64 и большинства редакций выйдет уже в январе 2016. Естественно, ее смогут скачать и установить и те, у кого пробный период предыдущей версии уже закончился.
2.Больше всего весит языковая модель, так как она состоит из десятков миллионов N-грамм. Плюс пунктуатор, т.е. по сути та же языковая модель, но для автоматической пунктуации. Плюс большое количество фонем. Тем ни менее, ASR для Voco уже был оптимизирован — изначально он весил ок. 4 ГБ. Но вы правы, надо вести работы по дальнейшей оптимизации.
3.Видимо, рано или поздно жизнь заставит предоставить API для встраивания сторонними разработчиками. Несколько запросов уже таких было. Что ж, будем думать и работать дальше. Пока задачи — это добиться еще лучшего качества, в частности, на удаленных микрофонах, кое что уже для этого сделано и войдет в январский релиз. Добавить возможность голосового редактирования ну и много чего еще.
Ну а что касается мощного компьютера, ну не знаю, если посмотреть то, что продается в магазинах Core i5 4 ГБ уже практически стандарт и назвать такой ПК особо мощным как-то даже стыдно.