Интересное решение, но не проще ли использовать уже готовое решение с лучшим синтезом для русского языка chitatel.pro
Попробовать можно синтез от ЦРТ на: voicefabric.ru
Небольшой отрывок из Достоевского: «в начале июля, в чрезвычайно жаркое время, под вечер, один молодой человек вышел из своей каморки, которую нанимал от жильцов в С — м переулке»
Ивона: пОд вечер
Читатель: под вЕчер
И, ксати, к вопросу о женских голосах, рекомендую попробовать голос Юлия.
Да, верно. Для слова «что» две транскрипции: «чо» и «что», и для «здравствуйте» две.
Но мы замешивали нашу модель со спонтанной речью и там есть слова «чо» и «здрасьте».
Поэтому ям выбирает правильный вариант.
Получилось именно то, что и должно было получиться. Поскольку слова «чо» и «здрасьте» высокочастотные, то они есть в языковой модели и для них есть соответствующая акустика, поэтому они распознаются и отображаются именно так, как были произнесены. Конечно, можно прописать правила, по которым распознанное «чо» будет заменяться на «что», но будет ли это правильным? «Чо ты мусор гонишь шнягу не по делу» совсем ни тоже самое, что «что ты мусор гонишь шнягу не по делу.»
Спасибо за комментарий. Очень приятно видеть среди Geek'ов одного из первых пользователей продукта. Отвечаю:
1. Движок ASR изначально был разработан под 64-битные ОС. Поскольку подавляющее большинство ПК сейчас именно x64, то перевод ASR на x86 мы отложили до следующих релизов. Хотя не скрою, запросы такие от пользователей тоже есть. Более актуальной задачей сейчас является поддержка всех популярных редакций MS Office, включая недавно выпущенный Office 2016. И, конечно же, Office x64. На самом деле Office необходим только для той версии программы Voco, которая поддерживает конвертацию аудио в текст. Для сценария диктовки подойдет любой office, так как приложение фактически имитирует клавиатуру и работает в любом текстовом поле. Но поскольку запросы именно на конвертацию аудио в текст очень востребованы, то именно эту задачу мы сейчас и реализуем. Ну и небольшой анонс: обновленная версия с поддержкой Office x64 и большинства редакций выйдет уже в январе 2016. Естественно, ее смогут скачать и установить и те, у кого пробный период предыдущей версии уже закончился.
2.Больше всего весит языковая модель, так как она состоит из десятков миллионов N-грамм. Плюс пунктуатор, т.е. по сути та же языковая модель, но для автоматической пунктуации. Плюс большое количество фонем. Тем ни менее, ASR для Voco уже был оптимизирован — изначально он весил ок. 4 ГБ. Но вы правы, надо вести работы по дальнейшей оптимизации.
3.Видимо, рано или поздно жизнь заставит предоставить API для встраивания сторонними разработчиками. Несколько запросов уже таких было. Что ж, будем думать и работать дальше. Пока задачи — это добиться еще лучшего качества, в частности, на удаленных микрофонах, кое что уже для этого сделано и войдет в январский релиз. Добавить возможность голосового редактирования ну и много чего еще.
Ну а что касается мощного компьютера, ну не знаю, если посмотреть то, что продается в магазинах Core i5 4 ГБ уже практически стандарт и назвать такой ПК особо мощным как-то даже стыдно.
Информация
В рейтинге
Не участвует
Откуда
Санкт-Петербург, Санкт-Петербург и область, Россия
Попробовать можно синтез от ЦРТ на: voicefabric.ru
Небольшой отрывок из Достоевского: «в начале июля, в чрезвычайно жаркое время, под вечер, один молодой человек вышел из своей каморки, которую нанимал от жильцов в С — м переулке»
Ивона: пОд вечер
Читатель: под вЕчер
И, ксати, к вопросу о женских голосах, рекомендую попробовать голос Юлия.
Но мы замешивали нашу модель со спонтанной речью и там есть слова «чо» и «здрасьте».
Поэтому ям выбирает правильный вариант.
1. Движок ASR изначально был разработан под 64-битные ОС. Поскольку подавляющее большинство ПК сейчас именно x64, то перевод ASR на x86 мы отложили до следующих релизов. Хотя не скрою, запросы такие от пользователей тоже есть. Более актуальной задачей сейчас является поддержка всех популярных редакций MS Office, включая недавно выпущенный Office 2016. И, конечно же, Office x64. На самом деле Office необходим только для той версии программы Voco, которая поддерживает конвертацию аудио в текст. Для сценария диктовки подойдет любой office, так как приложение фактически имитирует клавиатуру и работает в любом текстовом поле. Но поскольку запросы именно на конвертацию аудио в текст очень востребованы, то именно эту задачу мы сейчас и реализуем. Ну и небольшой анонс: обновленная версия с поддержкой Office x64 и большинства редакций выйдет уже в январе 2016. Естественно, ее смогут скачать и установить и те, у кого пробный период предыдущей версии уже закончился.
2.Больше всего весит языковая модель, так как она состоит из десятков миллионов N-грамм. Плюс пунктуатор, т.е. по сути та же языковая модель, но для автоматической пунктуации. Плюс большое количество фонем. Тем ни менее, ASR для Voco уже был оптимизирован — изначально он весил ок. 4 ГБ. Но вы правы, надо вести работы по дальнейшей оптимизации.
3.Видимо, рано или поздно жизнь заставит предоставить API для встраивания сторонними разработчиками. Несколько запросов уже таких было. Что ж, будем думать и работать дальше. Пока задачи — это добиться еще лучшего качества, в частности, на удаленных микрофонах, кое что уже для этого сделано и войдет в январский релиз. Добавить возможность голосового редактирования ну и много чего еще.
Ну а что касается мощного компьютера, ну не знаю, если посмотреть то, что продается в магазинах Core i5 4 ГБ уже практически стандарт и назвать такой ПК особо мощным как-то даже стыдно.