Как стать автором
Обновить

Комментарии 28

"Представляет интерес вот такой ещё разрез"
У кого зрение не очень, а аудиокниги в любом формате категорически не нравятся, есть принципиально иная альтернатива: программы, которые отображают текст по одному слову на весь экран, листая очень быстро. После некоторой привычки нетехнические книги хорошо заходят, а 147й шрифт глаза не напрягает.
На компе использую расширение к Хрому SwiftRead. Жаль не совместимо с читалками - их экран так быстро не листает.

Идея была чтобы глаза совсем не использовать. Я не слепой, просто после 8 часов работы с компом, не хочется нагружать глаза.
Да и в машине например, удобнее аудиокнига.

Похоже, что все ваши претензии к аудиокнигам относятся к временам Palm. Тогда большинство доступных книг было озвучено любителями с действительно плохим качеством. А вы пробовали современные аудиокниги? Кроме того, не знаю как остальные проигрыватели, но Smart Audiobook Player позволяет регулировать скорость воспроизведения и умеет много ещё чего. Остаётся практически только резонное возражение, что не все книги доступны в аудио варианте.

1) Поверьте, основная претензия - лишняя эмоциональность чтеца. Я поэтому не люблю кино, там все уже разжевано. Ну и каждый человек, читает по своему. То есть слушаешь человека, а не книгу.
2) Те книги, которые мне интересны, как правило не доступны в аудио версии

Думаю, вы в сильном меньшинстве. Намного больше раздражает и сбивает роботизированный механический голос, чем легкая эмоциональность человека.

НЛО прилетело и опубликовало эту надпись здесь

А фоновая музыка?

"Это другое"...

MDS(модель для сборки), гостелерадиофонд, радиоспектакли. Вовлечённость чтеца с талантом и образованием многого стоит. Послушать очередного Перумова или попаданцев на 1000+ страниц белого шума - это отвалившиеся от мыслительного процесса нейроны. Проще вентилятор послушать. Вредные советы у вас)

Мессир, поверьте, я с удовольствием смотрю хорошие спектакли и читаю интересные книги. Вот только это требует определённого настроя, да и процент действительно хороших спектаклей очень мал. При этом, Вы смотрите/слушаете не авторский вариант, а переработанный посторонним человеком взгляд на авторское произведение.
После суточного дежурства, когда постоянно приходится решать не самые простые задачи, сил на то чтобы наслаждаться слогом, практически не остается.

TTS (Text-to-Speech) для ИТ - это технология, которая позволяет компьютерам генерировать речь на основе написанного текста. Эта технология может быть полезна в ИТ-сфере для автоматического чтения текстовых документов, уведомлений и сообщений, а также для создания голосовых помощников и роботов.
Некоторые примеры использования TTS в ИТ:
- Автоматическое чтение длинных текстовых документов, таких как инструкции по эксплуатации или технические отчеты.
- Генерация голосовых уведомлений и сообщений для мониторинга систем или предупреждения об ошибках.
- Создание голосовых помощников и роботов, которые могут отвечать на вопросы пользователей и выполнять определенные задачи.
- Развлекательные приложения, такие как игры, которые используют голосовые эффекты и персонажей. TTS может быть полезен для людей с ограниченными возможностями, таких как слабовидящие и слабослышащие люди, которые могут использовать голосовые помощники для доступа к информации.

Попробую объяснить: Когда слушаешь первую книгу, робот напрягает, (тем более, я начинал когда качество озвучки было ниже пола).
Но у Вас есть встроенный дополнительный преобразователь информации. Это как с чтением, сначала всё усилие идет не на понимание, а именно на чтение. Настолько, что понимаешь с трудом прочитанный текст.
Но когда Вы овладеете навыком чтения, сами буквы Вы уже не замечаете.
Так и с озвучкой. Очень быстро перестанете замечать как там буробит робот. Пойдет чистая информация.
Вот тут и важно, чтобы технически, звуковой ряд не отвлекал вас от контекста. Даже при чтении, если шрифт неудобный, читать сложно. А при прослушивании, каждый голос Вы прежде всего будете пытаться анализировать его, а не книгу, т.к., голос является важным маркером человека. Я например с трудом слушал лекции. Подача информации для меня была медленной, мне было проще работать с учебниками. TTS - это просто еще один инструмент, позволяющий решить ряд задач.

Понятно, что озвучивать роботом таблицы Брадеса, или курс программирования - идиотизм. Но прослушать за рулем очередную сказку про попаданцев - самое то.

У каждого свои фломастеры.

Рекомендую попробовать Silero TTS - имхо лучшее из бесплатных решений сейчас.

Минусы - не очень много настроек.

Я еще собрал веб-сервис для рендера файлов через него здесь.

Присоединюсь к рекомендации попробовать Silero TTS - для локального использования я сделал скрипт: https://github.com/S-trace/silero_tts_standalone

Он умеет разделять выходной WAV файл по мере синтеза по заданному размеру, есть небольшие оптимизации на стадии препроцессинга текста (такие как разделение текста на максимально возможные для выбранного голоса блоки по предложениям или по пробелам, замена чисел на текстовые представления, удаление неподдерживаемых движком символов), поддерживается синтез на GPU (у меня он медленно стартует, но на больших текстах значительно ускоряет работу).

Скрипт оптимизирован для создания аудиокниг, на вход принимает .txt любого разумного размера (проверял на файлах до 1.5 метра). Из .fb2 можно сделать .txt через xsltproc FB2_2_txt.xsl file.fb2 > file.txt

Качество звучания вполне человеческое, без "металлизации", даже какие-никакие интонации выдаёт (порой ошибается в ударениях, но это общая беда всех TTS). Есть выбор из двух мужских и трёх женских голосов.

О, круто, спасибо.

Насчет GPU - пробовал, но на маленьких текстах разницы почти нет по скорости. Видимо, на больших есть. Кстати, насколько приблизительно разница? И - можно ли настроить cuda/cpu параметром командной строки у вас?

На больших текстах разница в 6.6 раз между CPU i7-8750H и GPU 1050 Ti Mobile (2 часа 25 минут vs 22 минуты на тексте 2024 КБ, на выходе получилось 6100 МБ и 18.5 часов звучания), и это с учётом времени на "прогрев" в 3 минуты.

Параметром командной строки не настраивается, но можно легко прикрутить такую возможность.

UPD: Добавил device = 'auto' (использовать CUDA если доступно, иначе использовать CPU), добавил workaround для устранения медленного старта (сокращает время прогрева модели с 3 минут/15 секунд для GPU/CPU до 4 секунд).

А где-то можно настроить скорость чтения и тембр голоса?

Можно использовать SSML и тег prosody - там как раз таки есть аттрибуты rate и pitch для этого.

Подскажите, а что такое deutf8.sh в 13й строчке вашего скрипта?

пардон сейчас добавлю, забыл

Извините за задержку

Для Android еще можете взглянуть на приложение Quickify. По моему мнению, лучшая реализация TTS для книг и статей на Android.

Хорошо бы ещё после строки:

sudo apt install rhvoice rhvoice-english rhvoice-russian

добавить ещё две:


sudo apt install lame
sudo apt install xsltproc

Спасибо за статью. Подробно и полезно.

Лайфхак моего детства или "как я слушал краткий пересказ литературных произведений, чтобы не читать это все с компутера". Тогда была "Говорилка", в ней можно было создать мп3 файл и закинуть его на мелкий мп3 плеер. Голос был ужасен, но через пару прослушиваний стало привычным, благодаря этому я за 9ый класс не прочитал ни одной книги по литературе, а лишь слушал краткие перессказы.

Надеюсь эта статья поможет кому-то так же, как мне помог этот лайфхак.

Ждем когда будет нейросеть "для всех", которая будет читать аудиокниги голосом какой-нибудь актрисы или типа того...

Так есть же уже Silero TTS - вполне себе нейросеть, общедоступная, работает локально. Да и качество даёт гораздо приятнее "Говорилки". Разве что актрис не завезли ещё...

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Истории