Комментарии 28
"Представляет интерес вот такой ещё разрез"
У кого зрение не очень, а аудиокниги в любом формате категорически не нравятся, есть принципиально иная альтернатива: программы, которые отображают текст по одному слову на весь экран, листая очень быстро. После некоторой привычки нетехнические книги хорошо заходят, а 147й шрифт глаза не напрягает.
На компе использую расширение к Хрому SwiftRead. Жаль не совместимо с читалками - их экран так быстро не листает.
Похоже, что все ваши претензии к аудиокнигам относятся к временам Palm. Тогда большинство доступных книг было озвучено любителями с действительно плохим качеством. А вы пробовали современные аудиокниги? Кроме того, не знаю как остальные проигрыватели, но Smart Audiobook Player позволяет регулировать скорость воспроизведения и умеет много ещё чего. Остаётся практически только резонное возражение, что не все книги доступны в аудио варианте.
MDS(модель для сборки), гостелерадиофонд, радиоспектакли. Вовлечённость чтеца с талантом и образованием многого стоит. Послушать очередного Перумова или попаданцев на 1000+ страниц белого шума - это отвалившиеся от мыслительного процесса нейроны. Проще вентилятор послушать. Вредные советы у вас)
Мессир, поверьте, я с удовольствием смотрю хорошие спектакли и читаю интересные книги. Вот только это требует определённого настроя, да и процент действительно хороших спектаклей очень мал. При этом, Вы смотрите/слушаете не авторский вариант, а переработанный посторонним человеком взгляд на авторское произведение.
После суточного дежурства, когда постоянно приходится решать не самые простые задачи, сил на то чтобы наслаждаться слогом, практически не остается.
TTS (Text-to-Speech) для ИТ - это технология, которая позволяет компьютерам генерировать речь на основе написанного текста. Эта технология может быть полезна в ИТ-сфере для автоматического чтения текстовых документов, уведомлений и сообщений, а также для создания голосовых помощников и роботов.
Некоторые примеры использования TTS в ИТ:
- Автоматическое чтение длинных текстовых документов, таких как инструкции по эксплуатации или технические отчеты.
- Генерация голосовых уведомлений и сообщений для мониторинга систем или предупреждения об ошибках.
- Создание голосовых помощников и роботов, которые могут отвечать на вопросы пользователей и выполнять определенные задачи.
- Развлекательные приложения, такие как игры, которые используют голосовые эффекты и персонажей. TTS может быть полезен для людей с ограниченными возможностями, таких как слабовидящие и слабослышащие люди, которые могут использовать голосовые помощники для доступа к информации.
Попробую объяснить: Когда слушаешь первую книгу, робот напрягает, (тем более, я начинал когда качество озвучки было ниже пола).
Но у Вас есть встроенный дополнительный преобразователь информации. Это как с чтением, сначала всё усилие идет не на понимание, а именно на чтение. Настолько, что понимаешь с трудом прочитанный текст.
Но когда Вы овладеете навыком чтения, сами буквы Вы уже не замечаете.
Так и с озвучкой. Очень быстро перестанете замечать как там буробит робот. Пойдет чистая информация.
Вот тут и важно, чтобы технически, звуковой ряд не отвлекал вас от контекста. Даже при чтении, если шрифт неудобный, читать сложно. А при прослушивании, каждый голос Вы прежде всего будете пытаться анализировать его, а не книгу, т.к., голос является важным маркером человека. Я например с трудом слушал лекции. Подача информации для меня была медленной, мне было проще работать с учебниками. TTS - это просто еще один инструмент, позволяющий решить ряд задач.
Понятно, что озвучивать роботом таблицы Брадеса, или курс программирования - идиотизм. Но прослушать за рулем очередную сказку про попаданцев - самое то.
У каждого свои фломастеры.
Рекомендую попробовать Silero TTS - имхо лучшее из бесплатных решений сейчас.
Минусы - не очень много настроек.
Я еще собрал веб-сервис для рендера файлов через него здесь.
Присоединюсь к рекомендации попробовать Silero TTS - для локального использования я сделал скрипт: https://github.com/S-trace/silero_tts_standalone
Он умеет разделять выходной WAV файл по мере синтеза по заданному размеру, есть небольшие оптимизации на стадии препроцессинга текста (такие как разделение текста на максимально возможные для выбранного голоса блоки по предложениям или по пробелам, замена чисел на текстовые представления, удаление неподдерживаемых движком символов), поддерживается синтез на GPU (у меня он медленно стартует, но на больших текстах значительно ускоряет работу).
Скрипт оптимизирован для создания аудиокниг, на вход принимает .txt любого разумного размера (проверял на файлах до 1.5 метра). Из .fb2 можно сделать .txt через xsltproc FB2_2_txt.xsl file.fb2 > file.txt
Качество звучания вполне человеческое, без "металлизации", даже какие-никакие интонации выдаёт (порой ошибается в ударениях, но это общая беда всех TTS). Есть выбор из двух мужских и трёх женских голосов.
О, круто, спасибо.
Насчет GPU - пробовал, но на маленьких текстах разницы почти нет по скорости. Видимо, на больших есть. Кстати, насколько приблизительно разница? И - можно ли настроить cuda/cpu параметром командной строки у вас?
там есть строка в скрипте https://github.com/S-trace/silero_tts_standalone/blob/master/tts.py
torch_device: str = 'cpu'
меняете ее на куда (или просто берите значение из командной строки) и все
На больших текстах разница в 6.6 раз между CPU i7-8750H и GPU 1050 Ti Mobile (2 часа 25 минут vs 22 минуты на тексте 2024 КБ, на выходе получилось 6100 МБ и 18.5 часов звучания), и это с учётом времени на "прогрев" в 3 минуты.
Параметром командной строки не настраивается, но можно легко прикрутить такую возможность.
А где-то можно настроить скорость чтения и тембр голоса?
Хорошо бы ещё после строки:
sudo apt install rhvoice rhvoice-english rhvoice-russian
добавить ещё две:
sudo apt install lame
sudo apt install xsltproc
Спасибо за статью. Подробно и полезно.
Лайфхак моего детства или "как я слушал краткий пересказ литературных произведений, чтобы не читать это все с компутера". Тогда была "Говорилка", в ней можно было создать мп3 файл и закинуть его на мелкий мп3 плеер. Голос был ужасен, но через пару прослушиваний стало привычным, благодаря этому я за 9ый класс не прочитал ни одной книги по литературе, а лишь слушал краткие перессказы.
Надеюсь эта статья поможет кому-то так же, как мне помог этот лайфхак.
Ждем когда будет нейросеть "для всех", которая будет читать аудиокниги голосом какой-нибудь актрисы или типа того...
TTS для ИТ