grayrat14 апр 2023 в 15:10

TTS для ИТ

Простой

5 мин

24K

Open source * *nix * ГаджетыСофтЗвук

Туториал

Комментарии 28

MountainGoat 14 апр 2023 в 15:21

"Представляет интерес вот такой ещё разрез"
У кого зрение не очень, а аудиокниги в любом формате категорически не нравятся, есть принципиально иная альтернатива: программы, которые отображают текст по одному слову на весь экран, листая очень быстро. После некоторой привычки нетехнические книги хорошо заходят, а 147й шрифт глаза не напрягает.
На компе использую расширение к Хрому SwiftRead. Жаль не совместимо с читалками - их экран так быстро не листает.

grayrat 14 апр 2023 в 15:24

Идея была чтобы глаза совсем не использовать. Я не слепой, просто после 8 часов работы с компом, не хочется нагружать глаза.
Да и в машине например, удобнее аудиокнига.

lobotomic 14 апр 2023 в 15:55

Похоже, что все ваши претензии к аудиокнигам относятся к временам Palm. Тогда большинство доступных книг было озвучено любителями с действительно плохим качеством. А вы пробовали современные аудиокниги? Кроме того, не знаю как остальные проигрыватели, но Smart Audiobook Player позволяет регулировать скорость воспроизведения и умеет много ещё чего. Остаётся практически только резонное возражение, что не все книги доступны в аудио варианте.

grayrat 14 апр 2023 в 16:06

1) Поверьте, основная претензия - лишняя эмоциональность чтеца. Я поэтому не люблю кино, там все уже разжевано. Ну и каждый человек, читает по своему. То есть слушаешь человека, а не книгу.
2) Те книги, которые мне интересны, как правило не доступны в аудио версии

gmtd 14 апр 2023 в 16:24

Думаю, вы в сильном меньшинстве. Намного больше раздражает и сбивает роботизированный механический голос, чем легкая эмоциональность человека.

НЛО прилетело и опубликовало эту надпись здесь

ainoneko 15 апр 2023 в 07:33

А фоновая музыка?

grayrat 15 апр 2023 в 08:33

"Это другое"...

mishkin79 14 апр 2023 в 20:16

MDS(модель для сборки), гостелерадиофонд, радиоспектакли. Вовлечённость чтеца с талантом и образованием многого стоит. Послушать очередного Перумова или попаданцев на 1000+ страниц белого шума - это отвалившиеся от мыслительного процесса нейроны. Проще вентилятор послушать. Вредные советы у вас)

grayrat 15 апр 2023 в 08:31

Мессир, поверьте, я с удовольствием смотрю хорошие спектакли и читаю интересные книги. Вот только это требует определённого настроя, да и процент действительно хороших спектаклей очень мал. При этом, Вы смотрите/слушаете не авторский вариант, а переработанный посторонним человеком взгляд на авторское произведение.
После суточного дежурства, когда постоянно приходится решать не самые простые задачи, сил на то чтобы наслаждаться слогом, практически не остается.

MatveiKyzin744 14 апр 2023 в 20:17

TTS (Text-to-Speech) для ИТ - это технология, которая позволяет компьютерам генерировать речь на основе написанного текста. Эта технология может быть полезна в ИТ-сфере для автоматического чтения текстовых документов, уведомлений и сообщений, а также для создания голосовых помощников и роботов.
Некоторые примеры использования TTS в ИТ:
- Автоматическое чтение длинных текстовых документов, таких как инструкции по эксплуатации или технические отчеты.
- Генерация голосовых уведомлений и сообщений для мониторинга систем или предупреждения об ошибках.
- Создание голосовых помощников и роботов, которые могут отвечать на вопросы пользователей и выполнять определенные задачи.
- Развлекательные приложения, такие как игры, которые используют голосовые эффекты и персонажей. TTS может быть полезен для людей с ограниченными возможностями, таких как слабовидящие и слабослышащие люди, которые могут использовать голосовые помощники для доступа к информации.

grayrat 14 апр 2023 в 20:36

Попробую объяснить: Когда слушаешь первую книгу, робот напрягает, (тем более, я начинал когда качество озвучки было ниже пола).
Но у Вас есть встроенный дополнительный преобразователь информации. Это как с чтением, сначала всё усилие идет не на понимание, а именно на чтение. Настолько, что понимаешь с трудом прочитанный текст.
Но когда Вы овладеете навыком чтения, сами буквы Вы уже не замечаете.
Так и с озвучкой. Очень быстро перестанете замечать как там буробит робот. Пойдет чистая информация.
Вот тут и важно, чтобы технически, звуковой ряд не отвлекал вас от контекста. Даже при чтении, если шрифт неудобный, читать сложно. А при прослушивании, каждый голос Вы прежде всего будете пытаться анализировать его, а не книгу, т.к., голос является важным маркером человека. Я например с трудом слушал лекции. Подача информации для меня была медленной, мне было проще работать с учебниками. TTS - это просто еще один инструмент, позволяющий решить ряд задач.

Понятно, что озвучивать роботом таблицы Брадеса, или курс программирования - идиотизм. Но прослушать за рулем очередную сказку про попаданцев - самое то.

У каждого свои фломастеры.

janvarev 14 апр 2023 в 21:39

Рекомендую попробовать Silero TTS - имхо лучшее из бесплатных решений сейчас.

Минусы - не очень много настроек.

Я еще собрал веб-сервис для рендера файлов через него здесь.

S-trace 15 апр 2023 в 07:59

Присоединюсь к рекомендации попробовать Silero TTS - для локального использования я сделал скрипт: https://github.com/S-trace/silero_tts_standalone

Он умеет разделять выходной WAV файл по мере синтеза по заданному размеру, есть небольшие оптимизации на стадии препроцессинга текста (такие как разделение текста на максимально возможные для выбранного голоса блоки по предложениям или по пробелам, замена чисел на текстовые представления, удаление неподдерживаемых движком символов), поддерживается синтез на GPU (у меня он медленно стартует, но на больших текстах значительно ускоряет работу).

Скрипт оптимизирован для создания аудиокниг, на вход принимает .txt любого разумного размера (проверял на файлах до 1.5 метра). Из .fb2 можно сделать .txt через xsltproc FB2_2_txt.xsl file.fb2 > file.txt

Качество звучания вполне человеческое, без "металлизации", даже какие-никакие интонации выдаёт (порой ошибается в ударениях, но это общая беда всех TTS). Есть выбор из двух мужских и трёх женских голосов.

janvarev 15 апр 2023 в 08:42

О, круто, спасибо.

Насчет GPU - пробовал, но на маленьких текстах разницы почти нет по скорости. Видимо, на больших есть. Кстати, насколько приблизительно разница? И - можно ли настроить cuda/cpu параметром командной строки у вас?

vassabi 15 апр 2023 в 09:39

там есть строка в скрипте https://github.com/S-trace/silero_tts_standalone/blob/master/tts.py

torch_device: str = 'cpu'

меняете ее на куда (или просто берите значение из командной строки) и все

S-trace 15 апр 2023 в 14:07

На больших текстах разница в 6.6 раз между CPU i7-8750H и GPU 1050 Ti Mobile (2 часа 25 минут vs 22 минуты на тексте 2024 КБ, на выходе получилось 6100 МБ и 18.5 часов звучания), и это с учётом времени на "прогрев" в 3 минуты.

Параметром командной строки не настраивается, но можно легко прикрутить такую возможность.

S-trace 15 апр 2023 в 20:37

UPD: Добавил device = 'auto' (использовать CUDA если доступно, иначе использовать CPU), добавил workaround для устранения медленного старта (сокращает время прогрева модели с 3 минут/15 секунд для GPU/CPU до 4 секунд).

alexs963 16 апр 2023 в 19:31

А где-то можно настроить скорость чтения и тембр голоса?

S-trace 17 апр 2023 в 06:08

Можно использовать SSML и тег prosody - там как раз таки есть аттрибуты rate и pitch для этого.

Insaned 15 апр 2023 в 16:47

Подскажите, а что такое deutf8.sh в 13й строчке вашего скрипта?

grayrat 16 апр 2023 в 16:14

пардон сейчас добавлю, забыл

grayrat 16 апр 2023 в 16:21

Извините за задержку

Adambl4 16 апр 2023 в 16:21

Для Android еще можете взглянуть на приложение Quickify. По моему мнению, лучшая реализация TTS для книг и статей на Android.

andrey53 16 апр 2023 в 17:37

Хорошо бы ещё после строки:

sudo apt install rhvoice rhvoice-english rhvoice-russian

добавить ещё две:

sudo apt install lame
sudo apt install xsltproc

andrey53 16 апр 2023 в 17:45

Спасибо за статью. Подробно и полезно.

P1ratRuleZZZ 17 апр 2023 в 06:33

Лайфхак моего детства или "как я слушал краткий пересказ литературных произведений, чтобы не читать это все с компутера". Тогда была "Говорилка", в ней можно было создать мп3 файл и закинуть его на мелкий мп3 плеер. Голос был ужасен, но через пару прослушиваний стало привычным, благодаря этому я за 9ый класс не прочитал ни одной книги по литературе, а лишь слушал краткие перессказы.

Надеюсь эта статья поможет кому-то так же, как мне помог этот лайфхак.

Ждем когда будет нейросеть "для всех", которая будет читать аудиокниги голосом какой-нибудь актрисы или типа того...

S-trace 17 апр 2023 в 08:09

Так есть же уже Silero TTS - вполне себе нейросеть, общедоступная, работает локально. Да и качество даёт гораздо приятнее "Говорилки". Разве что актрис не завезли ещё...

Зарегистрируйтесь на Хабре, чтобы оставить комментарий