zheldak Jun 10 at 18:18

Телеграм-каналы теперь можно слушать

2 min

2.9K

SoundArtificial IntelligenceInstant Messaging * Start-up developmentMedia management *

Case

Comments 15

rPman Jun 10 at 18:30

Послушать примеры озвучки можно в нашем канале Radiogram Top-10.

открывается мини приложение с пустым экраном и ничего не происходит... почему бы не выложить в любом другом адекватном аудио хостинге примеры озвучки?

scarych Jun 10 at 19:02

всё вроде норм открывается: айфон, десктоп

может у вас что-то не так?

karacom Jun 10 at 20:08

наверное у него более безопасная среда

rPman Jun 11 at 02:14

со смартфона открылась, на десктопе linux (офф клиент) - нет

Не важно, формат мини приложения меня не шибко интересует, так как аудио записи не получится слушать и управлять в моем плеере (например оффлайн, переключение треков кнопками громкости или с гарнитуры без разблокировки экрана)

с другой стороны я не целевая группа данной задачи, прежде чем слушать я бы хотел сам выбирать информацию.

3aBulon Jun 10 at 19:17

Свистящие звуки зашкаливают, не нравится слушать. Вы сами это слушали?

Ударения "успеть чИхнуть", интонаций вопроса в конце предложения нет. Послушал чуть чуть и не могу больше, очень режет слух.

Еще зачитывание названий каналов сбивает с толку. Конкретно слушал выпуск где рокетбанк и дальше.

zheldak Jun 10 at 19:53

Каждый день в машине слушаю.

Мы используем наиболее продвинутую TTS. Она все еще может путать ударения на русском языке, но по качеству это уже на голову выше, чем ттс-ки годичной давности. Думаю еще полгода-год, и генеративную речь нельзя будет отличить от настоящей.

kinall Jun 11 at 07:11

Умиляют ответы вида "Да, у нас плохо, но могло быть гораздо хуже!" Продактов за такое надо морально убивать на месте=) Пользователю глубоко пофиг, как могло быть - он видит как есть.

UFO landed and left these words here

ProfDonda Jun 11 at 05:21

Упс! За что??!

UFO landed and left these words here

CitizenOfDreams Jun 11 at 03:56

Так их вроде с самого начала слушают.

Скрытый текст

Kolonist Jun 11 at 05:43

А можно немного технических подробностей? Какую модель вы выбрали для озвучки? Онлайн или оффлайн? Как запускаете модель — на проце или видяшке? На каком языке написан сервис? Как запускаете модель — через нечто вроде олламы и запрашиваете через рест апи на локалхосте или через пайторч подключили прямо в коде приложения? Сколько ресурсов это жрет? Сколько всего есть ресурсов на серваке?

zheldak Jun 11 at 08:49

Голосовая модель: онлайн от OpenAI с доступом по rest + кастомные обработчики. Сервис написан на NodeJS. По ресурсам за счет внешних сервисов получается достаточно адекватно, основная нагрузка идёт в момент генерации выпусков, когда собираются аудио-файлы. Сейчас всё крутится на сервере 8 ядер, 16 гб озу. Плюс допсервер для для вспомогательных операций. Под онлайн-трансляции (делаем такие для новостных каналов) используются отдельные серверы 4 ядра, 8 гб, на каждом из которых стартует свой набор из нескольких потоков вещания.

Kolonist Jun 11 at 10:50

Рассмотрите голосовую модель от Яндекса. У них есть довольно приятные голоса (хотя есть и совсем плохие), и они не так часто ошибаются. А если предварительно пройтись моделькой, которая расставит ударения, то будет вообще огонь (хотя меня Яндекс и так устраивал).

Margutoop Jun 11 at 20:27

Мессенджер - от слова "Сообщение". Ломается сама концепция, но если учитывать слепых людей - очень достойно