formeo Feb 9 at 05:07

Пишем свой voice-to-text на Python: 4 бэкенда и батч-обработка голосовых

6 min

11K

Python * Machine learning * Open source * Sound

+18

Comments 14

Biga Feb 9 at 14:30

Можно ещё t-one попробовать.

formeo Feb 10 at 06:57

Добрый день. Спасибо за рекомендацию, попробую ее еще интегрировать

jingvar Feb 10 at 03:41

Wisper-cpp по моим тестам был на cpu на уровне gpu. Используется адаптированная модель под cpp

ktibr0 Feb 10 at 04:36

У меня в боте телеги сейчас работает от Сбера модель. Навайбкодил бота по статье и коду в блокноте

https://habr.com/ru/articles/979038/

formeo Feb 10 at 07:00

Добрый день, отличный выбор для русскоязычных голосовых.

у меня Whisper т.к:

Мультиязычность
Качество на длинных аудио - Whisper лучше справляется с лекциями/подкастами >5 мин
Экосистема - единый инструмент для всех задач (включая генерацию субтитров через сегменты)

Но надо добавить эту модель в роадмап

stanislav_mikov Feb 10 at 06:36

Когда идёшь по миру с молотком, то многое покажется гвоздями. Ведь можно просто перевести коммуникации в телеграм и запретить голосовые 💁

formeo Feb 10 at 07:05

Добрый день, такая точка зрения имеет место быть, но реальность такова:

Вы не контролируете всех собеседников -клиенты студии, родственники присылать голосовые независимо от ваших правил
Голосовые имеют некоторые преимущества - для людей с нарушениями зрения(такой тренер кста есть), за рулем, и в других случаях когда надо быстро ответить, но нет возможности писать руками
Инструмент не равно одобрение практики - антивирус не поощряет вирусы, а защищает от них 😊

Сервис не призыв к использованию голосовых, а инструмент для тех, кто вынужден с ними работать. Иногда проще конвертировать голосовые, чем объяснять 50 людям, почему они должны писать текстом

stanislav_mikov Feb 10 at 07:26

Да, это тоже верно. Плюс, я прекрасно понимаю желание прокачать свои скиллы на реальных задачах - это вполне уважаемо. Но тут главное не увлекаться)

Люди с нарушениями зрения прекрасно пользуются голосовым вводом, а эффект от запрета голосовых по соотношению результат/усилия может перекрыть всё вышенаписанное, ибо задача формулировалась как "Слушать их неудобно: нельзя быстро пробежаться глазами, найти нужный момент или процитировать".

С этой точки зрения ваш проект пока эту проблему не решает, так как всё равно быстро не получается - мессенджер, где пишут сообщения - отдельно, система распознавания - отдельно. На этом этапе по-прежнему статегически проще, дешевле и нативнее перейти в один мессенджер, просто запретив там собеседнику писать голосовые.

Mr_Mafia Feb 10 at 07:05

В итоге проект представляет из себя программу, которая используя разные источник для перевода, осуществляет это процесс в формат .srt? А реализацию своей модели не планировали реализовывать?

formeo Feb 10 at 07:06

Добрый день, боюсь еще не совсем владею компетенциями чтобы писать свою модель, пока пользуюсь готовыми

KonstantinTokar Feb 11 at 03:54

Эта тема сейчас тренд. Я на днях попробовал voxtral для написания небольшого ответа размером в несколько страниц (навела не неё статья https://habr.com/p/993008/ ) и теперь хочу интегрировать подход в свои реалии. Голосовой ввод оказался эффективен при наличии плана на содержание спича. Защита данных решается покупкой отдельного ускорителя, за 15 - 20 тр на али доступны платы с 16 гб памяти предыдущего поколения.

Polarowl24 Feb 11 at 05:26

Если правда для супруги - то это самый романтичный код )) ❤️‍🔥

thethee Feb 11 at 09:02

Рассмотрите WhisperX если GPU используете. По моим тестам самая оптимизированная версия whisper.

xkritikx Feb 16 at 05:31

В docker можно подключить volume там, где загружается модель. При следующем запуске модель скачивать не нужно.