Comments 14
Wisper-cpp по моим тестам был на cpu на уровне gpu. Используется адаптированная модель под cpp
У меня в боте телеги сейчас работает от Сбера модель. Навайбкодил бота по статье и коду в блокноте
https://habr.com/ru/articles/979038/
Добрый день, отличный выбор для русскоязычных голосовых.
у меня Whisper т.к:
Мультиязычность
Качество на длинных аудио - Whisper лучше справляется с лекциями/подкастами >5 мин
Экосистема - единый инструмент для всех задач (включая генерацию субтитров через сегменты)
Но надо добавить эту модель в роадмап
Когда идёшь по миру с молотком, то многое покажется гвоздями. Ведь можно просто перевести коммуникации в телеграм и запретить голосовые 💁
Добрый день, такая точка зрения имеет место быть, но реальность такова:
Вы не контролируете всех собеседников -клиенты студии, родственники присылать голосовые независимо от ваших правил
Голосовые имеют некоторые преимущества - для людей с нарушениями зрения(такой тренер кста есть), за рулем, и в других случаях когда надо быстро ответить, но нет возможности писать руками
Инструмент не равно одобрение практики - антивирус не поощряет вирусы, а защищает от них 😊
Сервис не призыв к использованию голосовых, а инструмент для тех, кто вынужден с ними работать. Иногда проще конвертировать голосовые, чем объяснять 50 людям, почему они должны писать текстом
Да, это тоже верно. Плюс, я прекрасно понимаю желание прокачать свои скиллы на реальных задачах - это вполне уважаемо. Но тут главное не увлекаться)
Люди с нарушениями зрения прекрасно пользуются голосовым вводом, а эффект от запрета голосовых по соотношению результат/усилия может перекрыть всё вышенаписанное, ибо задача формулировалась как "Слушать их неудобно: нельзя быстро пробежаться глазами, найти нужный момент или процитировать".
С этой точки зрения ваш проект пока эту проблему не решает, так как всё равно быстро не получается - мессенджер, где пишут сообщения - отдельно, система распознавания - отдельно. На этом этапе по-прежнему статегически проще, дешевле и нативнее перейти в один мессенджер, просто запретив там собеседнику писать голосовые.
В итоге проект представляет из себя программу, которая используя разные источник для перевода, осуществляет это процесс в формат .srt? А реализацию своей модели не планировали реализовывать?
Эта тема сейчас тренд. Я на днях попробовал voxtral для написания небольшого ответа размером в несколько страниц (навела не неё статья https://habr.com/p/993008/ ) и теперь хочу интегрировать подход в свои реалии. Голосовой ввод оказался эффективен при наличии плана на содержание спича. Защита данных решается покупкой отдельного ускорителя, за 15 - 20 тр на али доступны платы с 16 гб памяти предыдущего поколения.
Если правда для супруги - то это самый романтичный код )) ❤️🔥
Рассмотрите WhisperX если GPU используете. По моим тестам самая оптимизированная версия whisper.
В docker можно подключить volume там, где загружается модель. При следующем запуске модель скачивать не нужно.
Пишем свой voice-to-text на Python: 4 бэкенда и батч-обработка голосовых