Pull to refresh

Comments 14

Добрый день. Спасибо за рекомендацию, попробую ее еще интегрировать

Wisper-cpp по моим тестам был на cpu на уровне gpu. Используется адаптированная модель под cpp

У меня в боте телеги сейчас работает от Сбера модель. Навайбкодил бота по статье и коду в блокноте

https://habr.com/ru/articles/979038/

Добрый день, отличный выбор для русскоязычных голосовых.

у меня Whisper т.к:

  1. Мультиязычность

  2. Качество на длинных аудио - Whisper лучше справляется с лекциями/подкастами >5 мин

  3. Экосистема - единый инструмент для всех задач (включая генерацию субтитров через сегменты)

Но надо добавить эту модель в роадмап

Когда идёшь по миру с молотком, то многое покажется гвоздями. Ведь можно просто перевести коммуникации в телеграм и запретить голосовые 💁

Добрый день, такая точка зрения имеет место быть, но реальность такова:

  1. Вы не контролируете всех собеседников -клиенты студии, родственники присылать голосовые независимо от ваших правил

  2. Голосовые имеют некоторые преимущества - для людей с нарушениями зрения(такой тренер кста есть), за рулем, и в других случаях когда надо быстро ответить, но нет возможности писать руками

  3. Инструмент не равно одобрение практики - антивирус не поощряет вирусы, а защищает от них 😊

Сервис не призыв к использованию голосовых, а инструмент для тех, кто вынужден с ними работать. Иногда проще конвертировать голосовые, чем объяснять 50 людям, почему они должны писать текстом

Да, это тоже верно. Плюс, я прекрасно понимаю желание прокачать свои скиллы на реальных задачах - это вполне уважаемо. Но тут главное не увлекаться)

Люди с нарушениями зрения прекрасно пользуются голосовым вводом, а эффект от запрета голосовых по соотношению результат/усилия может перекрыть всё вышенаписанное, ибо задача формулировалась как "Слушать их неудобно: нельзя быстро пробежаться глазами, найти нужный момент или процитировать".

С этой точки зрения ваш проект пока эту проблему не решает, так как всё равно быстро не получается - мессенджер, где пишут сообщения - отдельно, система распознавания - отдельно. На этом этапе по-прежнему статегически проще, дешевле и нативнее перейти в один мессенджер, просто запретив там собеседнику писать голосовые.

В итоге проект представляет из себя программу, которая используя разные источник для перевода, осуществляет это процесс в формат .srt? А реализацию своей модели не планировали реализовывать?

Добрый день, боюсь еще не совсем владею компетенциями чтобы писать свою модель, пока пользуюсь готовыми

Эта тема сейчас тренд. Я на днях попробовал voxtral для написания небольшого ответа размером в несколько страниц (навела не неё статья https://habr.com/p/993008/ ) и теперь хочу интегрировать подход в свои реалии. Голосовой ввод оказался эффективен при наличии плана на содержание спича. Защита данных решается покупкой отдельного ускорителя, за 15 - 20 тр на али доступны платы с 16 гб памяти предыдущего поколения.

Если правда для супруги - то это самый романтичный код )) ❤️‍🔥

Рассмотрите WhisperX если GPU используете. По моим тестам самая оптимизированная версия whisper.

В docker можно подключить volume там, где загружается модель. При следующем запуске модель скачивать не нужно.

Sign up to leave a comment.

Articles