Search
Write a publication
Pull to refresh
4
0
Send message

Полезная статья! Сам думаю в опен-сорс что-то выложить

Не знал, что у них есть speech-to-text, думал, они больше по голосам специалисты) На Artificial Analysis он совсем недавно появился

Спасибо за комментарий, Роман! Закрепил ваш ответ

Согласен с Вами. Для каждого случая надо самому проверять, как модель работает

Со мной связался фаундер VseGPT, ошибки исправил, теперь все работает)

Спасибо! Закрепил Ваш комментарий)

Опенсорс speech-to-speech пока что вообще ничего не умеет, сейчас люди пока что делают солянку из speech to text -> LLM -> text to speech

По моему опыту, он теряет абзацы в двух случаях:

  1. на стыке чанков, как показано в статье;

  2. если используется плохая voice activity detection (VAD) модель для оптимизации (сначала видео нарезается на фрагменты, где есть голос, и потом эти фрагменты прогоняются через whisper) - иногда VAD может посчитать абзац шумом и пропустить кусок текста

Здравствуйте, спасибо за комментарий! Я правильно понял, что у вас 6 часов аудио обрабатывается за 2 часа? Если это так, попробуйте WhisperX из статьи, он будет гораздо быстрее работать (и с более качественной моделью) + будет разделение по голосам и текст легче будет читать

Здравствуйте, спасибо за ваш комментарий! В этом и суть данной статьи, что модель для транскрибации может на своем компьютере запустить почти любой человек, даже если слабая видеокарта. Если у вас есть файлы, которые вы бы хотели в текст перевести, вы можете это с легкостью сделать локально в пару строк кода)

Здравствуйте, спасибо, что прочитали статью. Такая гипотеза возникла, потому что у CPU мало высокопроизводительных ядер, а у GPU - много низкопроизводительных (если упрощать). И при низком batch size могло получиться так, что ядер на CPU бы хватило, и они бы произвели вычисления быстрее, чем на GPU. Также, M1 - уникальный в каком-то смысле процессор, потому что на GPU выделяется всего 5-10 ватт, а на CPU 20-25, и CPU мог просто банально из-за более высокой мощности обогнать слабенькую видеокарту.

А можете побольше рассказать про архитектуру модели? Почему не использовали сверточные сети, работа же, как я понял с картинками

Information

Rating
Does not participate
Registered
Activity