Comments / Profile of bobastia / Habr

на стыке чанков, как показано в статье;
если используется плохая voice activity detection (VAD) модель для оптимизации (сначала видео нарезается на фрагменты, где есть голос, и потом эти фрагменты прогоняются через whisper) - иногда VAD может посчитать абзац шумом и пропустить кусок текста

Выжимаем максимум из моделей Whisper на Apple Silicon

@bobastia Feb 23 at 19:58

Здравствуйте, спасибо за комментарий! Я правильно понял, что у вас 6 часов аудио обрабатывается за 2 часа? Если это так, попробуйте WhisperX из статьи, он будет гораздо быстрее работать (и с более качественной моделью) + будет разделение по голосам и текст легче будет читать

Выжимаем максимум из моделей Whisper на Apple Silicon

@bobastia Feb 23 at 19:57

Здравствуйте, спасибо за ваш комментарий! В этом и суть данной статьи, что модель для транскрибации может на своем компьютере запустить почти любой человек, даже если слабая видеокарта. Если у вас есть файлы, которые вы бы хотели в текст перевести, вы можете это с легкостью сделать локально в пару строк кода)

Выжимаем максимум из моделей Whisper на Apple Silicon

@bobastia Feb 23 at 12:48

Здравствуйте, спасибо, что прочитали статью. Такая гипотеза возникла, потому что у CPU мало высокопроизводительных ядер, а у GPU - много низкопроизводительных (если упрощать). И при низком batch size могло получиться так, что ядер на CPU бы хватило, и они бы произвели вычисления быстрее, чем на GPU. Также, M1 - уникальный в каком-то смысле процессор, потому что на GPU выделяется всего 5-10 ватт, а на CPU 20-25, и CPU мог просто банально из-за более высокой мощности обогнать слабенькую видеокарту.

Управляем компьютером жестами: создаем систему бесконтактного взаимодействия с ПК

@bobastia Feb 22 at 12:34

А можете побольше рассказать про архитектуру модели? Почему не использовали сверточные сети, работа же, как я понял с картинками