bobastia Feb 23 at 09:15

Выжимаем максимум из моделей Whisper на Apple Silicon

Easy

6 min

8.4K

Machine learning * Python *

From sandbox

Comments 14

Wladradchenko Feb 23 at 11:31

Хорошая статья. Правда я не совсем понял вывод, что на низкий batch size в CPU должно быть быстрее:

«Была гипотеза, что на низких batch size на CPU транскрибация может быть быстрее, но это не так»

Поправьте меня, но чем больше batch size тем быстрее обработка и при этом больше нагрузка.

В аналогии, можно представить как размер пакета, чем он больше, тем больше в него можно положить, он становится тяжелее, но если сил хватает, то все вещи быстрее можно перенести из точки А в Б.

bobastia Feb 23 at 12:48

Здравствуйте, спасибо, что прочитали статью. Такая гипотеза возникла, потому что у CPU мало высокопроизводительных ядер, а у GPU - много низкопроизводительных (если упрощать). И при низком batch size могло получиться так, что ядер на CPU бы хватило, и они бы произвели вычисления быстрее, чем на GPU. Также, M1 - уникальный в каком-то смысле процессор, потому что на GPU выделяется всего 5-10 ватт, а на CPU 20-25, и CPU мог просто банально из-за более высокой мощности обогнать слабенькую видеокарту.

rukhi7 Feb 23 at 15:33

у меня есть такое, конечно радикальное, предложение сообществу Хабра:

всем у кого нет машины которая поддается машинному обучению ставить всем статьям создающим рекомендации по машинному обучению просто минус,

ну просто потому что, нафик они нужны эти статьи? По моему, выяснить сколько человек на Хабре действительно занимается обучением машин с ИИ, по моему, действительно интересный вопрос!

Так мы очень быстро увидим количество тех кому они все таки нужны, я надеюсь.

Как только появится первый минус я поддержу.

bobastia Feb 23 at 19:57

Здравствуйте, спасибо за ваш комментарий! В этом и суть данной статьи, что модель для транскрибации может на своем компьютере запустить почти любой человек, даже если слабая видеокарта. Если у вас есть файлы, которые вы бы хотели в текст перевести, вы можете это с легкостью сделать локально в пару строк кода)

vp7 Mar 1 at 09:48

Обучение занимается мало.

А интересуются или пользуются многие. Если у вас есть хоть сколько-нибудь современный комп (ему меньше 10 лет) или хотя бы мобильник не старше 5 лет, то пользоваться моделями вы уже можете. Видел даже хитрую штуку, которая запускала моделью в моём браузере (!!) на мобиле (!!! да-да, после загрузки отключил интернет и оно работало). Дальше вопрос только в скорости - на слабых машинах простые модели будут выдавать по слову в минуту, на крутых по 30 слов в секунду.

iwram Feb 23 at 16:20

Использую whisper третий год, стандартную среднюю модель, на моей видяхе rtx3060ti работает достаточно быстро. Использую консоль bash и есть поддержка wildcard т.е. можно указать в качестве источника директорию с аудио и программа по всем отработает. Также замечено, что можно mp4 с видео напрямую пихать, аудио само выделяется. Самые большие файлы были на 8 часов - вполне справляется. Никто не замеряет, сколько потребляет система электричества - в моем случае при нагрузке из розетки идет потребление 290-320 ватт\час, ну и математика простая - например 6 часовой доклад, потребовалось около 2х часов 600 ватт (3 рубля отдал электрикам).

В случае более легковесных vosk и другие потребление в разы ниже, но необходимо допиливать, если хочется знаков препинания и качества.

bobastia Feb 23 at 19:58

Здравствуйте, спасибо за комментарий! Я правильно понял, что у вас 6 часов аудио обрабатывается за 2 часа? Если это так, попробуйте WhisperX из статьи, он будет гораздо быстрее работать (и с более качественной моделью) + будет разделение по голосам и текст легче будет читать

gfiopl8 Feb 23 at 22:05

Не замечал как виспер теряет целые абзацы текста?

bobastia Feb 23 at 22:28

По моему опыту, он теряет абзацы в двух случаях:

на стыке чанков, как показано в статье;
если используется плохая voice activity detection (VAD) модель для оптимизации (сначала видео нарезается на фрагменты, где есть голос, и потом эти фрагменты прогоняются через whisper) - иногда VAD может посчитать абзац шумом и пропустить кусок текста

gfiopl8 Feb 23 at 23:33

Из за этого приходится другой движок использовать. Google Gemini или что-нибудь условно бесплатное типа deepgram nova (там дают 700 часов распознавания нахаляву при регистрации по емейлу). Deepgram распознает 3 часа беспрерывной речи за 1 минуту Ж)

Kwentin3 Feb 25 at 20:01

Тоже хотел сейчас только что написать про deepgram.👍

MrCrooK Feb 25 at 08:07

а есть speech to speech realtime модельки для перевода? ru - en - es
API предлагать не надо , их я итак знаю)

bobastia Feb 25 at 09:31

Опенсорс speech-to-speech пока что вообще ничего не умеет, сейчас люди пока что делают солянку из speech to text -> LLM -> text to speech

molnij Mar 14 at 07:20

Когда копал в эту сторону, еще находил https://github.com/ggerganov/whisper.cpp - вы его по какой-то причине отбросили, или просто не попался?