Comments 14
Хорошая статья. Правда я не совсем понял вывод, что на низкий batch size в CPU должно быть быстрее:
«Была гипотеза, что на низких batch size на CPU транскрибация может быть быстрее, но это не так»
Поправьте меня, но чем больше batch size тем быстрее обработка и при этом больше нагрузка.
В аналогии, можно представить как размер пакета, чем он больше, тем больше в него можно положить, он становится тяжелее, но если сил хватает, то все вещи быстрее можно перенести из точки А в Б.
Здравствуйте, спасибо, что прочитали статью. Такая гипотеза возникла, потому что у CPU мало высокопроизводительных ядер, а у GPU - много низкопроизводительных (если упрощать). И при низком batch size могло получиться так, что ядер на CPU бы хватило, и они бы произвели вычисления быстрее, чем на GPU. Также, M1 - уникальный в каком-то смысле процессор, потому что на GPU выделяется всего 5-10 ватт, а на CPU 20-25, и CPU мог просто банально из-за более высокой мощности обогнать слабенькую видеокарту.
у меня есть такое, конечно радикальное, предложение сообществу Хабра:
всем у кого нет машины которая поддается машинному обучению ставить всем статьям создающим рекомендации по машинному обучению просто минус,
ну просто потому что, нафик они нужны эти статьи? По моему, выяснить сколько человек на Хабре действительно занимается обучением машин с ИИ, по моему, действительно интересный вопрос!
Так мы очень быстро увидим количество тех кому они все таки нужны, я надеюсь.
Как только появится первый минус я поддержу.
Здравствуйте, спасибо за ваш комментарий! В этом и суть данной статьи, что модель для транскрибации может на своем компьютере запустить почти любой человек, даже если слабая видеокарта. Если у вас есть файлы, которые вы бы хотели в текст перевести, вы можете это с легкостью сделать локально в пару строк кода)
Обучение занимается мало.
А интересуются или пользуются многие. Если у вас есть хоть сколько-нибудь современный комп (ему меньше 10 лет) или хотя бы мобильник не старше 5 лет, то пользоваться моделями вы уже можете. Видел даже хитрую штуку, которая запускала моделью в моём браузере (!!) на мобиле (!!! да-да, после загрузки отключил интернет и оно работало). Дальше вопрос только в скорости - на слабых машинах простые модели будут выдавать по слову в минуту, на крутых по 30 слов в секунду.
Использую whisper третий год, стандартную среднюю модель, на моей видяхе rtx3060ti работает достаточно быстро. Использую консоль bash и есть поддержка wildcard т.е. можно указать в качестве источника директорию с аудио и программа по всем отработает. Также замечено, что можно mp4 с видео напрямую пихать, аудио само выделяется. Самые большие файлы были на 8 часов - вполне справляется. Никто не замеряет, сколько потребляет система электричества - в моем случае при нагрузке из розетки идет потребление 290-320 ватт\час, ну и математика простая - например 6 часовой доклад, потребовалось около 2х часов 600 ватт (3 рубля отдал электрикам).
В случае более легковесных vosk и другие потребление в разы ниже, но необходимо допиливать, если хочется знаков препинания и качества.
Здравствуйте, спасибо за комментарий! Я правильно понял, что у вас 6 часов аудио обрабатывается за 2 часа? Если это так, попробуйте WhisperX из статьи, он будет гораздо быстрее работать (и с более качественной моделью) + будет разделение по голосам и текст легче будет читать
Не замечал как виспер теряет целые абзацы текста?
По моему опыту, он теряет абзацы в двух случаях:
на стыке чанков, как показано в статье;
если используется плохая voice activity detection (VAD) модель для оптимизации (сначала видео нарезается на фрагменты, где есть голос, и потом эти фрагменты прогоняются через whisper) - иногда VAD может посчитать абзац шумом и пропустить кусок текста
Из за этого приходится другой движок использовать. Google Gemini или что-нибудь условно бесплатное типа deepgram nova (там дают 700 часов распознавания нахаляву при регистрации по емейлу). Deepgram распознает 3 часа беспрерывной речи за 1 минуту Ж)
а есть speech to speech realtime модельки для перевода? ru - en - es
API предлагать не надо , их я итак знаю)
Когда копал в эту сторону, еще находил https://github.com/ggerganov/whisper.cpp - вы его по какой-то причине отбросили, или просто не попался?
Выжимаем максимум из моделей Whisper на Apple Silicon