Comments 20
К сожалению точные данные замеров в процессе написания были утеряны, в отличие от первого поста где LLM тестировал. В следующем посте упомяну параллельно.
Сколько памяти и CPU должно быть у vps, чтобы это решение взлетело? Без этого непонятно, насколько оно рентабельно и, соответственно, жизнеспособно.
Конфигурация VPS для всех экспериментов остаётся незименной в рамках этого цикла с первого поста -
Ядер берём 4, хотя хотелось бы и побольше. Впрочем, всего хотелось бы побольше, но тогда уже не поместимся в 5000 рублей в месяц. А вот оперативки не жалеем и берём на весь оставшийся бюджет 12 гигабайт. ОС берём, конечно, Linux. За неимением возможности поставить свой ISO-шник выбираю CentOS — RPM-дистрибутивы мне почему-то нравятся больше, чем Debian и его отпрыск Ubuntu.
Спасибо!
Выглядит дороговато.
Для рядового пользователя есть варианты проще/дешевле:
- Через Yandex Cloud можно за 5 т.р. в месяц распознать 138 часов звука (по копейке за секунду) с довольно высокой скоростью, это 6 часов аудио каждый рабочий день.
- По цене трёх месяцев такого VPS можно купить б/у GTX 1080 Ti с 11 ГБ RAM и (при наличии остального десктопного компа) транскрибировать аудиозаписи со скоростью 10x (для модели Whisper medium).
У меня на домашнем вечновключённом компе крутится телеграм-бот с функциями транскрибации и ocr. Иногда думаю вынести его на хостинг, но не могу найти достаточно аргументов 😁
Скажите пожалуйста, бот самописный или вы брали какое-то готовое решение?
Для меня он самописный, для других - готовое решение: https://github.com/dimonier/tg2obsidian
Чем делаете ocr?
могу поделиться своими данными.
модели whisper-large-v3 и тюнингованной для русского языка(ссылки в конце).
аудиофайл 8 мин, на русском языке, 128 кбит/сек
Тестовый стенд: amd r9 7950x 16 core (32 logic proc )/ 64 Gb ram / nvidia 4090 24 gb vram
large-v3 на cpu: ram 12 Гб, утилизация cpu >60%, ~16 мин транскрибация
large-v3 на gpu: ram 10 Гб, утилизация cpu <10%, утилизация gpu 10 gb, ~2.5 мин
large-v3-rus на cpu: ram 12 Гб, утилизация cpu >60%, ~2 мин
large-v3-rus на gpu: ram 10 Гб, утилизация cpu <10%, утилизация gpu 10 gb, ~7 сек
качество транскрибации на large-v3 - хорошее
качество транскрибации на large-v3-rus - отличное
OpenAI Whisper https://huggingface.co/openai/whisper-large-v3
Тюнингованная модель OpenAI Whisper https://huggingface.co/antony66/whisper-large-v3-russian/tree/main
Спасибо! Интересные данные.
Жаль конечно что 4090 Хуанг зажал VRAM, мог бы и побольше, чем у предшественника 3090 отсыпать.
Впрочем, если сливы по 5000 поколению верны, атракцион невиданной не-щедрости продолжится и дальше.
Я правильно понимаю, что для тюнингованного виспера потребуется минимум 10ГБ на GPU?
Будто бы проще exolve api подрубить, но вариантов нынче достаточно)
Как считаете, описанный кейс можно эксплуатировать на Raspberry Pi 5 (ARM Cortex-A76 4*2.4 ГГц 8 ГБ ram)?
>docker pull fedirz/faster-whisper-server
Using default tag: latest
Error response from daemon: manifest for fedirz/faster-whisper-server:latest not found: manifest unknown: manifest unknown
Поднимаем в облаке расшифровку речи в текст с помощью нейросетей. VPS на пределе возможностей