Pull to refresh

Comments 20

UFO landed and left these words here

К сожалению точные данные замеров в процессе написания были утеряны, в отличие от первого поста где LLM тестировал. В следующем посте упомяну параллельно.

Сколько памяти и CPU должно быть у vps, чтобы это решение взлетело? Без этого непонятно, насколько оно рентабельно и, соответственно, жизнеспособно.

Конфигурация VPS для всех экспериментов остаётся незименной в рамках этого цикла с первого поста -

Ядер берём 4, хотя хотелось бы и побольше. Впрочем, всего хотелось бы побольше, но тогда уже не поместимся в 5000 рублей в месяц. А вот оперативки не жалеем и берём на весь оставшийся бюджет 12 гигабайт. ОС берём, конечно, Linux. За неимением возможности поставить свой ISO-шник выбираю CentOS — RPM-дистрибутивы мне почему-то нравятся больше, чем Debian и его отпрыск Ubuntu.

Спасибо!
Выглядит дороговато.
Для рядового пользователя есть варианты проще/дешевле:

- Через Yandex Cloud можно за 5 т.р. в месяц распознать 138 часов звука (по копейке за секунду) с довольно высокой скоростью, это 6 часов аудио каждый рабочий день.

- По цене трёх месяцев такого VPS можно купить б/у GTX 1080 Ti с 11 ГБ RAM и (при наличии остального десктопного компа) транскрибировать аудиозаписи со скоростью 10x (для модели Whisper medium).

Пожалуйста!
Вам спасибо за прочтение и что ссылкой на ваш проект по расшифровке на Гитхабе поделились!

У меня на домашнем вечновключённом компе крутится телеграм-бот с функциями транскрибации и ocr. Иногда думаю вынести его на хостинг, но не могу найти достаточно аргументов 😁

Скажите пожалуйста, бот самописный или вы брали какое-то готовое решение?

могу поделиться своими данными.
модели whisper-large-v3 и тюнингованной для русского языка(ссылки в конце).
аудиофайл 8 мин, на русском языке, 128 кбит/сек
Тестовый стенд: amd r9 7950x 16 core (32 logic proc )/ 64 Gb ram  / nvidia 4090 24 gb vram
large-v3 на cpu: ram 12 Гб, утилизация cpu >60%, ~16 мин транскрибация
large-v3 на gpu: ram 10 Гб, утилизация cpu <10%, утилизация gpu 10 gb, ~2.5 мин
large-v3-rus на cpu: ram 12 Гб, утилизация cpu >60%, ~2 мин
large-v3-rus на gpu: ram 10 Гб, утилизация cpu <10%, утилизация gpu 10 gb, ~7 сек
качество транскрибации на large-v3 - хорошее
качество транскрибации на large-v3-rus - отличное

OpenAI Whisper https://huggingface.co/openai/whisper-large-v3

Тюнингованная модель OpenAI Whisper https://huggingface.co/antony66/whisper-large-v3-russian/tree/main

Спасибо! Интересные данные.
Жаль конечно что 4090 Хуанг зажал VRAM, мог бы и побольше, чем у предшественника 3090 отсыпать.
Впрочем, если сливы по 5000 поколению верны, атракцион невиданной не-щедрости продолжится и дальше.

Я правильно понимаю, что для тюнингованного виспера потребуется минимум 10ГБ на GPU?

на 8 Гб vram 3070 будет работать, сейчас проводим тесты для определения оптимальной конфигурации под наши нужды

Будто бы проще exolve api подрубить, но вариантов нынче достаточно)

Как считаете, описанный кейс можно эксплуатировать на Raspberry Pi 5 (ARM Cortex-A76 4*2.4 ГГц 8 ГБ ram)?

В RAM маленький Whisper по идее должен влезть, но на счёт скорости инференса меня терзают сомнения.

>docker pull fedirz/faster-whisper-server
Using default tag: latest
Error response from daemon: manifest for fedirz/faster-whisper-server:latest not found: manifest unknown: manifest unknown

Sign up to leave a comment.