1.5 года назад собирал для себя тоже для экспериментов и инференса своих моделей под ЦОД. Тоже пришлось возиться с башней. Поменял на меньшую притык в 1мм был зазор с башней. Но водянку в ЦОД не пускали. Но уже работает без перебоев уже год в ЦОД. Надо скоро пасты поменять и обслужит. С размерами было проблема тоже, с Китая было долго. По 70$ стоили райзера. По GPU RTX 4060 TI 16GB и RTX 3060 12GB
Но в основном для инференса 2х разных моделей так что vRAM был нормально.
Но думаю через пол года заменить их на 5060 16гб. По сравнению с арендой Tesla t4 у Яндекса окупили себя за 2-3 месяца
STT, VAD, Спикеры, Тайминг. (+LLM (свои модели обученные на пост обработку. Поддержка русского, английского и испанского только) нормализация и саммари, либо анализа по нужным характеристиками)
Цена за простую транскрибацию тоже в районе 80-100 за 1000мин.
Diarization + LLM ×3.
Сервис на продакшне. Используем как внутренний STT API.
Есть прямая транскрибация и batching (веб хук либо статус файла со скидкой)
Скорость от 90-140х
Определение языка, есть возможность до обучить модели под задачи бизнеса.
1.5 года назад собирал для себя тоже для экспериментов и инференса своих моделей под ЦОД. Тоже пришлось возиться с башней. Поменял на меньшую притык в 1мм был зазор с башней. Но водянку в ЦОД не пускали. Но уже работает без перебоев уже год в ЦОД. Надо скоро пасты поменять и обслужит. С размерами было проблема тоже, с Китая было долго. По 70$ стоили райзера. По GPU RTX 4060 TI 16GB и RTX 3060 12GB
Но в основном для инференса 2х разных моделей так что vRAM был нормально.
Но думаю через пол года заменить их на 5060 16гб. По сравнению с арендой Tesla t4 у Яндекса окупили себя за 2-3 месяца
Готов предложить API.
Модель на уровне Fireworks.
STT, VAD, Спикеры, Тайминг. (+LLM (свои модели обученные на пост обработку. Поддержка русского, английского и испанского только) нормализация и саммари, либо анализа по нужным характеристиками)
Цена за простую транскрибацию тоже в районе 80-100 за 1000мин.
Diarization + LLM ×3.
Сервис на продакшне. Используем как внутренний STT API.
Есть прямая транскрибация и batching (веб хук либо статус файла со скидкой)
Скорость от 90-140х
Определение языка, есть возможность до обучить модели под задачи бизнеса.