Comments 1
Я бы еще отметил один неочевидный нюанс при варианте со своим оборудованием, который может сильно просадить сроки окупаемости и вообще любые сроки. Если компания решается закупить железо за кучу миллионов, значит компания чаще более менее крупная с приличным штатом разработчиков. А значит и далеко не одной командой, которых будут просить переносить на ИИ рельсы внутренние бизнес-процессы или различные разрабатываемые продукты. А это это значит, что ты не будешь единственным пользователем этого сервера. А значит нужна отдельная команда, которая будет рулить правами доступа, регламентом обращений, балансировкой нагрузки и вот этим всем. А это значит что ты неделями будешь ждать пока эта команда соизволит обновить модель на сервере, поменять одну на другую, выложить обновленный python скрипт. А тебе это нужно делать десятки раз для проверки гипотез, сравнения эвалов и всего подобного.
Более того, эта самая команда в принципе не может разрешить тебе грузить сервер на 100%, ибо есть другие команды, которые должны иметь возможность получать ответы в чатике не через 5 минут… а у тебя наоборот пакетная дата-процессинговая нагрузка, которая должна положить сервер в полку на неделю, ибо клиент ждёт и тебе в лучшем случае выделят процентов 50 от ресурсов. Остальное просто будет простаивать в ожидании пришествия единичных юзеров. А более умную балансировку нагрузки писать некому и вообще непонятно как. Я вот устал ждать всего это… собрал у себя дома сервер с аналогичным железом (ну пусть на меньшем количестве карт), благо 48ГБ VRAM напихать достаточно недорого, а уже вполне достаточно для хотя бы тестирования на приличных моделях. И можно менять модели, эмбеддеры, реранкеры хоть по 10 раз на день в зависимости от целей, условий, сложности промптов текущей задачи. Ну либо да, облако, если личного авантюризма не хватает. И уже финальные комбинации оттестированные и оптимизированные просить собирать на корпоративном сервере.
Сколько на самом деле стоит GenAI в продакшене