Комментарии 4
Инференс выполняется со скоростью ≈ 1 сек на шаг (токен), что достаточно для чат-ботов и других интерактивных приложений.
Ну во-первых, я считаю, что токен в секунду для интерактивных приложений - мало (пользователь не хочет ждать 30 секунд на генерацию SQL-запроса из 30 токенов).
А во-вторых, как это масштабируется? Если я начинаю параллельно задавать запросы, у меня все так же сохраняется токен в секунду?
И какой там порог вхождения? За неделю работы древней видеокарты с одним гигом можно купить пару часов обучения нейросети, требующего 16 гигов видеопамяти? А за две недели работы встроенного графического ядра?
Если да, то почему Stable Diffusion в его локальной ипостаси не может работать на встроенных ядрах, не умеющих CUDA? Памяти, насколько я знаю, там можно выделить море (окно доступа к ней, правда, ограничено, но…) Распределённо запустить можно, а локально никаких библиотек-прокладок «до чистого GLSL» нет? Неужели это сложнее, чем распределённые вычисления?
Если нет, то зачем такое счастье? Имея видеокарту с 16 гигами, я лучше локально всё буду делать. Да, я понимаю, «вдруг захочется быстро погонять на 8 видеокартах, а тут как раз очки накопились». Но только они вряд ли накопятся — своими экспериментами карта будет достаточно загружена.
Короче, ни черта я уже не понимаю. Отстал вконец от жизни.
почему Stable Diffusion в его локальной ипостаси не может работать на встроенных ядрах,
Может даже просто на CPU. Но скорость очень не порадует, учитывая что сложные запросы даже на RTX4090 могут по несколько минут выполнятся.
Но только они вряд ли накопятся — своими экспериментами карта будет достаточно загружена.
Но можно во копить очки пока не занимаешься экспериментами, а потом когда будет вдохновение прийти и генерить по картинке в секунду, а не смотреть на прогресбар по минуте.
Один ньюанс - Stable Horde (которая уже давно - AI Horde) это НЕ только Stable Diffusion. это еще и генерация текстов(LLM-модели)
Системы ИИ в p2p-формате: будущее ChatGPT, Midjourney, Copilot