Зависит от оболочки для запуска и установленного макс контекста.
Open webui с ollama есть гораздо больше памяти, лм студии меньше, но в любом случае, максимальный контекст даже для лм студии не больше 40-50 токенов для 12б 4км модели. Больший контекст не влазит в 24 гб памяти и после этого происходит значительный дроп производительности.
Попробовал 12б 6км - 40 токенов и есть ещё запас по памяти, думаю 8 бит потянет. Но ничем выдающимся не отличается, только поддержка русского на высоте.
Спасибо за интересный тест. Почему такая низкая скорость инференса, если вся модель влезла в vram? Какого компонента не хватает системе для инференса хотя бы на уровне 10т\с?
Ребята, спасибо за крутую идею! Как раз такая сейчас стоит задача в цехе и потом примерно к тем же мыслям - что ллм здесь излишне применять. А есть код или пример похожей реализации где-нибудь на github? Задача прямо 1 в 1.
Очень хорошее базовое руководство по выходу из начального выгорания для менеджеров. Можно бесконечно детализировать различными инструментами, но рабочая основа уже есть. Забрал.
Зацикливание кстати очень часто происходит, даже далеко от границы достижения макс токенов
Зависит от оболочки для запуска и установленного макс контекста.
Open webui с ollama есть гораздо больше памяти, лм студии меньше, но в любом случае, максимальный контекст даже для лм студии не больше 40-50 токенов для 12б 4км модели. Больший контекст не влазит в 24 гб памяти и после этого происходит значительный дроп производительности.
и gpu? И какое время инференса на обеих моделях?
Попробовал 12б 6км - 40 токенов и есть ещё запас по памяти, думаю 8 бит потянет. Но ничем выдающимся не отличается, только поддержка русского на высоте.
27b 4_k_m на 3090 "летит" со скоростью 2,5 токена в сек. То есть неюзабельно.
Согласен, это весомые риски. Держим в голове обязательно 👍
Спасибо за интересный тест. Почему такая низкая скорость инференса, если вся модель влезла в vram? Какого компонента не хватает системе для инференса хотя бы на уровне 10т\с?
Ребята, спасибо за крутую идею! Как раз такая сейчас стоит задача в цехе и потом примерно к тем же мыслям - что ллм здесь излишне применять. А есть код или пример похожей реализации где-нибудь на github? Задача прямо 1 в 1.
Очень хорошее базовое руководство по выходу из начального выгорания для менеджеров. Можно бесконечно детализировать различными инструментами, но рабочая основа уже есть. Забрал.