Search
Write a publication
Pull to refresh
1
0
Send message

Зацикливание кстати очень часто происходит, даже далеко от границы достижения макс токенов

Зависит от оболочки для запуска и установленного макс контекста.

Open webui с ollama есть гораздо больше памяти, лм студии меньше, но в любом случае, максимальный контекст даже для лм студии не больше 40-50 токенов для 12б 4км модели. Больший контекст не влазит в 24 гб памяти и после этого происходит значительный дроп производительности.

и gpu? И какое время инференса на обеих моделях?

Попробовал 12б 6км - 40 токенов и есть ещё запас по памяти, думаю 8 бит потянет. Но ничем выдающимся не отличается, только поддержка русского на высоте.

27b 4_k_m на 3090 "летит" со скоростью 2,5 токена в сек. То есть неюзабельно.

Согласен, это весомые риски. Держим в голове обязательно 👍

Спасибо за интересный тест. Почему такая низкая скорость инференса, если вся модель влезла в vram? Какого компонента не хватает системе для инференса хотя бы на уровне 10т\с?

Ребята, спасибо за крутую идею! Как раз такая сейчас стоит задача в цехе и потом примерно к тем же мыслям - что ллм здесь излишне применять. А есть код или пример похожей реализации где-нибудь на github? Задача прямо 1 в 1.

Очень хорошее базовое руководство по выходу из начального выгорания для менеджеров. Можно бесконечно детализировать различными инструментами, но рабочая основа уже есть. Забрал.

Information

Rating
Does not participate
Registered
Activity