Обновить
0
0

Пользователь

Отправить сообщение

Только вот в случае попытки запуска ллм смеси экспертов в 800 гб на домашнем компе правильнее представлять, что девочка в регистратуре, а врач в соседней области. Но вы конечно же можете проверить самостоятельно

Это не рабочий кейс.. У нас есть библиотека (744 млд весов), у нас появился вопрос и чтобы получить на него ответ нам нужна 1 книга (40 лярдов активных параметров). Чтобы её найти, нам предоставлен один библиотекарь. А чтобы этот библиотекарь мог нормально работать, вся библиотека должна находиться в здании, а не на складе в другом городе. То есть можно сказать, что да - запускают, но врят ли скорость генерации информации в +-1 токен в минуту можно считать удовлетворительной для чего бы то ни было

Абсолютно разделяю мнение - для агентной разработки ниже 8 бит лучше не опускаться. GLM-5 в 8 битном квантовании будет весить примерно 800 с небольшим гб, что врятли имеет смысл делать локально в частном порядке, т.к. самый дешевый техстек под это - 2 мак мини студио с 512 озу каждый, соединённые тандерболтами и синкнутые через exo cluster. И это 20 кбаксов по железу

Не нашёл информации квантованная версия или нет - тестировал ту, которая сейчас доступна бесплатно(!) в kilo code. Там же пока всё ещё доступны (только что проверил) kimi k2.5 и minimax 2.5. Для чистоты экспериментов можно выдернуть их из конфигов kilo и прикрутить в opencode.ai cli - там нет больших стартовых промптов (как в кило по работе с тулсами и ролями агентов) и возможно результаты будут отличаться

Субъективно glm 5 по уровню чуть хуже gemini 3 flash в кодинге, которая именно в кодинге неожиданно лучше gemini 3 pro. Разницу в качестве результата в зависимости от языка промпта на glm 5 я не наблюдал, но статистики пока мало

Как вариант - потому что он дико глючный

П.3. WeakEvent - потокобезопасность где??

Информация

В рейтинге
5 913-й
Зарегистрирован
Активность