Комментарии 3
если работаешь с локальными моделями, то собственный бенчмарк - это в любом случае must have . я себе сделал 3 разных пакета : для тестов скорости (проверять различные кванты, длину контекста, форматы кэша и так далее), для “думающих” тестов для решения различных задач на логику и головоломки (проверять модели от различных энтузиастов/групп), отдельно расширенный тест для повседневных и бытовых агентских задач с возможностью объективной оценки при помощи “судьи” - топовой коммерческой модели типа опуса 4.8
Что-то тут не сходится по-поводу "self-hosted" GLM-5.2 ("Карта инструментов"). Самая заквантизованная модель займёт никак не меньше 290GB. Тут одной-двумя RTX 4090 48GB никак не обойдёшься.
Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Собрал ИИ-бенчмарк под себя из 2 месяцев своих сессий — и дорогие модели проиграли дешёвым