Обновить

Собрал ИИ-бенчмарк под себя из 2 месяцев своих сессий — и дорогие модели проиграли дешёвым

Уровень сложностиПростой
Время на прочтение4 мин
Охват и читатели4.9K
Всего голосов 1: ↑0 и ↓1-1
Комментарии3

Комментарии 3

если работаешь с локальными моделями, то собственный бенчмарк - это в любом случае must have . я себе сделал 3 разных пакета : для тестов скорости (проверять различные кванты, длину контекста, форматы кэша и так далее), для “думающих” тестов для решения различных задач на логику и головоломки (проверять модели от различных энтузиастов/групп), отдельно расширенный тест для повседневных и бытовых агентских задач с возможностью объективной оценки при помощи “судьи” - топовой коммерческой модели типа опуса 4.8

последние недели прихожу к тому, что судью надо менять тоже на "локальную" версию типа GLM последнего, Минимакса и прочего, потому что есть определенный дрифт, который надо постоянно отслеживать с обновлениями Антропик/ОпенАИ

Что-то тут не сходится по-поводу "self-hosted" GLM-5.2 ("Карта инструментов"). Самая заквантизованная модель займёт никак не меньше 290GB. Тут одной-двумя RTX 4090 48GB никак не обойдёшься.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации