daniel_ivanov24 июн в 08:44

Собрал ИИ-бенчмарк под себя из 2 месяцев своих сессий — и дорогие модели проиграли дешёвым

Простой

4 мин

6.3K

Open source * Искусственный интеллект

Кейс

Комментарии 3

fortser 24 июн в 09:09

если работаешь с локальными моделями, то собственный бенчмарк - это в любом случае must have . я себе сделал 3 разных пакета : для тестов скорости (проверять различные кванты, длину контекста, форматы кэша и так далее), для “думающих” тестов для решения различных задач на логику и головоломки (проверять модели от различных энтузиастов/групп), отдельно расширенный тест для повседневных и бытовых агентских задач с возможностью объективной оценки при помощи “судьи” - топовой коммерческой модели типа опуса 4.8

daniel_ivanov 24 июн в 09:20

последние недели прихожу к тому, что судью надо менять тоже на "локальную" версию типа GLM последнего, Минимакса и прочего, потому что есть определенный дрифт, который надо постоянно отслеживать с обновлениями Антропик/ОпенАИ

wintermute2025 24 июн в 13:35

Что-то тут не сходится по-поводу "self-hosted" GLM-5.2 ("Карта инструментов"). Самая заквантизованная модель займёт никак не меньше 290GB. Тут одной-двумя RTX 4090 48GB никак не обойдёшься.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий