Если я правильно понял из скрина - это арена вихрей arena-general-auto. В своей статье мы репортим другую метрику - arena-hard-auto, она основана на другом наборе промптов
Для понимания ограничений проще воспользоваться моделями к которым можно получить доступ через API например YandexGPT, GigaChat, Openai
Этот релиз скорее предназначен для компаний которые хотят запускать продукты на LLM и обладают инженерным ресурсом чтобы такое запустить, замерить качество и дообучить при необходимости
Хотя ничего не мешает энтузиастам пробовать эти модели для своих задач
Для инференса в bf16, 4k токенов в контексте с батчом 1 нужно:
1. T-lite ~ 27GB (3090/4090 должно хватать с чуть меньшим контекстом)
2. T-pro ~ 81GB (1 A100/H100 80gb)
Для того, чтобы рассчитать необходимое количество памяти под свою задачу, можете использовать калькуляторы типа этого: https://github.com/manuelescobar-dev/LLM-Tools
Кванты для инференса на более слабом железе выложим позже
Мы не тюним модели в квантованном виде, если есть ресурсы возможно лучше тюнить в полной точности, если нет то уже как получится
Пока решили поставить прочерки и вместе с командой Гигачата перепрогнать корректно для них, обновим метрику чуть позже
Если я правильно понял из скрина - это арена вихрей arena-general-auto. В своей статье мы репортим другую метрику - arena-hard-auto, она основана на другом наборе промптов
Для понимания ограничений проще воспользоваться моделями к которым можно получить доступ через API например YandexGPT, GigaChat, Openai
Этот релиз скорее предназначен для компаний которые хотят запускать продукты на LLM и обладают инженерным ресурсом чтобы такое запустить, замерить качество и дообучить при необходимости
Хотя ничего не мешает энтузиастам пробовать эти модели для своих задач
Возможно интеграции появятся от каких-нибудь российских облаков
Веса моделей выложены в открытый доступ
Вы можете самостоятельно запустить на своих мощностях
Или на своем любимом облачном провайдере
Для инференса в bf16, 4k токенов в контексте с батчом 1 нужно:
1. T-lite ~ 27GB (3090/4090 должно хватать с чуть меньшим контекстом)
2. T-pro ~ 81GB (1 A100/H100 80gb)
Для того, чтобы рассчитать необходимое количество памяти под свою задачу, можете использовать калькуляторы типа этого: https://github.com/manuelescobar-dev/LLM-Tools
Кванты для инференса на более слабом железе выложим позже
Кванты будут
В конце этой недели или на следующей
Сравнивали оба варианта и выбрали поверх instruct моделей учить
.