Pull to refresh
20
0
Send message

Мы не тюним модели в квантованном виде, если есть ресурсы возможно лучше тюнить в полной точности, если нет то уже как получится

Пока решили поставить прочерки и вместе с командой Гигачата перепрогнать корректно для них, обновим метрику чуть позже

Если я правильно понял из скрина - это арена вихрей arena-general-auto. В своей статье мы репортим другую метрику - arena-hard-auto, она основана на другом наборе промптов

Для понимания ограничений проще воспользоваться моделями к которым можно получить доступ через API например YandexGPT, GigaChat, Openai

Этот релиз скорее предназначен для компаний которые хотят запускать продукты на LLM и обладают инженерным ресурсом чтобы такое запустить, замерить качество и дообучить при необходимости

Хотя ничего не мешает энтузиастам пробовать эти модели для своих задач

Возможно интеграции появятся от каких-нибудь российских облаков

Веса моделей выложены в открытый доступ
Вы можете самостоятельно запустить на своих мощностях
Или на своем любимом облачном провайдере

Для инференса в bf16, 4k токенов в контексте с батчом 1 нужно:

1. T-lite ~ 27GB (3090/4090 должно хватать с чуть меньшим контекстом)

2. T-pro ~ 81GB (1 A100/H100 80gb)

Для того, чтобы рассчитать необходимое количество памяти под свою задачу, можете использовать калькуляторы типа этого: https://github.com/manuelescobar-dev/LLM-Tools

Кванты для инференса на более слабом железе выложим позже

Сравнивали оба варианта и выбрали поверх instruct моделей учить

Information

Rating
Does not participate
Registered
Activity