Институт искусственного интеллекта Аллена (Ai2) выпустил Tülu 3 405B — языковую модель с открытым исходным кодом, которая, как сообщается, по производительности соответствует или превосходит DeepSeek V3 и GPT-4o. Команда во многом объясняет этот успех новым подходом к обучению под названием RLVR.
![](https://habrastorage.org/getpro/habr/upload_files/d91/c5c/7b1/d91c5c7b116182d78b527e4a4c75c823.png)
Модель, созданная на основе Llama 3.1, использует «обучение с подкреплением с проверяемыми вознаграждениями» (RLVR), которое вознаграждает систему только в том случае, если она выдаёт проверяемые правильные ответы. По словам AI2, этот подход особенно хорошо подходит для математических задач, результаты которых можно легко проверить.
![](https://habrastorage.org/getpro/habr/upload_files/3b9/390/7c9/3b93907c9067f8b22cb997871fe16e6a.png)
«Обучение модели с 405 миллиардами параметров вывело нас на технический предел, потребовав 32 вычислительных узла с 256 графическими процессорами, работающими вместе. Каждый этап обучения занимал 35 минут, и команде пришлось использовать обходные пути, например вспомогательную модель меньшего размера, чтобы справиться с вычислительными нагрузками. Проект постоянно сталкивался с техническими трудностями, которые требовали постоянного внимания, — опыт, которым редко делятся компании, разрабатывающие аналогичные модели».
AI2 утверждает, что Tülu превосходит другие модели с открытым исходным кодом, такие как Llama 3.1 405B Instruct и Nous Hermes 3 405B, несмотря на то, что обучение пришлось завершить досрочно из-за нехватки вычислительных мощностей. Он также соответствует или превосходит по производительности DeepSeek V3 и GPT-4o.
В процессе обучения сочетались контролируемая тонкая настройка, прямая оптимизация предпочтений и RLVR — подход, схожий с обучением Deepseek R1, особенно в том, что, по мнению команды, обучение с подкреплением больше подходит для более крупных моделей.
Пользователи могут протестировать модель в AI2 Playground, код доступен на GitHub, а модели — на Hugging Face.