Sakana AI выпустили Fugu Ultra: японская LLM обходит часть западных флагманов / Хабр

Sakana AI основали в 2023 году Дэвид Ха и Лайон Джонс, экс-инженеры Google, причём Джонс входит в число восьми авторов оригинальной статьи про трансформеры. В апреле компания уже показывала Marlin: агента, который самостоятельно копает тему до 8 часов и выдаёт отчёт с презентацией.

Fugu стал их следующим продуктом с уже знакомой идеей «несколько моделей вместо одной». Но это не просто агрегатор поверх чужих API: сама Fugu остаётся небольшой языковой моделью, обученной вызывать другие LLM. То есть вместо того чтобы вручную прописывать механизмы, роли и рабочие процессы моделей, как это обычно делают, Sakana обучили модельку, которая решает, кого вызвать, в какой роли и с какими подзадачами, и делает это адаптивно под конкретный запрос.

Fugu Ultra работает иначе. Она генерирует на естественном языке целый workflow: делит задачу на подзадачи, распределяет их по нескольким моделям и сама может выступить одним из воркеров, то есть рекурсивно вызвать себя.

На бенчмарках Fugu Ultra обходит Opus 4.8 на LiveCodeBench. На GPQA-Diamond она выходит на уровень Mythos Preview. А вот на SWE-Bench Pro и Humanity's Last Exam впереди именно Fable 5.

Русскоязычное сообщество про AI в разработке

Друзья! Эту новость подготовила команда ТГК «AI for Devs» — канала, где мы рассказываем про AI-агентов, плагины для IDE, делимся практическими кейсами и свежими новостями из мира ИИ. Подписывайтесь, чтобы быть в курсе и ничего не упустить!