Luma AI представила Uni-1 – свою первую модель, в которой понимание изображений и их генерация объединены в единой архитектуре.
Подобно Nano Banana Pro от Google и GPT Image 1.5, модель Uni-1 построена на авторегрессионном трансформере – разновидности ИИ-моделей, которые создают содержимое последовательно, токен за токеном, а не “вытягивают” изображение из шума, как это делают классические диффузионные модели. И текст, и изображения проходят через один и тот же конвейер обработки, что позволяет системе работать с ними как с элементами единой структуры.
По словам разработчиков, модель умеет рассуждать над запросом ещё до начала генерации и прямо в её процессе: она разбирает сложные инструкции на части и заранее продумывает композицию сцены. Такой подход, как правило, заметно повышает точность следования запросу – и Uni-1 здесь не стала исключением. Например, модель способна взять несколько разных фотографий и собрать из них новую композицию.

Объедините чёрно-белую кудрявую собаку с розовой банданой, бостон-терьера в клетчатой шлейке и чёрно-белого кота в одной сцене – пусть они будут одеты в академические мантии и стоят перед доской, заполненной научными диаграммами и текстом, а в левом верхнем углу разместите логотип Luma AI.Помимо базовой генерации, Uni-1 умеет уточнять и дорабатывать изображение в ходе нескольких сообщений диалога, при этом сохраняя контекст предыдущих запросов. Модель также может преобразовывать изображения более чем в 76 художественных стилей, принимать на вход эскизы и визуальные подсказки, а ещё переносить личности, позы и композиции из референсных фотографий в новые изображения.
В одном из демонстрационных примеров модель создала последовательность изображений из одного исходного кадра, постепенно “старя” пианиста – от детства до глубокой старости.

По данным Luma, модель показала наивысший результат в тесте RISEBench, оценивающем логическое понимание изображений. Она лишь немного, но всё же опередила Nano Banana 2 и GPT Image 1.5. Более того, способность генерировать изображения повышает и уровень визуального понимания модели. Например, в задаче распознавания объектов Uni-1 почти достигает уровня Gemini 3 Pro от Google. Также модель поддерживает несколько языков.

Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 300 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!
