Luma AI представила Uni-1 – свою первую модель, в которой понимание изображений и их генерация объединены в единой архитектуре.

Подобно Nano Banana Pro от Google и GPT Image 1.5, модель Uni-1 построена на авторегрессионном трансформере – разновидности ИИ-моделей, которые создают содержимое последовательно, токен за токеном, а не “вытягивают” изображение из шума, как это делают классические диффузионные модели. И текст, и изображения проходят через один и тот же конвейер обработки, что позволяет системе работать с ними как с элементами единой структуры.

По словам разработчиков, модель умеет рассуждать над запросом ещё до начала генерации и прямо в её процессе: она разбирает сложные инструкции на части и заранее продумывает композицию сцены. Такой подход, как правило, заметно повышает точность следования запросу – и Uni-1 здесь не стала исключением. Например, модель способна взять несколько разных фотографий и собрать из них новую композицию.

Несколько обычных фотографий домашних питомцев были объединены в сцену. Промпт: Объедините чёрно-белую кудрявую собаку с розовой банданой, бостон-терьера в клетчатой шлейке и чёрно-белого кота в одной сцене – пусть они будут одеты в академические мантии и стоят перед доской, заполненной научными диаграммами и текстом, а в левом верхнем углу разместите логотип Luma AI.
Несколько обычных фотографий домашних питомцев были объединены в сцену. Промпт: Объедините чёрно-белую кудрявую собаку с розовой банданой, бостон-терьера в клетчатой шлейке и чёрно-белого кота в одной сцене – пусть они будут одеты в академические мантии и стоят перед доской, заполненной научными диаграммами и текстом, а в левом верхнем углу разместите логотип Luma AI.

Помимо базовой генерации, Uni-1 умеет уточнять и дорабатывать изображение в ходе нескольких сообщений диалога, при этом сохраняя контекст предыдущих запросов. Модель также может преобразовывать изображения более чем в 76 художественных стилей, принимать на вход эскизы и визуальные подсказки, а ещё переносить личности, позы и композиции из референсных фотографий в новые изображения.

В одном из демонстрационных примеров модель создала последовательность изображений из одного исходного кадра, постепенно “старя” пианиста – от детства до глубокой старости.

Используя всего одно исходное изображение, Uni-1 создаёт последовательность кадров, в которой пианист проходит путь от детства до старости. При этом камера остаётся на том же месте, а сцена сохраняет полную визуальную непрерывность
Используя всего одно исходное изображение, Uni-1 создаёт последовательность кадров, в которой пианист проходит путь от детства до старости. При этом камера остаётся на том же месте, а сцена сохраняет полную визуальную непрерывность

По данным Luma, модель показала наивысший результат в тесте RISEBench, оценивающем логическое понимание изображений. Она лишь немного, но всё же опередила Nano Banana 2 и GPT Image 1.5. Более того, способность генерировать изображения повышает и уровень визуального понимания модели. Например, в задаче распознавания объектов Uni-1 почти достигает уровня Gemini 3 Pro от Google. Также модель поддерживает несколько языков.

Uni-1 возглавляет общий рейтинг RISEBench, немного опережая Nano Banana 2 и GPT Image 1.5 – текущую модель генерации изображений, используемую в ChatGPT
Uni-1 возглавляет общий рейтинг RISEBench, немного опережая Nano Banana 2 и GPT Image 1.5 – текущую модель генерации изображений, используемую в ChatGPT

Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 300 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!