Nano Banana 2 vs ChatGPT: сравниваем эволюцию в генерации AI изображений за полгода / Хабр

Прошло полгода с момента релиза прорывной на тот момент генеративной модели от OpenAI и 5 месяцев с того момента, как я выложил статью 20+ кейсов с изображениями в ChatGPT. Или экономим 100,000₽+ на дизайнерах

В этой большой статье хочу показать то, как улучшилась генерация за это время

Прелюдия

Сразу с момента релиза у генераций ChatGPT были проблемы в этих направлениях ⤵️

Консистентная перегенерация лиц или других объектов, если хочется делать стабильно. На фоне этого было создано огромное кол-во стартапов, тот же higgsfield.ai со своим Soul ID
Плохой рендеринг шрифтов. Сильно лучше, чем у его прошлой версии — DALL·E, но всё ещё недостаточный для Production-уровня. Особенно с языками, отличными от английского
Плохая работа с несколькими нужными объектами на одном кадре, считай та же проблема консистентности.
Сложно делать мелкие доработки. Улучшил одно — сломалось другое
Отсутствие инструментов кадрирования — произвольное понимание размеров изображения и того, как и в какой пропорции оно должно быть вписано во фрейм, не позволяло создавать промо уровня продакшена

С этого момента вышли два больших релиза, которые наконец-то умеют делать то, с чем не мог справиться ChatGPT.

Эти два релиза — Nano Banana в конце августа, а затем Nano Banana 2 в конце ноября. Эти 🍌🍌🍌 как раз таки и решают те проблемы, которые были у ChatGPT.

Кстати, интересный note, Gemini в этот раз поступили нестандартно и перебили свою лучшую модель Nano Banana своей же Nano Banana 2.

Сейчас в AI мире принято перебивать своим релизом эффектный релиз конкурента, как в меме

Несколько важных уточнений

Я не пишу промпты каждого изображения, чтобы не раздувать статью до галактических масштабов. Если хотите сделать аналогичные сцены, то просто закиньте изображение в LLM и напишите:
1. "напиши промпт, которым было создано это изображение"
2. Или скиньте исходник в чат, попросите сгенерировать аналог и затем уже спросите, какой промпт для генерации использовал
В этой статье я не разбираю популярные генерации с Nano Banana, а хочу именно сравнить то, какие изменения произошли за пол года
Дальше в статье под 🤖 ChatGPT генерацией будет следовать генерация 🍌 Nano Banana 2 версии
Я старался сжать некоторые изображения, но не сжимал те, где хотел оставить возможность рассмотреть детали. Поэтому статья может быть немного тяжелой по трафику

А теперь к делу — посмотрим, как эволюционировала генерация изображений за эти пол года

Это будет полезно и для того, чтобы посмотреть на эволюцию генерации изображений, да и просто чтобы глянуть кейсы применения.

Вначале будут те примеры, с которыми и ChatGPT ещё в момент релиза справлялся на очень хорошем уровне 🦄

Смена стилей в рамках одной сцены

ChatGPT 🤖

Nano Banana 🍌

Генерация из реального объекта — фигурки динозавра — в изображение

Исходное фото ⤵️

ChatGPT 🤖

Nano Banana 🍌

А вот пример создания обложек для маркетплейса из моей реальной лампы

Исходное изображение ⤵️

ChatGPT 🤖

Nano Banana 🍌

Видно, как общий дизайн, композиция и шрифты стали лучше, но и у GPT были норм варианты

Но как мне кажется все, что не связано с реалистичными изображениями и с физикой реального мира — еще ChatGPT делал на хорошем уровне. Всякие обложки или изображения в разном стиле у него получались отлично

Поэтому я буду делать меньше акцента на примерах, которые связаны просто с иллюстрациями и стилем, а больше покажу разницу в примерах из реального мира, большого количества объектов и с текстом

А теперь давайте посмотрим на примеры, где Nano Banana стала сильно лучше, чем ChatGPT ⤵️⤵️⤵️

Пример №1 — генерация сложных изображений из фото

На примере выше мы генерировали изображения лампы из фото.

Поэтому я закинул фотку своего велосипеда и попросил добавить текст про вилку и про трансмиссию

Если всмотреться в изображения, то в деталях становится видно, как Nano banana лучше понимает внешний вид сложных объектов, таких как велосипед

На примере с лампой это было не так заметно, но на примере с велосипедом это стало уже сильно заметнее

ChatGPT 🤖

Nano Banana 🍌

Пример №2 — генерация большого количества объектов в 1 сцене

Для ChatGPT выбрал самолет, для 🍌— машину

ChatGPT 🤖

Nano Banana 🍌

Сцена посложнее

ChatGPT 🤖

Nano Banana 🍌

И сложность Ultra в исполнении Nano Banana 🍌🍌🍌

Промпт для генерации рюкзака
Сделай инфографику "Что должно быть в рюкзаке туриста при походе на 4 дня в горы (Портретная ориентация). Вид сверху на вещи, разложенные на полу + надписи и вес каждой вещи примерно

Пример №3 — как улучшилась работа с кириллицей

У ChatGPT до сих пор в русских словах английские буквы проскакивают

ChatGPT 🤖

Nano Banana 🍌

Как видно, Nano Banana 2 сильно прокачалась в работе со шрифтами. Я еще дальше это покажу, но вот вам пример поговорки кириллицей курсивной, встроенной в рельеф сцены

Пример №4 — консистентность лиц и их реалистичность

Этот пример актуален не только для лиц, но и вообще для всех объектов в кадре. ChatGPT их каждый раз создает с нуля, и не всегда 1 в 1

ChatGPT 🤖

Nano Banana 🍌

Видно, что все остальные детали у бананы не меняются

Пример №5 — генерация сцены с мелкими деталями

Покажу на примере сета иконок из придуманного мной маскота

ChatGPT 🤖

Nano Banana 🍌

Пример №6 — создание текстовых каруселей

ChatGPT 🤖

Nano Banana 🍌

Тут он сделал мозаику, а не в одну карточку все засунул. Поэтому я нарезал результат и получились разные размеры

Но не считая этого косяка — карусельки очень хорошо теперь получаются, как на английском, так и на русском. Чуть поиграться с кадрированием и примеры ему закинуть, и вообще отлично будет

Пример №7 — создание инфографики и слайдов для презентаций

ChatGPT 🤖

Nano Banana 🍌

Следующие генерации хорошо получались и у ChatGPT, и у Banana

Изменение обустройства квартиры

Промпт примерно одинаковый — поменяй диван на розовый и поставь крейзи лампу

ChatGPT 🤖

Видно, что инструкцию выполнил хорошо, но поменял дизайн комнаты в деталях

Nano Banana 🍌

Тут все супер, ничего кроме задания не изменилось

Ну и че бы не сделать видос 👽

Создание чеков или других документов

ChatGPT 🤖

Результат плюшевый, но сам копирайтинг вполне хорош

Nano Banana 🍌

Результат тут уже такого уровня, что можно и поверить

Создание меню

Исходное фото моей сковородки ⤵️

ChatGPT 🤖

Nano Banana 🍌

Следующие задания со звездочкой уже для всех

💢 Создание раскадровки из одного кадра

На входе даете картинку с промптом — получаете 9 вариантов в разных кинематографических ракурсах. Понравился один — напишите его название и банана отдаст вам его в высоком разрешении. Дальше закидываешь в любую видео-нейросеть как стартовый и финальный кадр — и готово.

Промпт

Analyze the entire composition of the input image. Identify ALL key subjects present (whether it's a single person, a group/couple, a vehicle, or a specific object) and their spatial relationship/interaction.

Generate a cohesive 3x3 grid "Cinematic Contact Sheet" featuring 9 distinct camera shots of exactly these subjects in the same environment.

You must adapt the standard cinematic shot types to fit the content (e.g., if a group, keep the group together; if an object, frame the whole object):

Row 1 (Establishing Context):

Extreme Long Shot (ELS): The subject(s) are seen small within the vast environment.

Long Shot (LS): The complete subject(s) or group is visible from top to bottom (head to toe / wheels to roof).

Medium Long Shot (American/3-4): Framed from knees up (for people) or a 3/4 view (for objects).

Row 2 (The Core Coverage): 4. Medium Shot (MS): Framed from the waist up (or the central core of the object). Focus on interaction/action. 5. Medium Close-Up (MCU): Framed from chest up. Intimate framing of the main subject(s). 6. Close-Up (CU): Tight framing on the face(s) or the "front" of the object.

Row 3 (Details & Angles): 7. Extreme Close-Up (ECU): Macro detail focusing intensely on a key feature (eyes, hands, logo, texture). 8. Low Angle Shot (Norm's Eye): Looking up at the subject(s) from the ground (imposing/heroic). 9. High Angle Shot (Bird's Eye): Looking down on the subject(s) from above.

Ensure strict consistency: The same people/objects, same clothes, and same lighting across all 9 panels. The depth of field should shift realistically (bokeh in close-ups).

A professional 3x3 cinematic storyboard grid containing 9 panels.

The grid showcases the specific subjects/scene from the input image in a comprehensive range of focal lengths.

Top Row: Wide environmental shot, full view, 3/4 cut. Middle Row: Waist-up view, chest-up view, Face/Front close-up. Bottom Row: Macro detail, Low Angle, High Angle.

All frames feature photorealistic textures, consistent cinematic color grading, and correct framing for the specific number of subjects or objects analyzed.

Исходное фото ⤵️

ChatGPT 🤖

Nano Banana 🍌

Ну и как пример применения, из 1 исходного кадра с помощью Nano Banana и Veo 3.1 у нас получилась раскадровка для вдохновения и вполне хороший видос на выходе, который если и для Production не подойдет, то как итоговое ТЗ оператору — вполне

Для видоса я попросил Nano Banana сгенерировать отдельно в хорошем качестве Low & High Angle, и затем засунул эти генерации в Veo 3.1

💢 Генерация комнаты по схеме сверху

Сама схема и стрелка, откуда смотрит человек

ChatGPT 🤖

Немного некорректно выбрал исходную точку, но понимание объектов в итоге вполне нормальное

Nano Banana 🍌

Лучше определил угол, откуда я просил сделать кадр. И детали сделал лучше

💢 Обратная генерация — сделать схему по виду из комнаты

Для вида из комнаты я создал генерацию квартиры и попросил на ее основе сделать схему

ChatGPT 🤖

Ему это задание всегда плохо давалось. За пол года ничего не изменилось, переход на модель 5.1 не помог

Nano Banana 🍌

Та часть, которую видно, достаточно хорошо отображена. Видно и туалет , и стол, и входную группу

💢 Сделать деталь по чертежу

ChatGPT понял форм-фактор, но сделал сильно хуже, чем Banana

ChatGPT 🤖

Nano Banana 🍌

А еще гляньте, как классно он вписал слово Основание в саму сцену. Я этого не просил, но все же

И вот еще от 🍌🍌🍌

Как итог

Я уже практически не генерирую изображения в ChatGPT. Nano Banana очень быстро стала №1 в этом направлении. Единственное, что иногда иллюстрации мне больше нравятся в ChatGPT как раз-таки из-за их плюшевого стиля. Банана часто пытается слишком реалистично даже иллюстрации рисовать, утяжеляя их лишними деталями

Задача	ChatGPT	Nano Banana	Вердикт
Иллюстрации, стиль	✅ Хорошо	✅ Хорошо	Оба норм
Кириллица в дизайне	⚠️ Так себе	✅ Отлично	Banana
Фото → продакшен	⚠️ Средне	✅ Отлично	Banana
Консистентные серии	❌ Плохо	✅ Отлично	Banana
Сложные сцены (5+ объектов)	❌ Плохо	✅ Хорошо	Banana

Получается, что мы стали еще ближе к Production Ready Images. Если в эру ChatGPT я, как дизайнер, пропустил бы в продакшен около 5% генераций в определенных узкоспециализированных задачах, то с Nano Banana 2 я пускал бы в прод уже около 70% задач

На что я смотрел при сравнивании двух моделей

Для каждой категории использовал одинаковые исходники и максимально близкие промпты. Критерии оценки:

Точность следования инструкции
Консистентность
Production-readiness — можно ли использовать без доработки
Время на получение приемлемого результата. Как в количестве попыток, так и во времени на 1 генерацию

Всего сделал 60+ генераций в каждой модели для написания этого поста

Немного про меня, раз вы уже досюда дочитали 🦄

Я несколько лет провожу воркшопы для RU компаний. Как онлайн, так и в Москве оффлайн. Чаще всего это интерактивы, к которые плотно вплетены юзкейсы для конкретных команд, а не шаблонные лекции.

И основное правило 80% практики и 20% теории

Основные запросы, которые я помогаю закрывать

Как создавать контент с AI и проходить стадию черновика кратно быстрее
Показать топ-менеджменту реальные кейсы внедрения AI в их работе
Построить систему работы с AI-инструментами для команды или даже для всей компании
Провести аудит: в каких бизнес процессах внедрение прикладного AI даст сильный буст, а где пока рано
Если вы хотите для себя понять, как и что можно делегировать AI, то тоже welcome

Мой контакт https://t.me/Ilya_Plv

🫡🫡🫡