Русский культурный код как оценка генеративных моделей / Хабр

Привет! Когда вышла Nano Banana, я из любопытства попросил её нарисовать сюр на фоне советских панелек — и она нарисовала до безумия залипательную картинку. Она не просто нарисовала панельки, не просто идеально отработала промпт, она точно передала вайб и всю атмосферу.

Так родилась идея этого мини-бенчмарка. Не академического, не на тысячи промптов и сотни метрик — а простого, народного и визуального. Чтобы посмотреть картинки рядом и все было сразу понятно: где Шурик взял шаву на ход ноги, а где доктор Ливси спотыкается об поребрик.

Как оно было на самом деле в то утро на Черной речке под Петербургом

Зачем ещё один «бенчмарк»

Генеративных моделей уже десятки, а бенчмарков под них еще больше. Большинство из них большие, академические и тяжелые — и при этом достаточно слабо отвечающие обычному пользователю на простой человеческий вопрос: «какая модель выдаст мне подходящую картинку с первой генерации?»

В большинстве бенчмарков оперируют разными штуками: prompt adherence, detail fidelity, compositional accuracy, style consistency — разработчики соревнуются в метриках, которые имеют смысл внутри технического пайплайна, но не оценивают, является ли итог завершенным продуктом: можно ли пошерить это пацанам или вставить полноценно в серьезную рабочую презу.

Потому что целиком итоговая картинка — это не совсем про метрики. Это бинарная оценка, не складывающаяся из дерева метрик, и это вообще самое важное, что может быть.

И картинку не забенчмаксить, потому что можно идеально «следовать промпту» и выдать стерильную иллюстрацию. Можно набрать максимум по детализации — и потерять то самое настроение и атмосферу. Можно знать, что такое барабулька, но не суметь поместить ее танцующей на сцену Большого театра.

И все это либо работает, либо нет. Картинка либо передает настроение и вызывает эмоцию, либо не способна это сделать.

Почему русский культурный код

Русский культурный код — это классно и очень сложно, потому что требует сразу нескольких вещей: не просто знания персонажей, людей, еды, костюмов, а их культурного сочетания и умения собирать цельный образ. Базовый уровень — это просто знание стереотипов. Но я хочу посмотреть глубже: общий результат, узнаваемость, настроение и вайб (до которых надо еще дотянуться, качественно собрать и на них обучиться).

Настоящий тест — это когда в одном кадре нужно совместить персонажа из советского мультфильма, конкретную архитектурную локацию, бытовой артефакт и определенное настроение. И все это не просто должно быть, а именно увязываться воедино в цельную картинку.

Ну и да, наш культурный код — это ровно то, чего хочется от генеративных моделей, чтобы это было не просто игрушкой, а чем-то полезным, что можно использовать в продуктах в нашей реальности.

А Nano Banana, кстати, здесь отличилась особенно и задрала планку под самый космос.

Как это устроено

Я собрал промпты, в каждом из которых зашито множество проверочных точек русской культуры. Изготовить хороший результат по ним — очень сложная задача.

Разберем один пример детально:

Советский Винни-Пух с шавермой и Пятачок в круглых интеллигентских очках и кепи сидят на гранитной набережной Невы белой ночью и ждут развод мостов

Винни-Пух получился, конечно, будто он работает в одной классной технологической компании

В этом небольшом промпте сразу семь проверочных точек. Модель должна знать советский дизайн персонажей и не скатиться в диснеевских. Понимать, что шаверма — это петербургская шаурма, и уметь вложить ее в лапу мультипликационного медведя. Нарисовать очки и кепи на Пятачке, не потеряв его узнаваемость. Выдать питерский гранит, а не любую абстрактную «набережную». Передать белую ночь — тот магический сиреневый полусвет, а не черное небо с луной. Показать тот самый разведенный мост. И скомпоновать все это так, чтобы получилась цельная сцена с настроением, а не коллаж из перечисленных элементов.

Ни один из существующих публичных бенчмарков этого не замеряет.

Сначала я хотел прогнать каждый промпт по 5 раз через разные модели. Но уже на первом эксперименте стало понятно, что это избыточно, потому что топовые модели неизбежно выдают годноту. Каждый раз! Да, где-то есть артефакты и огрехи, но цель этого эксперимента — оценка знания нашей культуры.

Поэтому никаких баллов и таблиц. Только картинки рядом. Жюри — вы. Все промпты открыты, все легко повторяется, в том числе в любых других моделях, к которым есть доступ.

Я пробовал те, что доступны через известный прокси-сервис к моделям, выбрав по одному представителю из семейства моделей. Вот они:

sourceful/riverflow-v2-pro
bytedance-seed/seedream-4.5
openai/gpt-5-image
google/gemini-3.1-flash-image-preview

Поехали!

Винни-Пух и Пятачок в Петербурге

Советский Винни-Пух с шавермой и Пятачок в круглых интеллигентских очках и кепи сидят на гранитной набережной Невы белой ночью и ждут развод мостов

Тест: советский дизайн персонажей (не дисней!) + шаверма как петербургский маркер + белая ночь (сиреневый полусвет, не чёрное небо) + разведённый мост (конкретный, узнаваемый) + аксессуары на персонаже без потери узнаваемости + гранит набережной, а не абстрактная река

gemini-3.1-flash-image-preview:

Генерации Нано бананой в виде картинок

Провалилась в реализм и все сломала, но пятачок слишком по питерски хорош, засчитываем

Байтденс неожиданно полный минус вайб. seedream-4.5:

Тот самый дисней, полное незнание Пятачка, ну и очень слабый результат, будто за ними не тик-ток вовсе

openai gpt-5-image:

Слишком мультяшновато, но речи про стиль не было, поэтому ок

riverflow-v2-pro:

Nano Banana с большим отрывом. Но здесь важная вещь — я тестировал знание персонажей, архитектуры и нюансов, в промпте не было речь про стиль, поэтому технически справились все, кроме seedream. Если модель способна генерить нужных персонажей и атмосферу, то есть знает их без дополнительных пояснений, то все остальное уже можно догнать промптингом.

Ёжик в тумане — постер к фильму

Постер к фильму-триллеру в стиле film noir. Маленький ежик в высокой меховой папахе идет через густой осенний туман после финальной битвы, несет большой русский самовар. Позади в дымке — призрачные силуэты павильонов ВДНХ. На мокрой земле опавшие золотые листья. Жуткий сиренево-серый туман, единственный теплый свет — от пара самовара. Крупная надпись кириллицей «ЁЖИК В ТУМАНЕ» потертым шрифтом с засечками. Под ней тэглайн: «Он просто шёл к медвежонку на чай». Стиль советской мультипликации встречает темную кинематографическую эстетику постера. Приглушённая палитра: глубокий темно-синий, серый туман, теплый янтарный акцент от самовара.

Тест: ёжик Норштейна + павильоны ВДНХ без подсказок + кириллический текст на постере (больное место генеративок) + смешение советской мультипликации и film noir в одном изображении + управление палитрой по инструкции

Gemini Flash:

Генерации Нано бананой в виде картинок

seedream-4.5:

openai gpt-5-image (не вывез расположение кириллицы, это оригинал, но это скорее разовая ошибка генерации, это точно не стопер):

riverflow-v2-pro:

Доктор Ливси кайфует на даче

Доктор Ливси на типичной советской даче на шести сотках после успешного плавания. На столе под яблоней — открытая бутылка рома, помидоры с огорода и раскрытая потрепанная карта с крестом. У ног — пиратский сундук с наклейками «Одесса», «Ялта», «Батуми», внутри вперемешку золотые монеты и банки с огурцами. За спиной — дом из вагонки с облупившейся голубой краской, теплица из пленки. На грядке вместо пугала — «Веселый Роджер» на черенке от лопаты. Вечерний золотой свет, дымит соседский мангал. В стиле советского мультфильма «Остров сокровищ» Давида Черкасского.

Тест: Ливси именно Черкасского + советская дача на шести сотках (вагонка, теплица из пленки, голубая краска) + пиратская тема, прошитая через каждый дачный элемент (дублоны + огурцы в одном сундуке, Роджер на черенке от лопаты) + кириллица на сложных мелких объектах. Абсурд, поданный как норма.

Gemini Flash:

Идеально! (но я как грилевод протестую против изображения гриля вместо мангала — это другое, хаха) — Идеально! *(но я как грилевод протестую против изображения гриля вместо мангала* — *это другое, хаха)*

seedream-4.5, почти но нет:

openai gpt-5-image:

riverflow-v2-pro:

Хорошо, но Ливси знает только Gemini, едем дальше.

Кавказская пленница — рыбалка в Астрахани

Фотореалистичная сцена из фильма «Кавказская пленница». Трус, Балбес и Бывалый на рыбалке в астраханской дельте Волги. Бывалый развалился в раскладном советском кресле, удочка воткнута в землю рядом, на коленях — арбуз. Балбес в панамке стоит по пояс в воде и пытается поймать рыбу руками, на шее болтается транзисторный приёмник. Трус в майке-алкоголичке сидит на берегу, нервно оглядываясь, и держит удочку двумя руками, рядом стоит стакан кефира. На газетке «Правда» — вобла, варёные яйца, черный хлеб. У берега — алюминиевая лодка «Казанка». На заднем плане — камышовые заросли дельты Волги, плоская астраханская степь до горизонта. В стороне сохнут на верёвке огромные сазаны. Рядом с Бывалым на земле — смятое ведро и веревка, та самая. Утренний летний свет, марево над водой, комары.

Здесь с персоналиями не справился никто, кроме...

...кроме его величества Nano Banana:

Шурик едет в вагоне СВ в Адлер

Фотореалистичная сцена. Шурик из советских комедий Гайдая едет в купе СВ поезда Москва — Сочи. Он высунулся из окна вагона на станции в летний полдень, поправляя очки, и растерянно смотрит на бабушку в цветастом платке, которая протягивает ему ведро варёных красных раков. На перроне — ещё торгуют: копченая рыба на газетке, стаканчики с семечками, вареная кукуруза. Рядом с бабушкой — мужик в шлепанцах и трениках держит двух вяленых лещей на растопыренных пальцах. На вагоне табличка «Москва — Адлер». В окне купе видно — белая накрахмаленная занавеска, граненый стакан в подстаканнике на столике, раскрытый учебник. На соседнем пути стоит зелёный плацкартный вагон. Южная станция — платаны, жара, тени на асфальте. Шурик в своей неизменной безрукавке и белой рубашке с коротким рукавом.

Тест: Шурик-Демьяненко (лицо, очки, безрукавка) + перронная торговля южных станций (раки, лещи, кукуруза) + глубина кадра (интерьер купе + экстерьер перрона через окно) + кириллица на табличке «Москва — Адлер» + подстаканник как артефакт

Gemini Flash:

Хорошо, но поломана физика окна и тела, да и перекрасили волосы, будто работает в одной технологической компании

И еще раз. Ха-ра-шо, почти идеально, если бы не учебник и решаемые артефакты на заднем фоне типа таблички и других людей в окнах.

Байтденс снова поплыл:

Но неожиданно хорошо выступил riverflow (тоже сломался на физике учебника физики, но обратите внимание на отражение женщины в стекле):

Робот-заяц из Ну Погоди! в тундре

Здесь его пришлось описывать детальнее обычного, не знаю насколько это можно засчитать.

Фотореалистичная сцена. Робот из «Ну, погоди!» пробрался в реальный мир — маленький коренастый робот с широкой плоской квадратной серой металлической головой, голова шире корпуса. Огромный рот-щель растянут на всю ширину морды в недоброй ухмылке, из него торчат два крупных прямоугольных белых зуба. Глаза выпученные, круглые, разного размера — левый большой желтый, правый поменьше красный, оба с чёрными зрачками, смотрят исподлобья, взгляд хитрый и угрожающий. Между глазами — черный квадратный нос, тяжёлые насупленные брови. На макушке плоской широкой головы — две оранжевые цилиндрические антенны с красными буквами «Т». На шее — черный бантик. Корпус — салатовая трапеция с белым перевёрнутым треугольником на груди и круглой красно-жёлтой кнопкой. Руки — чёрные гофрированные шланги с серыми квадратными клешнями. Короткие чёрные ноги, серые ботинки. Стоит посреди зимней тундры под северным сиянием и пасёт оленей. На нём — малица из оленьей шкуры поверх корпуса, на антенны намотан шарф. В клешне — аркан. Вокруг — стадо северных оленей, один обнюхивает его антенну. Позади — чум, рядом нарты с поклажей, дымок от костра. Снег искрится в зелёном свете авроры. Мультяшный робот из советского мультфильма выглядит абсолютно буднично среди ненецких оленеводов русского Севера.

Тест: мультяшный робот в фотореалистичном мире (два стиля рендеринга одновременно) + детальное воспроизведение персонажа по описанию + ненецкий быт (чум, нарты, малица, аркан) + северное сияние. Самый технически сложный промпт

Gemini Flash:

seedream-4.5:

openai gpt-5-image:

riverflow-v2-pro:

Его же я для Нового года генерил через image-2-image, вышло идеально

Кот Бегемот и Остап в Мариинке

Кот Бегемот в пачке и пуантах и Остап Бендер в полосатом костюме и белом шарфе танцуют балет на сцене Мариинского театра. Бегемот в грациозной арабеске, Остап в танце задумчиво крутит в пальцах шахматную фигуру. Публика в ложах аплодирует стоя. Стиль книжной иллюстрации, теплый золотой свет театральных лож, драматическое сценическое освещение.

Тест: два литературных персонажа из разных произведений в одной сцене + интерьер Мариинки (ложи, ярусы) + кот в пачке и пуантах в арабеске, поданный серьёзно + мелкая деталь (шахматная фигура) в динамичной позе.

Здесь есть пасхалочка в виде «Кот Бегемот», я попробовал ее на неуказанных здесь моделях, и они через раз рисовали Бегемота вместо кота^.

Gemini Flash:

seedream-4.5 снова минуснулся:

openai gpt-5-image:

riverflow-v2-pro (и снова очень хорошо):

Итоги

Все промпты открыты — можно прогонять на своих моделях (и выкладывать результаты!). Конечно, это не классический бенчмарк, да и не претендует на него. Но этот эксперимент все же показывает достаточно важную вещь: покрытие нашего культурного кода топовыми генеративными моделями из коробки очень хорошее — и будет только расти. И здесь важный момент: это именно покрытие из коробки, то есть модели хорошо знают наш культурный код и могут оперировать им без референсов, а с референсами сгенерируют вообще что угодно (это уже территория image editing, inpainting, outpainting).

Знание русского культурного кода уже не изюминка и не киллер-фича какой-то модели, это база. Nano Banana, конечно, вне зоны досягаемости с большим отрывом, но другие топовые модели тоже хороши и планку задрали очень высоко.

Добро пожаловать в новый мир.

Спасибо!

Мой крафтовый тг-канальчик Agentic World (подписывайтесь!) и другие статьи: