Привет! Когда вышла Nano Banana, я из любопытства попросил её нарисовать сюр на фоне советских панелек — и она нарисовала до безумия залипательную картинку. Она не просто нарисовала панельки, не просто идеально отработала промпт, она точно передала вайб и всю атмосферу.
Так родилась идея этого мини-бенчмарка. Не академического, не на тысячи промптов и сотни метрик — а простого, народного и визуального. Чтобы посмотреть картинки рядом и все было сразу понятно: где Шурик взял шаву на ход ноги, а где доктор Ливси спотыкается об поребрик.
Генеративных моделей уже десятки, а бенчмарков под них еще больше. Большинство из них большие, академические и тяжелые — и при этом достаточно слабо отвечающие обычному пользователю на простой человеческий вопрос: «какая модель выдаст мне подходящую картинку с первой генерации?»
В большинстве бенчмарков оперируют разными штуками: prompt adherence, detail fidelity, compositional accuracy, style consistency — разработчики соревнуются в метриках, которые имеют смысл внутри технического пайплайна, но не оценивают, является ли итог завершенным продуктом: можно ли пошерить это пацанам или вставить полноценно в серьезную рабочую презу.
Потому что целиком итоговая картинка — это не совсем про метрики. Это бинарная оценка, не складывающаяся из дерева метрик, и это вообще самое важное, что может быть.
И картинку не забенчмаксить, потому что можно идеально «следовать промпту» и выдать стерильную иллюстрацию. Можно набрать максимум по детализации — и потерять то самое настроение и атмосферу. Можно знать, что такое барабулька, но не суметь поместить ее танцующей на сцену Большого театра.
И все это либо работает, либо нет. Картинка либо передает настроение и вызывает эмоцию, либо не способна это сделать.
Русский культурный код — это классно и очень сложно, потому что требует сразу нескольких вещей: не просто знания персонажей, людей, еды, костюмов, а их культурного сочетания и умения собирать цельный образ. Базовый уровень — это просто знание стереотипов. Но я хочу посмотреть глубже: общий результат, узнаваемость, настроение и вайб (до которых надо еще дотянуться, качественно собрать и на них обучиться).
Настоящий тест — это когда в одном кадре нужно совместить персонажа из советского мультфильма, конкретную архитектурную локацию, бытовой артефакт и определенное настроение. И все это не просто должно быть, а именно увязываться воедино в цельную картинку.
Ну и да, наш культурный код — это ровно то, чего хочется от генеративных моделей, чтобы это было не просто игрушкой, а чем-то полезным, что можно использовать в продуктах в нашей реальности.
А Nano Banana, кстати, здесь отличилась особенно и задрала планку под самый космос.
Я собрал промпты, в каждом из которых зашито множество проверочных точек русской культуры. Изготовить хороший результат по ним — очень сложная задача.
Разберем один пример детально:
В этом небольшом промпте сразу семь проверочных точек. Модель должна знать советский дизайн персонажей и не скатиться в диснеевских. Понимать, что шаверма — это петербургская шаурма, и уметь вложить ее в лапу мультипликационного медведя. Нарисовать очки и кепи на Пятачке, не потеряв его узнаваемость. Выдать питерский гранит, а не любую абстрактную «набережную». Передать белую ночь — тот магический сиреневый полусвет, а не черное небо с луной. Показать тот самый разведенный мост. И скомпоновать все это так, чтобы получилась цельная сцена с настроением, а не коллаж из перечисленных элементов.
Ни один из существующих публичных бенчмарков этого не замеряет.
Сначала я хотел прогнать каждый промпт по 5 раз через разные модели. Но уже на первом эксперименте стало понятно, что это избыточно, потому что топовые модели неизбежно выдают годноту. Каждый раз! Да, где-то есть артефакты и огрехи, но цель этого эксперимента — оценка знания нашей культуры.
Поэтому никаких баллов и таблиц. Только картинки рядом. Жюри — вы. Все промпты открыты, все легко повторяется, в том числе в любых других моделях, к которым есть доступ.
Я пробовал те, что доступны через известный прокси-сервис к моделям, выбрав по одному представителю из семейства моделей. Вот они:
sourceful/riverflow-v2-pro bytedance-seed/seedream-4.5 openai/gpt-5-image google/gemini-3.1-flash-image-preview
Поехали!
Тест: советский дизайн персонажей (не дисней!) + шаверма как петербургский маркер + белая ночь (сиреневый полусвет, не чёрное небо) + разведённый мост (конкретный, узнаваемый) + аксессуары на персонаже без потери узнаваемости + гранит набережной, а не абстрактная река
gemini-3.1-flash-image-preview:
Генерации Нано бананой в виде картинок


Байтденс неожиданно полный минус вайб. seedream-4.5:
openai gpt-5-image:
riverflow-v2-pro:
Nano Banana с большим отрывом. Но здесь важная вещь — я тестировал знание персонажей, архитектуры и нюансов, в промпте не было речь про стиль, поэтому технически справились все, кроме seedream. Если модель способна генерить нужных персонажей и атмосферу, то есть знает их без дополнительных пояснений, то все остальное уже можно догнать промптингом.
Тест: ёжик Норштейна + павильоны ВДНХ без подсказок + кириллический текст на постере (больное место генеративок) + смешение советской мультипликации и film noir в одном изображении + управление палитрой по инструкции
Gemini Flash:
seedream-4.5:
openai gpt-5-image (не вывез расположение кириллицы, это оригинал, но это скорее разовая ошибка генерации, это точно не стопер):
riverflow-v2-pro:
Тест: Ливси именно Черкасского + советская дача на шести сотках (вагонка, теплица из пленки, голубая краска) + пиратская тема, прошитая через каждый дачный элемент (дублоны + огурцы в одном сундуке, Роджер на черенке от лопаты) + кириллица на сложных мелких объектах. Абсурд, поданный как норма.
Gemini Flash:
seedream-4.5, почти но нет:
openai gpt-5-image:
riverflow-v2-pro:
Хорошо, но Ливси знает только Gemini, едем дальше.
Здесь с персоналиями не справился никто, кроме...
...кроме его величества Nano Banana:
Тест: Шурик-Демьяненко (лицо, очки, безрукавка) + перронная торговля южных станций (раки, лещи, кукуруза) + глубина кадра (интерьер купе + экстерьер перрона через окно) + кириллица на табличке «Москва — Адлер» + подстаканник как артефакт
Gemini Flash:
И еще раз. Ха-ра-шо, почти идеально, если бы не учебник и решаемые артефакты на заднем фоне типа таблички и других людей в окнах.
Байтденс снова поплыл:
Но неожиданно хорошо выступил riverflow (тоже сломался на физике учебника физики, но обратите внимание на отражение женщины в стекле):
Здесь его пришлось описывать детальнее обычного, не знаю насколько это можно засчитать.
Тест: мультяшный робот в фотореалистичном мире (два стиля рендеринга одновременно) + детальное воспроизведение персонажа по описанию + ненецкий быт (чум, нарты, малица, аркан) + северное сияние. Самый технически сложный промпт
Gemini Flash:
seedream-4.5:
openai gpt-5-image:
riverflow-v2-pro:
Его же я для Нового года генерил через image-2-image, вышло идеально
Тест: два литературных персонажа из разных произведений в одной сцене + интерьер Мариинки (ложи, ярусы) + кот в пачке и пуантах в арабеске, поданный серьёзно + мелкая деталь (шахматная фигура) в динамичной позе.
Здесь есть пасхалочка в виде «Кот Бегемот», я попробовал ее на неуказанных здесь моделях, и они через раз рисовали Бегемота вместо кота.
Gemini Flash:
seedream-4.5 снова минуснулся:
openai gpt-5-image:
riverflow-v2-pro (и снова очень хорошо):
Все промпты открыты — можно прогонять на своих моделях (и выкладывать результаты!). Конечно, это не классический бенчмарк, да и не претендует на него. Но этот эксперимент все же показывает достаточно важную вещь: покрытие нашего культурного кода топовыми генеративными моделями из коробки очень хорошее — и будет только расти. И здесь важный момент: это именно покрытие из коробки, то есть модели хорошо знают наш культурный код и могут оперировать им без референсов, а с референсами сгенерируют вообще что угодно (это уже территория image editing, inpainting, outpainting).
Знание русского культурного кода уже не изюминка и не киллер-фича какой-то модели, это база. Nano Banana, конечно, вне зоны досягаемости с большим отрывом, но другие топовые модели тоже хороши и планку задрали очень высоко.
Добро пожаловать в новый мир.
Спасибо!
Мой крафтовый тг-канальчик Agentic World (подписывайтесь!) и другие статьи:
Разработка после разработчиков. Что оставит AI?
Когда лопнет пузырь AI?
Как я делаю своего голосового AI-ассистента: роботы пишут код и работают, когда я отдыхаю
Источник


