Доброго времени суток, «Хабр»!
Не так давно у меня вышла статья о сравнении топовых моделей для генерации текста (к сожалению, на данный момент её уже нельзя назвать самой актуальной). И вот у меня возникла идея - провести аналогичное сравнение для новых моделей в сфере генерации изображений, ведь и эта ниша развивается бешеными темпами.
Сегодня в битве участвуют: Nano Banana Pro, SeeDream 4.5 и GPT-5 Image. Делайте ставки, а я приступаю к сравнению этих впечатляющих моделей.
Nano Banana Pro - нейросеть от Google для генерации изображений. Представлена в ноябре 2025 года.
Позиционируется как инструмент для профессиональной деятельности: создания сложных сцен, брендинга, диаграмм и рекламных материалов.
Возможности модели включают: генерацию изображений, работу с текстом на изображениях, компиляцию нескольких изображений в одно, создание раскадровок и серий картинок, интеграцию с поиском.
По сравнению с предыдущей версией, Nano Banana Pro улучшилась следующим образом: повысилось качество вывода, расширились возможности рассуждений и интеграции знаний, появился разборчивый многоязычный текст на изображениях, повышена управляемость до уровня студийной, значительно увеличилась производительность.
Предыдущая версия уже произвела фурор, а новая лишь укрепила ее лидерские позиции.
SeeDream 4.5 - обновленная модель для генерации и редактирования изображений от компании ByteDance.
Предыдущая версия возглавила оба лидерборда аналитической платформы Artificial Analysis с рейтингом ELO 1205, обойдя старую версию Nano Banana.
Ключевые улучшения версии 4.5 касаются скорости генерации, консистентности и работы с текстом. Кроме того, модель способна обработать сразу 15 референсных изображений одновременно, что помогает точнее контролировать стиль, персонажей и объекты при создании серий. Улучшилась также работа с типографикой: текст на постерах, упаковках и интерфейсах остается разборчивым даже в сложных композициях.
Еще одним важным усовершенствованием стало повышение стабильности отображения персонажей между кадрами, улучшение понимания пространственной логики и поддержка разрешения до 4K.
GPT-5 image - генерация изображений на базе мультимодальной модели GPT-5 от компании OpenAI.
Модель объединяет передовые семантические знания с возможностями генерации изображений, формируя систему, которая действительно понимает намерения пользователя. В отличие от традиционных подходов, разделяющих понимание языка и генерацию изображений на две независимые функции, GPT-5 Image интегрирует оба процесса, обеспечивая более точное восприятие сложных или абстрактных запросов.
Модель способна создавать изображения фотографического качества, сочетать и смешивать разные художественные стили, проектировать и визуализировать продукцию, обрабатывать сложные многоэлементные композиции, формировать технические иллюстрации и концепт-арт.
GPT-5 Image и Nano Banana Pro были взяты у агрегатора нейросетей BotHub. Список нейросетей там обширен - от работы с текстом до транскрибации и генерации видео. По специальной ссылке для регистрации можно получить 100 000 капсов для собственных экспериментов.
SeeDream 4.5 взята с официального ресурса.
Правила битвы
Все три модели пройдут через четыре генерации. В качестве оценки будет три вариации:
Плохо (1 балл)
Хорошо (2 балла)
Отлично (3 балла)
Учитывая опыт предыдущих сравнений, вариант с нулем баллов (полный провал) теперь не кажется маловероятным.
Баллы суммируются и делятся на четыре - так мы получим среднее арифметическое и построим итоговый рейтинг. В конце статьи будет таблица с результатами.
Сгенерируй фотореалистичное изображение старого деревянного дома в осенний вечер.
Дом: Двухэтажный, из потемневшего от времени бруса. Дерево имеет грубую текстуру, местами облупившуюся краску. Фундамент из крупного, замшелого камня. В одном из окон второго этажа (или на первом) горит теплый, желтый свет, отбрасывая уютные блики на старую раму и подоконник.
Детали: Из каменной трубы на фоне темнеющего неба валит слегка заметный, сизый дымок. Крыша покрыта деревянным гонтом или старым шифером. Возле дома - заросшая поленница.
Окружение: Ветви старых кленов или дубов, почти лишенные листвы. Тропинка, выложенная из заросшего мхом и травой дикого камня, полностью укрыта толстым ковром опавших листьев (ярко-желтых, багровых, охристых).
Атмосфера: На заднем плане - глухой осенний лес. Первые звезды на фиолетово-сизом небе. Лужи на тропинке отражают последний свет заката. Общее настроение - тихое, немного меланхоличное, но свет в окне создает ощущение тепла и жилого уюта посреди глуши.
Высокодетализированное изображение в стиле старинной черно-белой фотографии (дагерротип, амбротип) 1870-х годов.
На снимке изображена брюнетка с элегантной прической той эпохи. Ее лицо выражает спокойное достоинство, взгляд задумчивый, направлен чуть в сторону от зрителя. Она облачена в роскошное платье 19 века - с корсетом, высокой талией, кружевными манжетами и воротником. Ткань (бархат, шелк, жаккард) должна читаться даже в черно-белой гамме.
Поза и обстановка:
Девушка сидит в глубоком деревянном кресле с резными подлокотниками и бархатной обивкой.
Справа от нее стоит высокая деревянная тумбочка в стиле неоклассицизм или рококо, на которой стоит изящная фарфоровая ваза с букетом сухих цветов или перьев.
Слева - распахнутое окно с тяжелой портьерой. В окне виден размытый, слегка светлый пейзаж (сад, поле), создающий ощущение глубины и воздуха. Легкая занавеска колышется от ветерка.
На заднем плане - интерьер с элементами богатого дома: книжный шкаф, картина в раме, ковер на полу.
Стиль снимка:
Высокая детализация, но с характерными для старых фотографий артефактами: легкая зернистость, мелкие царапины, потускнение по краям, возможное небольшое размытие в движении (из-за долгой выдержки).
Игра контрастного света и глубоких теней: свет из окна падает на фигуру девушки, подсвечивая профиль и фактуру платья, создавая драматичные тени в комнате.
Общее настроение: задумчивая меланхолия, благородная сдержанность, уединение.
Аниме-изображение в стиле динамичной сцены из гоночного тайтла (например, "Initial D").
Сцена:
Машина: Стилизованная, агрессивная гоночная машина (японский JDM-купе), совершающая контролируемый занос (дрифт) на повороте трека. Автомобиль отражается в мокром асфальте.
Гонщик: В кабине видна сосредоточенная фигура гонщика в шлеме, его руки резко вывернули руль. Взгляд суровый, устремленный сквозь лобовое стекло на трассу.
Трасса и погода: Трасса мокрая, покрыта лужами и отражениями. Из-под мощных задних колес вздымаются два клина брызг (воды и мелкого гравия). В воздухе висят капли влаги. На заднем плане - ограждения трека, отбойники и размытые силуэты трибун или леса.
Свет и атмосфера: Яркое, низкое солнце (закатное или рассветное) пробивается сквозь облака, создавая длинные драматичные тени и ослепительные блики на кузове машины, в лужах и на мокром асфальте. Вся сцена насыщена контрастом между теплым светом и холодными тонами мокрой трассы.
Стиль: Высокая энергия и скорость. Использование линий скорости и размытия в движении (motion blur) для передачи невероятной динамики. Яркие, иногда слегка стилизованные цвета. Возможны графические эффекты в виде световых полос или вспышек.
Сгенерируй эпическое фотореалистичное изображение стаи волков в таинственном ночном лесу.
Волки: Стая из 7 волков с густой, темно-серой, почти черной шерстью, отливающей серебром в лунном свете. Их глаза светятся ярким, нереальным фиолетовым сиянием, словно аметисты. Они стоят или сидят внизу, среди валунов и мха, их взгляды направлены на вожака.
Вожак: Величественный вожак стаи стоит на вершине высокой, одинокой скалы, покрытой лишайником. Он запрокинул голову к небу - его мощная шея напряжена, пасть приоткрыта в безмолвном рыке или начале завывания. Морда в пол-оборота к зрителю. Он - центр композиции.
Обстановка: Действие происходит в глухом, хвойном лесу (ели, сосны). На переднем плане - камни, валуны, папоротники, покрытые инеем или росой. Воздух холодный, возможно, легкая морозная дымка у земли.
Небо: Ясное, темно-синее, почти черное ночное небо. На нем сияет огромная, полная луна с четкими кратерами, заливая сцену холодным, ярким светом. Миллиарды ярких, четких звезд и размытая полоса Млечного Пути. Луна располагается за спиной вожака или сбоку, создавая сияющий ореол.
Свет и атмосфера: Драматичное контрастное освещение от луны. Длинные, четкие тени. Боковой или контровой свет подсвечивает контуры шерсти волков, особенно вожака, создавая эффект сияния. Волшебная, мистическая, немного суровая атмосфера. Общее цветовое решение - холодные тона (синий, фиолетовый, серебристый) с акцентами теплого света глаз и, возможно, оттенка рыжего на скале.
Для начала условимся: чердак сложно назвать вторым этажом. Поэтому снимаем полбалла от максимально возможного. В остальном недочетов нет, задание выполнено верно.
Здесь второй этаж уже различим. Модель также выбрала свет на первом этаже. Меня смущают лишь неестественно яркие фиолетовые листья - таких в жизни я не припомню. В остальном ошибок нет, поэтому, скрипя сердцем, тоже сниму полбалла.
Вариант GPT-5 Image получился мрачнее, чем у конкурентов. Работа интересная, но модель почему-то исключила окна первого этажа (или сделала их неотличимыми от стены). Присмотревшись, можно заметить второе окно на чердаке. Непонятно, что здесь подразумевается: то ли первый этаж лишен окон, то ли весь первый этаж и идет до этого источника света. Исходя из личного впечатления, ставлю средний балл. Результат вышел необычным.
Nano Banana Pro прекрасно игнорирует часть задания с открытым окном, но в остальном демонстрирует вполне достойный результат. Конечно, окно не играет ключевой роли для всей картины, но все равно неприятно - даже душно стало.
Снова безжалостно снимаем полбалла с модели и двигаемся дальше.
SeeDream 4.5 неспроста считают конкурентом Nano Banana Pro: эта модель открыла дверь (оставим в стороне вопрос, кто ее здесь установил и зачем), а за ней сгенерировала уже закрытое окно... Суммарно такой промах снимает у испытуемого один балл. Во всем остальном полученный результат нравится мне даже больше варианта, который мы видели раньше.
GPT-5 Image тоже не открыл окно, но хотя бы не добавил лишнюю дверь. Больше придраться не к чему. Отмечу, что именно это изображение и вариант SeeDream больше всего похожи на старинную фотографию (лично для меня). Если другие модели ограничились легкой зернистостью, то здесь есть края, и подходит общая стилистика.
Модель аналогично теряет половину балла за окно.
Не могу сказать, что удовлетворен результатом. Стиль получился скорее кинематографическим, чем анимешным. Хотя все запрошенные детали присутствуют, высшую оценку поставить не могу, потому что ключевое требование выполнено не полностью. Сниму один балл.
Наконец-то SeeDream 4.5 проявил себя, получив максимальный балл. Рисовка шикарная, все остальные аспекты выполнены - и я даже не могу найти, за что тут зацепиться.
GPT-5 Image забирает среднюю оценку. Не спешите бросаться камнями, поясню.
Первый момент, который смутил меня - лицо водителя. Что с ним происходит? Мне кажется, шлем ему дали явно не по размеру.
Второй момент - сколько ни гадал, так и не понял, что лежит на панели автомобиля... Домофон, ты ли это?
И наконец, где моя трибуна на заднем плане? Лес вижу, трибуны нет.
Максимальный балл, замечаний у меня нет, Nano Banana Pro отлично поняла задание и выполнила его.
А здесь я отниму балл - для меня все же ключевой деталью были фиолетовые глаза. Освещение от глаз есть, и то местами корявое, а сами глаза почему-то желтые. Так не пойдет.
Максимальный балл. Композиция с вожаком на скале и стаей ниже хорошо передает задумку. Пусть волки и выглядят несколько загипнотизированными (в кадр по другому загнать их было сложно), но в целом результат отличный.
|
Задание/Модель |
Nano Banana Pro |
SeeDream 4.5 |
GPT-5 Image |
|
Первое задание |
2,5 |
2,5 |
2 |
|
Второе задание |
2,5 |
2 |
2,5 |
|
Третье задание |
2 |
3 |
2 |
|
Четвертое задание |
3 |
2 |
3 |
|
Итог |
2,5 |
2,375 |
2,375 |
Напомню, что сравнение - любительское, а итоги - мое субъективное мнение. Как видно, Nano Banana Pro уверенно лидирует, а SeeDream 4.5 и GPT-5 Image делят второе место с одинаковым результатом.
Ни одна из моделей не показала плохого общего результата. Каждая проявила себя по-разному: где-то сильнее, где-то слабее, но в целом подтвердила свой достаточно высокий уровень.
Спасибо за внимание!
Источник


