Stop. Хватит читать обзоры бенчмарков.Они не расскажут, почему ChatGPT увидел 127 точек, а Gemini – только 57. Не объяснят, зачем Claude добавил рекламу в игру,Stop. Хватит читать обзоры бенчмарков.Они не расскажут, почему ChatGPT увидел 127 точек, а Gemini – только 57. Не объяснят, зачем Claude добавил рекламу в игру,

Сравнение ИИ-гигантов: ChatGPT 5.2 vs Gemini 3 Pro vs Claude Opus 4.6

2026/02/09 23:24
13м. чтение
42229c415b412a854a6a23fa25013cce.jpg

Stop. Хватит читать обзоры бенчмарков.

Они не расскажут, почему ChatGPT увидел 127 точек, а Gemini – только 57. Не объяснят, зачем Claude добавил рекламу в игру, которая должна была быть “просто раздражающей”.

И уж точно не покажут, кто из них думает, а кто просто генерирует текст.

Мы провели стресс-тест в пяти раундах.

Раунд 1: Вопрос, который меняет мышление.
Раунд 2: Мультимодальный подсчёт – где ИИ должен видеть.
Раунд 3: Печеньки на чёрной поверхности – где догадываться.
Раунд 4: Экстремальное судоку – логически рассуждать.
Раунд 5: Игра одним HTML-файлом – творить.

Время гадать закончилось. Пока одни спорят, кто круче – ChatGPT, Gemini или Claude, – мы просто взяли и проверили. Не на бумажке. Не по цифрам из пресс-релизов. На реальных задачах.

За пять испытаний каждая модель показала своё истинное лицо. Кто-то споткнулся на простом подсчёте точек. Кто-то удивил философской глубиной. А кто-то создал игру, которую не стыдно выложить в сторис.

И да, победитель есть.

Смотрите, кто из гигантов действильно тянет.


Что мы будем делать

Признайтесь, вы тоже помните тот восторг первых нейросетей, когда они только учились складывать слова в осмысленные предложения? “Вау-демо” – это было здорово, но сегодня время восторгов сменилось временем ожиданий. От больших языковых моделей теперь ждут не просто красивых фраз, а работающего кода, анализа ваших таблиц, понимания картинок, видео – в общем, всего, что можно упаковать в токены.

Именно поэтому сравнивать современные модели стало и сложнее, и в разы интереснее. Каждая из них стремится стать не просто чат-ботом с хорошей памятью, а полноценным интеллектуальным партнёром – этаким швейцарским ножом для цифровой эпохи.

И что у нас в арсенале? Не так давно Anthropic порадовали релизом Claude Opus 4.6. А ещё немного раньше, под занавес прошлого года, на сцену вышли Gemini 3 Pro и ChatGPT 5.2. Вот эта тройка флагманов и станет главными героями нашего сравнения.

Кстати, ChatGPT 5.2 Pro я сознательно оставил за скобками: это скорее инструмент для исследований. А нам нужна практическая сила – то, что можно применить здесь и сейчас, без степени PhD по промпт-инжинирингу.

Сперва взглянем на ключевые характеристики в одном месте – таблица иногда говорит больше тысячи слов (особенно если в ней есть бенчмарки).

Модель

Дата релиза

Контекст

Примеры бенчмарков

Gemini 3 Pro

18 ноября 2025 года

1–2M токенов

GPQA: 91,9%
SWE-bench: 76,2%
ARC-AGI-2: 1-е место

ChatGPT 5.2

11 декабря 2025 года

400K токенов

Terminal-Bench 2.0: 64,7%
SWE-bench: 80%
Сильные результаты в GPQA

Claude Opus 4.6

5 февраля 2026 года

1M токенов (бета)

Terminal-Bench 2.0: 65,4%
SWE-bench: 80,8%
GDPval-AA: Elo 1606

Интересно, что каждая модель фактически оптимизирована под свой “тип будущего”. Gemini тянет нас в мир тотальной мультимодальности и гигантских контекстов. Claude – в эпоху автономных корпоративных агентов, которые сами читают кодовые базы и юридические документы. А ChatGPT аккуратно строит универсальный интерфейс к интеллектуальной работе, от текста до анализа данных, делая ставку не столько на экстремальные цифры, сколько на стабильность и удобство.

Отсюда возникает главный вопрос этого материала: кто из них на самом деле сильнее в реальных задачах? Чтобы ответить на него честно, дальше мы устроим моделям серию практических испытаний – от философских вопросов до судоку, подсчёта объектов на изображениях и даже генерации игры. Потому что, как показывает практика, именно такие “странные” тесты лучше всего показывают настоящую природу интеллекта (будь он кремниевым или углеродным).

Готовы посмотреть на это столкновение титанов? Тогда продолжаем!


Полигон для испытаний: как мы тестировали гигантов

Чтобы устроить честное сравнение, нужна была нейтральная и удобная площадка. Мой выбор пал на агрегатор нейросетей BotHub. Почему? Всё просто: здесь в одном интерфейсе собрано более 80 моделей для работы с текстом, изображениями и видео. Один аккаунт – и доступ ко всему арсеналу.

Сервис взял на себя всю рутину: работает без ВПН, принимает российские карты, а интерфейс не заставляет ломать голову. Идеальный полигон для наших целей.

28e4439f5ec346e61f7c5fe38d919abb.png

Итак, программа испытаний. Чтобы раскрыть возможности моделей по максимуму, я подготовил для них пять сложных, но очень разных вызовов.

  1. Задание 1 – Вопрос, который меняет мышление. Не просто философская загадка, а проверка на глубину понимания человека. Какой вопрос мы забываем себе задать?

  2. Задание 2 – Мультимодальный подсчёт. Включаем нейросетевое зрение. Простая на первый взгляд задача, которая быстро отделяет “видит” от “просто смотрит”.

  3. Задание 3 – Сколько здесь печенек? Продолжая тему визуального восприятия, мы усложнили условия: тёмные объекты, отражающая поверхность, неоднозначные контуры.

  4. Задание 4 – Экстремальное судоку. Мы выбрали судоку нереальной сложности и попросили модели выдать полностью решённую сетку.

  5. Задание 5 – Самая раздражающая игра. Финальный босс! Нужно сгенерировать работающую браузерную игру в одном HTML-файле. И сделать её такой, чтобы хотелось и бросить, и продолжить играть. Тест на креативность и техническую смекалку.

Эти пять заданий образуют стресс-тест современного ИИ: от философии до фронтенда, от зрения до строгой логики. Такой набор позволяет увидеть не отдельные сильные стороны моделей, а их реальную универсальность.

Переходим к самому интересному – посмотрим, как наши гиганты справятся с первым вызовом!


Тест 1 – Проверка на человечность: вопрос, который меняет всё

Прежде чем грузить модели сложными вычислениями, стоит проверить базовый уровень – умеют ли они думать о смыслах? Поэтому наш первый тест звучит нарочито просто и по-человечески. Суть не в том, чтобы найти “правильный” ответ – его тут и нет. А в том, как именно модель будет рассуждать.

На первый взгляд задание кажется слишком абстрактным для технического сравнения ИИ. Но именно такие вопросы лучше всего показывают способность модели понимать человека.

Интересно, в какую сторону пойдёт каждая модель? Давайте смотреть – ответы могут удивить.

Gemini 3 Pro

76a9ea4f5b8139951353f873bf0e35e9.png

ChatGPT 5.2

79b4d4ff2e3b3be8410cf65281d0c76d.png

Claude Opus 4.6

e2d4512e6f9446d523120e0774367606.png

Если подводить первые итоги, то здесь чётко проявились три разные философии.

Gemini 3 Pro сделал ставку на психологическую глубину и эмпатию. Много объяснений, жизненных примеров и мягких выводов – текст, который хочется применить к себе. Это сильный ход для мотивационных и рефлексивных задач, хотя иногда кажется, что ответ слишком отполирован, будто его цель – понравиться абсолютно всем.

ChatGPT 5.2 и Claude Opus 4.6 пошли другими путями. Первый предложил практичную, почти инструментальную рамку. Его вопросы – это рабочие инструменты для принятия решений здесь и сейчас. Второй же погрузился в философскую археологию убеждений, звучал сдержанно и интеллектуально.

Итог первого раунда: Claude выглядит самым концептуально глубоким, ChatGPT – самым прикладным и удобным, а Gemini – самым проницательным и эмпатичным.

Но впереди – задачи, где эмоций будет меньше, а цифр и логики – больше.


Тест 2 – Испытание для цифровых глаз: мультимодальный подсчёт

Окунаемся в мир мультимодальных возможностей.

5db49d2fcc96566fee49f4a9819b3b03.png

Сегодня мультимодальность – это мастхэв для любой уважающей себя модели. Все топовые модели умеют “есть” картинки, кроме разве что DeepSeek, который пока держится за чистый текст. Этот тест покажет, могут ли нейросети схватывать картинку целиком и насколько точно их зрение различает сотни мелких деталей.

Приступим! Считаем точки вместе с гигантами.

Gemini 3 Pro

39d9afbdeb7ab5779db8cbb48aebcc4b.png

ChatGPT 5.2

67ac0d57bac35ab7e89a3178857429dd.png

Claude Opus 4.6

a86f68eb0e01ae993315d0db36957959.png

Корректный ответ здесь 127 (да, я пересчитывал!).

Самое забавное началось, когда модели дали ответы. Gemini 3 Pro выпалил 57 – число, которое выглядело совершенно случайным. Ирония в том, что его младший брат Gemini 3 Flash в другом тесте справился с этой задачей идеально. Но только после обновления, где у него появилось агентное зрение – фича, которая позволяет нейросети самой запускать Python-код, чтобы зумить и сегментировать части изображения (подробности тут). Будем ждать, когда эта мощь доберётся и до версии Pro.

Claude Opus 4.6 подошёл опасно близко – выдал 128. Разница всего в единицу! Неужели модель притянула ответ к чему-то “более похожему на правильный”? Остаётся только гадать.

А вот ChatGPT 5.2 оказался точен как швейцарские часы – ровно 127. Сам Сэм Альтман не раскрывает, есть ли у ChatGPT такое же агентное зрение, но, похоже, при сложных запросах что-то умное внутри точно просыпается.

Первый явный фаворит определился: ChatGPT 5.2 одержал чистую мультимодальную победу. Но расслабляться рано – впереди тесты, где нужно не просто считать, а понимать, что ты видишь.


Тест 3 – Капча для ИИ: сколько здесь печенек?

А теперь задача, которая кажется детской, но именно такие задания часто становятся непреодолимым барьером для роботов. Её смело можно ставить вместо капчи – только самый зрячий ИИ справится.

Основная сложность не в счёте, а в умении “дорисовать” контуры. Объекты тёмные, лежат на деформированной блестящей поверхности, и их границы буквально растворяются в отражениях.

1d7bd3945fe4de14d79f002721bfb078.png

С виду – обычная упаковка печенек. Но даже человек может запутаться: это целая печенька или уже крошка? Отражение или реальный объект?

Давайте посмотрим, как с этим справятся наши зрячие гиганты.

Gemini 3 Pro

0b4a8c693a963cfd85456657490736e5.png

ChatGPT 5.2

cb268491a80856a0b6417a9dc9259f7c.png

Claue Opus 4.6

280f7d3f5bf01758bbe9e75edd2e8c4e.png

И вот что получилось.

Claude Opus 4.6 уверенно заявил: видны 3 печеньки. Но тут же сделал интересную оговорку – возможно, есть и 4-я. Тот самый сомнительный уголок справа – это печенька или просто крошка? Модель честно признала неоднозначность.

ChatGPT 5.2, напротив, чётко насчитал 4. Формально – ошибка. Но где именно он увидел четвёртую? Варианты: принял за объект отражение или тот же спорный обломок. Выяснить невозможно, но интрига остаётся.

Gemini 3 Pro также остановился на 3 печеньках, без лишних гипотез.

Так кто же прав? Честный ответ – “3, и, возможно, ещё одна”. Даже человеку сложно дать однозначный ответ, так что требовать его от ИИ было бы странно.

Зато мы узнали, кто из моделей больший оптимист – тот, кто верит, что упаковка наполовину полная. А впереди – испытание, где неоднозначностей не будет: только жёсткая логика и холодный расчёт. Двигаемся дальше!


Тест 4 – Экстремальное судоку

Теперь – испытание для холодного разума. Я специально разыскал судоку экстремального уровня сложности.

5de277c84a654e03c6979cd85f176a18.png

Да, это одна из самых сложных сеток, какие мне удалось найти. Честно? Сам я её не решал – но, думаю, при должном упорстве и паре часов справился бы. Но у наших моделей нет часов. У них есть только их “мозги” – и, возможно, встроенные инструменты.

Как мы знаем, современные модели умеют не только думать, но и “пользоваться калькулятором”. Часто на сложные задачи они выдают не ответ, а готовый скрипт (обычно на Python), который этот ответ вычисляет. И когда я отправлял эту задачу, мне было интересно: пойдут ли они по лёгкому пути или попробуют решить в лоб?

Из прошлого опыта (статья на ту же тему) я был почти уверен: все выдадут скрипт. Ведь даже для сложения многозначных чисел они уже используют инструменты. А тут – настоящая логическая громадина.

Но результат меня удивил. Смотрите сами!

Gemini 3 Pro

72c9a41d854100defdd1bffe03d3eb97.png

ChatGPT 5.2

1551413ca60d9b0aaa56484a236f631c.png

Claude Opus 4.6

a24cf95aea2278fddae00262d9c6757c.png

И вот что произошло...

Gemini 3 Pro... застрял. Он начал думать, что-то вычислять – и выдал “Job error”. Ирония в том, что готовый ответ (а не скрипт) я ждал больше всего именно от этой модели – её так хвалят за продвинутое мышление и агентность. Но в итоге – просто “поломался”.

Признаюсь, с Gemini такое случается. В сложных задачах Claude и ChatGPT обычно выдают описание результата, а Gemini часто бьётся головой об стену, пока не кончится “топливо”.

А вот ChatGPT 5.2 и Claude Opus 4.6 справились блестяще. ChatGPT выдал полное и точное решение уже через пару минут. Claude ответил почти сразу следом – и его ответ полностью совпал. Оба решения были стопроцентно корректны – все строки, столбцы и блоки 3×3 сошлись.

Итог этого раунда. Gemini не дотянул, а ChatGPT и Claude показали себя как уверенные логические машины. Но впереди – самое творческое и сложное испытание, где нужна не только логика, но и фантазия, и чувство юмора.


Тест 5 – Финальный босс: самая раздражающая игра в мире

Внимание! Мы подошли к финальному и самому коварному испытанию. То, что вы сейчас увидите, может вызвать нервный тик и избыточное мышечное напряжение. Пожалуйста, уберите от экранов детей, домашних животных и особо впечатлительных коллег.

Да, это именно то, что нужно, чтобы понять, кто настоящий креативный гений.

Gemini 3 Pro

Открыть скриншот

ChatGPT 5.2

Открыть скриншот

Claude Opus 4.6

Открыть скриншот

Для начала взглянем на объем кода (это вывод моделей за один раз, и в этом задании я тоже не применял дополнительных промптов на доработку скриптов):

  • Gemini 3 Pro – 299 строк, 9533 символа;

  • ChatGPT 5.2 – 1654 строки, 56 244 символа;

  • Claude Opus 4.6 – 1096 строк, 31 481 символ.

Хотя я не задавал объём кода в промпте, но, судя по прошлым экспериментам (и предыдущим версиям Claude), тенденция генерировать самый увесистый код смещается с моделей Claude на ChatGPT.

Тем не менее с точки зрения геймплея настоящий шедевр раздражения – это Opus 4.6. Claude понял задачу на все 100%. Что здесь есть?

  • Реклама, которая лезет из всех щелей: золотой баннер, внезапные попапы, диалоговые окна... Кажется, я пропустил момент, когда подписался на все рассылки Вселенной.

  • Аудио через Web Audio API: да, звуковое сопровождение есть, и оно даже не требует внешних файлов.

  • Язвительные подсказки: “Бабушка кликает лучше тебя”, “Мне тебя даже жалко”, “CSS круче тебя”. Хочется и плакать и смеяться одновременно.

Баги: почти не замечены. Единственное, что капчу можно не разгадывать, а просто закрыть (видимо, Claude пожалел игроков, иначе ещё одна мышка улетела бы в монитор).

Не буду спойлерить, как нажать на эту кнопку... Но вы уже догадались, правда?
Не буду спойлерить, как нажать на эту кнопку... Но вы уже догадались, правда?

Что касается ChatGPT 5.2, то игра перевыполнила планку “раздражающей”. Она настолько раздражающая, что в неё почти невозможно играть. Каждую секунду выскакивает новое окно, которые нужно закрывать в строгом порядке.

Основная проблема в багах: примерно ровно половина заданий (“Напечатай строку”, “Нажми кнопку 6 раз”) просто не работают – не появляются нужные элементы или не засчитывается решение.

Зато интерфейс вышел красивым – с размытиями и анимированным фоном, за это отдельный плюсик. А надписи, как показалось, даже более смешные, чем в Opus.

e10b397c01898b1d7243f7178666777f.png

Игра, сгенерированная Gemini 3 Pro, выглядит просто, хотя ошибок и не наблюдается. Со временем кнопка начинает всё активнее убегать от курсора, а экран тупо трясётся безостановочно. Идея графически близка к Opus 4.6, но исполнение оказалось намного более упрощённым. И да, совсем нет звукового сопровождения, в отличие от оппонентов.

9650c53330b6b20b898db809a8c8cb50.png

Самое удивительное? Модели, обученные разными компаниями на разных данных, пришли к очень похожему видению “раздражающей игры”: это обязательно 2D-пространство, убегающая кнопка и лавина всплывающих окон.

Ну что ж – главный вопрос: кто же из этих гигантов оказался сильнее в сумме всех испытаний?


Итоги битвы: кто же самый мощный?

После пяти раундов напряжённых испытаний один вывод стал кристально ясен: эпоха одного “короля ИИ” на все случаи жизни не наступила. Вместо этого мы получили три мощные, но очень разные философии.

Давайте посмотрим на итоговый счёт:

Тест

Gemini 3 Pro

ChatGPT 5.2

Claude Opus 4.6

Победитель

Почему

Задание 1

★★★★★

★★★★★

★★★★★

Claude Opus 4.6

Самая глубокая и концептуальная рефлексия

Задание 2

★☆☆☆☆

★★★★★

★★★★☆

ChatGPT 5.2

Единственный дал точный ответ

Задание 3

★★★★★

★★★★☆

★★★★★

Ничья

Задача принципиально неоднозначна

Задание 4

★☆☆☆☆

★★★★★

★★★★★

ChatGPT 5.2, Claude 4.6

Оба выдали корректное решение

Задание 5

★★★★☆

★★★☆☆

★★★★★

Claude Opus 4.6

Лучший геймдизайн и реализация

Итого

16

22

24

Claude Opus 4.6

Если смотреть по очкам, в лидеры вырвались ChatGPT 5.2 и Claude Opus 4.6. Но они лидируют по-разному: первый сильнее в универсальности и мультимодальности, а второй – в глубине рассуждений, коде и креативных механиках. Gemini 3 Pro пока ещё играет в другую игру – про контекст, масштаб и мультимодальное будущее, которое ещё не полностью раскрылось в наших тестах.

Главный вывод: сегодня важнее выбрать не лучшую модель вообще, а лучшую модель под конкретную задачу. Модели разошлись по специализациям так же сильно, как когда-то разошлись языки программирования – и это как будто осознанная стратегия компаний.


Резюмируя

Выводы сделаны, но история продолжается. Пока гиганты готовят новые версии, лучший способ разобраться – личный опыт. Все модели доступны для тестирования, и у вас есть отличный шанс проверить их на своих проектах. Тестируйте, выбирайте и побеждайте уже сегодня!

Спасибо, что прошли этот путь до конца! А теперь очередь за вами. Что думаете вы? С кем из этих гигантов вы чаще всего сверяете часы в решении сложных задач? Чей подход вам ближе – практичный, философский или масштабный? Делитесь вашим опытом и фаворитами в комментариях!

Источник

Возможности рынка
Логотип 4
4 Курс (4)
$0.009481
$0.009481$0.009481
+1.94%
USD
График цены 4 (4) в реальном времени
Отказ от ответственности: Статьи, размещенные на этом веб-сайте, взяты из общедоступных источников и предоставляются исключительно в информационных целях. Они не обязательно отражают точку зрения MEXC. Все права принадлежат первоисточникам. Если вы считаете, что какой-либо контент нарушает права третьих лиц, пожалуйста, обратитесь по адресу service@support.mexc.com для его удаления. MEXC не дает никаких гарантий в отношении точности, полноты или своевременности контента и не несет ответственности за любые действия, предпринятые на основе предоставленной информации. Контент не является финансовой, юридической или иной профессиональной консультацией и не должен рассматриваться как рекомендация или одобрение со стороны MEXC.

Вам также может быть интересно

От 3 $ до 100 $? Или Layer Brett является альтернативой с 150-кратным ростом?

От 3 $ до 100 $? Или Layer Brett является альтернативой с 150-кратным ростом?

Пост От 3 $ До 100 $? Или Layer Brett - 150-кратная альтернатива? появился на BitcoinEthereumNews.com. Крипто Новости 21 сентября 2025 | 11:10 Крипто рынок всегда разделен между устоявшимися игроками и следующим большим событием. Прямо сейчас цена XRP снова попадает в заголовки, но это не единственный токен на радаре людей. Новый претендент, Layer Brett, выходит на передний план. Созданный как проект Ethereum Layer 2, этот мем-коин приносит вирусную энергию и реальную скорость блокчейна. Его крипто предпродажа идет по цене всего 0,0058 $, уже собрав более 38 млн $. Оглядываясь на историю XRP в сравнении с новым стартом Layer Brett XRP существует уже много лет, достигнув исторического максимума в 3,84 $ в 2018 году, прежде чем испытать колебания из-за судебных исков и нормативных изменений. В последнее время цена XRP была более стабильной (около 3,00 $), с ослаблением давления продаж китов и некоторые аналитики видят возможности для роста. В отличие от этого, Layer Brett не имеет истории торгов. Именно поэтому ранние покупатели так взволнованы. Это чистый лист с огромным потенциалом роста. Как крипто-гем с низкой капитализацией, LBRETT предлагает редкую точку входа до начала ажиотажа листинга на публичных биржах. Разные технологии, разные цели Два токена не могли бы быть более разными. XRP работает на XRP Ledger, обеспечивая трансграничные платежи и даже будучи принятым первой он-чейн кредитной платформой Бразилии. Его вариант использования ясен: ускорить международные денежные переводы. Layer Brett, с другой стороны, разработан для ускорения Ethereum. Он обрабатывает транзакции офф-чейн, снижая комиссии за газ до копеек, сохраняя при этом безопасность он-чейн. Эта эффективность питает его стейкинг экосистему, где ранние участники могут блокировать токены для получения вознаграждений около 670% APY. С запасом в 10 миллиардов токенов и прозрачным распределением, система создана как для масштаба, так и для вознаграждений сообщества. Настроение рынка и фокус на сообществе Институциональные игроки продолжают инвестировать в XRP, а запуск продуктов доходности для держателей может привлечь...
Поделиться
BitcoinEthereumNews2025/09/21 16:10
Трейдер на Hyperliquid открыл шорт с плечом 20x на 30 000 ETH на фоне роста ликвидаций

Трейдер на Hyperliquid открыл шорт с плечом 20x на 30 000 ETH на фоне роста ликвидаций

Вкратце Новый кошелёк открыл короткую позицию на 30 000 ETH с плечом 20x на Hyperliquid, ликвидация около $2 143 Ончейн-ликвидации Hyperliquid держат трейдеров ETH сфокусированными на узких маржинальных линиях
Поделиться
Coincentral2026/02/10 04:15
Litecoin и Avalanche борются за удержание поддержки, в то время как потенциал роста в 600 раз у криптовалюты ZKP увеличивает спрос на этапе 2

Litecoin и Avalanche борются за удержание поддержки, в то время как потенциал роста в 600 раз у криптовалюты ZKP увеличивает спрос на этапе 2

Криптовалютный рынок сталкивается с серьезными трудностями в начале февраля 2026 года. Волна осторожности охватила сообщество, поскольку […] Публикация Litecoin и Avalanche борются за удержание поддержки
Поделиться
Coindoo2026/02/10 04:00