Автор исследования — Surge AI, лидер в создании высококачественных датасетов для генеративных моделей. Публикуем материал от первого лица с некоторыми дополнениями.
2025 год стал годом агентов — ИИ вышел за пределы чата и начал взаимодействовать с окружением, например, кодом или системами. Но действительно ли мы близки к созданию по-настоящему разумных агентов, или этого ещё предстоит ждать десятилетие? И главный вопрос: какую долю экономически полезной работы эти агенты могут выполнять?
Чтобы ответить на этот вопрос, сообщество стало оценивать не отдельные ответы модели, а её способность выполнять цепочки действий: искать информацию в базе знаний, вызывать внешние API, управлять файлами и брать на себя рутину пользователя в реальных рабочих сценариях. Для специалистов по тестированию и постобучению 2025 год фактически превратился в год сред обучения с подкреплением (RL‑сред) — виртуальных миров, где модели шаг за шагом собирают компьютеры, оформляют заказы, ведут переписку с клиентами и осваивают сложные многошаговые задачи.
Мы решили «нанять» девять моделей ИИ, чтобы они выполнили 150 заданий в одной из наших RL-сред, имитирующих реальный мир с API-инструментами, задачами и верификаторами.
Ключевые результаты исследования: очевидно, что GPT-5 и Claude Sonnet 4.5 опережают другие модели со значительным отрывом. Но даже они не справляются более чем с 40% заданий.
Чтобы понять, как мы пришли к таким выводам, необходимо разобраться, что представляет собой RL-среда и как она создаётся.
RL-среда (Reinforcement Learning environment) — виртуальная симуляция для обучения ИИ-агентов через пробы и ошибки с наградами/штрафами.
Каждое такое окружение включает три элемента:
связная модель мира — общая структура, определяющая настройки;
набор сущностей — объекты в мире и их взаимосвязи;
система инструментов — интерфейс для взаимодействия агентов с сущностями.
Мы создаем наши RL-среды не на абстрактных сценариях, а на основе опыта реальных экспертов. Для этого формируем структуру с согласованными взаимосвязями и свойствами, которую постепенно развиваем и наполняем содержанием. Это позволяет тренировать агентов в условиях, близких к реальным задачам.
Одна из наших RL-сред — Corecraft, Inc. Это интернет-магазин высокопроизводительных комплектующих для ПК и готовых компьютеров. Модель мира — сама компания, а её сущности — клиенты, заказы, заявки в службу поддержки и другие записи, необходимые для работы.
Роль ИИ-агента в модели мира — специалист службы поддержки, помогающий клиентам и сотрудникам решать разные задачи: от быстрого поиска продуктов до многоэтапных рабочих процессов, требующих взаимодействия различных систем.
В RL-среде Corecraft, Inc. модели начинают обучение с простых запросов вроде «сколько возвратов было в июле 2025?». Но быстро переходят к более сложным задачам. Пример — обработать такой сценарий: клиент заказал игровую сборку с процессором ZentriCore Storm 6600X, платой SkyForge B550M Micro и 32 ГБ HyperVolt DDR5-5600, но инструмент validateBuildCompatibility выдает ошибку несовместимости. Модели нужно найти проблему (DDR5 и B550M несовместимы), предложить самое дешевое решение (например, DDR4) и обновить заказ через API.
Так мы изучаем работу ИИ на примере специалиста службы поддержки клиентов. Хотя ИИ-агенты чаще ассоциируются с исследованиями и разработками, их главная экономическая ценность — в решении повседневных задач. Роль специалиста поддержки включает много разнотипных заданий, поэтому идеальна, чтобы оценить базовые способности ИИ.
При анализе работы моделей в роли специалиста службы поддержки, мы заметили, что одни и те же типы сбоев повторяются снова и снова. Но не случайным образом: проблемы каждой модели, как правило, сгруппированы вокруг определенных уровней компетенции. Это значит, что существует иерархия навыков, которые агентские модели должны освоить прежде, чем они смогут работать в открытых средах.
Мы называем эту структуру иерархией агентных способностей. Ниже она представлена в виде пирамиды, на которой мы отметили, где, по нашему мнению, находится каждая ИИ-модель.
Иерархия способностей агентов, от использования инструментов до здравого смысла, и место моделей ИИ в этой иерархии
В основе лежат фундаментальные навыки: использование инструментов, постановка целей и базовое планирование. Выше них — навыки более высокого порядка, такие как адаптивность и заземлённость. Они позволяют моделям оставаться привязанными к контексту, приспосабливаясь к непредсказуемой хаотичности реальных сред. Только когда модель научится владеть этими базовыми навыками, то начнёт демонстрировать нечто похожее на здравый смысл — способность разумно рассуждать о новых ситуациях. Именно это является ключевым компонентом общего интеллекта.
Конечно, эта иерархия — условность. На практике разработка моделей нелинейная: эти способности пересекаются, усиливают друг друга и развиваются параллельно. А достижение высокого уровня владения навыками не означает совершенства: GPT-5 и Claude Sonnet 4.5 по-прежнему ошибаются в использовании базовых инструментов, так же как лучшие гольфисты иногда промахиваются с простым ударом.
Таким образом, пирамида навыков ИИ-моделей — это не жесткая система уровней. Она только позволяет понять, какие модели уже неплохо справляются с разными задачами, а каким стоит заложить базу.
Самая фундаментальная основа в этой иерархии — это способность модели использовать инструменты, формулировать цели и планировать их достижение. То есть чтобы выполнить даже самую простую задачу, агент должен:
разделить многошаговую задачу на мини-цели;
определить подходящие инструменты для каждой мини-цели и последовательность их применения;
исполнять план шаг за шагом, не сбиваясь и не забывая детали.
Модели, которые не умеют этого делать, не считаются агентами — это просто чат-боты с доступом к инструментам. На этом уровне находятся модели GPT-4o, Mistral Medium и Nova Pro. В одной из задач все три модели допускали базовые ошибки в работе с инструментами: некорректно сопоставляли информацию из запроса с аргументами для инструментов или просто неверно следовали схеме MCP (Model Context Protocol).
Задание. Найти клиентов в программах лояльности уровня «золото» или «платина» с незакрытыми обращениями в поддержку с высоким приоритетом.
Вот как с этим справились модели:
Nova Pro использовала значение «золото» как идентификатор клиента, хотя это всего лишь уровень лояльности, а не ID.

GPT-4o корректно нашла клиентов с уровнями «золото» и «платина», но ошиблась при фильтрации обращений: вместо аргумента priority попыталась использовать значение high в поле status, хотя в схеме MCP был отдельный аргумент priority, обозначающий приоритет.

Mistral Medium допустила ошибку уже при поиске клиентов, передав массив в аргумент customer_id, который по схеме MCP должен был быть строкой. Это нарушение контракта схемы.

Задание. Был объявлен отзыв продукта SkyForge X670E Pro. Нужно составить маркированный список клиентов, которые заказывали этот продукт в августе 2025 года, со статусом «выполнено», «оплачено» или «в обработке».
Правильная последовательность действий такая:
Применить инструмент searchProducts, чтобы определить идентификатор продукта. Этот инструмент позволяет искать по тексту в записях о продуктах и возвращать полную информацию о продукте.
Воспользоваться инструментом searchOrders, чтобы найти соответствующие заказы по этому идентификатору продукта.
Убедиться, что выбраны заказы со статусом «выполнено», «оплачено» или «в обработке».
Вернуть список найденных клиентов.
Nova Pro и Mistral Medium провалились уже на первом этапе: они не стали искать ID и сразу перешли ко второму шагу — передали название продукта напрямую в аргумент product_id
Это ошибка неправильного рассуждения о представленной в задаче информации и требованиях аргументов каждого инструмента.
Хотя точно неизвестно, как именно думали модели, их поведение указывает на то, что они выбрали единственный инструмент, который, по их мнению, дал бы окончательный ответ. А затем пытались втиснуть доступные данные в любой аргумент, который казался наиболее подходящим для этого инструмента.
Вместо этого им нужно было рассмотреть все доступные инструменты, определить, какие аргументы соответствуют вводным данным, и спланировать, как объединить эти инструменты для правильного результата.
GPT-4o справился чуть лучше и почти прошёл два первых этапа. Он нашёл идентификатор продукта:
И начал искать заказы:
Однако он искал только заказы со статусом fulfilled(«выполнено»), полностью забыв про paid(«оплачено») и pending(«в обработке»). Это ещё одна простая ошибка планирования, при которой упускаются важные мини-цели.
Конечно, это только несколько примеров. Существует бесчисленное множество способов неправильно использовать инструменты, сформировать и выполнить план. Но такие базовые ошибки характерны для моделей, которые не обучены агентному поведению.
Пока модели не могут рассуждать о работе с инструментами и разбивать простые задачи на мини-цели, оценивать их общие способности к рассуждению в агентных контекстах — пустая трата времени.
Предположим, модель хорошо планирует последовательность действий. Но в реальности инструмент может вернуть неожиданную ошибку — например, API недоступен или данные неполные. В этом случае важна адаптивность: модель должна проанализировать, что произошло, изменить план и применить альтернативное решение — уточняющий запрос или другой инструмент.
Такие тесты часто проваливали модели Gemini 2.5 и Qwen 3. Они начинали с логичной цепочки вызовов (searchCustomers→ searchOrders→ validateBuild), но при ошибках вроде invalid product ID не корректировали план, а продолжали слепо ему следовать и допускали ошибку.
Задание. Обработать обращение: «Привет, это Пенни Уиткомб. Я хочу обновить свою видеокарту и обычно выбираю Vortex Labs. Могли бы вы проверить, совместимы ли RX820L или RX780 с деталями из моего последнего заказа, и сообщить цену для каждой?».
Правильный рабочий процесс был таким:
С помощью инструмента searchCustomers определить уровень лояльности Пенни (для расчета скидки) и ID клиента (для поиска прошлых заказов).
Использовать инструмент searchOrders, чтобы найти продукты, которые Пенни заказала ранее.
Применить инструмент searchProducts, чтобы найти идентификаторы видеокарт Vortex Labs.
Проверить совместимость новых видеокарт с продуктами, которые Пенни купила ранее, используя инструмент validateBuildCompatibility.
Модели Gemini 2.5 Flash, Gemini 2.5 Pro и Qwen 3 Max справились с последовательностью вызова инструментов. Но когда они дошли до третьего шага, то столкнулись с одной и той же проблемой — не получили никаких результатов при поиске видеокарт.

Причина оказалась простой: в качестве значения для аргумента «brand» они использовали название «Vortex Labs». На самом деле, бренд в системе был записан как «VortexLabs» — без пробела.
Модели не могли знать об этом заранее. Но проблема заключается в том, что произошло дальше.
Вместо того, чтобы осознать ошибку и изменить стратегию, Gemini 2.5 Flash, Gemini 2.5 Pro и Qwen 3 Max приняли пустой результат за истину и сообщили, что этих видеокарт нет в продаже в магазине Corecraft.
Модель Claude Sonnet 4.5 столкнулась с той же проблемой, но адаптировалась к проблеме и попробовала разные подходы к поиску на лету.


В итоге: более слабые модели, имея верный план, слепо придерживались его. А в реальных задачах всё редко идёт точно по плану с первой попытки, поэтому важно уметь адаптироваться и пробовать разные подходы — именно так поступил бы человек.
Заземлённость означает способность модели сохранять связь с контекстом, не галлюцинировать и не придумывать факты.
Например, Kimi K2 Turbo лучше справилась с задачами, связанными с планированием и адаптивностью, чем Qwen 3 Max и модели Gemini. Но при выполнении заданий у неё возникли серьёзные проблемы с удержанием контекста.
Например, в самом первом предложении системного запроса говорится:
Несмотря на это Kimi часто указывала неправильный год в вызовах инструментов. Когда её просили найти заказы за период с 25 по 31 августа, Kimi искала заказы за 2024 год:
Затем в своём итоговом ответе Kimi снова переключилась на 2025 год!
Claude Sonnet 4.5 показал впечатляющие результаты в целом. Но и эта модель теряла связь с реальностью, и это стало одним из главных её отличий от GPT-5. Например, Claude нужно было найти данные клиентов, которые заказывали продукты до 30 сентября, при этом товары ещё не были отправлены.
Модель правильно нашла один из соответствующих заказов:
Затем Claude попытался найти данные клиента, используя придуманный адрес электронной почты.
Когда это не сработало, Claude всё-таки сумел скорректировать свой подход, ещё раз продемонстрировав очень хорошую адаптивность.
Получается, Claude хорошо адаптируется к ошибкам, но теряет связь с контекстом, что зачастую критично для агентной работы.
Так, более тонкие проблемы с привязкой к реальности труднее обнаружить, и в некоторых случаях они могут пройти незамеченными в итоговом ответе. Claude попросили найти обращения в поддержку и указать их уровень приоритета. Он правильно вызвал инструмент для поиска всех обращений с приоритетом «normal».
В списке обращений модели появились два обращения:
Оба были явно помечены как приоритет уровня «normal». Но Claude не отразил это в итоговом ответе:
Модель не только неправильно отнесла эти обращения к категории high priority, но и повторила их в разделе normal priority, отметив, что они уже присутствуют среди обращений с высоким приоритетом. Такой ответ не соответствует контексту и не является последовательным.
Если модель умеет правильно использовать инструменты, эффективно планировать, корректировать планы, а также оставаться в контексте задачи и окружения, её от человека отделяет лишь здравый смысл — способность действовать в незнакомой ситуации.
В этом испытании именно неумение здраво рассуждать стали главной причиной отставания GPT-5 от человеческого уровня. Вот один из примеров провала модели.
Задание. Определить, какие обращения в поддержку, помеченные как other («другие»), следует переклассифицировать в категорию returns(«возврат»).
GPT-5 правильно вызвал инструменты, чтобы найти такие обращения, включая следующее:
Этот тикет следует переклассифицировать. Клиент просит вернуть деньги, значит, обращение — возврат или отмена. Однако фраза «the package showed up a few hours ago» («пока посылка не пришла несколько часов назад») содержит ключевую подсказку: клиент уже получил товар. Эта деталь однозначно указывает на возврат.
Но GPT-5 не смог сделать такого вывода.Модель собрала правильную информацию, но не связала факты и не включила этот тикет в итоговый ответ. Всё потому, что для понимания причины требуется немного здравого смысла.
Другой пример, где GPT-5 провалился из-за проблем с рассуждением — определение клиентов, которые относятся к конкретной категории.
Задание. Искать клиентов, которые покупают GPU, предсобранные ПК с GPU и продукты, упоминающие игры.
Разумно было бы выделить игровые товары (например, GPU) и товары с упоминанием игр в описании. А затем — найти все заказы за август с этими товарами.
Но GPT-5 выбрал неэффективный путь: он перелистывал все заказы августа день за днём (searchOrders («2024-08-01»), searchOrders («2024-08-02») и т.д. до 31-го), чтобы обойти лимит в 100 результатов на запрос. Это искусственное ограничение API симулятора, моделированное под реальные системы поиска. Это искусственное ограничение API симулятора, которое имитирует пагинацию в реальных enterprise-системах и позволяет предотвратить перегрузку.

Затем GPT-5 использовал инструмент getProduct для поиска конкретных продуктов в этих заказах, чтобы получить дополнительные детали и определить, связаны ли они с играми.
Модель не просматривала каждый товар по отдельности, а пыталась угадать, что связано с играми, просто по названию продукта. Она искала только товары, у которых в идентификаторе есть подстроки вроде graph или gaming, и из‑за этого пропускала часть релевантных позиций.
Claude применял тот же подход и сталкивался с теми же ошибками. GPT-5 действовал более последовательно и строго следовал выбранному плану, но сам план был неудачным и слабо соотносился с задачей.
А вот пример, когда GPT-5 неправильно понял задачу, чего можно было бы избежать с помощью здравого смысла.
Задание. Модели предложили обращение клиента: «У меня наблюдаются просадки кадров в играх, поэтому я хочу обновить видеокарту. Какую видеокарту самого высокого класса я могу купить менее, чем за 900 долларов? Укажите цену и все характеристики. Имя в моей учётной записи должно быть указано как Сара Ким».
GPT-5, хотя и получил верную информацию о продуктах, не проверил историю клиента Сары Ким на предмет её уровня лояльности и индивидуальных цен. Вместо этого он ответил информацией общего характера о политике компании:
Корень проблемы прост: модель не смогла сделать вывод, что Сара Ким — это клиент.
Она восприняла фразу «Моё имя в моей учетной записи должно быть указано как Сара Ким» как инструкцию изменить имя в аккаунте, а не как указание на личность запрашивающего:
Это предложение само по себе неоднозначно. Но смысл становится ясен в контексте, и модель могла бы разрешить эту неоднозначность, используя доступные инструменты. Например, применить некоторое здравое рассуждение:
Клиент не предоставил никаких других данных для поиска своей записи.
Использование инструмента searchCustomers могло бы выявить существующего клиента с именем «Sarah Kim».
Изменение имени в аккаунте было бы полностью не связано с остальной задачей, в то время как поиск уровня лояльности актуален для определения цены, о которой запрашивал клиент.
Всё это должно было прояснить правильную интерпретацию. Опять же, это не ошибка стратегии или исполнения, а просто неспособность здраво рассуждать в рамках окружения и контекста задачи.
Возможно, схема в первом разделе была не совсем точной. На самом деле, скорее всего, всё выглядит примерно так:
Владение первыми четырьмя уровнями не означает, что ИИ-модель достигла человеческого уровня и способна компетентно действовать в реальном мире. Скорее, это базовый набор способностей: без них бессмысленно оценивать, как модель применяет здравый смысл в реальных ситуациях.
При этом здравый смысл — это то, что пока нельзя чётко определить, но легко заметить, когда его не хватает. Будет ли он набором идентифицируемых и обучаемых поднавыков или возникшим свойством масштабного обучения на реальных данных — покажет время. Узнать это — задача следующего этапа развития ИИ.
2025 год, объявленный годом агентов, не означает, что именно в этом году мы получили универсальные мощные модели для работы. Скорее, это год появления агентов, которые могут достаточно последовательно действовать, чтобы мы могли начать анализировать и обсуждать их здравое мышление.
Дальше предстоит задача обучения и анализа интеллекта систем, быстро приближающихся к нашему собственному. Сколько времени потребуется, чтобы сократить этот разрыв, — открытый вопрос.
НЛО прилетело и оставило здесь промокод для читателей нашего блога:
-15% на заказ любого VDS (кроме тарифа Прогрев) — HABRFIRSTVDS.
Источник


