Я тут полез в свою историю промптов за март 2025. Знаете, что нашёл? Промпт на 40 строк, в котором я вручную описывал Claude структуру проекта. Какие файлы где Я тут полез в свою историю промптов за март 2025. Знаете, что нашёл? Промпт на 40 строк, в котором я вручную описывал Claude структуру проекта. Какие файлы где

Год назад Claude Code не умел составить план. Сейчас у него миллион токенов и 9 субагентов

2026/03/19 14:30
14м. чтение
Для обратной связи или замечаний по поводу данного контента, свяжитесь с нами по адресу crypto.news@mexc.com

Я тут полез в свою историю промптов за март 2025. Знаете, что нашёл? Промпт на 40 строк, в котором я вручную описывал Claude структуру проекта. Какие файлы где лежат, какие зависимости, где конфиг. Потому что он не мог посмотреть сам.

Год назад. Март 2025. Claude Code - бета, версия 0.2.что-то-там. Ни plan mode, ни субагентов, ни CLAUDE.md, ни skills. Контекст - 200 тысяч токенов, и это считалось нормальным. Codex CLI не существовал. Gemini CLI не существовал. Copilot умел автокомплит и чат в сайдбаре.

А потом прошёл год. И я решил собрать все цифры в одном месте. Потому что когда живёшь внутри этого - не замечаешь. А когда выкладываешь рядом «было → стало» - становится не по себе.

Март 2025: автокомплит и ручная сборка контекста

Кто забыл - напоминаю. Кто вытеснил - соболезную.

В марте 2025 главным AI-инструментом для кодинга был GitHub Copilot. Не CLI-агент, не автономная система - автокомплит. Ты пишешь код, он дописывает строчку. Иногда удачно. 1.8 миллиона пользователей. По опросу Stack Overflow (май-июнь 2025), 76% разработчиков «пробовали» AI-ассистент. Пробовали - не «используют каждый день». При этом доверие к точности AI уже тогда падало: с 40% до 29% год к году. Люди пробовали, видели, что оно галлюцинирует - и откладывали.

Claude Code только вышел в бету (февраль 2025). Жил в терминале, мог читать файлы и писать в них. Но - без plan mode, без возможности разбить задачу на шаги, без субагентов. По сути - чат с доступом к ls и cat. Контекст 200K токенов - один средний проект, если впихнуть всё. А если проект большой - ну, вручную описывай, что где лежит.

Cursor существовал, но был другим. Без агентов, без Background Agents. Anysphere - стартап, который ещё даже Series C не поднял.

SWE-bench Verified - основной бенчмарк для кодинг-способностей - показывал 65% для лучших систем. Из 100 реальных баг-фиксов из open-source проектов модель решала 65. Остальные 35 - извини, человек.

А METR в марте 2025 опубликовала ключевое исследование: топовые модели (Claude 3.7 Sonnet) могли автономно работать над задачей ~55 минут. GPT-4, вышедший в марте 2023 - 6 минут. GPT-2 (2019) - 3 секунды. Для понимания масштаба: модели на задачах меньше 4 минут справлялись почти со стопроцентным успехом, а на задачах больше 4 часов - меньше 10%. Потолок автономности - примерно час. Дальше - деградация, галлюцинации, потеря контекста.

Frontier-кодинг стоил $5 за миллион входных токенов, $25 за миллион выходных. Opus-tier. Дорого, медленно, 200K контекст. И это был потолок.

176 апдейтов за год

Вот цифра, которая меня зацепила, когда я ковырялся в чейнджлоге Claude Code.

176 обновлений за 2025 год. Три серии версий: v0.2.x (37 релизов), v1.0.x (82 релиза), v2.0.x (57 релизов). Одно обновление каждые два дня. Включая выходные, Рождество, и, видимо, дни рождения сотрудников Anthropic.

Июнь 2025 - тихо добавили plan mode (v1.0.18). Август - /context для визуализации того, что модель реально видит (v1.0.86). Там же OpenAI предложила AGENTS.md как стандарт. Октябрь - skills (v2.0.22). Ноябрь - Opus 4.5, первая модель серии 4.x с 200K контекстом. Декабрь - skills стали открытым стандартом.

А потом 2026.

Февраль - Opus 4.6. Контекст - миллион токенов. Не 200K. Миллион. В пять раз больше, чем год назад. Agent Teams - запуск нескольких агентов на одном репозитории. Auto-memory - Claude помнит между сессиями. HTTP hooks. Dispatch - задачи из любого места.

Март 2026 - 1M контекст по умолчанию для всех пользователей Opus 4.6. Без доплаты.

И это только Claude Code. Один инструмент из шести.

Кембрийский взрыв CLI-агентов

(я изначально хотел писать только про Claude, но когда начал копать остальных - понял, что параллельная история ещё безумнее)

Codex CLI - его не существовало в марте 2025. У OpenAI не было CLI-инструмента для кодинга. За год они выпустили Codex CLI, потом GPT-5.3-Codex (первая модель под real-time кодинг, 1000+ токенов/сек), microvm-песочницу для fire-and-forget автономной работы, субагенты, десктопное приложение. Чейнджлог - десятки апдейтов только за 2026.

Тут, кстати, интересный нюанс про Codex. Как анализатор кода он реально хорош - может быть, даже лучше Claude в некоторых вещах. Ревью, рефакторинг, объяснение сложных систем - GPT-5.4 тут очень сильный. Но когда дело доходит до написания кода... ну, как бы сказать. В слепых тестах (Blake Crosley, 12 раундов) Claude Code побеждает Codex в 67% случаев именно по качеству генерируемого кода. Codex пишет шире - больше файлов, больше строк - но менее хирургически. Если нужна точечная правка в трёх файлах, Claude сделает ровно это. Codex может переписать пять и сломать шестой. На Reddit один чувак описал это как "Claude - хирург, Codex - терапевт с мачете".

Зато Codex за $20/мес - практически безлимитный. Дал задачу, ушёл пить кофе, вернулся - PR готов. Claude Code за $20/мес выдохнется после пары сложных промптов - один запрос сжирает 50-70% пятичасового лимита.

Gemini CLI - аналогично. Google выпустил open-source CLI-агент в 2025, в 2026 добавил skills, generalist agent, Gemini 3.1 Pro. SWE-bench - 80.6%. При цене 2/12 за миллион токенов. Это в 2-12 раз дешевле Claude Opus. Дёшево. Быстро. Для MVP - идеально. Для тонкой хирургии - бывает неряшлив, несколько Reddit-тредов жалуются на неожиданно большой расход токенов и необходимость повторных промптов.

Copilot CLI - превью в сентябре 2025, GA в феврале 2026. От «подсказки в IDE» до автономного агента с plan mode, субагентами, облачными агентами, и выбором моделей от Anthropic, OpenAI и Google. За полгода.

Пять CLI-агентов за год. Все - или появились с нуля, или трансформировались до неузнаваемости. Это не эволюция. Это кембрийский взрыв.

Два миллиарда за 24 месяца

Cursor пробил $2B ARR в феврале 2026.

$500M ARR в июне 2025. Миллиард - в ноябре. Два миллиарда - в феврале 2026. Удвоение за три месяца. Оценка Anysphere - $29.3 миллиарда. Миллион ежедневных пользователей. Больше половины Fortune 500. Четырёхлетний стартап. Самый быстро растущий SaaS в истории, если верить SaaStr.

Рынок AI раздут, оценки нереальные, все это знают. Но $2B - реальная выручка, а не на салфетке. Люди платят $16/мес за инструмент, который полтора года назад был форком VS Code с AI-подсказками.

А ещё Cursor опубликовал кое-что, от чего у меня волосы на руках встали.

Тысяча агентов, один браузер, ноль людей

Self-driving codebases - так Cursor назвал своё исследование. Тысячи AI-агентов. Одновременно. На одной кодовой базе. Работали неделю без человека. Написали функциональный веб-браузер с рендерингом.

Конкретные числа: пик - ~1000 агентов одновременно. ~1000 коммитов в час. 10 миллионов вызовов инструментов за неделю. Один большой Linux VM.

Они итерировали через четыре архитектуры координации. Первая - все агенты равны, общий state-файл - развалилось из-за locking contention. Вторая - жёсткие роли (planner → executor → workers → judge) - слишком ригидно. Третья - один executor управляет всем. Четвёртая - рекурсивные планировщики делегируют субпланировщикам и воркерам. Как работает реальная софтверная команда.

Ключевой инсайт: «Allowing some slack means agents can trust that other issues will get fixed by fellow agents soon.» Вместо требования 100% корректности от каждого коммита - небольшой постоянный error rate, который другие агенты быстро чинили. Узким местом стал не AI, а дисковый I/O при одновременной компиляции сотен агентов.

Тысяча агентов написала браузер за неделю без людей. Я перечитал это три раза. Потом пошёл пить чай.

Хотя... нужна ложка дёгтя. AI-код содержит в 1.7 раза больше багов, чем человеческий, по данным CodeRabbit (470 PR: 320 от AI, 150 от людей). Логических ошибок - в 1.75 раза чаще. Проблем с безопасностью - в 2.74 раза. Тысяча агентов написала браузер - но сколько багов в этом браузере? Сколько уязвимостей? Cursor деликатно не уточняет.

Цифры в одном месте

Ладно, хватит нарративов. Вот сухое сравнение «было → стало».

SWE-bench Verified (реальные баг-фиксы из open-source):

  • Март 2025: ~65% (топ)

  • Март 2026: 80.9% (Claude Opus 4.5 + агентный фреймворк, данные)

  • Рост: +25% за год

Контекстное окно:

  • Март 2025: 200K (Claude), 128K (GPT-4), 1M (Gemini - с оговорками)

  • Март 2026: 1M (Claude Opus 4.6), 1M (GPT-5.4), 1M+ (Gemini 3.1 Pro)

Стоимость frontier-кодинга (за миллион токенов):

  • Март 2025: $5 вход / $25 выход (Opus)

  • Март 2026: $0.30 / $1.20 (MiniMax M2.5, SWE-bench 80.2%)

  • Падение: цена в 16 раз, при росте качества на 23%

Горизонт автономной работы (METR):

  • 2019 (GPT-2): 3 секунды

  • 2023 (GPT-4): 6 минут

  • 2025 (Claude 3.7 Sonnet): 55 минут

  • 2025 (Claude Opus 4.5): ~4 часа

  • Удвоение: каждые 7 месяцев (общий тренд за 6 лет), каждые 4 месяца (2024-2025)

Пользователи (Stack Overflow):

  • 2024: 76% разработчиков «пробовали»

  • 2025: 84% используют или планируют, 51% - ежедневно

  • 2026: 20M используют ежедневно, 46% кода - с участием AI

MiniMax M2.5 решает SWE-bench на 80.2% за $0.30 за миллион входных. Год назад лучшая модель решала 65% за $5. Качество +23%, цена −94%.

«90% кода пишет AI» - а что на самом деле

Дарио Амодеи (CEO Anthropic) заявил, что через 3-6 месяцев AI будет писать 90% кода. Инженеры Anthropic «уже не пишут код руками - дают модели написать и редактируют».

Redwood Research разобрались. В среднем по Anthropic AI пишет ~50% строк мёржнутого кода. На отдельных командах - да, 90%. Но это не 10x продуктивность. AI генерирует много дешёвого кода: одноразовые скрипты, бойлерплейт, тесты-заглушки. Процент раздувается, а реальный прирост - 1.5-2x.

Полтора-два икса - огромно. Команда из 5 человек работает как 8-10. Без найма. Но между «работает как 10» и «90% кода от AI» - пропасть в восприятии.

Сэм Альтман обещал, что AI станет «лучшим кодером в мире» к концу 2025. Конец 2025 прошёл. Не стал. Но 80.9% SWE-bench - это крепкий мидл, который работает 24/7 и не просит повышения.

Хотя нет, не мидл. METR в другом своём исследовании показали, что с AI опытные разработчики работали на 19% медленнее - при субъективном ощущении ускорения на 20%. Разрыв между ощущением и реальностью - 39 процентных пунктов. Может, и «90% кода» - тоже ощущение, а не реальность?

Сценарий: март 2027

Год назад, если бы мне сказали «через 12 месяцев контекст будет миллион, SWE-bench 80%, а Cursor будет стоить $29 миллиардов» - я бы рассмеялся. Так что мои прогнозы, скорее всего, тоже окажутся смешными. Но данные есть данные.

Экстраполируем METR: горизонт задач удваивается каждые 4 месяца. Сейчас - ~4 часа. Через 4 месяца - 8 часов. Через 8 - рабочий день. К марту 2027 - 2-3 рабочих дня. AI-агент получает задачу в пятницу - в понедельник PR ждёт ревью.

Self-driving codebases из эксперимента Cursor станут продуктом. Агенты мёржат PR, раскатывают деплой, мониторят прод, откатывают при ошибках. Человек - архитектор и ревьюер, а не автор кода. Gartner прогнозирует: к 2028 году 33% корпоративного софта включает агентный AI (сейчас <1%). Но при этом - 40% агентных проектов закроются к концу 2027. Стоимость, неясная окупаемость, и - мой любимый пункт - «inadequate risk controls».

Цены продолжат падать. MiniMax уже показал 80% за $0.30. Через год frontier-качество будет стоить копейки. Барьер входа в «AI-кодинг» исчезнет - вопрос не «можешь ли ты себе позволить», а «умеешь ли ты управлять агентами».

Но есть проблема, о которой мало говорят. Если AI будет автономно работать днями - кто проверяет результат? Уже сейчас PR review time у команд с высоким AI-adoption вырос на 91%. AI пишет быстрее, но ревью занимает вдвое больше. Если агент работает три дня - ревью будет на неделю?

Сценарий: 2028-2030

AI 2027 - исследование от бывшего сотрудника OpenAI Дэниела Кокотайло и команды из 5 человек с фидбеком от 100+ экспертов. Прогноз: superhuman coder к 2027 - AI-система, которая делает всё, что лучший инженер AGI-компании, но быстрее и дешевле. К 2028 - AI-системы, автоматизирующие AI-исследования. Self-improving loop.

Звучит как фантастика. Но вот уточнение: после проверки на реальных данных 2025-2026 года, прогнозы скорректировали. Прогресс идёт на ~65% от предсказанной скорости. Кокотайло сдвинул свои таймлайны с 2028 на 2029. Так что, может, не 2027, а 2028-2029.

65% от «безумно быстро» - это всё ещё очень быстро.

Представьте 2029 год. Вы - тимлид. У вас «команда» из 20 AI-агентов. Один специализируется на фронте, другой на инфраструктуре, третий на тестах, четвёртый - секурити-ревьюер. Вы пишете спеку на естественном языке, декомпозируете на эпики. Агенты разбирают задачи, пишут код, ревьюят друг друга, гоняют тесты, деплоят в стейджинг. Вы ревьюите итоговые PR и принимаете архитектурные решения.

Cursor уже показал прототип с тысячей агентов. Anthropic делает Agent Teams. OpenAI - Codex App с параллельными агентами. Все идут в одну точку.

Только вот... тут мне вспоминается одна штука, и она меня не отпускает.

Бомба замедленного действия

Три дня назад я писал про кризис джуниоров. Гарвард отследил 62 миллиона работников в 285 000 компаний: при внедрении AI найм джунов падает на 9-10% за полтора года. Stack Overflow: доля джунов в IT-найме сползла с 15% до 7% за три года. Безработица среди выпускников CS - 6.1%, это больше, чем у филологов.

Все эти красивые сценарии с «20 агентов под управлением тимлида» предполагают, что тимлид существует. Что есть сеньоры, которые понимают архитектуру и могут ревьюить AI-код. Но если мы три года не нанимаем джунов - через 5 лет не будет мидлов, через 8 - сеньоров. CNBC назвал это talent doom cycle.

И вот тут два тренда сталкиваются лоб в лоб. С одной стороны - AI, который каждые 4 месяца удваивает свои возможности. С другой - индустрия, которая перестала выращивать людей, способных этим AI управлять.

Anthropic провели исследование и описали эффект «permanent beginners» - AI сглаживает кривую обучения настолько, что разработчик никогда не строит ментальную мышцу для работы со сложностью. Сеньоры держатся - у них мышца уже есть. А новые разработчики - те, кто учится с AI с первого дня - могут навсегда остаться на уровне «умею промптить, не умею дебажить прод в три ночи».

Может, к 2030 это не будет проблемой. Может, AI научится сам себя рефакторить и дебажить. Но я бы не ставил на это свой продакшен.

Гонка без финиша

Я начинал этот ресёрч с мыслью «найду победителя». Кто лучший AI-кодинг-инструмент в 2026?

Не нашёл.

Claude Code - лучший по качеству кода, но душит лимитами. Codex - отличный аналитик и неограниченный раб, но код пишет грубее. Gemini - дешёвый и быстрый, но неряшливый. Copilot - $10/мес, самый дешёвый вход. Cursor - другая парадигма, IDE, а не терминал, $16/мес.

Самые продуктивные разработчики, по данным Reddit, используют 2-3 инструмента. Copilot для автокомплита (+10). Claude Code или Cursor для сложного (+16-20). Codex для автономки и ревью (+$20). Итого $40-60 за весь стек. Год назад это была бы цена одного инструмента, который умел дописывать строчки.

Хотя, может, победитель и не нужен. Может, гонка - это и есть смысл. Пять CLI-агентов конкурируют, цены падают, качество растёт. Все выигрывают. Пока не проиграют.

Чего я боюсь (и чем восхищаюсь)

Не «AI заменит программистов». Это мы слышим три года. Пока что AI создал больше вакансий AI-инженеров, чем убил вакансий классических разработчиков.

Боюсь скорости. И того, что мы не успеваем осмыслить.

Год назад я вручную описывал AI структуру проекта. Сейчас он сам поднимает 9 субагентов, каждый ревьюит свою часть кода. Cursor гоняет тысячу агентов, которые за неделю пишут браузер. Контекст - ×5. Цена - ÷16. SWE-bench - +25%.

METR удваивает горизонт каждые 4 месяца. Cursor удваивает выручку за три. Anthropic, OpenAI и Google гонят не потому, что могут - а потому, что рынок доказал: разработчики платят. Это не исследование - это гонка вооружений с реальными деньгами.

При этом - Stack Overflow показывает: доверие к AI продолжает падать (29%), 52% разработчиков вообще не пользуются агентами. Между «84% пробовали» и «52% не пользуются» - яма. AI-код содержит в 1.7 раза больше багов. Ревью AI-кода занимает вдвое больше. Мы перестали нанимать людей, которые через 5 лет будут единственными, кто сможет разгребать всё это.

Может, через год всё разрешится. Может, AI научится ревьюить сам себя без слепых пятен. Может, self-driving codebases заработают не как эксперимент, а в проде.

А может - рванёт. Кодовые базы, написанные тысячами агентов, начнут гнить. Чинить их будет некому, потому что джунов не наняли, мидлов не вырастили, а сеньоры выгорели. И вся эта красивая инфраструктура из AI-агентов - упрётся в то, что ни один из них не понимает, зачем этот код вообще существует.

Не знаю. Через год проверим.

UPD: перечитал и заметил, что пишу «через год проверим» третий раз за последние три статьи. Видимо, это мой способ справляться - откладывать понимание на потом. Но цифры не ждут. Между тем как я написал про джунов (16 марта) и сегодня - Cursor выкатил cloud agents, OpenAI выпустил GPT-5.4 mini и nano, а Claude Code обновился дважды. Три дня. Два апдейта. Гонка не останавливается, даже когда ты пишешь статью о гонке.

Кстати, Redwood Research предупредили: Anthropic может не признать ошибку в прогнозах про AGI к 2027 вовремя. Так что все мои экстраполяции - тоже могут быть чушью. Единственный честный прогноз: через год мы будем удивлены. Опять.

Источник

Отказ от ответственности: Статьи, размещенные на этом веб-сайте, взяты из общедоступных источников и предоставляются исключительно в информационных целях. Они не обязательно отражают точку зрения MEXC. Все права принадлежат первоисточникам. Если вы считаете, что какой-либо контент нарушает права третьих лиц, пожалуйста, обратитесь по адресу crypto.news@mexc.com для его удаления. MEXC не дает никаких гарантий в отношении точности, полноты или своевременности контента и не несет ответственности за любые действия, предпринятые на основе предоставленной информации. Контент не является финансовой, юридической или иной профессиональной консультацией и не должен рассматриваться как рекомендация или одобрение со стороны MEXC.

Цены на криптовалюту