Claude Mythos розв'язує 73% експертних кібер-завдань, які раніше не міг вирішити жоден ШІ

Claude Mythos Preview від Anthropic став першою моделлю ШІ, яка завершила повну симуляцію атаки на корпоративну мережу, згідно з новими оцінками Інституту безпеки ШІ Великобританії (AISI).

Результати, опубліковані через кілька днів після оголошення моделі 7 квітня, свідчать, що кіберможливості ШІ досягли рівня, який вимагає негайної уваги команд безпеки по всьому світу.

Що таке Claude Mythos?

Anthropic представила свою модель Claude Mythos Preview 7 квітня, відмовившись від широкого публічного випуску. Натомість команда надає обмежений доступ фірмам з дослідження безпеки для оцінки та підготовки до її розширених можливостей.

Підписатися на нас у X, щоб отримувати останні новини у режимі реального часу

Розробка вже почала привертати увагу в технологічних і навіть політичних колах. Згідно зі звітом Reuters з посиланням на обізнані джерела, міністр фінансів США Скотт Бессент та голова Федеральної резервної системи США (FRS) Джером Пауелл провели термінову зустріч з генеральними директорами великих банків, попередивши про потенційні кіберризики, пов'язані з цією моделлю.

Як показав себе Claude Mythos Preview

Інститут безпеки ШІ (AISI), дослідницька організація в межах Департаменту науки, інновацій та технологій уряду Великобританії, провів кібероцінки Claude Mythos Preview від Anthropic для вивчення його можливостей у сфері кібербезпеки.

Спочатку були проведені оцінки capture-the-flag (CTF), де системи повинні виявляти та використовувати вразливості для отримання прихованих "прапорів". Mythos досяг 73% успіху в завданнях експертного рівня. Це залишалося невирішеним жодною моделлю до квітня 2025 року.

Claude Mythos Cyber Attack Capabilities. Source: AISI

Крім того, AISI створив 32-крокову симуляцію атаки на корпоративну мережу під назвою "The Last Ones" (TLO). Професіоналам з безпеки знадобилося б приблизно 20 годин, щоб завершити її.

Mythos Preview завершив усю симуляцію у 3 з 10 спроб. У середньому він виконав 22 з 32 кроків атаки. Claude Opus 4.6, наступний найкращий виконавець, в середньому виконав лише 16 кроків.

Власне тестування червоної команди Anthropic виявило, що Claude Mythos Preview може виявляти та використовувати вразливості нульового дня у всіх основних операційних системах та провідних веб-браузерах, коли користувач дає чіткі вказівки.

AISI зазначив, що організації повинні надавати пріоритет основним заходам кібербезпеки. Вони включають регулярне оновлення, суворий контроль доступу, посилення конфігурації безпеки та комплексне ведення журналів.

Підписатися на наш YouTube канал, щоб дивитися, як лідери та журналісти надають експертні думки

Публікація Claude Mythos Cracks 73% of Expert Cyber Tasks No AI Could Solve Before вперше з'явилася на BeInCrypto.

Джерело: https://beincrypto.com/claude-mythos-preview-cyber-capabilities-test/