Meta запускає Muse Spark, свій найпотужніший ШІ на сьогодні — але Gemini 3.1 Pro все ще лідирує

Коротко

Новий Muse Spark від Meta знаменує перехід до закритого, нативно мультимодального ШІ з міркуванням на основі агентів.
Meta повідомляє про значні покращення показників у сфері охорони здоров'я та пошуку, але все ще поступається Gemini в основних міркуваннях та кодуванні.
Створений за дев'ять місяців з набагато меншими обчислювальними потужностями, що вказує на нову стратегію ШІ, орієнтовану на ефективність.

Meta запустила Muse Spark у середу, представивши першу модель, створену Meta Superintelligence Labs — командою, зібраною дев'ять місяців тому під керівництвом головного директора зі штучного інтелекту Олександра Вана після придбання Scale AI за 14 мільярдів доларів. Вона вже доступна на meta.ai та в додатку Meta AI, а розгортання на Facebook, Instagram та WhatsApp відбудеться протягом наступних кількох тижнів.

Це не просто чергове оновлення чат-бота чи нова версія Llama. Muse Spark є нативно мультимодальним — він обробляє зображення, текст та голос з самого початку, а не додає зір до існуючої текстової моделі. Він постачається з візуальним ланцюгом міркувань, підтримкою використання інструментів та тим, що Meta називає «Режимом роздумів»: налаштуванням, яке запускає кілька ШІ-агентів паралельно для вирішення складніших проблем. Це відповідь Meta на розширені режими мислення від Gemini Deep Think від Google та GPT Pro від OpenAI.

«Muse Spark — це перший крок на нашій драбині масштабування та перший продукт повного оновлення наших зусиль у сфері ШІ», — написала Meta в офіційному оголошенні. «Для підтримки подальшого масштабування ми робимо стратегічні інвестиції у весь стек — від досліджень та навчання моделей до інфраструктури, включаючи дата-центр Hyperion».

Компанія співпрацювала з понад 1 000 лікарів для курації навчальних даних для медичних міркувань Muse Spark. Результати на HealthBench Hard — еталонному тесті відкритих запитів про здоров'я — вражають: Muse Spark набрав 42,8 балів порівняно з 40,1 для GPT 5.4 і лише 20,6 для Gemini 3.1 Pro. Це не незначна різниця.

У пошуку на основі агентів (DeepSearchQA) Muse Spark також лідирує з показником 74,8, випереджаючи Gemini (69,7) та GPT 5.4 (73,6). За CharXiv Reasoning — розумінням рисунків з наукових статей — він набрав 86,4 балів, найвищий показник серед моделей у порівнянні.

Для тих, хто захоплюється зламом ШІ, модель була зламана за лічені хвилини:

Але добре — це не те саме, що чудово. Загальна картина показників демонструє, що Gemini 3.1 Pro все ще випереджає за більшістю категорій. Розрив найбільш помітний на ARC AGI 2, еталонному тесті абстрактних головоломок на міркування: Gemini набрав 76,5 балів проти 42,5 у Muse Spark.

У кодуванні (LiveCodeBench Pro) показник Gemini 82,9 випереджає 80,0 Meta. За MMMU Pro — мультимодальним розумінням — Gemini набрав 83,9 балів проти 80,4. Власний блог Meta визнає поточні розриви у продуктивності в довгострокових агентних системах та робочих процесах кодування.

У цей запуск також закладений помітний стратегічний зсув. Muse Spark є закритою моделлю — її архітектура та ваги не будуть оприлюднені. Це різкий відхід від Llama, яка побудувала репутацію Meta у відкритих колах ШІ. Після неоднозначного прийняття Llama 4 раніше цього року Meta, схоже, вирішила, що наступний розділ потрібно писати інакше.

Компанія заявляє, що сподівається відкрити вихідний код майбутніх версій Muse, але наразі код залишається всередині Meta. Акції технологічного гіганта зросли майже на 9% у середу після оголошення та завершили торговий день зростанням на 6,5% до ціни 612,42 доларів.

«Режим роздумів» використовує паралельну оркестрацію агентів для підвищення можливостей моделі. У цій конфігурації Muse Spark досяг 58% на Humanity's Last Exam та 38% на FrontierScience Research — території, яка робить його конкурентоспроможним з найбільш здатними версіями Gemini та GPT, а не їхніми стандартними випусками.

Meta також запускає торговий асистент, який порівнює продукти та безпосередньо посилається на покупки, і планує впровадити Muse Spark на Facebook, Instagram та WhatsApp протягом наступних тижнів — слідуючи тому самому сценарію, що реалізується з Llama 3, представляючи його понад 3,5 мільярда користувачів. Приватний попередній перегляд API відкривається для вибраних розробників.

Модель була побудована за дев'ять місяців, внутрішня кодова назва Avocado, при цьому Meta стверджує, що її новий стек попереднього навчання може досягти того самого рівня можливостей, що й Llama 4 Maverick, використовуючи понад 10 разів менше обчислювальних потужностей.

Muse Spark внутрішньо описується як «малий та швидкий» перший крок у родині Muse. Більш потужна версія вже знаходиться в розробці.