簡述
- Meta 的新模型 Muse Spark 標誌著轉向封閉式、原生多模態 AI 與基於代理的推理。
- Meta 報告在健康和搜尋領域的基準測試取得強勁進展,但在核心推理和編碼方面仍落後於 Gemini。
- 在九個月內以更少的算力建構完成,這指向一種新的效率驅動 AI 策略。
Meta 於週三推出 Muse Spark,這是 Meta Superintelligence Labs 建構的首個模型——該團隊在 Meta 以 140 億美元收購 Scale AI 後,於九個月前在首席 AI 長 Alexandr Wang 領導下組建。目前已在 meta.ai 和 Meta AI 應用程式上線,未來幾週將推出至 Facebook、Instagram 和 WhatsApp。
這不僅僅是另一次聊天機器人升級或 Llama 的新版本。Muse Spark 是原生多模態的——它從基礎開始處理圖像、文字和語音,而不是將視覺功能附加到現有的文字模型上。它配備視覺思維鏈、工具使用支援,以及 Meta 所稱的「沉思模式」:一種並行運行多個 AI 代理以解決更困難問題的設置。這是 Meta 對 Google 的 Gemini Deep Think 和 OpenAI 的 GPT Pro 的延伸思考模式的回應。
「Muse Spark 是我們擴展階梯的第一步,也是我們 AI 工作全面改革的第一個產品,」Meta 在官方公告中寫道。「為支援進一步擴展,我們正在整個技術堆疊中進行策略性投資——從研究和模型訓練到基礎設施,包括 Hyperion 資料中心。」
該公司與超過 1,000 名醫生合作,為 Muse Spark 的醫療推理整理訓練資料。在 HealthBench Hard——一個開放式健康查詢基準測試上的結果令人矚目:Muse Spark 得分 42.8,相比之下 GPT 5.4 為 40.1,Gemini 3.1 Pro 僅為 20.6。這不是微小的差異。
在代理搜尋(DeepSearchQA)上,Muse Spark 也以 74.8 分領先,擊敗 Gemini(69.7)和 GPT 5.4(73.6)。在 CharXiv Reasoning——科學論文的圖表理解上——它得分 86.4,是比較中所有模型中最高的。
對於熱衷於破解 AI 的人來說,該模型在幾分鐘內就被破解了:
但好並不等於卓越。整體基準測試顯示 Gemini 3.1 Pro 在大多數類別中仍處於領先。差距在 ARC AGI 2——抽象推理謎題基準測試上最為明顯:Gemini 得分 76.5,而 Muse Spark 為 42.5。
在編碼(LiveCodeBench Pro)上,Gemini 的 82.9 超過 Meta 的 80.0。在 MMMU Pro——多模態理解上——Gemini 得分 83.9,相對於 80.4。Meta 自己的部落格承認在長期代理系統和編碼工作流程方面存在當前的效能差距。
此次推出還包含一個顯著的策略轉變。Muse Spark 是一個封閉模型——其架構和權重不會公開。這與 Llama 形成鮮明對比,後者在開放 AI 圈中建立了 Meta 的聲譽。在 Llama 4 今年稍早獲得平淡反應後,Meta 似乎決定下一章需要以不同方式撰寫。
該公司表示希望開源未來版本的 Muse,但目前程式碼仍保留在 Meta 內部。這家科技巨頭的股價在週三公告後攀升近 9%,交易日收盤上漲了 6.5% 至 612.42 美元。
「沉思模式」使用並行代理編排來推高模型的上限。在該配置下,Muse Spark 在 Humanity's Last Exam 上達到 58%,在 FrontierScience Research 上達到 38%——這使其能夠與 Gemini 和 GPT 最強大的版本競爭,而不是它們的標準版本。
Meta 還推出一個購物助手,可比較產品並直接連結至購買,並計劃在未來幾週內將 Muse Spark 帶到 Facebook、Instagram 和 WhatsApp——遵循自 Llama 3 以來實施的相同腳本,將其呈現在超過 35 億用戶面前。私有 API 預覽正向精選開發者開放。
該模型在九個月內建構完成,內部代號為 Avocado,Meta 聲稱其新的預訓練堆疊可以使用超過 10 倍更少的算力達到與 Llama 4 Maverick 相同的能力水準。
Muse Spark 在內部被描述為 Muse 系列「小而快」的第一步。一個更強大的版本已在開發中。
每日簡報電子報
每天以最新的頭條新聞開始,加上原創特色內容、播客、影片等。
來源: https://decrypt.co/363691/meta-muse-spark-most-capable-ai-gemini-pro-still-leads







