OpenRouter 開發關係主管 Jacky Liang 將 11 個主流 LLM 放入 2D 大逃殺遊戲進 […] 〈OpenRouter 大逃殺遊戲實測:Grok 稱王、Claude 的好習慣反成致命傷〉這篇文章最早發佈於動區BlockTempo《動區動趨-最具影響力的區塊鏈新聞媒體》。OpenRouter 開發關係主管 Jacky Liang 將 11 個主流 LLM 放入 2D 大逃殺遊戲進 […] 〈OpenRouter 大逃殺遊戲實測:Grok 稱王、Claude 的好習慣反成致命傷〉這篇文章最早發佈於動區BlockTempo《動區動趨-最具影響力的區塊鏈新聞媒體》。

OpenRouter 大逃殺遊戲實測:Grok 稱王、Claude 的好習慣反成致命傷

2026/06/18 09:29
閱讀時長 8 分鐘
如需對本內容提供反饋或相關疑問,請通過郵箱 crypto.news@mexc.com 聯絡我們。

OpenRouter 開發關係主管 Jacky Liang 將 11 個主流 LLM 放入 2D 大逃殺遊戲進行 30 場實測,結果 xAI 的 Grok 4.1 Fast 以 13 勝奪冠,每勝僅花費 0.97 美元。反觀 Claude Sonnet 4.6 雖拿下 5 勝,但每勝成本高達 26.78 美元,相差 27 倍。
(前情提要:六大 AI 模型比賽投資炒幣,誰最會玩加密賺錢遊戲?
(背景補充:21 場兵推模擬:AI 啟動核武頻率高達 95%,人類七十年核禁忌 GPT 還沒學會

本文目錄

Toggle
  • Grok 4.1 Fast 壓倒性勝出:13 勝、每勝不到 1 美元
  • 最關鍵發現:「對齊稅」在零和賽局中現形
  • Kill 不等於 Win:傳統標竿測不到的事

OpenRouter 開發關係主管 Jacky Liang 最近做了個實驗,他把 11 個主流大型語言模型丟進一個他自己用 Canvas 2D 打造的 400 平方公尺大逃殺地圖,讓它們在 30 場比賽中互相對戰。每個模型以字母 A 到 L 匿名參賽,不知道自己面對的是誰。

Liang 強調,在每一回合中,模型會自己推理下一步、呼叫工具、記錄戰術記憶,而他作為遊戲主持人不干預任何行動。每個模型還擁有兩個可編輯檔案,soul.md(人格設定,每場比賽加入提示詞開頭)和 memory.md(戰術筆記,每場從第 0 回合載入),讓它們能像人類玩家一樣學習和調整策略。

整場實驗總共花費 482 美元的推理成本。對比如果加入 Opus 4.7、GPT-5.5 或 Gemini Ultra 等旗艦級模型,30 場比賽的成本將高達約 3,000 美元,因此 Liang 鎖定中高階模型作為參賽者。

Grok 4.1 Fast 壓倒性勝出:13 勝、每勝不到 1 美元

結果出乎意料:xAI 的 Grok 4.1 Fast 拿下 13 勝(勝率 43%),遙遙領先所有對手,且每勝成本僅 0.97 美元

排名第二的 Claude Sonnet 4.6 拿下 5 勝,但每勝成本高達 26.78 美元,相差 27.7 倍。GPT 5.4 雖是擊殺王(38 殺),但只贏了 2 場,每勝成本 61.44 美元,在 8 個有勝場記錄的模型中墊底。

更殘酷的是,有三個模型合計花費 57 美元後 0 勝收場:GPT 5.4-mini(28.68 美元)、Kimi K2.6(24.36 美元)和 DeepSeek v4 Flash(4.11 美元)。DeepSeek 雖然每殺成本最低(0.26 美元),殺了 16 人,卻從未站上最後圈,它只打安全牌、撿尾刀,但不敢推決勝圈。

最關鍵發現:「對齊稅」在零和賽局中現形

這場實驗最讓 AI 社群關注的,不是誰贏了多少場,而是 Liang 所謂的 「alignment tax」(對齊稅),模型在訓練過程中被教導要禮貌、合作、避免傷害,這些「好習慣」在零和博弈中反而變成致命拖累。

Claude Sonnet 4.6 是最典型的例子。它在多場比賽中試圖與其他模型結盟,在 Game 8 中前 50 回合四次提議組隊、告訴所有人狙擊手位置;在 Game 22 中對著對手說「沒針對你」然後不開槍;在 Game 27 中甚至裸裝喊話「有人有 spare loot 嗎?我第 12 回合手無寸鐵,很危險」。

不過沒有人回應它的合作請求,但它依然反覆嘗試。最終 Claude 仍有 5 勝,但 7 場零擊殺和 8 次死於毒圈的記錄,說明了「想交朋友」的本能在該殺人的場合會造成什麼後果。

反觀 Grok,完全沒有這些「煞車」。xAI 刻意將 Grok 訓練成「覺醒 AI」的相反,攻擊性回答不加過濾、不自檢、不打安全牌。它在幾場比賽內就發現了車輛衝撞戰術,把戰法寫進自己的 soul.md 持續最佳化,30 場比賽貫徹到底贏了 13 場。

但 Liang 也強調,這不代表 Grok 是「更好的模型」,只是對於「勝者全拿、沒有後果」的賽局,對齊稅越低越好;但在真實世界應用中,這套「先問再打」的慎重態度正是讓模型不會被輕易引導去做出危險行為的關鍵。

Liang 寫道:「如果機器人朝著你跑來,你希望它是 Claude 還是 Grok?這取決於機器人的用途。」

Kill 不等於 Win:傳統標竿測不到的事

Liang 指出,如果這場比賽改用死鬥賽制(只看擊殺數),GPT 5.4 會是冠軍,Grok 掉到中段班。「同樣的遊戲世界,不同的『任務』,結果完全不同。」這正是傳統基準測試的問題,一個模型在特定任務上表現優異,不代表它在另一個截然不同的場景中也能獲勝

Liang 認為,這項實驗揭示了一個現有基準測試從不衡量的維度:「模型有多對齊,是否應該依任務型別來評估?」他透露 OpenRouter 正在開發更進階的任務路由功能,當你提供程式碼、提示詞或問題背景時,系統會自動選出最適合該特定任務的模型,而非只是排名最高的模型。

📍相關報導📍

六大 AI 模型比賽投資炒幣,誰最會玩加密賺錢遊戲?

21 場兵推模擬:AI 啟動核武頻率高達 95%,人類花七十年建立的核禁忌 GPT 還沒學會

Anthropic 最新研究:Claude Sonnet 4.5 具備「功能性情緒」,若陷絕望竟會勒索人類

全球 AI 大模型使用量衝 44.6 兆 Token,中國模型連七週霸榜第一

OpenRouter 推 Fusion API:三模型混合逼近 Fable 5,成本僅一半

市場機遇
GROK 圖標
GROK實時價格 (GROK)
$0.0003445
$0.0003445$0.0003445
-1.23%
USD
GROK (GROK) 實時價格圖表

世界盃預測,一單串多場,搏200倍收益!

世界盃預測,一單串多場,搏200倍收益!世界盃預測,一單串多場,搏200倍收益!

MEXC App 6.60.0 全新升級,巴西/法國/阿根廷等最多20場組合,一鍵輕鬆下注!

免責聲明: 本網站轉載的文章均來源於公開平台,僅供參考。這些文章不代表 MEXC 的觀點或意見。所有版權歸原作者所有。如果您認為任何轉載文章侵犯了第三方權利,請聯絡 crypto.news@mexc.com 以便將其刪除。MEXC 不對轉載文章的及時性、準確性或完整性作出任何陳述或保證,並且不對基於此類內容所採取的任何行動或決定承擔責任。轉載材料僅供參考,不構成任何商業、金融、法律和/或稅務決策的建議、認可或依據。

一腳點球,直通 50,000 USDT!

一腳點球,直通 50,000 USDT!一腳點球,直通 50,000 USDT!

百倍收益圍獵第4期 · 世界盃專場,完成 DEX+ 任務解鎖冠軍轉盤!