Google的Gemma已经表现得像Gemini——有人还让它像Claude Opus一样思考

如果你一直关注本地AI领域,你可能知道Qwopus——这个开源模型试图将Claude Opus 4.6的推理能力提炼到阿里巴巴的Qwen中,这样你就可以在自己的硬件上免费运行类似Opus的东西。它的效果出奇地好。显而易见的问题是:Qwen是中国模型,并非所有人都对此感到放心。

Jackrong,该项目背后的同一位匿名开发者,听取了反馈。他的答案是Gemopus——一个全新的Claude Opus风格微调模型系列,完全基于谷歌的开源Gemma 4构建。纯美国血统,同样的理念:前沿级别的推理能力,在你已经拥有的硬件上本地运行。

这个系列有两种版本。Gemopus-4-26B-A4B是较重的选项——一个专家混合模型,总共有260亿参数,但在推理过程中只激活约40亿参数,这意味着它在受限硬件上的表现远超其重量级别。

参数决定了AI学习、推理和存储信息的能力。拥有260亿总参数为模型提供了巨大的知识广度。但通过只"唤醒"与你特定提示相关的40亿参数,它能提供大型AI的高质量结果,同时保持足够轻量,可以在日常硬件上流畅运行。

另一个是Gemopus-4-E4B,一个40亿参数的边缘模型,专为在现代iPhone或轻薄MacBook上舒适运行而设计——无需GPU。

基础模型的选择在这里很重要。谷歌的Gemma 4于4月2日发布,直接基于与Gemini 3相同的研究和技术构建——公司在发布时明确表示了这一点。这意味着Gemopus拥有任何基于Qwen的微调都无法声称的东西:谷歌自己最先进的封闭模型的DNA作为底层,顶层包裹着Anthropic的思维风格。或多或少,两全其美。

让Gemopus与目前涌入Hugging Face的其他Gemma微调浪潮不同的是其背后的理念。Jackrong刻意选择不将Claude的链式思维推理痕迹强制注入Gemma的权重中——这是大多数竞争版本采取的捷径。

他的论点得到了最近研究的支持,即用教师的表层推理文本填充学生模型实际上并不能转移真正的推理能力。它教的是模仿,而非逻辑。"没有必要过度想象或迷信地复制Claude风格的链式思维,"模型卡片如此写道。相反,他专注于答案质量、结构清晰度和对话自然性——修复Gemma生硬的维基百科语调及其倾向于对你没问的事情说教的问题。

AI基础设施工程师Kyle Hessling进行了独立基准测试,并将结果直接发布在模型卡片上。他对26B变体的评价相当积极。"很高兴对这个进行了相当严格的测试,它是一个已经卓越的模型的出色微调,"他在X上写道。"它在长上下文的单次请求中表现出色,并且由于MOE(专家混合)架构运行速度快得令人难以置信。"

较小的E4B变体通过了全部14项核心能力测试——指令遵循、编码、数学、多步推理、翻译、安全性、缓存——并通过了30K和60K tokens的全部12项长上下文测试。在大海捞针检索中,它通过了13项探测中的全部13项,包括使用YaRN 8× RoPE扩展在一百万tokens的压力测试。

26B原生扩展至131K上下文,并通过YaRN一路扩展至524K,Hessling也对此进行了压力测试:"它还在扩展上下文524k的范围内碾压了我简单的大海捞针测试!"

在边缘硬件上,E4B确实很快。Jackrong报告在iPhone 17 Pro Max上每秒45-60个tokens,在MacBook Air M3/M4上通过MLX每秒90-120个tokens。26B MoE架构意味着它可以在统一内存系统或VRAM低于10GB的GPU上优雅地卸载。Hessling称其为VRAM匮乏配置的日常推荐。

两个模型都以GGUF格式提供,这意味着你可以直接将它们放入LM Studio或llama.cpp而无需配置。完整的训练代码和逐步微调指南都在Jackrong的GitHub上——与他用于Qwopus的流程相同,相同的Unsloth和LoRA设置,可在Colab上重现。

Gemopus并非没有粗糙的边缘。在llama.cpp和LM Studio中,整个Gemma 4系列的工具调用仍然存在问题——调用失败、格式不匹配、循环——因此如果你的工作流程依赖于使用外部工具的代理,这还不是你的模型。Jackrong本人称其为"工程探索参考而非完全生产就绪的解决方案",并推荐他自己的Qwopus 3.5系列给任何需要更稳定的真实工作负载的人。

而且因为Jackrong刻意避免了激进的Claude风格链式思维蒸馏,不要期望它像Qwopus那样深具Opus思维——这是为稳定性而做的有意权衡,而非疏忽。

对于那些想深入研究Gemma推理微调的人,还有一个值得关注的独立社区项目:由匿名开发者DJLougen开发的Ornstein,它采用相同的26B Gemma 4基础,专注于改进其推理链,而不依赖任何特定第三方模型的逻辑或风格。

一个诚实的警告:对于微调者来说,Gemma的训练动态比Qwen更混乱——更大的损失波动、更高的超参数敏感性。Jackrong自己也这么说。如果你需要一个更经过实战检验的本地模型用于生产工作流程,他的Qwopus 3.5系列仍然得到了更稳健的验证。但如果你想要一个具有Opus风格优雅的美国模型,Gemopus目前是你最好的可用选择。一个更密集的31B Gemopus变体也在筹备中,Hessling预告它"肯定是个爆款"。

如果你想尝试在自己的硬件上运行本地模型,请查看我们关于如何开始使用本地AI的指南。