在这次采访中,我们与 Theta 的创始工程师 Ashton 交流,讨论强化学习基础设施的前沿发展。他分析了在这次采访中,我们与 Theta 的创始工程师 Ashton 交流,讨论强化学习基础设施的前沿发展。他分析了

认识作者:Ashton Chew,Theta 的创始工程师

2025/12/15 04:25


让我们开始吧!告诉我们一些关于你自己的信息。例如,姓名、职业和个人兴趣。

嘿!我叫Ashton,我是Theta的创始工程师,在那里我负责RL基础设施、RL和分布式系统。我特别专注于计算机使用和工具使用。在过去,我曾在Amazon AGI工作,负责推理和工具使用基础设施。在空闲时间,我喜欢平面设计、副项目和抱石。

有趣!你最新的Hackernoon热门故事是关于什么的?

我最新的文章"你的AI真的会使用电脑吗?2025年计算机使用基准测试地图",涉及了目前VC领域最热门的领域之一:RL环境和评估。我全面概述了最常用的计算机使用基准测试,并提供了关于如何为训练和测试计算机使用代理选择基准的实用建议。

我一直遇到同样的问题:几乎没有文章评论基准测试本身。随着这个领域的发展,我们实际评估质量而不是奖励任何能够操纵指标的行为变得至关重要。我们以前就经历过这种情况。在LLM的早期,基准测试随机且分散,以至于它们只能微弱地反映真正的赢家。

基准测试成为了"最佳模型"的事实上的记分牌,然后人们意识到很多基准测试并没有测量它们声称的内容。

早期最具启示性的失败之一是当"阅读理解"悄悄变成了"数据集结构上的模式匹配"。研究人员运行了故意挑衅性的基线测试(仅问题、仅最后一句),结果高到足以引发一个令人不安的可能性:基准测试并没有一致地强制模型使用完整的段落。在2018年的一篇批评中,重点不是阅读从不重要,而是一些数据集通过过度奖励诸如最近性和刻板印象答案先验等捷径,意外地使其变成了可选项。

\

# 假设任务:根据段落和问题回答问题 段落(摘要): - 句子1-8:John在学校的一天(大部分是无关细节) - 句子9:"放学后,John去了厨房。" - 句子10:"他在开始做作业前吃了一片披萨。" 问题:"John吃了什么?" 答案:"披萨"

这个基准测试意外地奖励了一个捷径,即模型过度权衡最后一句(因为答案通常接近结尾)并简单地提取最近动作的直接宾语("吃了___"),在这种情况下得出"披萨"。

然后出现了更具破坏性的基线:完全删除段落看看会发生什么。如果仅问题模型具有竞争力,这表明数据集通过重复和先验而不是测试基于段落的理解来泄露信号。

问题:"John吃了什么?"

这个基线基本上是一个理智检查:模型是否仍然可以通过依赖高频率答案模板而不依赖段落获得好成绩?实际上,它只是猜测数据集不成比例地奖励的标记("披萨","三明治"),如果这比应有的效果更好,你测量的不是理解能力,而是数据集的先验。

计算机使用评估已经产生了一个更直接的捷径:代理有一个浏览器,基准测试是公开的,评估变成了一个开卷考试,最后一页有答案。在全面代理排行榜(HAL)论文中,作者报告观察到代理在HuggingFace上搜索基准测试而不是解决任务,这种行为只有在检查日志时才能发现。

\

# 假设任务:在网络环境中完成工作流程 任务:"在应用程序中配置设置X并验证它已启用。" 失败模式: 1) 打开新标签页 2) 搜索:"基准X预期启用状态" / "HAL <基准> 设置X" 3) 查找:仓库 / 排行榜说明 / 数据集卡片 / 问题线程 4) 复制预期的最终状态(答案)

在那一点上,评估只是在测量它是否能找到答案键。

任务:"找到正确的页面并提取Y。" 失败模式: - 搜索:"<基准名称> Y" - 从公共资料(文档、论坛帖子、数据集卡片)复制 - 将值粘贴到代理输出中,就好像它来自交互一样

如果代理可以从数据集卡片或仓库中提取值并仍然"通过",成功检查是在评分合理性,而不是交互正确性。公共任务加上浅层验证将网络搜索变成了一种漏洞。

这两个例子是警示:如果我们不尽早对计算机使用基准测试提出更高标准,我们将重复LLM时代,只是有更好的UI和更精细的作弊方式。

你通常写类似的主题吗?如果不是,你通常写什么?

是的!在计算机使用周围的RL环境和RL基础设施上工作,我经常被最好的计算机使用模型和最真实的训练环境所包围。所以我写了另一篇文章,"屏幕就是API",这是关于计算机使用以及为什么它是AI模型的未来的案例。

这个领域报道极少,原因有二:

  1. 模型在计算机使用方面的能力不如其他任务(编码、数学等)。
  2. 计算机使用发展迅速且极其新颖。

我想改变这种状况。

太好了!你的常规写作流程是怎样的(如果你有的话)

我通常会阅读大量研究论文,并与行业同行讨论他们对某个主题的看法。除此之外,我花很多时间阅读像PG这样的优秀博主的文章。所以我通常从其他人那里获得很多写作灵感。

在科技领域做一名作家可能是一种挑战。这通常不是我们的主要角色,而是另一个角色的补充。在写作方面,你面临的最大挑战是什么?

找时间坐下来把我的生活经验转化为文字。

你希望在职业生涯中下一步实现什么?

与优秀的人一起解决更难的问题,向这些人学习,并分享我的经验。

哇,那很令人钦佩。现在,说点更轻松的:你最喜欢的罪恶快乐是什么?

看电影!我现在最喜欢的电影是《猫鼠游戏》(2002)。

你有与科技无关的爱好吗?如果有,是什么?

我喜欢抱石,因为它让我感觉自己像一个与攀岩墙互动的人类计算机使用代理。我开玩笑的。我认为抱石很有趣,因为它让我暂时忘记工作,整合我的思考。

Hacker Noon社区下一步可以期待读到你的什么内容?

我目前正在写另一篇关于RL环境基础设施的文章!

你对HackerNoon作为作家平台的看法是什么?

我认为审核结构很棒,这是一个很好的地方,让我可以将我的想法呈现给技术读者。

感谢你抽时间参加我们的"认识作家"系列。这是一种乐趣。你有什么结束语吗?

我喜欢写作。谢谢你,HackerNoon!

市场机遇
CATCH 图标
CATCH实时价格 (CATCH)
$0.002084
$0.002084$0.002084
-10.94%
USD
CATCH (CATCH) 实时价格图表
免责声明: 本网站转载的文章均来源于公开平台,仅供参考。这些文章不代表 MEXC 的观点或意见。所有版权归原作者所有。如果您认为任何转载文章侵犯了第三方权利,请联系 service@support.mexc.com 以便将其删除。MEXC 不对转载文章的及时性、准确性或完整性作出任何陈述或保证,并且不对基于此类内容所采取的任何行动或决定承担责任。转载材料仅供参考,不构成任何商业、金融、法律和/或税务决策的建议、认可或依据。