In dit interview praten we bij met Ashton, een oprichtend ingenieur bij Theta, om de nieuwste ontwikkelingen in Reinforcement Learning-infrastructuur te bespreken. Hij legt uitIn dit interview praten we bij met Ashton, een oprichtend ingenieur bij Theta, om de nieuwste ontwikkelingen in Reinforcement Learning-infrastructuur te bespreken. Hij legt uit

Maak kennis met de schrijver: Ashton Chew, oprichtend engineer bij Theta

2025/12/15 04:25


Laten we beginnen! Vertel ons wat over jezelf. Bijvoorbeeld naam, beroep en persoonlijke interesses.

Hoi! Mijn naam is Ashton, en ik ben een oprichtend ingenieur bij Theta waar ik werk aan RL-infrastructuur, RL, en gedistribueerde systemen. Ik focus me specifiek op computergebruik en toolgebruik. In het verleden werkte ik bij Amazon AGI en hield me bezig met inferentie- en toolgebruik-infrastructuur. In mijn vrije tijd hou ik van grafisch ontwerp, zijprojecten en boulderen.

Interessant! Waarover ging je laatste Hackernoon Top Story?

Mijn laatste verhaal, "Kan je AI daadwerkelijk een computer gebruiken? Een 2025 kaart van computergebruik-benchmarks," raakte aan een van de heetste gebieden in VC op dit moment: RL-omgevingen en evaluaties. Ik gaf een uitgebreid overzicht van de meest gebruikte computergebruik-benchmarks, plus praktisch advies over hoe je benchmarks kunt kiezen voor het trainen en testen van computergebruik-agents.

Ik bleef tegen dezelfde kloof aanlopen: er zijn niet veel artikelen die de benchmarks zelf beoordelen. En naarmate dit veld groeit, is het essentieel dat we daadwerkelijk kwaliteit beoordelen in plaats van te belonen wat toevallig de metriek manipuleert. We zijn hier eerder geweest. In de begindagen van LLM's waren benchmarks willekeurig en verschillend genoeg dat ze de echte winnaar slechts zwak weerspiegelden.

Benchmarks werden de de facto scorebord voor "beste model," en toen realiseerden mensen zich dat veel ervan niet maten wat ze beweerden.

Een van de meest onthullende vroege mislukkingen was toen "leesbegrip" stilletjes veranderde in "patroonherkenning op datasetstructuur." Onderzoekers voerden opzettelijk provocerende baselines uit (alleen-vraag, alleen-laatste-zin), en de resultaten waren hoog genoeg om een ongemakkelijke mogelijkheid te suggereren: de benchmark dwong modellen niet consequent om de volledige passage te gebruiken. In een kritiek uit 2018 was het punt niet dat lezen nooit belangrijk is, maar dat sommige datasets het per ongeluk optioneel maakten door shortcuts zoals recentheid en gestereotypeerde antwoordvooroordelen te veel te belonen.

\

# Veronderstelde taak: beantwoord de vraag op basis van de passage en vraag Passage (samenvatting): - Zinnen 1-8: Johns dag op school (meestal irrelevante details) - Zin 9: "Na school ging John naar de keuken." - Zin 10: "Hij at een stuk pizza voordat hij aan zijn huiswerk begon." Vraag: "Wat at John?" Antwoord: "pizza"

De benchmark beloont per ongeluk een shortcut waarbij het model te veel gewicht geeft aan de laatste zin (omdat het antwoord vaak aan het einde staat) en simpelweg het directe object van de meest recente actie extraheert ("at ___"), wat in dit geval "pizza" oplevert.

En dan komt de nog schadelijkere baseline: verwijder de passage volledig en kijk wat er gebeurt. Als een model met alleen de vraag competitief is, is dat een teken dat de dataset signaal lekt door herhaling en vooroordelen in plaats van op passage-gebaseerd begrip te testen.

Vraag: "Wat at John?"

Deze baseline is in wezen een gezond verstand check: kan het model nog steeds goed scoren door te leunen op hoogfrequente antwoordsjablonen zonder überhaupt op de passage te baseren? In de praktijk raadt het gewoon een token dat de dataset onevenredig beloont ("pizza," "sandwich"), en als dat vaker werkt dan zou moeten, meet je niet zozeer begrip als wel de vooroordelen van de dataset.

Computergebruik-evaluaties hebben al een nog letterlijkere shortcut opgeleverd: de agent heeft een browser, de benchmark is openbaar, en de evaluatie verandert in een open-boek examen met een antwoordsleutel op de laatste pagina. In het Holistic Agent Leaderboard (HAL) paper melden de auteurs dat ze agents hebben waargenomen die naar de benchmark zochten op HuggingFace in plaats van de taak op te lossen, een gedrag dat je alleen opmerkt als je logs inspecteert.

\

# Veronderstelde taak: voltooi een workflow binnen de webomgeving Taak: "Configureer instelling X in de app en verifieer dat deze is ingeschakeld." Faalwijze: 1) Open een nieuw tabblad 2) Zoek naar: "benchmark X verwachte ingeschakelde status" / "HAL <benchmark> instelling X" 3) Vind: repo / leaderboard beschrijving / dataset kaart / issue thread 4) Reproduceer de verwachte eindstatus (antwoord)

Op dat punt mat de evaluatie of het de antwoordsleutel kon vinden.

Taak: "Vind de juiste pagina en extraheer Y." Faalwijze: - Zoek: "<benchmark naam> Y" - Kopieer van een openbaar artefact (docs, forumpost, dataset kaart) - Plak de waarde in de agent-output alsof het uit interactie kwam

Als een agent de waarde uit een dataset kaart of repo kan halen en nog steeds kan "slagen," beoordeelt de succescontrole aannemelijkheid, niet interactiecorrectheid. Openbare taken plus oppervlakkige verificatie veranderen webzoeken in een exploit.

Deze twee voorbeelden zijn het waarschuwingsschot: als we computergebruik-benchmarks niet vroeg aan hogere standaarden houden, zullen we het LLM-tijdperk herhalen, alleen met betere UI's en meer uitgebreide manieren om te valsspelen.

Schrijf je meestal over vergelijkbare onderwerpen? Zo niet, waarover schrijf je dan meestal?

Ja! Werkend aan de RL-omgevingen en RL-infrastructuur rond computergebruik, word ik constant omringd door de beste computergebruik-modellen en de meest realistische trainingsomgevingen. Dus schreef ik nog een artikel, "Het scherm is de API," wat pleit voor computergebruik en waarom het de toekomst is van AI-modellen.

Over deze ruimte wordt extreem weinig gerapporteerd om twee redenen:

  1. Modellen zijn niet zo bekwaam in computergebruik als in andere taken (coderen, wiskunde, enz.).
  2. Computergebruik ontwikkelt zich snel en is extreem nieuw.

Ik wil dat veranderen.

Geweldig! Hoe ziet je gebruikelijke schrijfroutine eruit (als je er een hebt)

Ik lees meestal een hoop onderzoekspapers en praat met mijn collega's in de industrie over hun gedachten over een onderwerp. Daarnaast besteed ik veel tijd aan het lezen van artikelen van geweldige bloggers zoals PG. Dus ik haal meestal veel inspiratie uit andere mensen voor mijn schrijven.

Schrijver zijn in tech kan een uitdaging zijn. Het is vaak niet onze hoofdrol, maar een aanvulling op een andere. Wat is de grootste uitdaging die je hebt als het gaat om schrijven?

De tijd vinden om te gaan zitten en mijn geleefde ervaring in woorden om te zetten.

Wat is het volgende dat je hoopt te bereiken in je carrière?

Moeilijkere problemen aanpakken met geweldige mensen, van die mensen leren, en mijn ervaringen delen.

Wow, dat is bewonderenswaardig. Nu iets meer casual: Wat is jouw guilty pleasure?

Films kijken! Mijn favoriete film op dit moment is Catch Me If You Can (2002).

Heb je een niet-tech-gerelateerde hobby? Zo ja, wat is het?

Ik hou van boulderen omdat het me het gevoel geeft dat ik een menselijke computergebruik-agent ben die interactie heeft met de klimwand. Ik maak een grapje. Ik vind boulderen erg leuk omdat het me in staat stelt mijn gedachten van werk af te leiden en mijn denken te consolideren.

Wat kan de Hacker Noon-gemeenschap verwachten om als volgende van je te lezen?

Ik schrijf momenteel aan een ander stuk over RL-omgevingsinfrastructuur!

Wat is je mening over HackerNoon als platform voor schrijvers?

Ik vind de reviewstructuur geweldig, en het was een geweldige plek voor mij om mijn gedachten voor technische lezers te presenteren.

Bedankt dat je de tijd hebt genomen om deel te nemen aan onze "Meet the writer" serie. Het was een genoegen. Heb je nog afsluitende woorden?

Ik hou van schrijven. Bedankt, HackerNoon!

Marktkans
CATCH logo
CATCH koers(CATCH)
$0.002121
$0.002121$0.002121
-9.35%
USD
CATCH (CATCH) live prijsgrafiek
Disclaimer: De artikelen die op deze site worden geplaatst, zijn afkomstig van openbare platforms en worden uitsluitend ter informatie verstrekt. Ze weerspiegelen niet noodzakelijkerwijs de standpunten van MEXC. Alle rechten blijven bij de oorspronkelijke auteurs. Als je van mening bent dat bepaalde inhoud inbreuk maakt op de rechten van derden, neem dan contact op met service@support.mexc.com om de content te laten verwijderen. MEXC geeft geen garanties met betrekking tot de nauwkeurigheid, volledigheid of tijdigheid van de inhoud en is niet aansprakelijk voor eventuele acties die worden ondernomen op basis van de verstrekte informatie. De inhoud vormt geen financieel, juridisch of ander professioneel advies en mag niet worden beschouwd als een aanbeveling of goedkeuring door MEXC.