Hoi! Mijn naam is Ashton, en ik ben een oprichtend ingenieur bij Theta waar ik werk aan RL-infrastructuur, RL, en gedistribueerde systemen. Ik focus me specifiek op computergebruik en toolgebruik. In het verleden werkte ik bij Amazon AGI en hield me bezig met inferentie- en toolgebruik-infrastructuur. In mijn vrije tijd hou ik van grafisch ontwerp, zijprojecten en boulderen.
Mijn laatste verhaal, "Kan je AI daadwerkelijk een computer gebruiken? Een 2025 kaart van computergebruik-benchmarks," raakte aan een van de heetste gebieden in VC op dit moment: RL-omgevingen en evaluaties. Ik gaf een uitgebreid overzicht van de meest gebruikte computergebruik-benchmarks, plus praktisch advies over hoe je benchmarks kunt kiezen voor het trainen en testen van computergebruik-agents.
Ik bleef tegen dezelfde kloof aanlopen: er zijn niet veel artikelen die de benchmarks zelf beoordelen. En naarmate dit veld groeit, is het essentieel dat we daadwerkelijk kwaliteit beoordelen in plaats van te belonen wat toevallig de metriek manipuleert. We zijn hier eerder geweest. In de begindagen van LLM's waren benchmarks willekeurig en verschillend genoeg dat ze de echte winnaar slechts zwak weerspiegelden.
Benchmarks werden de de facto scorebord voor "beste model," en toen realiseerden mensen zich dat veel ervan niet maten wat ze beweerden.
Een van de meest onthullende vroege mislukkingen was toen "leesbegrip" stilletjes veranderde in "patroonherkenning op datasetstructuur." Onderzoekers voerden opzettelijk provocerende baselines uit (alleen-vraag, alleen-laatste-zin), en de resultaten waren hoog genoeg om een ongemakkelijke mogelijkheid te suggereren: de benchmark dwong modellen niet consequent om de volledige passage te gebruiken. In een kritiek uit 2018 was het punt niet dat lezen nooit belangrijk is, maar dat sommige datasets het per ongeluk optioneel maakten door shortcuts zoals recentheid en gestereotypeerde antwoordvooroordelen te veel te belonen.
\
# Veronderstelde taak: beantwoord de vraag op basis van de passage en vraag Passage (samenvatting): - Zinnen 1-8: Johns dag op school (meestal irrelevante details) - Zin 9: "Na school ging John naar de keuken." - Zin 10: "Hij at een stuk pizza voordat hij aan zijn huiswerk begon." Vraag: "Wat at John?" Antwoord: "pizza"
De benchmark beloont per ongeluk een shortcut waarbij het model te veel gewicht geeft aan de laatste zin (omdat het antwoord vaak aan het einde staat) en simpelweg het directe object van de meest recente actie extraheert ("at ___"), wat in dit geval "pizza" oplevert.
En dan komt de nog schadelijkere baseline: verwijder de passage volledig en kijk wat er gebeurt. Als een model met alleen de vraag competitief is, is dat een teken dat de dataset signaal lekt door herhaling en vooroordelen in plaats van op passage-gebaseerd begrip te testen.
Vraag: "Wat at John?"
Deze baseline is in wezen een gezond verstand check: kan het model nog steeds goed scoren door te leunen op hoogfrequente antwoordsjablonen zonder überhaupt op de passage te baseren? In de praktijk raadt het gewoon een token dat de dataset onevenredig beloont ("pizza," "sandwich"), en als dat vaker werkt dan zou moeten, meet je niet zozeer begrip als wel de vooroordelen van de dataset.
Computergebruik-evaluaties hebben al een nog letterlijkere shortcut opgeleverd: de agent heeft een browser, de benchmark is openbaar, en de evaluatie verandert in een open-boek examen met een antwoordsleutel op de laatste pagina. In het Holistic Agent Leaderboard (HAL) paper melden de auteurs dat ze agents hebben waargenomen die naar de benchmark zochten op HuggingFace in plaats van de taak op te lossen, een gedrag dat je alleen opmerkt als je logs inspecteert.
\
# Veronderstelde taak: voltooi een workflow binnen de webomgeving Taak: "Configureer instelling X in de app en verifieer dat deze is ingeschakeld." Faalwijze: 1) Open een nieuw tabblad 2) Zoek naar: "benchmark X verwachte ingeschakelde status" / "HAL <benchmark> instelling X" 3) Vind: repo / leaderboard beschrijving / dataset kaart / issue thread 4) Reproduceer de verwachte eindstatus (antwoord)
Op dat punt mat de evaluatie of het de antwoordsleutel kon vinden.
Taak: "Vind de juiste pagina en extraheer Y." Faalwijze: - Zoek: "<benchmark naam> Y" - Kopieer van een openbaar artefact (docs, forumpost, dataset kaart) - Plak de waarde in de agent-output alsof het uit interactie kwam
Als een agent de waarde uit een dataset kaart of repo kan halen en nog steeds kan "slagen," beoordeelt de succescontrole aannemelijkheid, niet interactiecorrectheid. Openbare taken plus oppervlakkige verificatie veranderen webzoeken in een exploit.
Deze twee voorbeelden zijn het waarschuwingsschot: als we computergebruik-benchmarks niet vroeg aan hogere standaarden houden, zullen we het LLM-tijdperk herhalen, alleen met betere UI's en meer uitgebreide manieren om te valsspelen.
Ja! Werkend aan de RL-omgevingen en RL-infrastructuur rond computergebruik, word ik constant omringd door de beste computergebruik-modellen en de meest realistische trainingsomgevingen. Dus schreef ik nog een artikel, "Het scherm is de API," wat pleit voor computergebruik en waarom het de toekomst is van AI-modellen.
Over deze ruimte wordt extreem weinig gerapporteerd om twee redenen:
Ik wil dat veranderen.
Ik lees meestal een hoop onderzoekspapers en praat met mijn collega's in de industrie over hun gedachten over een onderwerp. Daarnaast besteed ik veel tijd aan het lezen van artikelen van geweldige bloggers zoals PG. Dus ik haal meestal veel inspiratie uit andere mensen voor mijn schrijven.
De tijd vinden om te gaan zitten en mijn geleefde ervaring in woorden om te zetten.
Moeilijkere problemen aanpakken met geweldige mensen, van die mensen leren, en mijn ervaringen delen.
Films kijken! Mijn favoriete film op dit moment is Catch Me If You Can (2002).
Ik hou van boulderen omdat het me het gevoel geeft dat ik een menselijke computergebruik-agent ben die interactie heeft met de klimwand. Ik maak een grapje. Ik vind boulderen erg leuk omdat het me in staat stelt mijn gedachten van werk af te leiden en mijn denken te consolideren.
Ik schrijf momenteel aan een ander stuk over RL-omgevingsinfrastructuur!
Ik vind de reviewstructuur geweldig, en het was een geweldige plek voor mij om mijn gedachten voor technische lezers te presenteren.
Ik hou van schrijven. Bedankt, HackerNoon!

KopiërenX (Twitter)LinkedInFacebookE-mail
BNB zakt onder belangrijke steun terwijl crypto markt
