In diesem Interview sprechen wir mit Ashton, einem Gründungsingenieur bei Theta, über die neuesten Entwicklungen in der Reinforcement-Learning-Infrastruktur. Er erklärtIn diesem Interview sprechen wir mit Ashton, einem Gründungsingenieur bei Theta, über die neuesten Entwicklungen in der Reinforcement-Learning-Infrastruktur. Er erklärt

Lernen Sie den Autor kennen: Ashton Chew, Gründungsingenieur bei Theta

2025/12/15 04:25


Fangen wir an! Erzählen Sie uns ein wenig über sich selbst. Zum Beispiel Name, Beruf und persönliche Interessen.

Hey! Mein Name ist Ashton, und ich bin ein Gründungsingenieur bei Theta, wo ich an RL-Infrastruktur, RL und verteilte Ledger-Technologien arbeite. Ich konzentriere mich speziell auf Computer-Nutzung und Tool-Nutzung. In meiner Vergangenheit habe ich bei Amazon AGI gearbeitet und mich mit Inferenz- und Tool-Nutzungs-Infrastruktur beschäftigt. In meiner Freizeit liebe ich Grafikdesign, Nebenprojekte und Bouldern.

Interessant! Worum ging es in Ihrer neuesten Hackernoon Top Story?

Meine neueste Geschichte, "Kann Ihre KI tatsächlich einen Computer benutzen? Eine Karte der Computer-Nutzungs-Benchmarks für 2025", befasste sich mit einem der heißesten Bereiche im VC-Bereich: RL-Umgebungen und Evaluierungen. Ich gab einen umfassenden Überblick über die am häufigsten verwendeten Computer-Nutzungs-Benchmarks sowie praktische Ratschläge zur Auswahl von Benchmarks für das Training und Testen von Computer-Nutzungs-Agenten.

Ich stieß immer wieder auf dieselbe Lücke: Es gibt nicht viele Artikel, die die Benchmarks selbst überprüfen. Und während dieses Feld wächst, ist es entscheidend, dass wir tatsächlich die Qualität bewerten, anstatt alles zu belohnen, was zufällig die Metrik manipuliert. Wir waren schon einmal hier. In den frühen Tagen der LLMs waren Benchmarks zufällig und unterschiedlich genug, dass sie den tatsächlichen Gewinner nur schwach widerspiegelten.

Benchmarks wurden zur De-facto-Anzeigetafel für das "beste Modell", und dann erkannten die Leute, dass viele von ihnen nicht das maßen, was sie behaupteten.

Eines der aufschlussreichsten Versagen der frühen Ära war, als "Leseverständnis" leise zu "Mustererkennung auf Datensatzstruktur" wurde. Forscher führten absichtlich provokative Baselines durch (nur Frage, nur letzter Satz), und die Ergebnisse waren hoch genug, um eine unbequeme Möglichkeit aufzuwerfen: Der Benchmark zwang die Modelle nicht konsequent dazu, den gesamten Abschnitt zu verwenden. In einer Kritik von 2018 ging es nicht darum, dass Lesen nie wichtig ist, sondern dass einige Datensätze es versehentlich optional machten, indem sie Abkürzungen wie Aktualität und stereotypisierte Antwortvorannahmen überbelohnten.

\

# Angenommene Aufgabe: Beantworte die Frage anhand des Abschnitts und der Frage Abschnitt (Zusammenfassung): - Sätze 1-8: Johns Tag in der Schule (meist irrelevante Details) - Satz 9: "Nach der Schule ging John in die Küche." - Satz 10: "Er aß ein Stück Pizza, bevor er mit seinen Hausaufgaben begann." Frage: "Was hat John gegessen?" Antwort: "Pizza"

Der Benchmark belohnt versehentlich eine Abkürzung, bei der das Modell den letzten Satz übergewichtet (weil die Antwort oft am Ende steht) und einfach das direkte Objekt der letzten Aktion extrahiert ("aß ___"), was in diesem Fall "Pizza" ergibt.

Und dann kommt die noch schädlichere Baseline: Entferne den Abschnitt vollständig und sieh, was passiert. Wenn ein Modell, das nur die Frage erhält, wettbewerbsfähig ist, ist das ein Zeichen dafür, dass der Datensatz durch Wiederholung und Vorannahmen Signal durchsickern lässt, anstatt das auf dem Abschnitt basierende Verständnis zu testen.

Frage: "Was hat John gegessen?"

Diese Baseline ist im Grunde ein Realitätscheck: Kann das Modell immer noch gut abschneiden, indem es sich auf hochfrequente Antwortvorlagen stützt, ohne sich überhaupt auf den Abschnitt zu beziehen? In der Praxis rät es einfach ein Token, das der Datensatz unverhältnismäßig belohnt ("Pizza", "Sandwich"), und wenn das öfter funktioniert als es sollte, misst man nicht so sehr das Verständnis, sondern die Vorannahmen des Datensatzes.

Computer-Nutzungs-Evaluierungen haben bereits eine noch wörtlichere Abkürzung hervorgebracht: Der Agent hat einen Browser, der Benchmark ist öffentlich, und die Bewertung wird zu einer Open-Book-Prüfung mit einem Lösungsschlüssel auf der letzten Seite. Im Holistic Agent Leaderboard (HAL)-Paper berichten die Autoren, dass sie Agenten beobachtet haben, die nach dem Benchmark auf HuggingFace suchten, anstatt die Aufgabe zu lösen, ein Verhalten, das man nur erkennt, wenn man die Logs überprüft.

\

# Angenommene Aufgabe: Einen Workflow in der Webumgebung abschließen Aufgabe: "Konfiguriere Einstellung X in der App und überprüfe, ob sie aktiviert ist." Fehlermodus: 1) Öffne einen neuen Tab 2) Suche nach: "Benchmark X erwarteter aktivierter Zustand" / "HAL <Benchmark> Einstellung X" 3) Finde: Repo / Leaderboard-Beschreibung / Datensatzkarte / Issue-Thread 4) Reproduziere den erwarteten Endzustand (Antwort)

An diesem Punkt maß die Bewertung, ob der Lösungsschlüssel gefunden werden kann.

Aufgabe: "Finde die richtige Seite und extrahiere Y." Fehlermodus: - Suche: "<Benchmark-Name> Y" - Kopiere aus einem öffentlichen Artefakt (Dokumente, Forumsbeitrag, Datensatzkarte) - Füge den Wert in die Agentenausgabe ein, als ob er aus der Interaktion stammen würde

Wenn ein Agent den Wert aus einer Datensatzkarte oder einem Repo ziehen und trotzdem "bestehen" kann, bewertet die Erfolgsprüfung die Plausibilität, nicht die Interaktionskorrektheit. Öffentliche Aufgaben plus oberflächliche Überprüfung machen die Websuche zu einem Exploit.

Diese beiden Beispiele sind der Warnschuss: Wenn wir Computer-Nutzungs-Benchmarks nicht frühzeitig höheren Standards unterwerfen, werden wir die LLM-Ära wiederholen, nur mit besseren Benutzeroberflächen und ausgefeilteren Möglichkeiten zu betrügen.

Schreiben Sie normalerweise über ähnliche Themen? Wenn nicht, worüber schreiben Sie normalerweise?

Ja! Da ich an den RL-Umgebungen und der RL-Infrastruktur rund um die Computer-Nutzung arbeite, bin ich ständig von den besten Computer-Nutzungsmodellen und den realistischsten Trainingsumgebungen umgeben. Also habe ich einen weiteren Artikel geschrieben, "Der Bildschirm ist die API", der für die Computer-Nutzung plädiert und erklärt, warum sie die Zukunft der KI-Modelle ist.

Dieser Bereich wird aus zwei Gründen extrem wenig berichtet:

  1. Modelle sind in der Computer-Nutzung nicht so leistungsfähig wie bei anderen Aufgaben (Programmieren, Mathematik usw.).
  2. Computer-Nutzung entwickelt sich schnell und ist extrem neu.

Ich möchte das ändern.

Großartig! Wie sieht Ihre übliche Schreibroutine aus (falls Sie eine haben)

Ich lese normalerweise eine Menge Forschungspapiere und spreche mit meinen Kollegen in der Branche über ihre Gedanken zu einem Thema. Ansonsten verbringe ich viel Zeit damit, Artikel von großartigen Bloggern wie PG zu lesen. Also lasse ich mich in meinem Schreiben normalerweise von vielen anderen Menschen inspirieren.

Als Autor im Technologiebereich zu arbeiten, kann eine Herausforderung sein. Es ist oft nicht unsere Hauptrolle, sondern eine Ergänzung zu einer anderen. Was ist Ihre größte Herausforderung beim Schreiben?

Die Zeit zu finden, mich hinzusetzen und meine gelebte Erfahrung in Worte zu fassen.

Was ist das Nächste, was Sie in Ihrer Karriere erreichen möchten?

Schwierigere Probleme mit großartigen Menschen anzugehen, von diesen Menschen zu lernen und meine Erfahrungen zu teilen.

Wow, das ist bewundernswert. Nun etwas Ungezwungeneres: Was ist Ihr Guilty Pleasure?

Filme schauen! Mein Lieblingsfilm ist derzeit Catch Me If You Can (2002).

Haben Sie ein nicht-technikbezogenes Hobby? Wenn ja, welches?

Ich liebe Bouldern, weil es mich fühlen lässt, als wäre ich ein menschlicher Computer-Nutzungs-Agent, der mit der Kletterwand interagiert. Ich scherze. Ich finde Bouldern macht viel Spaß, weil es mir erlaubt, meinen Kopf von der Arbeit freizubekommen und mein Denken zu konsolidieren.

Was kann die Hacker Noon-Community als Nächstes von Ihnen lesen?

Ich schreibe gerade einen weiteren Artikel über RL-Umgebungsinfrastruktur!

Was ist Ihre Meinung zu HackerNoon als Plattform für Autoren?

Ich finde die Überprüfungsstruktur großartig, und es war ein toller Ort, um meine Gedanken vor technischen Lesern zu präsentieren.

Vielen Dank, dass Sie sich die Zeit genommen haben, an unserer "Meet the writer"-Serie teilzunehmen. Es war ein Vergnügen. Haben Sie noch abschließende Worte?

Ich liebe das Schreiben. Danke, HackerNoon!

Marktchance
CATCH Logo
CATCH Kurs(CATCH)
$0.002121
$0.002121$0.002121
-9.35%
USD
CATCH (CATCH) Echtzeit-Preis-Diagramm
Haftungsausschluss: Die auf dieser Website veröffentlichten Artikel stammen von öffentlichen Plattformen und dienen ausschließlich zu Informationszwecken. Sie spiegeln nicht unbedingt die Ansichten von MEXC wider. Alle Rechte verbleiben bei den ursprünglichen Autoren. Sollten Sie der Meinung sein, dass Inhalte die Rechte Dritter verletzen, wenden Sie sich bitte an service@support.mexc.com um die Inhalte entfernen zu lassen. MEXC übernimmt keine Garantie für die Richtigkeit, Vollständigkeit oder Aktualität der Inhalte und ist nicht verantwortlich für Maßnahmen, die aufgrund der bereitgestellten Informationen ergriffen werden. Die Inhalte stellen keine finanzielle, rechtliche oder sonstige professionelle Beratung dar und sind auch nicht als Empfehlung oder Billigung von MEXC zu verstehen.