In Questa Intervista, Parliamo con Ashton, un Ingegnere Fondatore di Theta, per Discutere dell'Avanguardia dell'Infrastruttura di Reinforcement Learning. Lui SpiegaIn Questa Intervista, Parliamo con Ashton, un Ingegnere Fondatore di Theta, per Discutere dell'Avanguardia dell'Infrastruttura di Reinforcement Learning. Lui Spiega

Incontra lo Scrittore: Ashton Chew, Ingegnere Fondatore di Theta

2025/12/15 04:25


Iniziamo! Parlaci un Po' di Te. Per Esempio, Nome, Professione e Interessi Personali.

Ciao! Mi chiamo Ashton e sono un ingegnere fondatore di Theta dove lavoro su infrastrutture RL, RL e sistemi distribuiti. Mi concentro specificamente sull'uso del computer e l'uso degli strumenti. In passato, ho lavorato presso Amazon AGI e mi sono occupato di infrastrutture di inferenza e uso degli strumenti. Nel mio tempo libero, amo il design grafico, i progetti secondari e il bouldering.

Interessante! Di Cosa Parlava la Tua Ultima Storia di Punta su Hackernoon?

La mia ultima storia, "La Tua IA Può Davvero Usare un Computer? Una Mappa 2025 dei Benchmark di Utilizzo del Computer", ha toccato uno degli spazi più caldi nel VC in questo momento: ambienti RL e valutazioni. Ho fornito una panoramica completa dei benchmark di utilizzo del computer più utilizzati, oltre a consigli pratici su come scegliere i benchmark per l'addestramento e il test degli agenti di utilizzo del computer.

Continuavo a imbattermi nella stessa lacuna: non ci sono molti articoli che esaminano i benchmark stessi. E mentre questo campo cresce, è vitale che stiamo effettivamente valutando la qualità invece di premiare qualunque cosa accada per manipolare la metrica. Siamo già stati qui prima. Nei primi giorni dei LLM, i benchmark erano abbastanza casuali e disparati da riflettere solo debolmente il vero vincitore.

I benchmark sono diventati il tabellone segnapunti de facto per il "miglior modello", e poi le persone hanno realizzato che molti di essi non stavano misurando ciò che affermavano.

Uno dei fallimenti più rivelatori dell'era iniziale è stato quando la "comprensione della lettura" è diventata silenziosamente "corrispondenza di modelli sulla struttura del dataset". I ricercatori hanno eseguito baseline intenzionalmente provocatorie (solo domande, solo ultima frase), e i risultati erano abbastanza alti da sollevare una possibilità scomoda: il benchmark non costringeva costantemente i modelli a utilizzare l'intero passaggio. In una critica del 2018, il punto non era che la lettura non conta mai, ma che alcuni dataset l'hanno resa accidentalmente opzionale premiando eccessivamente scorciatoie come la recenza e i preconcetti stereotipati delle risposte.

\

# Compito presunto: rispondere alla domanda dato il passaggio e la domanda Passaggio (riassunto): - Frasi 1-8: La giornata di John a scuola (dettagli per lo più irrilevanti) - Frase 9: "Dopo la scuola, John è andato in cucina." - Frase 10: "Ha mangiato una fetta di pizza prima di iniziare i compiti." Domanda: "Cosa ha mangiato John?" Risposta: "pizza"

Il benchmark premia accidentalmente una scorciatoia in cui il modello sovrastima l'ultima frase (perché la risposta è spesso vicino alla fine) e semplicemente estrae l'oggetto diretto dell'azione più recente ("ha mangiato ___"), che in questo caso produce "pizza".

E poi arriva la baseline ancora più dannosa: rimuovere completamente il passaggio e vedere cosa succede. Se un modello con solo domande è competitivo, è un segno che il dataset sta perdendo segnale attraverso la ripetizione e i preconcetti piuttosto che testare la comprensione basata sul passaggio.

Domanda: "Cosa ha mangiato John?"

Questa baseline è fondamentalmente un controllo di sanità mentale: il modello può ancora ottenere buoni risultati basandosi su modelli di risposta ad alta frequenza senza basarsi affatto sul passaggio? In pratica, indovina semplicemente un token che il dataset premia in modo sproporzionato ("pizza", "panino"), e se funziona più spesso di quanto dovrebbe, non stai misurando la comprensione tanto quanto stai misurando i preconcetti del dataset.

Le valutazioni di utilizzo del computer hanno già prodotto una scorciatoia ancora più letterale: l'agente ha un browser, il benchmark è pubblico, e la valutazione si trasforma in un esame a libro aperto con una chiave di risposta nell'ultima pagina. Nel documento Holistic Agent Leaderboard (HAL), gli autori riferiscono di aver osservato agenti che cercavano il benchmark su HuggingFace invece di risolvere il compito, un comportamento che si coglie solo se si ispezionano i log.

\

# Compito presunto: completare un flusso di lavoro all'interno dell'ambiente web Compito: "Configurare l'impostazione X nell'app e verificare che sia abilitata." Modalità di fallimento: 1) Aprire una nuova scheda 2) Cercare: "stato abilitato previsto del benchmark X" / "HAL <benchmark> impostazione X" 3) Trovare: repo / descrizione della classifica / scheda del dataset / thread del problema 4) Riprodurre lo stato finale previsto (risposta)

A quel punto, la valutazione stava misurando se può localizzare la chiave di risposta.

Compito: "Trova la pagina corretta ed estrai Y." Modalità di fallimento: - Cerca: "<nome benchmark> Y" - Copia da un artefatto pubblico (documenti, post del forum, scheda del dataset) - Incolla il valore nell'output dell'agente come se provenisse dall'interazione

Se un agente può estrarre il valore da una scheda del dataset o da un repository e comunque "passare", il controllo del successo sta valutando la plausibilità, non la correttezza dell'interazione. Compiti pubblici più verifica superficiale trasformano la ricerca web in un exploit.

Questi due esempi sono il colpo di avvertimento: se non manteniamo i benchmark di utilizzo del computer a standard più elevati fin dall'inizio, ripeteremo l'era LLM solo con interfacce utente migliori e modi più elaborati per imbrogliare.

Scrivi Solitamente su Argomenti Simili? Se No, su Cosa Scrivi di Solito?

Sì! Lavorando sugli ambienti RL e sull'infrastruttura RL per l'utilizzo del computer, sono costantemente circondato dai migliori modelli di utilizzo del computer e dagli ambienti di addestramento più realistici. Quindi ho scritto un altro articolo, "Lo Schermo è l'API", che è il caso per l'utilizzo del computer e perché è il futuro dei modelli di IA.

Questo spazio è estremamente sottoriportato per due motivi:

  1. I modelli non sono così capaci nell'utilizzo del computer come lo sono in altri compiti (codifica, matematica, ecc.).
  2. L'utilizzo del computer è in rapida evoluzione ed estremamente nuovo.

Voglio cambiare questo.

Ottimo! Com'è la Tua Routine di Scrittura Abituale (se ne Hai Una)

Di solito leggo un sacco di articoli di ricerca e parlo con i miei colleghi del settore riguardo ai loro pensieri su un argomento. Oltre a ciò, trascorro molto tempo leggendo articoli di grandi blogger come PG. Quindi di solito prendo molta ispirazione da altre persone nella mia scrittura.

Essere uno Scrittore nel Settore Tech Può Essere una Sfida. Spesso Non è il Nostro Ruolo Principale, Ma un'Aggiunta a un Altro. Qual è la Sfida Più Grande Che Hai Quando si Tratta di Scrivere?

Trovare il tempo per sedermi e mettere la mia esperienza vissuta in parole.

Qual è la Prossima Cosa Che Speri di Raggiungere nella Tua Carriera?

Affrontare problemi più difficili con persone fantastiche, imparare da quelle persone e condividere le mie esperienze.

Wow, è Ammirevole. Ora, Qualcosa di Più Casual: Qual è il Tuo Piacere Colpevole Preferito?

Guardare film! Il mio film preferito in questo momento è Prova a Prendermi (2002).

Hai un Hobby Non Legato alla Tecnologia? Se Sì, Qual è?

Amo il bouldering perché mi fa sentire come se fossi un agente umano di utilizzo del computer che interagisce con la parete di arrampicata. Sto scherzando. Penso che il bouldering sia molto divertente perché mi permette di distogliere la mente dal lavoro e consolidare il mio pensiero.

Cosa Può Aspettarsi di Leggere da Te la Comunità di Hacker Noon Prossimamente?

Sto attualmente scrivendo un altro pezzo sull'infrastruttura dell'ambiente RL!

Qual è la Tua Opinione su HackerNoon Come Piattaforma per Scrittori?

Penso che la struttura di revisione sia fantastica, ed è stato un ottimo posto per mettere i miei pensieri davanti a lettori tecnici.

Grazie per Aver Dedicato del Tempo a Partecipare alla Nostra Serie "Incontra lo Scrittore". È Stato un Piacere. Hai Qualche Parola di Chiusura?

Amo scrivere. Grazie, HackerNoon!

Opportunità di mercato
Logo CATCH
Valore CATCH (CATCH)
$0.00234
$0.00234$0.00234
-7.10%
USD
Grafico dei prezzi in tempo reale di CATCH (CATCH)
Disclaimer: gli articoli ripubblicati su questo sito provengono da piattaforme pubbliche e sono forniti esclusivamente a scopo informativo. Non riflettono necessariamente le opinioni di MEXC. Tutti i diritti rimangono agli autori originali. Se ritieni che un contenuto violi i diritti di terze parti, contatta service@support.mexc.com per la rimozione. MEXC non fornisce alcuna garanzia in merito all'accuratezza, completezza o tempestività del contenuto e non è responsabile per eventuali azioni intraprese sulla base delle informazioni fornite. Il contenuto non costituisce consulenza finanziaria, legale o professionale di altro tipo, né deve essere considerato una raccomandazione o un'approvazione da parte di MEXC.