W tym wywiadzie rozmawiamy z Ashtonem, inżynierem-założycielem Theta, aby omówić najnowocześniejszą infrastrukturę uczenia ze wzmocnieniem. Wyjaśnia onW tym wywiadzie rozmawiamy z Ashtonem, inżynierem-założycielem Theta, aby omówić najnowocześniejszą infrastrukturę uczenia ze wzmocnieniem. Wyjaśnia on

Poznaj autora: Ashton Chew, Inżynier Założyciel w Theta

2025/12/15 04:25


Zaczynajmy! Opowiedz nam trochę o sobie. Na przykład, imię, zawód i zainteresowania osobiste.

Hej! Nazywam się Ashton i jestem inżynierem-założycielem w Theta, gdzie pracuję nad infrastrukturą RL, RL i systemami rozproszonymi. Koncentruję się szczególnie na wykorzystaniu komputera i narzędzi. W przeszłości pracowałem w Amazon AGI i zajmowałem się infrastrukturą wnioskowania i wykorzystania narzędzi. W wolnym czasie uwielbiam projektowanie graficzne, projekty poboczne i bouldering.

Interesujące! O czym był Twój ostatni najpopularniejszy artykuł na Hackernoon?

Mój ostatni artykuł, "Czy Twoja AI naprawdę potrafi korzystać z komputera? Mapa benchmarków wykorzystania komputera na rok 2025", dotyczył jednego z najgorętszych obszarów w VC obecnie: środowisk RL i ewaluacji. Przedstawiłem kompleksowy przegląd najczęściej używanych benchmarków wykorzystania komputera, a także praktyczne porady dotyczące wyboru benchmarków do trenowania i testowania agentów korzystających z komputera.

Ciągle napotykałem tę samą lukę: nie ma wielu artykułów, które analizują same benchmarki. A w miarę rozwoju tej dziedziny, kluczowe jest, abyśmy faktycznie oceniali jakość, zamiast nagradzać cokolwiek, co przypadkowo wykorzystuje metrykę. Byliśmy już w tej sytuacji. W początkowych dniach LLM, benchmarki były na tyle przypadkowe i różnorodne, że tylko słabo odzwierciedlały prawdziwego zwycięzcę.

Benchmarki stały się de facto tablicą wyników dla "najlepszego modelu", a potem ludzie zdali sobie sprawę, że wiele z nich nie mierzyło tego, co twierdzili.

Jedną z najbardziej wymownych porażek wczesnej ery było to, gdy "zrozumienie tekstu" po cichu stało się "dopasowywaniem wzorców do struktury zbioru danych". Badacze przeprowadzili celowo prowokacyjne testy bazowe (tylko pytanie, tylko ostatnie zdanie), a wyniki były na tyle wysokie, że pojawiła się niewygodna możliwość: benchmark nie zmuszał konsekwentnie modeli do korzystania z całego fragmentu tekstu. W krytyce z 2018 roku, nie chodziło o to, że czytanie nigdy nie ma znaczenia, ale o to, że niektóre zbiory danych przypadkowo uczyniły je opcjonalnym, nadmiernie nagradzając skróty, takie jak aktualność i stereotypowe odpowiedzi.

\

# Supposed task: answer the question given the passage and question Passage (summary): - Sentences 1–8: John's day at school (mostly irrelevant detail) - Sentence 9: "After school, John went to the kitchen." - Sentence 10: "He ate a slice of pizza before starting his homework." Question: "What did John eat?" Answer: "pizza"

Benchmark przypadkowo nagradza skrót, w którym model nadmiernie waży ostatnie zdanie (ponieważ odpowiedź często znajduje się pod koniec) i po prostu wyodrębnia bezpośredni przedmiot najnowszej akcji ("zjadł ___"), co w tym przypadku daje "pizzę".

A potem pojawia się jeszcze bardziej szkodliwy test bazowy: usuń cały fragment i zobacz, co się stanie. Jeśli model oparty tylko na pytaniu jest konkurencyjny, to znak, że zbiór danych przecieka sygnał poprzez powtórzenia i wcześniejsze założenia, zamiast testować zrozumienie oparte na tekście.

Question: "What did John eat?"

Ten test bazowy to w zasadzie kontrola zdroworozsądkowa: czy model nadal może uzyskać dobry wynik, opierając się na szablonach odpowiedzi o wysokiej częstotliwości bez żadnego odniesienia do tekstu? W praktyce po prostu zgaduje token, który zbiór danych nieproporcjonalnie nagradza ("pizza", "kanapka"), a jeśli to działa częściej niż powinno, nie mierzysz zrozumienia, tylko mierzysz założenia zbioru danych.

Ewaluacje wykorzystania komputera już wytworzyły jeszcze bardziej dosłowny skrót: agent ma przeglądarkę, benchmark jest publiczny, a ewaluacja zamienia się w egzamin z otwartą książką z kluczem odpowiedzi na ostatniej stronie. W artykule o Holistic Agent Leaderboard (HAL), autorzy zgłaszają zaobserwowanie agentów, które szukały benchmarku na HuggingFace zamiast rozwiązywać zadanie, zachowanie, które złapiesz tylko jeśli sprawdzisz logi.

\

# Supposed task: complete a workflow inside the web environment Task: "Configure setting X in the app and verify it's enabled." Failure mode: 1) Open a new tab 2) Search for: "benchmark X expected enabled state" / "HAL <benchmark> setting X" 3) Find: repo / leaderboard writeup / dataset card / issue thread 4) Reproduce the expected end state (answer)

W tym momencie ewaluacja mierzyła, czy agent potrafi zlokalizować klucz odpowiedzi.

Task: "Find the correct page and extract Y." Failure mode: - Search: "<benchmark name> Y" - Copy from a public artifact (docs, forum post, dataset card) - Paste the value into the agent output as if it came from interaction

Jeśli agent może pobrać wartość z karty zbioru danych lub repozytorium i nadal "zdać", kontrola sukcesu ocenia prawdopodobieństwo, a nie poprawność interakcji. Publiczne zadania plus płytka weryfikacja zamieniają wyszukiwanie w sieci w exploit.

Te dwa przykłady są strzałem ostrzegawczym: jeśli nie będziemy trzymać benchmarków wykorzystania komputera na wyższych standardach wcześnie, powtórzymy erę LLM, tylko z lepszymi interfejsami użytkownika i bardziej wyszukanymi sposobami oszukiwania.

Czy zwykle piszesz na podobne tematy? Jeśli nie, o czym zwykle piszesz?

Tak! Pracując nad środowiskami RL i infrastrukturą RL wokół wykorzystania komputera, jestem stale otoczony najlepszymi modelami wykorzystania komputera i najbardziej realistycznymi środowiskami treningowymi. Dlatego napisałem kolejny artykuł, "Ekran jest API", który przedstawia argumenty za wykorzystaniem komputera i dlaczego jest to przyszłość modeli AI.

Ta przestrzeń jest niezwykle słabo relacjonowana z dwóch powodów:

  1. Modele nie są tak zdolne w wykorzystaniu komputera, jak w innych zadaniach (kodowanie, matematyka itp.).
  2. Wykorzystanie komputera szybko się rozwija i jest niezwykle nowe.

Chcę to zmienić.

Świetnie! Jak wygląda Twoja typowa rutyna pisania (jeśli taką masz)

Zwykle czytam mnóstwo prac badawczych i rozmawiam z kolegami z branży o ich przemyśleniach na dany temat. Poza tym spędzam dużo czasu na czytaniu artykułów świetnych blogerów, takich jak PG. Więc zwykle czerpię dużo inspiracji od innych ludzi w moim pisaniu.

Bycie pisarzem w technologii może być wyzwaniem. To często nie jest nasza główna rola, ale dodatek do innej. Jakie jest największe wyzwanie, które masz, jeśli chodzi o pisanie?

Znalezienie czasu, aby usiąść i przelać moje przeżyte doświadczenia na słowa.

Co jest następną rzeczą, którą masz nadzieję osiągnąć w swojej karierze?

Rozwiązywać trudniejsze problemy z wspaniałymi ludźmi, uczyć się od tych ludzi i dzielić się moimi doświadczeniami.

Wow, to godne podziwu. Teraz coś bardziej swobodnego: Jaka jest Twoja ulubiona przyjemność, której się oddajesz?

Oglądanie filmów! Moim ulubionym filmem w tej chwili jest Złap mnie, jeśli potrafisz (2002).

Czy masz hobby niezwiązane z technologią? Jeśli tak, jakie?

Uwielbiam bouldering, ponieważ sprawia, że czuję się jak ludzki agent wykorzystania komputera wchodzący w interakcję ze ścianą wspinaczkową. Żartuję. Myślę, że bouldering jest bardzo zabawny, ponieważ pozwala mi oderwać myśli od pracy i uporządkować moje myślenie.

Czego społeczność Hacker Noon może spodziewać się przeczytać od Ciebie w następnej kolejności?

Obecnie piszę kolejny artykuł o infrastrukturze środowiska RL!

Jaka jest Twoja opinia na temat HackerNoon jako platformy dla pisarzy?

Myślę, że struktura recenzji jest świetna i było to doskonałe miejsce dla mnie, aby przedstawić moje przemyślenia technicznym czytelnikom.

Dziękujemy za poświęcenie czasu na dołączenie do naszej serii "Poznaj pisarza". To była przyjemność. Czy masz jakieś słowa na zakończenie?

Kocham pisać. Dziękuję, HackerNoon!

Okazja rynkowa
Logo CATCH
Cena CATCH(CATCH)
$0.002084
$0.002084$0.002084
-10.94%
USD
CATCH (CATCH) Wykres Ceny na Żywo
Zastrzeżenie: Artykuły udostępnione na tej stronie pochodzą z platform publicznych i służą wyłącznie celom informacyjnym. Niekoniecznie odzwierciedlają poglądy MEXC. Wszystkie prawa pozostają przy pierwotnych autorach. Jeśli uważasz, że jakakolwiek treść narusza prawa stron trzecich, skontaktuj się z service@support.mexc.com w celu jej usunięcia. MEXC nie gwarantuje dokładności, kompletności ani aktualności treści i nie ponosi odpowiedzialności za jakiekolwiek działania podjęte na podstawie dostarczonych informacji. Treść nie stanowi porady finansowej, prawnej ani innej profesjonalnej porady, ani nie powinna być traktowana jako rekomendacja lub poparcie ze strony MEXC.