Ray 2.55 lisab vigatetõrje suurte AI-mudelite juurutamisele

Joerg Hiller 02. aprill 2026, 18:35

Anyscale’i Ray Serve LLM uuendus võimaldab DP-gruppide vigatetõrjet vLLM WideEP-juurutustele, vähendades katkestuste riski jaotatud AI-inferentsisüsteemides.

Ray 2.55 lisab vigatetõrje suurte AI-mudelite juurutamisele

Anyscale on välja andnud olulise uuenduse oma Ray Serve LLM raamistikus, mis lahendab kriitilist toimimisprobleemi organisatsioonidele, kes käivitavad suurte ulatusega AI-inferentsi töökoormusi. Ray 2.55 tutvustab andmeparalleelse (DP) gruppide vigatetõrjet vLLM Wide Expert Parallelism’i juurutustele – funktsiooni, mis takistab üksiku GPU tõttu kogu mudelitarnimisklastrite väljalangemist.

Uuendus on suunatud konkreetsele valulikule punktile Mixture of Experts (MoE) mudelite tarnimisel. Traditsiooniliste mudelite juurutamisest erinevalt, kus iga koopia töötab sõltumatult, jagavad MoE arhitektuurid (nt DeepSeek-V3) ekspertkihte mitme GPU rühma vahel, millel peab koos töötama. Kui sellistes konfiguratsioonides üks GPU läheb katki, muutub terve rühm – potentsiaalselt 16–128 GPUst koosnev – töökindlamatuks.

Tehniline probleem

MoE mudelid jaotavad spetsialiseeritud „ekspert“-neuronvõrke mitme GPU vahel. Näiteks sisaldab DeepSeek-V3 igas kihis 256 eksperti, kuid aktiveerib iga tokeni kohta ainult 8. Tokenid suunatakse nende GPU-dele, kus asuvad vajalikud eksperdid, kasutades saatmis- ja kombineerimisoperatsioone, mille jaoks peavad kõik osalevad rangid olema terviklikud.

Varem lõpetas üksika ranga tõrge need kogumisoperatsioonid. Päringud jätkasid suunamist ellujäänud koopiatele mõjutatud grupis, kuid iga päring nurjus. Taastumiseks oli vaja taaskäivitada terve süsteem.

Kuidas Ray seda lahendab

Ray Serve LLM käsitleb nüüd iga DP-rühma aatomilisena gang scheduling’u kaudu. Kui üks rank läheb katki, märgib süsteem terve rühma terviklikkusetuks, peatab sellele liikluse suunamise, hävitab katkinud rühma ja taastab selle ühtse ühikuna. Teised terviklikud rühmad jätkavad päringute teenindamist ilma katkestuseta.

Funktsioon on Ray 2.55 versioonis vaikimisi lubatud. Olemasolevad DP-juurutused ei nõua mingit koodimuudatust – raamistik teeb automaatselt rühmataseme terviklikkuskontrollid, planeerimise ja taastumise.

Automaatne skaalavus austab ka neid piire. Skaala laiendamine ja kitsendamine toimub rühmade suuruses, mitte üksikute koopiate kaupa, et vältida osaliste rühmade loomist, mis ei suuda liiklust teenindada.

Toimimislikud tagajärjed

Uuendus teeb olulise disainiküsimuse: rühma laius vs rühmade arv. Anyscale’i viidatud vLLM benchmarke kohaselt jääb GPU kohta saavutatav läbilaskevõime suhteliselt stabiilseks ekspertparalleelsuse suurustel 32, 72 ja 96. See tähendab, et operaatorid saavad reguleerida väiksemate rühmade poole ilma efektiivsuse kaotamata – ja väiksemad rühmad tähendavad väiksemat „plahvatusringi“ tõrgete korral.

Anyscale märkis, et see orkestratsioonitaseme vastupidavus täiendab vLLM kogukonnas toimuvat mootoritaseme elastset tööd. vLLM Elastic Expert Parallelism RFC kirjeldab, kuidas käitusaja (runtime) saab dünaamiliselt kohandada topoloogiat rühma sees, samas kui Ray Serve LLM haldab, millised rühmad eksisteerivad ja kellele liiklus suunatakse.

Suuremahuliste DeepSeek-stiilsete mudelite juurutamisel annab praktikas lihtne eelis: GPU tõrked muutuvad lokaliseeritud juhtumiteks, mitte süsteemiüleseks katkestuseks. Koodinäited ja taastamise sammud on saadaval Anyscale’i GitHubi repositooriumis.

Pildi allikas: Shutterstock

ray
vllm
ai infrastructure
machine learning
distributed computing

Ray 2.55 lisab suurte ulatuses AI mudelite kasutuselevõtu vigade taluvuse

Ray 2.55 lisab vigatetõrje suurte AI-mudelite juurutamisele

Tehniline probleem

Kuidas Ray seda lahendab

Toimimislikud tagajärjed

Teile võib meeldida ka

Ripple’i tegevjuht vastas Avalanche’i loojale: „Meeldib teada, et elame teie peas tasuta.”

Dow Jonesi tuleviku kontraktid kukuvad, kui volatiilne hirmu-loota tsükkel kiirendab turuturbulentsust

GOP-i seadusandja rünnab „hirmuärkavat“ Pam Bondit tema lahkumisel

Trendikad uudised

Trumpi valitsuse ümberkorraldamise kell on käimas, kuna riikliku senati Vabariiklaste enamus on tasakaalus

Langemine ei ole hirmutav – siin on 5 aktsiat, mida ekspert selles kuus ostab

Pam Bondi teatati, et ta sai teada oma vallandamisest enne Trumpi õhtupäevases kõnes

Google astub tagasi avatud lähtekoodiga tehisintellekti võistlusesse Gemma 4 abil

Vääralt süüdistatud naljataja naaseb peamisse voolu pärast seda, kui ta tunnistas seksuaalset ebaausat käitumist

Otseülekanded ööpäevaringselt

Krüptohinnad