Ray 2.55 lisab vigatetõrje suurte AI-mudelite juurutamisele
Joerg Hiller 02. aprill 2026, 18:35
Anyscale’i Ray Serve LLM uuendus võimaldab DP-gruppide vigatetõrjet vLLM WideEP-juurutustele, vähendades katkestuste riski jaotatud AI-inferentsisüsteemides.
Anyscale on välja andnud olulise uuenduse oma Ray Serve LLM raamistikus, mis lahendab kriitilist toimimisprobleemi organisatsioonidele, kes käivitavad suurte ulatusega AI-inferentsi töökoormusi. Ray 2.55 tutvustab andmeparalleelse (DP) gruppide vigatetõrjet vLLM Wide Expert Parallelism’i juurutustele – funktsiooni, mis takistab üksiku GPU tõttu kogu mudelitarnimisklastrite väljalangemist.
Uuendus on suunatud konkreetsele valulikule punktile Mixture of Experts (MoE) mudelite tarnimisel. Traditsiooniliste mudelite juurutamisest erinevalt, kus iga koopia töötab sõltumatult, jagavad MoE arhitektuurid (nt DeepSeek-V3) ekspertkihte mitme GPU rühma vahel, millel peab koos töötama. Kui sellistes konfiguratsioonides üks GPU läheb katki, muutub terve rühm – potentsiaalselt 16–128 GPUst koosnev – töökindlamatuks.
Tehniline probleem
MoE mudelid jaotavad spetsialiseeritud „ekspert“-neuronvõrke mitme GPU vahel. Näiteks sisaldab DeepSeek-V3 igas kihis 256 eksperti, kuid aktiveerib iga tokeni kohta ainult 8. Tokenid suunatakse nende GPU-dele, kus asuvad vajalikud eksperdid, kasutades saatmis- ja kombineerimisoperatsioone, mille jaoks peavad kõik osalevad rangid olema terviklikud.
Varem lõpetas üksika ranga tõrge need kogumisoperatsioonid. Päringud jätkasid suunamist ellujäänud koopiatele mõjutatud grupis, kuid iga päring nurjus. Taastumiseks oli vaja taaskäivitada terve süsteem.
Kuidas Ray seda lahendab
Ray Serve LLM käsitleb nüüd iga DP-rühma aatomilisena gang scheduling’u kaudu. Kui üks rank läheb katki, märgib süsteem terve rühma terviklikkusetuks, peatab sellele liikluse suunamise, hävitab katkinud rühma ja taastab selle ühtse ühikuna. Teised terviklikud rühmad jätkavad päringute teenindamist ilma katkestuseta.
Funktsioon on Ray 2.55 versioonis vaikimisi lubatud. Olemasolevad DP-juurutused ei nõua mingit koodimuudatust – raamistik teeb automaatselt rühmataseme terviklikkuskontrollid, planeerimise ja taastumise.
Automaatne skaalavus austab ka neid piire. Skaala laiendamine ja kitsendamine toimub rühmade suuruses, mitte üksikute koopiate kaupa, et vältida osaliste rühmade loomist, mis ei suuda liiklust teenindada.
Toimimislikud tagajärjed
Uuendus teeb olulise disainiküsimuse: rühma laius vs rühmade arv. Anyscale’i viidatud vLLM benchmarke kohaselt jääb GPU kohta saavutatav läbilaskevõime suhteliselt stabiilseks ekspertparalleelsuse suurustel 32, 72 ja 96. See tähendab, et operaatorid saavad reguleerida väiksemate rühmade poole ilma efektiivsuse kaotamata – ja väiksemad rühmad tähendavad väiksemat „plahvatusringi“ tõrgete korral.
Anyscale märkis, et see orkestratsioonitaseme vastupidavus täiendab vLLM kogukonnas toimuvat mootoritaseme elastset tööd. vLLM Elastic Expert Parallelism RFC kirjeldab, kuidas käitusaja (runtime) saab dünaamiliselt kohandada topoloogiat rühma sees, samas kui Ray Serve LLM haldab, millised rühmad eksisteerivad ja kellele liiklus suunatakse.
Suuremahuliste DeepSeek-stiilsete mudelite juurutamisel annab praktikas lihtne eelis: GPU tõrked muutuvad lokaliseeritud juhtumiteks, mitte süsteemiüleseks katkestuseks. Koodinäited ja taastamise sammud on saadaval Anyscale’i GitHubi repositooriumis.
Pildi allikas: Shutterstock- ray
- vllm
- ai infrastructure
- machine learning
- distributed computing







