Ray 2.55 Adaugă Toleranță la Erori pentru Implementări de Modele AI la Scară Mare

Joerg Hiller 02 apr. 2026 18:35

Actualizarea Ray Serve LLM de la Anyscale permite toleranță la erori pentru grupuri DP în implementări vLLM WideEP, reducând riscul de downtime pentru sistemele distribuite de inferență AI.

Ray 2.55 Adaugă Toleranță la Erori pentru Implementări de Modele AI la Scară Mare

Anyscale a lansat o actualizare semnificativă a framework-ului său Ray Serve LLM care abordează o provocare operațională critică pentru organizațiile care rulează sarcini de inferență AI la scară mare. Ray 2.55 introduce toleranță la erori pentru grupuri de paralelism de date (DP) în implementări vLLM Wide Expert Parallelism—o funcționalitate care previne ca defecțiunile unui singur GPU să oprească clustere întregi de servire a modelelor.

Actualizarea vizează un punct critic specific în servirea modelelor Mixture of Experts (MoE). Spre deosebire de implementările tradiționale de modele unde fiecare replică operează independent, arhitecturile MoE precum DeepSeek-V3 fragmentează straturile de experți pe grupuri de GPU-uri care trebuie să lucreze colectiv. Când un GPU din aceste configurații cedează, întregul grup—potențial cuprinzând între 16 și 128 de GPU-uri—devine neoperațional.

Problema Tehnică

Modelele MoE distribuie rețele neuronale specializate "expert" pe multiple GPU-uri. DeepSeek-V3, de exemplu, conține 256 de experți pe strat, dar activează doar 8 pe token. Token-urile sunt direcționate către GPU-urile care dețin experții necesari prin operațiuni de dispatch și combinare care necesită ca toate rangurile participante să fie sănătoase.

Anterior, eșecul unui singur rang întrerupea aceste operațiuni colective. Interogările continuau să fie direcționate către replicile supraviețuitoare din grupul afectat, dar fiecare cerere eșua. Recuperarea necesita repornirea întregului sistem.

Cum Rezolvă Ray

Ray Serve LLM tratează acum fiecare grup DP ca o unitate atomică prin programare în grup. Când un rang eșuează, sistemul marchează întregul grup ca nesănătos, oprește rutarea traficului către acesta, desființează grupul eșuat și îl reconstruiește ca unitate. Alte grupuri sănătoase continuă să servească cereri pe tot parcursul.

Funcționalitatea vine activată implicit în Ray 2.55. Implementările DP existente nu necesită modificări de cod—framework-ul gestionează verificările de sănătate la nivel de grup, programarea și recuperarea automat.

Autoscalarea respectă și ea aceste limite. Operațiunile de scale-up și scale-down se întâmplă în incremente de dimensiunea grupului, nu replici individuale, prevenind crearea de grupuri parțiale care nu pot servi trafic.

Implicații Operaționale

Actualizarea creează o considerație importantă de design: lățimea grupului versus numărul de grupuri. Conform benchmark-urilor vLLM citate de Anyscale, throughput-ul pe GPU rămâne relativ stabil pentru dimensiuni de paralelism expert de 32, 72 și 96. Aceasta înseamnă că operatorii pot ajusta către grupuri mai mici fără a sacrifica eficiența—iar grupuri mai mici înseamnă raze de impact mai mici când apar defecțiuni.

Anyscale notează că această reziliență la nivel de orchestrare completează munca de elasticitate la nivel de motor care se întâmplă în comunitatea vLLM. RFC-ul vLLM Elastic Expert Parallelism abordează modul în care runtime-ul poate ajusta dinamic topologia într-un grup, în timp ce Ray Serve LLM gestionează ce grupuri există și primesc trafic.

Pentru organizațiile care implementează modele în stil DeepSeek la scară, beneficiul practic este simplu: defecțiunile GPU devin incidente localizate, nu întreruperi la nivel de sistem. Exemple de cod și pași de reproducere sunt disponibile pe repository-ul GitHub al Anyscale.

Sursa imaginii: Shutterstock

ray
vllm
infrastructură ai
învățare automată
calcul distribuit

Ray 2.55 adaugă toleranță la erori pentru implementări de modele AI la scară largă

Ray 2.55 Adaugă Toleranță la Erori pentru Implementări de Modele AI la Scară Mare

Problema Tehnică

Cum Rezolvă Ray

Implicații Operaționale

Poate îți place și

CEO-ul Ripple răspunde fondatorului Avalanche: Mă bucur să știu că trăim gratis în capul tău

Contractele futures pe Dow Jones se prăbușesc pe măsură ce ciclul volatil frică-speranță accelerează turbulențele pieței

Știri Crypto: JP Morgan Stabilește Țintă de $170K pentru Bitcoin, De Ce Banii Inteligenți Pivotează către Acest Token Utilitar Emergent

Știri în tendințe

Ceasul schimbărilor în Cabinetul lui Trump ticăie în timp ce majoritatea republicană din Senat atârnă în balanță

Scăderea Nu Este Înfricoșătoare – Iată 5 Acțiuni pe Care un Expert le Cumpără în Această Lună Aprilie

Pam Bondi ar fi aflat că a fost concediată înainte de discursul lui Trump în prime-time

Google revine în cursa AI open source cu Gemma 4

Comicul degradat revine în mainstream după ce a recunoscut o conduită sexuală inadecvată

Știri în timp real 24/7

Prețuri cripto