Ray 2.55 Adaugă Toleranță la Erori pentru Implementări de Modele AI la Scară Mare
Joerg Hiller 02 apr. 2026 18:35
Actualizarea Ray Serve LLM de la Anyscale permite toleranță la erori pentru grupuri DP în implementări vLLM WideEP, reducând riscul de downtime pentru sistemele distribuite de inferență AI.
Anyscale a lansat o actualizare semnificativă a framework-ului său Ray Serve LLM care abordează o provocare operațională critică pentru organizațiile care rulează sarcini de inferență AI la scară mare. Ray 2.55 introduce toleranță la erori pentru grupuri de paralelism de date (DP) în implementări vLLM Wide Expert Parallelism—o funcționalitate care previne ca defecțiunile unui singur GPU să oprească clustere întregi de servire a modelelor.
Actualizarea vizează un punct critic specific în servirea modelelor Mixture of Experts (MoE). Spre deosebire de implementările tradiționale de modele unde fiecare replică operează independent, arhitecturile MoE precum DeepSeek-V3 fragmentează straturile de experți pe grupuri de GPU-uri care trebuie să lucreze colectiv. Când un GPU din aceste configurații cedează, întregul grup—potențial cuprinzând între 16 și 128 de GPU-uri—devine neoperațional.
Problema Tehnică
Modelele MoE distribuie rețele neuronale specializate "expert" pe multiple GPU-uri. DeepSeek-V3, de exemplu, conține 256 de experți pe strat, dar activează doar 8 pe token. Token-urile sunt direcționate către GPU-urile care dețin experții necesari prin operațiuni de dispatch și combinare care necesită ca toate rangurile participante să fie sănătoase.
Anterior, eșecul unui singur rang întrerupea aceste operațiuni colective. Interogările continuau să fie direcționate către replicile supraviețuitoare din grupul afectat, dar fiecare cerere eșua. Recuperarea necesita repornirea întregului sistem.
Cum Rezolvă Ray
Ray Serve LLM tratează acum fiecare grup DP ca o unitate atomică prin programare în grup. Când un rang eșuează, sistemul marchează întregul grup ca nesănătos, oprește rutarea traficului către acesta, desființează grupul eșuat și îl reconstruiește ca unitate. Alte grupuri sănătoase continuă să servească cereri pe tot parcursul.
Funcționalitatea vine activată implicit în Ray 2.55. Implementările DP existente nu necesită modificări de cod—framework-ul gestionează verificările de sănătate la nivel de grup, programarea și recuperarea automat.
Autoscalarea respectă și ea aceste limite. Operațiunile de scale-up și scale-down se întâmplă în incremente de dimensiunea grupului, nu replici individuale, prevenind crearea de grupuri parțiale care nu pot servi trafic.
Implicații Operaționale
Actualizarea creează o considerație importantă de design: lățimea grupului versus numărul de grupuri. Conform benchmark-urilor vLLM citate de Anyscale, throughput-ul pe GPU rămâne relativ stabil pentru dimensiuni de paralelism expert de 32, 72 și 96. Aceasta înseamnă că operatorii pot ajusta către grupuri mai mici fără a sacrifica eficiența—iar grupuri mai mici înseamnă raze de impact mai mici când apar defecțiuni.
Anyscale notează că această reziliență la nivel de orchestrare completează munca de elasticitate la nivel de motor care se întâmplă în comunitatea vLLM. RFC-ul vLLM Elastic Expert Parallelism abordează modul în care runtime-ul poate ajusta dinamic topologia într-un grup, în timp ce Ray Serve LLM gestionează ce grupuri există și primesc trafic.
Pentru organizațiile care implementează modele în stil DeepSeek la scară, beneficiul practic este simplu: defecțiunile GPU devin incidente localizate, nu întreruperi la nivel de sistem. Exemple de cod și pași de reproducere sunt disponibile pe repository-ul GitHub al Anyscale.
Sursa imaginii: Shutterstock- ray
- vllm
- infrastructură ai
- învățare automată
- calcul distribuit







