Оновлення Ray Serve LLM від Anyscale забезпечує відмовостійкість групи DP для розгортань vLLM WideEP, зменшуючи ризик простою для розподілених систем AI-інференсу. (ReadОновлення Ray Serve LLM від Anyscale забезпечує відмовостійкість групи DP для розгортань vLLM WideEP, зменшуючи ризик простою для розподілених систем AI-інференсу. (Read

Ray 2.55 додає відмовостійкість для розгортання великомасштабних AI-моделей

2026/04/03 02:35
3 хв читання
Якщо у вас є відгуки або зауваження щодо цього контенту, будь ласка, зв’яжіться з нами за адресою crypto.news@mexc.com

Ray 2.55 додає відмовостійкість для великомасштабних розгортань моделей ШІ

Joerg Hiller 18:35, 2 квітня 2026

Оновлення Ray Serve LLM від Anyscale забезпечує відмовостійкість групи DP для розгортань vLLM WideEP, зменшуючи ризик простою для розподілених систем виведення ШІ.

Ray 2.55 додає відмовостійкість для великомасштабних розгортань моделей ШІ

Anyscale випустила важливе оновлення своєї платформи Ray Serve LLM, яке вирішує критичну операційну проблему для організацій, що виконують великомасштабні робочі навантаження виведення ШІ. Ray 2.55 впроваджує відмовостійкість групи паралельних даних (DP) для розгортань vLLM Wide Expert Parallelism — функцію, яка запобігає виведенню з ладу цілих кластерів обслуговування моделей через збій одного GPU.

Оновлення спрямоване на конкретну проблемну точку в обслуговуванні моделей Mixture of Experts (MoE). На відміну від традиційних розгортань моделей, де кожна репліка працює незалежно, архітектури MoE, такі як DeepSeek-V3, розподіляють експертні шари по групах GPU, які повинні працювати спільно. Коли один GPU у цих конфігураціях виходить з ладу, вся група — потенційно від 16 до 128 GPU — стає непрацездатною.

Технічна проблема

Моделі MoE розподіляють спеціалізовані «експертні» нейронні мережі по кількох GPU. DeepSeek-V3, наприклад, містить 256 експертів на шар, але активує лише 8 на токен. Токени направляються до тих GPU, які містять потрібних експертів, через операції відправлення та об'єднання, які вимагають справності всіх учасників рангу.

Раніше збій одного рангу порушував ці колективні операції. Запити продовжували направлятися до репік, що вижили в ураженій групі, але кожен запит зазнавав невдачі. Відновлення вимагало перезапуску всієї системи.

Як Ray це вирішує

Ray Serve LLM тепер розглядає кожну групу DP як атомарну одиницю через групове планування. Коли один ранг виходить з ладу, система позначає всю групу як несправну, припиняє направлення трафіку до неї, демонтує невдалу групу та відновлює її як одиницю. Інші справні групи продовжують обслуговувати запити протягом усього процесу.

Функція активована за замовчуванням у Ray 2.55. Існуючі розгортання DP не вимагають змін коду — платформа автоматично обробляє перевірки стану на рівні групи, планування та відновлення.

Автомасштабування також враховуєці межі. Операції масштабування вгору та вниз відбуваються з кроком розміру групи, а не окремих реплік, запобігаючи створенню часткових груп, які не можуть обслуговувати трафік.

Операційні наслідки

Оновлення створює важливе проєктне міркування: ширина групи проти кількості груп. Згідно з benchmark-тестами vLLM, на які посилається Anyscale, пропускна здатність на GPU залишається відносно стабільною для паралельних розмірів експертів 32, 72 та 96. Це означає, що оператори можуть налаштовуватися на менші групи без втрати ефективності — а менші групи означають менші радіуси ураження при виникненні збоїв.

Anyscale зазначає, що ця стійкість на рівні оркестрації доповнює роботу з еластичністю на рівні двигуна, що відбувається в спільноті vLLM. vLLM Elastic Expert Parallelism RFC розглядає, як середовище виконання може динамічно налаштовувати топологію всередині групи, тоді як Ray Serve LLM керує тим, які групи існують і отримують трафік.

Для організацій, що розгортають моделі в стилі DeepSeek у великому масштабі, практична перевага проста: збої GPU стають локалізованими інцидентами, а не системними збоями. Зразки коду та кроки відтворення доступні в GitHub-репозиторії Anyscale.

Джерело зображення: Shutterstock
  • ray
  • vllm
  • ai infrastructure
  • machine learning
  • розподілені обчислення
Ринкові можливості
Логотип Raydium
Курс Raydium (RAY)
$0.5937
$0.5937$0.5937
+0.40%
USD
Графік ціни Raydium (RAY) в реальному часі

Комбо-прогнози на ЧС: до 200×

Комбо-прогнози на ЧС: до 200×Комбо-прогнози на ЧС: до 200×

До 20 матчів Чемпіонату світу в одному ордері

Відмова від відповідальності: статті, опубліковані на цьому сайті, взяті з відкритих джерел і надаються виключно для інформаційних цілей. Вони не обов'язково відображають погляди MEXC. Всі права залишаються за авторами оригінальних статей. Якщо ви вважаєте, що будь-який контент порушує права третіх осіб, будь ласка, зверніться за адресою crypto.news@mexc.com для його видалення. MEXC не дає жодних гарантій щодо точності, повноти або своєчасності вмісту і не несе відповідальності за будь-які дії, вчинені на основі наданої інформації. Вміст не є фінансовою, юридичною або іншою професійною порадою і не повинен розглядатися як рекомендація або схвалення з боку MEXC.

Вам також може сподобатися

ЧС-2026: Адвокат на чолі команди, африканська кістка в горлі та постійний пасажир мундіалю – представлення групи E

ЧС-2026: Адвокат на чолі команди, африканська кістка в горлі та постійний пасажир мундіалю – представлення групи E

РБК-Україна продовжує цикл матеріалів із представленням учасників чемпіонату світу з футболу-2026 Ввечері 14 червня на чемпіонаті світу з футболу 2026 відбудеть
Поділитись
РБК-Україна2026/06/14 21:59
Половина населення під ударом: які психічні розлади масово ширяться в Україні

Половина населення під ударом: які психічні розлади масово ширяться в Україні

Науковець розповів, як саме війна руйнує наш організм Повномасштабна війна суттєво погіршила психологічне здоров'я українців. За оцінками фахівців, близько поло
Поділитись
РБК-Україна2026/06/14 22:12
Egrag Crypto до інвесторів XRP: ви або рано увійшли, або ви ліквідність на виході

Egrag Crypto до інвесторів XRP: ви або рано увійшли, або ви ліквідність на виході

Криптоаналітик EGRAG CRYPTO (@egragcrypto) нещодавно поділився детальною оцінкою XRP, висвітлюючи як поточну поведінку ціни, так і довгострокові цілі. Його аналіз
Поділитись
Timestabloid2026/04/02 18:15

Отримайте частку з 50 000 USDT

Отримайте частку з 50 000 USDTОтримайте частку з 50 000 USDT

Доступ до Колеса чемпіонів за завдання на DEX+