A atualização do Ray Serve LLM da Anyscale permite tolerância a falhas do grupo DP para implementações vLLM WideEP, reduzindo o risco de tempo de inatividade para sistemas de inferência de IA distribuída. (ReadA atualização do Ray Serve LLM da Anyscale permite tolerância a falhas do grupo DP para implementações vLLM WideEP, reduzindo o risco de tempo de inatividade para sistemas de inferência de IA distribuída. (Read

Ray 2.55 Adiciona Tolerância a Falhas para Implementações de Modelos de IA em Grande Escala

2026/04/03 02:35
Leu 3 min
Para enviar feedbacks ou expressar preocupações a respeito deste conteúdo, contate-nos em crypto.news@mexc.com

Ray 2.55 Adiciona Tolerância a Falhas para Implementações de Modelos de IA em Grande Escala

Joerg Hiller 02 de abr de 2026 18:35

A atualização Ray Serve LLM da Anyscale permite tolerância a falhas de grupo DP para implementações vLLM WideEP, reduzindo o risco de tempo de inatividade para sistemas de inferência de IA distribuídos.

Ray 2.55 Adiciona Tolerância a Falhas para Implementações de Modelos de IA em Grande Escala

A Anyscale lançou uma atualização significativa para a sua estrutura Ray Serve LLM que aborda um desafio operacional crítico para organizações que executam cargas de trabalho de inferência de IA em grande escala. O Ray 2.55 introduz tolerância a falhas de grupo paralelo de dados (DP) para implementações vLLM Wide Expert Parallelism—uma funcionalidade que evita que falhas de GPU individuais derrubem clusters inteiros de serviço de modelos.

A atualização visa um ponto problemático específico no serviço de modelos Mixture of Experts (MoE). Ao contrário das implementações de modelos tradicionais onde cada réplica opera independentemente, as arquiteturas MoE como o DeepSeek-V3 fragmentam camadas de especialistas em grupos de GPUs que devem trabalhar coletivamente. Quando uma GPU nestas configurações falha, o grupo inteiro—potencialmente abrangendo 16 a 128 GPUs—torna-se não operacional.

O Problema Técnico

Os modelos MoE distribuem redes neurais especializadas "especialistas" por múltiplas GPUs. O DeepSeek-V3, por exemplo, contém 256 especialistas por camada mas ativa apenas 8 por token. Os tokens são encaminhados para quaisquer GPUs que contenham os especialistas necessários através de operações de despacho e combinação que requerem que todos os ranks participantes estejam saudáveis.

Anteriormente, uma falha de rank único quebraria estas operações coletivas. As consultas continuariam a ser encaminhadas para réplicas sobreviventes no grupo afetado, mas todos os pedidos falhariam. A recuperação exigia reiniciar todo o sistema.

Como o Ray Resolve

O Ray Serve LLM agora trata cada grupo DP como uma unidade atómica através de agendamento em grupo. Quando um rank falha, o sistema marca o grupo inteiro como não saudável, interrompe o encaminhamento de tráfego para ele, destrói o grupo falhado e reconstrói-o como uma unidade. Outros grupos saudáveis continuam a servir pedidos durante todo o processo.

A funcionalidade é enviada ativada por predefinição no Ray 2.55. As implementações DP existentes não requerem alterações de código—a estrutura trata verificações de saúde ao nível do grupo, agendamento e recuperação automaticamente.

O escalonamento automático também respeita estes limites. As operações de aumento e diminuição de escala acontecem em incrementos do tamanho do grupo em vez de réplicas individuais, evitando a criação de grupos parciais que não podem servir tráfego.

Implicações Operacionais

A atualização cria uma consideração de design importante: largura do grupo versus número de grupos. De acordo com benchmarks vLLM citados pela Anyscale, o throughput por GPU permanece relativamente estável em tamanhos paralelos de especialistas de 32, 72 e 96. Isto significa que os operadores podem ajustar para grupos menores sem sacrificar eficiência—e grupos menores significam raios de explosão menores quando ocorrem falhas.

A Anyscale observa que esta resiliência ao nível de orquestração complementa o trabalho de elasticidade ao nível do motor que está a acontecer na comunidade vLLM. O RFC vLLM Elastic Expert Parallelism aborda como o runtime pode ajustar dinamicamente a topologia dentro de um grupo, enquanto o Ray Serve LLM gere quais grupos existem e recebem tráfego.

Para organizações que implementam modelos estilo DeepSeek em escala, o benefício prático é direto: falhas de GPU tornam-se incidentes localizados em vez de interrupções em todo o sistema. Exemplos de código e passos de reprodução estão disponíveis no repositório GitHub da Anyscale.

Fonte da imagem: Shutterstock
  • ray
  • vllm
  • infraestrutura de ia
  • machine learning
  • computação nuvem
Oportunidade de mercado
Logo de Raydium
Cotação Raydium (RAY)
$0.6377
$0.6377$0.6377
+0.40%
USD
Gráfico de preço em tempo real de Raydium (RAY)
Isenção de responsabilidade: Os artigos republicados neste site são provenientes de plataformas públicas e são fornecidos apenas para fins informativos. Eles não refletem necessariamente a opinião da MEXC. Todos os direitos permanecem com os autores originais. Se você acredita que algum conteúdo infringe direitos de terceiros, entre em contato pelo e-mail crypto.news@mexc.com para solicitar a remoção. A MEXC não oferece garantias quanto à precisão, integridade ou atualidade das informações e não se responsabiliza por quaisquer ações tomadas com base no conteúdo fornecido. O conteúdo não constitui aconselhamento financeiro, jurídico ou profissional, nem deve ser considerado uma recomendação ou endosso por parte da MEXC.

$30,000 em PRL + 15,000 USDT

$30,000 em PRL + 15,000 USDT$30,000 em PRL + 15,000 USDT

Deposite e negocie PRL e aumente suas recompensas!