Ray 2.55 Adiciona Tolerância a Falhas para Implementações de Modelos de IA em Grande Escala

Joerg Hiller 02 de abr de 2026 18:35

A atualização Ray Serve LLM da Anyscale permite tolerância a falhas de grupo DP para implementações vLLM WideEP, reduzindo o risco de tempo de inatividade para sistemas de inferência de IA distribuídos.

Ray 2.55 Adiciona Tolerância a Falhas para Implementações de Modelos de IA em Grande Escala

A Anyscale lançou uma atualização significativa para a sua estrutura Ray Serve LLM que aborda um desafio operacional crítico para organizações que executam cargas de trabalho de inferência de IA em grande escala. O Ray 2.55 introduz tolerância a falhas de grupo paralelo de dados (DP) para implementações vLLM Wide Expert Parallelism—uma funcionalidade que evita que falhas de GPU individuais derrubem clusters inteiros de serviço de modelos.

A atualização visa um ponto problemático específico no serviço de modelos Mixture of Experts (MoE). Ao contrário das implementações de modelos tradicionais onde cada réplica opera independentemente, as arquiteturas MoE como o DeepSeek-V3 fragmentam camadas de especialistas em grupos de GPUs que devem trabalhar coletivamente. Quando uma GPU nestas configurações falha, o grupo inteiro—potencialmente abrangendo 16 a 128 GPUs—torna-se não operacional.

O Problema Técnico

Os modelos MoE distribuem redes neurais especializadas "especialistas" por múltiplas GPUs. O DeepSeek-V3, por exemplo, contém 256 especialistas por camada mas ativa apenas 8 por token. Os tokens são encaminhados para quaisquer GPUs que contenham os especialistas necessários através de operações de despacho e combinação que requerem que todos os ranks participantes estejam saudáveis.

Anteriormente, uma falha de rank único quebraria estas operações coletivas. As consultas continuariam a ser encaminhadas para réplicas sobreviventes no grupo afetado, mas todos os pedidos falhariam. A recuperação exigia reiniciar todo o sistema.

Como o Ray Resolve

O Ray Serve LLM agora trata cada grupo DP como uma unidade atómica através de agendamento em grupo. Quando um rank falha, o sistema marca o grupo inteiro como não saudável, interrompe o encaminhamento de tráfego para ele, destrói o grupo falhado e reconstrói-o como uma unidade. Outros grupos saudáveis continuam a servir pedidos durante todo o processo.

A funcionalidade é enviada ativada por predefinição no Ray 2.55. As implementações DP existentes não requerem alterações de código—a estrutura trata verificações de saúde ao nível do grupo, agendamento e recuperação automaticamente.

O escalonamento automático também respeita estes limites. As operações de aumento e diminuição de escala acontecem em incrementos do tamanho do grupo em vez de réplicas individuais, evitando a criação de grupos parciais que não podem servir tráfego.

Implicações Operacionais

A atualização cria uma consideração de design importante: largura do grupo versus número de grupos. De acordo com benchmarks vLLM citados pela Anyscale, o throughput por GPU permanece relativamente estável em tamanhos paralelos de especialistas de 32, 72 e 96. Isto significa que os operadores podem ajustar para grupos menores sem sacrificar eficiência—e grupos menores significam raios de explosão menores quando ocorrem falhas.

A Anyscale observa que esta resiliência ao nível de orquestração complementa o trabalho de elasticidade ao nível do motor que está a acontecer na comunidade vLLM. O RFC vLLM Elastic Expert Parallelism aborda como o runtime pode ajustar dinamicamente a topologia dentro de um grupo, enquanto o Ray Serve LLM gere quais grupos existem e recebem tráfego.

Para organizações que implementam modelos estilo DeepSeek em escala, o benefício prático é direto: falhas de GPU tornam-se incidentes localizados em vez de interrupções em todo o sistema. Exemplos de código e passos de reprodução estão disponíveis no repositório GitHub da Anyscale.

Fonte da imagem: Shutterstock

ray
vllm
infraestrutura de ia
machine learning
computação nuvem

Ray 2.55 Adiciona Tolerância a Falhas para Implementações de Modelos de IA em Grande Escala

Ray 2.55 Adiciona Tolerância a Falhas para Implementações de Modelos de IA em Grande Escala

O Problema Técnico

Como o Ray Resolve

Implicações Operacionais

Você também pode gostar

As Três Ações de Robótica que Wall Street Está a Observar Neste Momento

Consultório de Ortodontia de Souderton muda de marca para Especialistas em Ortodontia mantendo a equipa principal e os serviços

Binance Futures hủy niêm yết nhiều hợp đồng vĩnh cửu từ 8-9/4, gồm OLUSDT

Notícias em alta

Como Ganhar Bitcoin Sem Minerar em 2026: Modelo de $100 Atrai Interesse dos Investidores

Ações da SBA Communications (SBAC) Disparam Quase 19% em Meio a Especulações de Aquisição

Hegseth acusado de 'drama estranho' numa extensa lista de acusações por apresentador furioso da Newsmax

Consultório Ortodôntico de Quakertown Muda de Marca para Especialistas em Ortodontia Mantendo os Serviços Principais

Cá voi xoay vòng khiến Hyperliquid biến động: HYPE giữ được 35 USD?

Notícias ao vivo 24/7

Preços das criptomoedas