Tony Kim
23 de dez de 2025 21:56
A Character.ai revela métodos inovadores para otimizar o pré-treino em larga escala, focando em técnicas como Squinch, dynamic clamping e Gumbel Softmax, para melhorar a eficiência no treino de modelos de IA.
A Character.ai, um interveniente notável no espaço da IA, partilhou recentemente insights sobre os seus primeiros esforços para otimizar o treino de transformers em larga escala. A empresa, que desde então mudou o seu foco para fundações de modelos open-source, explorou originalmente várias técnicas para melhorar a eficiência e velocidade de treino, de acordo com o Character.AI Blog.
Compressão de Gradiente: Squinch
Uma das principais inovações destacadas nos esforços da Character.ai é um algoritmo de compressão de gradiente conhecido como Squinch. Desenvolvido pelo cofundador Noam Shazeer, esta técnica de compressão de 6 bits foi concebida para reduzir significativamente a largura de banda de comunicação durante o treino distribuído, mantendo a precisão do modelo. O algoritmo comprime efetivamente os gradientes para 6 bits por elemento, otimizando o uso da largura de banda dos clusters de treino.
Regularização de Precisão: Attention Z-Reg
A Character.ai também desenvolveu o Attention Z-Reg, um método de regularização aplicado aos logits de atenção para garantir estabilidade numérica. Esta técnica ajuda a manter a precisão das representações bfloat16, crucial para otimizar o treino de modelos grandes.
Estabilidade de Quantização: Dynamic Clamping
O Dynamic Clamping é outra técnica empregue para melhorar a estabilidade de quantização. Previne que valores de ativação pequenos colapsem para zero ao calcular dinamicamente o intervalo de clamping baseado na raiz quadrada média dos pesos de entrada. Este método melhora a estabilidade de treino ao reduzir erros de quantização.
API de Atenção Eficiente: Visibility Mask
A introdução do Visibility Mask, uma ferramenta para representar relações entre tokens durante o treino e inferência, melhorou a eficiência dos sistemas de treino. Esta API ajuda a gerir intervalos de atenção dentro de lotes, suportando relações de documentos estruturadas em árvore e atenção bidirecional.
Otimização de Destilação: Gumbel Softmax
No domínio da destilação de modelos, a Character.ai aproveitou a técnica Gumbel Softmax para reduzir custos de armazenamento e largura de banda mantendo a fidelidade dos modelos professor. Esta abordagem envolve a amostragem de subconjuntos de outputs do modelo professor, preservando valores de alvos soft para um treino de modelo estudante mais eficiente.
Os esforços da Character.ai na otimização do pré-treino abriram caminho para um treino de modelos de IA mais eficiente, mesmo quando a empresa muda para aprendizagem por reforço pós-treino para modelos open-source. Estas técnicas, incluindo Squinch e Gumbel Softmax, sublinham o compromisso da empresa em avançar a eficiência e escalabilidade da IA.
Fonte da imagem: Shutterstock
Fonte: https://blockchain.news/news/character-ai-unveils-efficient-techniques-for-large-scale-pretraining


