Tony Kim
21:56, 23 декабря 2025
Character.ai раскрывает инновационные методы оптимизации крупномасштабного предобучения, сосредоточившись на таких техниках, как Squinch, динамическое ограничение и Gumbel Softmax, для повышения эффективности обучения моделей ИИ.
Character.ai, заметный игрок в сфере ИИ, недавно поделился информацией о своих ранних усилиях по оптимизации крупномасштабного обучения трансформеров. Компания, которая с тех пор переключила свое внимание на основы моделей с открытым исходным кодом, изначально изучала различные техники для повышения эффективности и скорости обучения, согласно блогу Character.AI.
Сжатие градиентов: Squinch
Одной из ключевых инноваций, выделенных в усилиях Character.ai, является алгоритм сжатия градиентов, известный как Squinch. Разработанная соучредителем Ноамом Шазиром, эта техника 6-битного сжатия была создана для значительного сокращения пропускной способности связи во время распределенного обучения при сохранении точности модели. Алгоритм эффективно сжимает градиенты до 6 бит на элемент, оптимизируя использование пропускной способности обучающих кластеров.
Регуляризация точности: Attention Z-Reg
Character.ai также разработал Attention Z-Reg, метод регуляризации, применяемый к логитам внимания для обеспечения численной стабильности. Эта техника помогает поддерживать точность представлений bfloat16, что критически важно для оптимизации обучения больших моделей.
Стабильность квантования: динамическое ограничение
Динамическое ограничение - это еще одна техника, используемая для повышения стабильности квантования. Она предотвращает схлопывание малых значений активации к нулю путем динамического вычисления диапазона ограничения на основе среднеквадратичного значения входных весов. Этот метод улучшает стабильность обучения за счет снижения ошибок квантования.
Эффективный API внимания: Visibility Mask
Внедрение Visibility Mask, инструмента для представления межтокенных отношений во время обучения и вывода, улучшило эффективность обучающих систем. Этот API помогает управлять диапазонами внимания в пакетах, поддерживая древовидные структуры документов и двунаправленное внимание.
Оптимизация дистилляции: Gumbel Softmax
В области дистилляции моделей Character.ai использовал технику Gumbel Softmax для снижения затрат на хранение и пропускную способность при сохранении точности моделей-учителей. Этот подход включает в себя выборку подмножеств выходных данных модели-учителя, сохраняя мягкие целевые значения для более эффективного обучения модели-ученика.
Усилия Character.ai по оптимизации предобучения проложили путь для более эффективного обучения моделей ИИ, даже когда компания переходит к обучению с подкреплением после обучения для моделей с открытым исходным кодом. Эти техники, включая Squinch и Gumbel Softmax, подчеркивают приверженность компании повышению эффективности и масштабируемости ИИ.
Источник изображения: Shutterstock
Источник: https://blockchain.news/news/character-ai-unveils-efficient-techniques-for-large-scale-pretraining


