Amazon Web Services заявила в пятницу, что разместит процессоры от Cerebras в своих центрах обработки данных в рамках многолетнего партнерства, ориентированного на ИИ-вывод.
Сделка дает Amazon новый способ ускорить то, как ИИ-модели отвечают на запросы, пишут код и обрабатывают запросы пользователей в реальном времени. AWS заявила, что будет использовать технологию Cerebras, включая Wafer-Scale Engine, для задач вывода.
Компании не раскрыли финансовые условия. Установка запланирована для Amazon Bedrock внутри центров обработки данных AWS, помещая партнерство прямо внутри одного из основных ИИ-продуктов Amazon.
AWS заявила, что система объединит серверы на базе Amazon Trainium, системы Cerebras CS-3 и сетевой адаптер Amazon Elastic Fabric Adapter.
Позднее в этом году AWS также планирует предложить ведущие открытые большие языковые модели и Amazon Nova на оборудовании Cerebras. Дэвид Браун, вице-президент по вычислительным услугам и услугам машинного обучения в AWS, заявил, что скорость остается серьезной проблемой в ИИ-выводе, особенно для помощи в написании кода в реальном времени и интерактивных приложений.
Дэвид сказал: "Вывод - это то, где ИИ приносит реальную ценность клиентам, но скорость остается критическим узким местом для требовательных рабочих нагрузок, таких как помощь в написании кода в реальном времени и интерактивные приложения".
AWS заявила, что дизайн использует метод, называемый дезагрегацией вывода. Это означает разделение ИИ-вывода на две части. Первая часть - это обработка запроса, также называемая префил. Вторая часть - это генерация вывода, также называемая декодированием.
AWS заявила, что две задачи ведут себя очень по-разному. Префил параллелен, требует больших вычислений и нуждается в умеренной пропускной способности памяти. Декодирование последовательно, менее требовательно к вычислениям и гораздо более зависимо от пропускной способности памяти. Декодирование также занимает большую часть времени в этих случаях, потому что каждый выходной токен должен быть произведен один за другим.
Вот почему AWS назначает разное оборудование для каждого этапа. Trainium будет обрабатывать префил. Cerebras CS-3 будет обрабатывать декодирование.
AWS заявила, что сеть EFA с низкой задержкой и высокой пропускной способностью соединит обе стороны, чтобы система могла работать как единая служба, в то время как каждый процессор сосредоточен на отдельной задаче.
Дэвид сказал: "То, что мы создаем с Cerebras, решает эту проблему: разделяя рабочую нагрузку вывода между Trainium и CS-3 и соединяя их с Amazon Elastic Fabric Adapter, каждая система делает то, в чем она лучше всего. Результатом будет вывод, который на порядок быстрее и производительнее, чем то, что доступно сегодня".
AWS также заявила, что служба будет работать на AWS Nitro System, который является базовым уровнем для ее облачной инфраструктуры.
Это означает, что системы Cerebras CS-3 и экземпляры на базе Trainium, как ожидается, будут работать с той же безопасностью, изоляцией и согласованностью, которые уже используют клиенты AWS.
Объявление также дает Amazon еще одну возможность продвигать Trainium против чипов от Nvidia, AMD и других крупных чипных компаний. AWS описывает Trainium как свой внутренний ИИ-чип, созданный для масштабируемой производительности и экономической эффективности в обучении и выводе.
AWS заявила, что две крупные ИИ-лаборатории уже привержены этому. Anthropic назвала AWS своим основным партнером по обучению и использует Trainium для обучения и развертывания моделей. OpenAI будет потреблять 2 гигаватта мощности Trainium через инфраструктуру AWS для среды выполнения с сохранением состояния, пограничных моделей и других передовых рабочих нагрузок.
AWS добавила, что Trainium3 получил широкое распространение с момента своего недавнего выпуска, и клиенты из различных отраслей выделяют значительные мощности.
Cerebras обрабатывает сторону декодирования установки. AWS заявила, что CS-3 предназначен для ускорения декодирования, что дает ему больше возможностей для быстрых выходных токенов. Cerebras утверждает, что CS-3 - самая быстрая в мире система ИИ-вывода и обеспечивает в тысячи раз большую пропускную способность памяти, чем самый быстрый GPU.
Компания заявила, что модели рассуждения теперь составляют большую долю работы по выводу и генерируют больше токенов на запрос, когда они работают над проблемами. Cerebras также заявила, что OpenAI, Cognition, Mistral и другие используют ее системы для требовательных рабочих нагрузок, особенно для агентного кодирования.
Эндрю Фельдман, основатель и генеральный директор Cerebras Systems, сказал: "Партнерство с AWS для создания дезагрегированного решения для вывода принесет самый быстрый вывод глобальной клиентской базе".
Эндрю добавил: "Каждое предприятие по всему миру сможет получить выгоду от невероятно быстрого вывода в рамках своей существующей среды AWS".
Сделка добавляет дополнительное давление на Nvidia, которая в декабре подписала лицензионное соглашение на 20 миллиардов $ с Groq и планирует на следующей неделе представить новую систему вывода, использующую технологию Groq.
Если вы читаете это, вы уже впереди. Оставайтесь там с нашей рассылкой.


