AWS将Cerebras晶圆级WSE-3芯片引入云平台
发布时间:2026-03-16 20:50 浏览量:2
亚马逊云科技将为客户提供Cerebras Systems公司的WSE-3人工智能芯片。
两家公司今天宣布了这一合作计划。这是一项多年合作伙伴关系的一部分,AWS和Cerebras还将为AI推理工作负载开发"分离式架构"。该技术有望将AI模型生成输出的速度提高5倍。
Cerebras的WSE-3芯片包含90万个核心和44GB片上SRAM。该公司将处理器作为名为CS-3的水冷设备的一部分进行销售。该系统大约相当于一台迷你冰箱的大小,将1个WSE-3与外部内存、网络设备和其他辅助组件相结合。
新宣布的合作伙伴关系将看到AWS在其数据中心部署CS-3设备。这些系统将通过云巨头的AWS Bedrock服务向客户提供,该服务提供对内部开发和第三方基础模型的访问。CS-3使神经网络能够以每秒数千个Token的速度生成提示响应。
AWS和Cerebras正在开发的分离式架构将WSE-3与AWS Trainium相结合,后者是云巨头的定制AI芯片系列。集成的目标是加速客户的推理工作负载。
大语言模型通过将提示分割为称为Token的小数据单位来处理提示。每个Token包含几个字母或数字。大语言模型为提示中的每个Token生成三个称为键、值和查询的数学对象。这些对象帮助模型确定提示的哪些部分重要,哪些细节可以降低优先级。
大语言模型处理提示的过程被称为预填充阶段。接下来是解码阶段,此时模型生成对用户问题的答案。
预填充和解码任务通常由同一芯片执行。在AWS的分离式架构中,Trainium处理器将支持预填充阶段,而WSE-3将执行解码。
解码涉及与预填充阶段类似的一组计算,但需要显著更多的数据移动。信息定期在底层芯片的逻辑电路和内存之间传输。芯片移动信息的速度越快,生成提示响应的速度就越快。
WSE-3的主要卖点之一是它能够比许多其他芯片更快地在逻辑和内存电路之间移动数据。据Cerebras称,该处理器提供每秒27拍字节的内部内存带宽。这比英伟达公司NVLink显卡互连提供的带宽多200倍以上。
AWS将使用内部开发的网络设备弹性网络适配器(EFA)在其数据中心连接Trainium和WSE-3芯片。当数据包在芯片之间移动时,通常会通过主机服务器的操作系统。EFA跳过该步骤以加速连接并自动缓解网络拥塞。
Cerebras产品营销总监James Wang在博客文章中写道:"分离式架构非常适合大型、稳定的工作负载。大多数客户运行具有不同预填充/解码比率的混合工作负载,传统的聚合方法仍然是理想的。我们预计大多数客户都会希望访问两种方法。"
这一合作伙伴关系是在Cerebras赢得另一个备受瞩目的芯片供应交易几周后达成的。OpenAI Group PBC同意在2028年前从该公司购买价值750兆瓦的计算基础设施。据报道,这笔交易价值超过100亿美元,在两轮融资之间宣布,为Cerebras筹集了超过20亿美元。
该芯片制造商预计最早将在第二季度申请首次公开募股。与AWS和OpenAI的交易可能有助于增加投资者对上市的兴趣。
Q&A
Q1:AWS与Cerebras合作的WSE-3芯片有什么特点?
A:WSE-3芯片包含90万个核心和44GB片上SRAM,能够以每秒数千个Token的速度生成提示响应。它提供每秒27拍字节的内部内存带宽,比英伟达NVLink显卡互连的带宽多200倍以上,能够更快地在逻辑和内存电路之间移动数据。
Q2:什么是分离式架构?它如何提升AI推理性能?
A:分离式架构将Trainium处理器用于预填充阶段,WSE-3用于解码阶段,而不是由同一芯片执行两个任务。这种架构能够将AI模型生成输出的速度提高5倍,特别适合大型、稳定的工作负载。
Q3:Cerebras公司最近还签署了哪些重要合作?
A:除了与AWS的合作,Cerebras还与OpenAI签署了一项重大协议,OpenAI同意在2028年前购买价值750兆瓦的计算基础设施,据报道这笔交易价值超过100亿美元。该公司还在两轮融资中筹集了超过20亿美元。