OpenAI首款Cerebras部署模型发布:实现1000 tokens/s超低延迟推理

发布时间:2026-02-14 08:57  浏览量:7

OpenAI近日推出GPT-5.3-Codex-Spark,这是Codex系列的最新变体,专为实时代码生成和低延迟任务优化。该模型首次完全运行在Cerebras Systems的硬件上,标志着OpenAI在推理部署中引入非Nvidia选项。模型输出速度达到1000 tokens/s,首token延迟降低50%,适用于需要即时响应的编程辅助场景。

Cerebras WSE-3晶圆级处理器实物及关键规格展示,包含90万AI优化核心和21 PB/s内存带宽

GPT-5.3-Codex-Spark依托Cerebras第三代晶圆级引擎WSE-3。该芯片采用台积电5nm工艺,集成约4万亿晶体管、90万AI优化核心、44GB片上SRAM,以及极高的21 PB/s片上内存带宽。这些特性特别适合内存受限的推理负载,避免传统GPU多芯片互联带来的延迟瓶颈。

工程师手持Cerebras晶圆级芯片,展示其完整300mm硅片规模

在实际测试中,该模型在代码生成任务中表现出接近人类配对编程的响应速度。相比主流Codex版本,生成效率显著提升,尤其在实时交互场景下。Cerebras的超大规模单芯片设计减少了数据移动开销,使低延迟推理成为可能,这对AI编码助手等应用具有直接价值。

Cerebras在Llama推理任务中tokens/s性能对比,突出其在高吞吐量场景下的领先

早在2026年1月,OpenAI与Cerebras签署多年协议,计划部署750MW晶圆级系统,总价值超100亿美元。该合作旨在补充OpenAI现有计算资源,专注于高速度推理。此次Codex-Spark的发布是这一伙伴关系的首个重大落地产品,显示OpenAI在计算供应商多元化方面的实际行动。

Cerebras Andromeda超级计算集群机柜,代表大规模晶圆级系统部署环境

当前,Nvidia在AI训练和批量推理领域占据主导,通过Blackwell平台大幅降低token成本。但在低延迟、内存密集型推理任务中,Cerebras等晶圆级方案展现出明显优势。市场正逐步向多供应商格局演变,ASIC厂商和AMD等玩家也在加速布局。未来几年,低延迟将成为推理竞争的关键维度,推动硬件设计向更大规模单芯片和专用优化方向发展。

Cerebras CS-3与Nvidia B200系列AI硬件性能对比图,显示在特定指标上的差异

OpenAI此次选择Cerebras部署Codex-Spark,体现了AI推理硬件选项的逐步丰富,但Nvidia在整体生态中的领先地位短期内仍难撼动,市场竞争将进一步促进技术进步和成本优化。