OpenAI首款Cerebras部署模型发布：实现1000 tokens/s超低延迟推理

发布时间：2026-02-14 08:57 浏览量：74

OpenAI近日推出GPT-5.3-Codex-Spark，这是Codex系列的最新变体，专为实时代码生成和低延迟任务优化。该模型首次完全运行在Cerebras Systems的硬件上，标志着OpenAI在推理部署中引入非Nvidia选项。模型输出速度达到1000 tokens/s，首token延迟降低50%，适用于需要即时响应的编程辅助场景。

Cerebras WSE-3晶圆级处理器实物及关键规格展示，包含90万AI优化核心和21 PB/s内存带宽

GPT-5.3-Codex-Spark依托Cerebras第三代晶圆级引擎WSE-3。该芯片采用台积电5nm工艺，集成约4万亿晶体管、90万AI优化核心、44GB片上SRAM，以及极高的21 PB/s片上内存带宽。这些特性特别适合内存受限的推理负载，避免传统GPU多芯片互联带来的延迟瓶颈。

工程师手持Cerebras晶圆级芯片，展示其完整300mm硅片规模

在实际测试中，该模型在代码生成任务中表现出接近人类配对编程的响应速度。相比主流Codex版本，生成效率显著提升，尤其在实时交互场景下。Cerebras的超大规模单芯片设计减少了数据移动开销，使低延迟推理成为可能，这对AI编码助手等应用具有直接价值。

Cerebras在Llama推理任务中tokens/s性能对比，突出其在高吞吐量场景下的领先

早在2026年1月，OpenAI与Cerebras签署多年协议，计划部署750MW晶圆级系统，总价值超100亿美元。该合作旨在补充OpenAI现有计算资源，专注于高速度推理。此次Codex-Spark的发布是这一伙伴关系的首个重大落地产品，显示OpenAI在计算供应商多元化方面的实际行动。

Cerebras Andromeda超级计算集群机柜，代表大规模晶圆级系统部署环境

当前，Nvidia在AI训练和批量推理领域占据主导，通过Blackwell平台大幅降低token成本。但在低延迟、内存密集型推理任务中，Cerebras等晶圆级方案展现出明显优势。市场正逐步向多供应商格局演变，ASIC厂商和AMD等玩家也在加速布局。未来几年，低延迟将成为推理竞争的关键维度，推动硬件设计向更大规模单芯片和专用优化方向发展。

Cerebras CS-3与Nvidia B200系列AI硬件性能对比图，显示在特定指标上的差异

OpenAI此次选择Cerebras部署Codex-Spark，体现了AI推理硬件选项的逐步丰富，但Nvidia在整体生态中的领先地位短期内仍难撼动，市场竞争将进一步促进技术进步和成本优化。

标签： openai 推理模型 cerebras

上一篇：分析师继续看多黄金，但警告投机资金的流动可能会导致再一次下跌
下一篇：2026年春天，当一位女性走到台前

OpenAI首款Cerebras部署模型发布：实现1000 tokens/s超低延迟推理

相似文章

资讯分类

热门资讯

热门标签

热门产品