揭秘 Cerebras Wafer Scale Engine 3:AI 算力新秀

《烈焰》最新的剧集中,十刑和明月赚足了观众的眼泪,他们真是一对苦命鸳鸯,令人心疼。 明月是人间女子,也就是人族。她双目失明,但长相标致,是难得的美人。十刑作为一方城主巡城的时候,他就注意到....

芝能智芯出品

在人工智能的风起云涌中,初创公司拿出了创意的方案来找到自己的位置。最近一个新的芯片方案崭露头角——Cerebras Wafer Scale Engine 3

(WSE-3)。

Cerebras Wafer

Scale Engine

(WSE)

系列一直不断在迭

代,

最新推出的第三代产品WSE-3更是一次技术的

飞跃。

Cerebras WSE-3比其前几代产品更小,但却拥有比以往更高的密度,采用了台积电的5纳米工艺。这颗芯片拥有超过4万亿个晶体管和46225mm²的硅片面积,堪称全球最大的AI芯片。

Part 1

规模巨大

性能惊人

Cerebras WSE-3的规格实在令人咋舌,搭载了惊人的900,000个核心和44GB内存。

Cerebras的设计理念与NVIDIA等公司不同的制造方式。传统上,NVIDIA、AMD、英特尔等公司会采用大型晶圆,并将其切割成更小的部分来制造芯片,而Cerebras则选择保持晶圆完整。

在当前的大规模集群中,通常会使用成千上万个GPU或AI加速器来处理问题,这导致了大量的芯片互连和网络成本,以及高能耗。而Cerebras通过保持整个芯片的完整性来解决了这个问题,从而显著降低了互连和网络成本以及功耗。

Cerebras 和英伟达的设计差异在于,前者使用了片上内存。

Part 2

强大的系统支持

Cerebras CS-3 系统是第三代的晶圆级

(Wafer Scale)系统。它具备顶部 MTP/MPO 光纤连接,并带有用于冷却的电源、风扇和备用泵。需要为大型芯片提供电力、数据和冷却,并要管理热膨胀等问题。

内部采用液体冷却技术,热量可以通过风扇或设施水排出。在 SC22 展示地板上展示了 Cerebras CS-2 的裸露发动机组,展示了它的工作原理。

Cerebras CS-3 达到了大约两倍的性能提升,同时功耗和价格保持不变。从第一代的 16 纳米到如今的 5 纳米,Cerebras 在每个工艺步骤中都取得了巨大优势。

相较于具有八个 NVIDIA H100 GPU、内部 NVSwitch 和 PCIe 交换机的 NVIDIA DGX H100 系统,Cerebras CS-3 只是一个更大的构建块。

配备 Supermicro 1U 服务器的 CS-3 与 NVIDIA DGX H100 系统相似。Cerebras 通常使用 AMD EPYC 来获得更高的核心数量,但也可能是因为 Cerebras 团队的很多成员来自被 AMD 收购的 SeaMicro。

Supermicro 1U 服务器的 Cerebras 集群,显示了 Cerebras 如何利用液冷设施,而不必为每个服务器节点配备冷板。

显著特点是更大的集群,多达 2048 个 CS-3,可以实现高达 256 exaFLOPs 的人工智能计算。内存高达 12PB 的超大规模 SKU,专为快速训练 GPT-5 尺寸模型而设计。

Cerebras 还可以缩小到类似于单个 CS-2 的规模,并支持服务器和网络。部分内存不仅是片上内存

(44GB),还包括支持服务器中的内存,这使得 Cerebras 集群可以训练比以前更大的模型。

Cerebras 取得了商业上的成功,并有相关的更新。

其中一个更新是关于第一个价值超过 1 亿美元的 Cerebras AI 集群,Condor Galaxy 1 已完成并进行客户培训。

Condor Galaxy 2,现已在 G42 上启动并运行。新的 Condor Galaxy 3 是达拉斯的集群,它将使用新的 5 纳米 WSE-3 和 CS-3 进行计算。

这些集群计划在美国圣克拉拉、斯托克顿和达拉斯再建至少六个。这些集群的总价值应超过 10 亿美元,并于 2024 年完工。

除了交易价值超过 10 亿美元外,Cerebras 告诉我们,它们目前供应有限,因此对 WSE-3 的需求是存在的。

揭秘 Cerebras Wafer Scale Engine 3:AI 算力新秀

Cerebras 专注于推理训练,

但它宣布与高通建立合作伙伴关系,以使用高通的传统人工智能推理加速器。

小结

Cerebras Wafer Scale Engine 3的问世不仅是技术的发展,更是对人工智能未来的一次探索。其强大的性能和独特的设计将为AI计算领域注入新的活力,推动着技术的不断进步。

关键词:Cerebras集群晶圆