英特尔 Gaudi 3 AI 加速器:比H100 性能提升50%

正在全球热映的动画电影《功夫熊猫4》(Kung Fu Panda 4)全球票房突破3亿美元大关,达到3.473亿美元! 其中,北美第四周末票房再收1020万美元,跌幅为38.2%,北美累计....

芝能智芯出品

在不断发展的人工智能领域,硬件创新是推动技术进步的关键,英特尔在最新的 Vision 大会上发布了英特尔® Gaudi® 3 AI 加速器,这是一项重大突破,将为企业生成人工智能(GenAI)带来性能、开放性和选择。

本文将介绍英特尔 Gaudi 3 加速器的技术特点以及它在推动人工智能应用方面的重要作用。

Part 1

技术特点

英特尔 Gaudi 3 AI 加速器:比H100 性能提升50%

英特尔 Gaudi 3 加速器是专为高效的大规模 AI 计算而设计的。采用先进的 5 纳米工艺制造,它与前代产品相比具有显著进步。

● 性能提升:与前代 Gaudi 2 相比,Gaudi 3 在 BF16 AI 计算能力上提升了 4 倍,内存带宽提升了 1.5 倍,网络带宽提升了 2 倍。这些性能的提升使得 Gaudi 3 能够更高效地处理大规模的 AI 工作负载,如大型语言模型(LLM)和多模态模型的训练和推理。

● 开放性:Gaudi 3 基于开放社区的软件和行业标准的以太网网络,为客户提供了更多的选择和灵活性。这种开放性策略有助于企业避免供应商锁定,同时也促进了生态系统的健康发展。

● 定制架构:Gaudi 3 采用 5 纳米工艺制造,包含 64 个 AI 定制和可编程的张量处理器核心(TPC)和 8 个矩阵乘法引擎(MME)。每个 MME 能够执行 64,000 个并行运算,显著提高了计算效率。

 内存和带宽:Gaudi 3 配备了 128 GB 的 HBMe2 内存和 3.7 TB 的内存带宽,以及 96 MB 的板载静态随机存取内存(SRAM),为处理大型 GenAI 数据集提供了充足的内存。

● 系统扩展性:Gaudi 3 集成了 24 个 200 Gb 以太网端口,支持高效扩展,以满足 GenAI 模型的广泛要求。这种设计使得 Gaudi 3 能够从单个节点扩展至数千个节点,适应不同规模的计算集群。

● 软件支持:Gaudi 3 软件集成了 PyTorch 框架,并提供优化的 Hugging Face 模型,使得 GenAI 开发人员能够在高抽象级别上进行操作,提高开发效率。 

英特尔 Gaudi 3 加速器将为领先的 GenAI 模型的训练和推理任务带来显著的性能提升。与竞争产品相比,英特尔 Gaudi 3 加速器在训练时间和推理速度上都有显著的优势。

具体来说,与 Nvidia H100 相比,预计英特尔 Gaudi 3 加速器的性能提升,训练时间加快 50%,推理吞吐量提高 50%和推理功效提高 40%。

Part 2

市场采用和可用性

英特尔 Gaudi 3 加速器将于 2024 年第二季度向 OEM 厂商提供,预计将于第三季度全面上市。这将为企业提供高性能且经济高效的人工智能解决方案,并拓宽了人工智能数据中心市场的产品选择范围。

英特尔 Gaudi 3 加速器的发布是英特尔在推动人工智能技术进步方面的一部分。未来,英特尔将继续扩展其人工智能产品和服务,包括全新的至强 6 处理器和与合作伙伴共同开发的开放生态系统。这些努力将促进企业对 GenAI 技术的采用,推动人工智能应用的广泛发展和创新。

小结

通过英特尔 Gaudi 3 加速器,我们迈出了推动人工智能技术进步的重要一步。这将为企业提供更强大的工具和解决方案,推动人工智能应用在各个领域的广泛应用和发展。