资讯公告
  • 你的位置:
  • 首页
  • >
  • 资讯公告
  • >
  • 人工智能
  • >
  • Nvidia人工智能超级集群瞄准甲骨文云上的代理和推理模型
Nvidia人工智能超级集群瞄准甲骨文云上的代理和推理模型
发布时间:2025-04-30 发布者:域风网

Nvidia人工智能超级集群瞄准甲骨文云上的代理和推理模型


甲骨文公司在其Oracle Cloud Infrastructure云服务中部署了数千台英伟达™(NVIDIA®)GPU,用于开发和运行下一代推理模型和人工智能代理。


这是OCI数据中心的第一波液冷NVIDIA GB200 NVL72机架,涉及数千个Nvidia Grace CPU和Blackwell GPU。Nvidia GB200 NVL72是由36个基于Arm的Nvidia Grace CPU组成的超级计算机,每个CPU搭配两个Blackwell GPU,并通过NVLink连接。每台 GB200 NVL72 的训练性能超过一个 exaflop。


甲骨文的目标是最终建立一个由10万多个Blackwell GPU组成的集群,这将成为其 “OCI超级集群 ”之一。除硬件外,两家公司还提供全套软件和数据库集成。


此前,甲骨文公司已经利用65,536个Nvidia H200 GPU构建了一个OCI超级集群,该集群采用了较早的Hopper GPU技术,没有CPU,可提供高达260 exaflops的FP8峰值性能。


根据宣布上市的博文,Blackwell GPU可通过甲骨文的公共云、政府云和主权云提供,也可通过其OCI专用区域和Alloy产品在客户拥有的数据中心提供。


甲骨文加入了包括谷歌、CoreWeave和Lambda在内的越来越多提供GB200 NVL72系统的云提供商的行列。此外,微软也提供 GB200 GPU,但它们并不是作为 NVL72 机器部署的。


NVL72 的独特之处在于,它使许多 CPU 和 GPU 在系统软件中显示为一个共享内存空间的单个图像或硅片,而不是 72 个各自拥有独立内存空间的 GPU。


集群通常很难扩展到 8 个 GPU 以上,但 NVL72 通过 Nvidia 的第五代 NVLink 实现了扩展,据 Nvidia 称,NVL72 可提供高达 130 TB/s 的超高 GPU 到 GPU 互联带宽。 这实现了所有 GPU 之间的快速数据共享和同步,而这正是训练大型人工智能模型所需要的。

购物车