微软启动跨洲数据中心超级集群项目，训练超大参数AI模型

微软认为下一代AI模型将使用数百万亿个参数。为了训练这些模型，微软不仅在建设更大、更高效的数据中心，还开始使用跨越数百或数千英里的高速网络连接远距离设施。

这个多数据中心集群的第一个节点已于10月上线，连接了微软位于威斯康星州芒特普莱森特的数据中心园区与佐治亚州亚特兰大的设施。

这家软件巨头的目标是最终使用类似于今天在多个服务器间分布高性能计算和AI工作负载的方法，在数据中心间扩展AI工作负载。

微软Azure首席技术官Mark Russinovich在一份声明中表示："要改进AI的能力，你需要拥有越来越大的基础设施来训练它。现在训练这些模型所需的基础设施数量不只是一个数据中心，也不是两个，而是多个数据中心。"

这些也不是普通的数据中心。这些设施是微软称为"Fairwater"集群系列中的首批设施。这些设施有两层楼高，使用直接芯片液体冷却技术，微软声称几乎"零用水"。

最终，微软设想这个数据中心网络将扩展到数十万个多样化的GPU，这些GPU将根据工作负载和可用性进行选择。在其亚特兰大设施，微软将部署英伟达的GB200 NVL72机架系统，每个系统额定承载超过120千瓦的设备，并提供720 petaFLOPS的稀疏FP8计算用于训练，由13TB HBM3e内存提供支持。

分散负载

通过连接数据中心，微软将能够训练更大的模型，并为自己提供为设施选择不同位置的机会——这意味着它可以选择土地便宜、气候凉爽，以及最重要的是能够获得充足电力的地方。

微软没有具体说明它使用什么技术来连接这两个数据中心之间大约1000公里的距离，但它有很多选择。

上个月，思科发布了思科8223，这是一款51.2 Tbps路由器，旨在连接距离高达1000公里的AI数据中心。博通打算其8月份宣布的Jericho 4硬件来完成同样的工作并提供类似的带宽。

与此同时，英伟达在AI热潮的推动下悄然成为世界上最大的网络设备供应商之一，它已经预告了其Spectrum-XGS网络交换机，加密货币挖矿转GPU租赁公司Coreweave已签约成为早期采用者。

我们已要求微软就其在Fairwater设施使用哪些技术发表评论，如果收到回复将更新这个故事。但微软与英伟达的密切关系确实使Spectrum-XGS成为可能的竞争者。

微软是为数不多的在其高性能计算环境中标准化英伟达InfiniBand网络协议而非以太网或专有数据结构（如亚马逊网络服务的EFA）的超大规模云服务商之一。

虽然微软在连接数据中心方面不乏选择，但在不产生带宽或延迟相关损失的情况下分布AI工作负载仍然是研究人员关注的话题。

他们正在取得良好进展：读者可能还记得，今年早些时候，谷歌的DeepMind团队发布了一份报告，显示许多挑战可以通过在训练期间压缩模型和战略性地安排数据中心间通信来克服。

Q&A

Q1：微软的Fairwater集群有什么特点？

A：Fairwater集群是微软新一代数据中心，具有两层楼高的结构，使用直接芯片液体冷却技术，几乎"零用水"消耗。这些设施将部署英伟达的GB200 NVL72机架系统，每个系统能承载超过120千瓦设备并提供720 petaFLOPS计算能力。