AI芯片机架实在太重了
作者:微信文章老旧的数据中心在物理上无法支撑成排的GPU,这也是大规模建设AI数据中心的原因之一。
2010年至2025年十五年间,美国的数据中心数量翻了两番。全球趋势也如出一辙:数据中心越来越多,规模越来越大,需求迫在眉睫。数据中心认证和研究机构Uptime Institute数据指出,过去四年宣布的超过100兆瓦的建设项目总数达到了377个。
但在科技巨头狂热追逐更强算力之前,我们暂停考虑一下另一个选项:凑合用现有的。我们能否改造现有的数据中心来满足最新技术的需求?也许我们拥有的设施已经足够了。
这里升升级,那里换点新服务器,重新刷遍漆,一个AI数据中心能否从旧壳子里诞生呢?
“大多数时候,这意味着要把大楼推倒重来。”
我带着这个想法咨询了数据中心专家,他们明确告诉我:不,我们现有的数据中心无法轻易改造成为AI超级机房。问题就像脚下的地面一样实在:老旧数据中心无法承受最新AI技术的重量。存放计算机芯片或AI芯片的机架实在太重了,地板根本承受不住,会直接被压裂。
Uptime Institute 的首席技术官 Chris Brown 总结了这一情况:“我们可以在一定程度上改造旧数据中心,但达不到许多 AI 工厂所需要的程度。”他说,小型数据中心的一小部分可以容纳例如单一世界 500 强公司的小型 AI 专注工作负载。“但大多数时候,这意味着要把大楼推倒重来,” Brown 说道。
AI机架有严重的超重问题。机架装满被称为服务器的金属盒子、而盒子里又装着负责计算或生成式AI处理的芯片的金属柜子。三十年前,在Brown刚进入数据中心行业时,机架平均重约400到600磅(约181到272公斤)。想象一下,是家用冰箱或小型三角钢琴的重量。而现在,机架重量达到1,250磅至2,500磅(约567到1134公斤)已是常态,相当于一头灰熊到一辆丰田普锐斯的重量。但专门用于AI设备的机架处于这个范围的高端甚至更重,Brown说,预计AI机架的重量里程碑是5,000磅(约2268公斤)。
Brown说,额外的重量归因于塞进金属机架里的电子设备数量。GPU之间的间隙会减慢数据传输,从而减慢AI模型训练,进而浪费宝贵的算力,最终浪费金钱。最新的高密度机架挤满了内存芯片(导致全球RAM供应下降)和数百甚至多达1,000个GPU。十年前传统的计算机芯片工作负载平均每机架约10千瓦,而现在的AI工作负载是其35倍,高达每机架350千瓦。“他们尽可能多地往每个机架里塞东西,并将机架尽可能紧密地排列,以最大化这种能力,”他说。
更大的功率会产生更多的热量,必须在发生火灾或芯片熔化之前散去。吹过芯片的风冷已被充满液体的冷却板取代或补充,液体通常是有毒冷却剂的水混合物。水的重量每加仑略超过8磅。别忘了还有线缆。在数据中心深处,通常有10到35个机架排成一排。为了输送足够的电力,线缆或被称为母线槽(busway)的类似线缆的铜板直径需要增加。(想象一下用厨房水龙头灭火;最好是用大直径的消防水龙带来喷水。)Brown说,现代母线槽每线性英尺重37磅。
“所有这些东西加在一起——所有处理器的重量、所有内存、所有运行 IT 设备所需的芯片、所有里面需要的冷却硬件,”他说。Brown 指出,老旧数据中心的结构无法胜任这项任务。许多数据中心有架空地板,其静态负载上限约为每平方英尺 1,250 磅。他说,动态负载(例如在地板上推动机架)需要更高的承重能力。
即使你加固了旧中心的楼板,其他几何结构问题依然存在,数据中心建设公司 Critical Facility Group 的总裁 Chris McLean 告诉《The Verge》。他设计数据中心已近二十年,在此期间机架高度增加了 3 英尺,从 6 英尺长到了 9 英尺。(占地面积仅从 2x2 英尺增加到 2x3 英尺。)新的高度比几年前的工业门框还要高。货运电梯也无法承受巨大的机架、移动机架时的底座装置以及推机架的人员的重量:“突然之间,你需要一个相当强悍的电梯来服务多层建筑,” McLean 说。
“过去两年造成巨大增长的原因仅仅是人工智能正在吞噬一切。”
科技巨头显然正在建设新的数据中心,以适应其日益增长的 AI 霸权争夺战。当 OpenAI、微软或其他公司在自己构建的 AI 数据中心综合体中用完空间时,他们会租用 CoreWeave、Digital Realty 或 Compass 等公司拥有的托管设施空间,而这些公司反过来也在建设新的 AI 专用数据中心。“过去两年造成巨大增长的原因仅仅是人工智能正在吞噬一切,” Uptime Institute 的 Brown 说。
尽管炒作不断,但生成式 AI 并不是唯一的计算类型,以免我们忘记典型的计算机工作负载仍然存在。Brown 说,实际上,非 AI 数据工作负载也在增加。因此,传统数据中心比以往任何时候都重要。McLean 说,大学、医院、中型公司和市政当局都需要继续存储其非 AI 数据文件,就像你仍然将模糊的照片存储在某些云提供商的服务器上一样。“所有这些人仍然需要那种传统的数据中心环境,”他说。“它永远不会消失。”
页:
[1]