Banner

谷歌发布全液冷架构突破:支撑兆瓦级机柜,TPUv7散热效率提升4倍

谷歌发布全液冷架构突破:支撑兆瓦级机柜,TPUv7散热效率提升4倍

Posted:2026-01-24

2026年1月,谷歌在Hot Chips 2025大会及OCP开源社区披露的多项技术进展显示,其液冷服务器系统已实现从芯片级散热到兆瓦级机柜的全维度突破,为AI算力集群的规模化部署奠定核心基础。随着新一代TPUv7(Ironwood)芯片单芯片功耗突破400W、集群功率达10MW,谷歌全液冷架构成为应对High-Density Computing散热挑战的关键Solutions。截至2024年底,谷歌液冷服务器部署规模已超1GW,预计2026年前将完成10万台TPUv7服务器的全域部署。


技术重构:从芯片到机柜的全链路散热革命


谷歌此次推出的液冷系统以第五代冷却分配单元(CDU)“Project Deschutes”为核心,经过2014年至2024年十年研发迭代,实现从原型到规模化部署的跨越,形成三大核心技术突破,构建起“芯片-服务器-机柜-数据中心”的全链路散热体系:


芯片级直触冷却:铜制冷板+分流设计破解高热密度难题


针对TPU芯片功耗持续攀升的痛点,谷歌对散热架构进行深度重构:TPUv4/v5/v7全系列芯片采用裸晶直触冷板设计,彻底取消传统封装顶盖,直接将铜制冷却板与芯片核心接触,使热阻降至0.03 K·m²/W,散热效率较传统风冷提升4倍。为解决直列回路中末端芯片冷却效率衰减问题,谷歌创新采用分流式(Split Flow)冷板设计,通过内部导流结构将冷却液均匀分配至芯片各发热区域,即便在串联回路中,末端芯片与首端芯片的温度差也能控制在5℃以内。


从技术演进来看,谷歌液冷方案随TPU世代持续优化:TPUv3时代采用带盖芯片封装与串联冷板布局;TPUv4因功耗提升1.6倍,升级为裸晶封装与并联冷板设计,并引入电动阀门实现流量动态调控;最新的TPUv7则进一步优化冷板流道结构,单个芯片托盘集成4个TPU芯片的液冷回路,散热响应速度提升30%。


兆瓦级机柜支撑:高压供电+侧车设计释放算力空间


通过±400VDC高压供电与液冷系统的深度协同,谷歌将单机柜功率密度从传统风冷的100kW提升至1兆瓦,远超行业平均水平,可满足2030年前机器学习对500kW以上机柜功耗的需求。为最大化算力芯片部署空间,谷歌采用“侧车电源架”创新设计,将供电组件整体移出IT机柜,单独部署为独立电源机柜,使IT机柜内部空间100%用于GPU/TPU等核心算力芯片安装,单机柜芯片部署量较传统方案提升60%。


在冷却系统冗余设计上,谷歌采用“6台CDU冗余配置”方案:每个机柜集群搭载6台冷却分配单元,日常5台Active运行、1台Standby备用,通过柔性软管与快速断开接头(Quick Disconnect Coupling)连接,可在不中断系统运行的前提下完成单台CDU的维护更换,保障系统99.999%的高稼働率。

双回路热交换:低功耗+Waste Heat Recovery实现能效闭环


谷歌液冷系统采用室内外独立冷却液循环的双回路设计,通过CDU实现热量隔离交换:室内回路采用去离子水作为冷却液,直接与芯片冷板进行热交换;室外回路通过热交换器接收室内回路的热量,再将热量排至外界环境或回收利用。这种设计使冷却系统的水泵功耗仅为传统风冷风扇的5%以下,大幅降低非算力能耗。


在比利时数据中心部署的浸没式液冷试点项目中,谷歌进一步将双回路优势发挥到极致,通过Precise Temperature Control将PUE压至1.06的行业超低水平。更值得关注的是,该项目将液冷系统回收的60℃余热直接接入市政供暖管网,每年可减少2万吨CO₂排放,Waste Heat Recovery率达90%,实现电力生产与能源循环的协同优化。


开源与协作:牵动50亿美元产业链,聚焦亚洲区域规模化部署


作为开放计算项目(OCP)核心成员,谷歌宣布将Deschutes CDU设计方案全面贡献至开源社区,并联合Meta、微软推进±400VDC高压供电接口标准化,0.5版规范草案已于2025年5月公开征集行业反馈,预计2026年Q2正式发布。这一开源举措不仅降低了行业液冷技术门槛,更直接牵动全球超50亿美元的液冷产业链升级。在此背景下,谷歌将亚洲视为液冷服务器规模化部署的核心战略区域,已敲定多项大额投资与建设计划,推动区域算力基础设施升级。


亚洲区域部署规划落地:多节点布局构建AI算力枢纽


谷歌针对亚洲市场制定了2026—2030年的中长期液冷数据中心部署规划,核心聚焦南亚、东南亚关键市场,打造多节点、高算力的AI枢纽网络,具体规划包括:


•印度:投资100亿美元在南部安得拉邦维沙卡帕特南(Visakhapatnam)建设南亚规模最大的1GW级超大型数据中心园区,这也是印度首个集成AI训练、云计算、绿色能源与液冷能耗回收技术的综合性技术中心。园区Site Area480英亩,将部署采用全液冷架构的TPUv7算力集群,可支撑万亿参数级模型训练,同时配套建设海底光缆着陆站与升级城域光纤网络,强化与东南亚地区的算力互联。项目预计创造超过20,000个直接与间接就业岗位,2027年将完成首期300MW算力的部署,2030年实现全容量运营。


•马来西亚:投入20亿美元在吉隆坡周边建设首个数据中心及Google Cloud区域,核心机房将全面采用液冷散热方案,单机柜功率密度达500kW,主要服务本地及东南亚企业的AI算力需求。该项目不仅聚焦算力基础设施建设,还将联动医疗、教育等领域的数字化升级,通过液冷技术的低能耗优势,推动区域绿色算力发展。


•新加坡:积极参与新加坡全球首个海底数据中心城市计划,计划部署适配海洋环境的模块化液冷服务器舱,利用海水天然降温特性进一步优化散热效率。谷歌将提供液冷系统的核心技术支持,预计2028年项目投入使用后,其海底数据中心将实现零碳排放的运算环境,并通过高速光纤网络与陆地节点互联,补充新加坡及周边区域的算力冗余。


据行业测算,谷歌2026年在亚洲区域的TPUv7液冷机柜出货量将超1.2万台,占全球总出货量的30%以上,随着各节点部署落地,亚洲将逐步成为谷歌全球液冷算力部署的核心增长极。


细分环节需求爆发,产业链协同保障部署落地


亚洲区域的大规模部署将进一步带动液冷细分环节的需求增长。仅谷歌亚洲项目就将催生冷板部件、快接头、CPO模块等核心组件的大额需求,其中单机柜需80个液冷管路连接部件,年需求规模超100万件;CPO模块2026年采购量预计超150万件。为保障部署进度,谷歌正通过开源液冷架构推动亚洲本地供应链的协同升级,提升核心组件的本地化供应能力,降低物流与交付周期成本。


能效标杆:从数据中心到行业生态的节能变革

谷歌液冷技术已形成显著的全链路能效优势:目前其全球大型数据中心平均PUE低至1.09,较行业平均1.56减少84%的冷却能耗,单1GW液冷算力集群每年可节约用电超4.7亿度。这一优势源于硬件设计与智能调控的双重支撑——冷却系统的整体控制通过AI算法实现动态优化,可根据芯片负载变化实时调整冷却液流量与温度,避免过度冷却造成的能源浪费。


“水的热导率是空气的4000倍,这让液冷成为AI时代的必然选择。”谷歌首席工程师Amber Huffman在Hot Chips 2025大会上强调,谷歌通过复用电动汽车供应链的±400VDC组件,已实现液冷系统规模化降本,当前单机柜液冷方案成本较传统风冷降低20%,为行业普及奠定了经济性基础。此外,谷歌还建立了完善的液冷运维体系,涵盖泄漏检测、防腐处理、生物增殖防控等全流程措施,进一步保障系统长期稳定运行。


行业竞争:垂直整合vs多元路线,液冷成算力竞争核心壁垒


在全球 hyperscaler 液冷赛道,谷歌与微软、亚马逊形成差异化竞争格局:与微软“冷板+浸没”多元路线、亚马逊“渐进式风冷转液冷”策略不同,谷歌液冷技术深度绑定自研TPU芯片,聚焦超算级AI集群场景,形成“芯片-液冷-供电”的垂直整合优势。其最新部署的9216芯片集群已实现42.5 Exaflops算力,可支撑万亿参数级Gemini 2.5模型的高效训练,较传统算力集群训练效率提升3倍。


业内分析认为,谷歌通过开源液冷架构进一步扩大生态影响力,目前采用其开源方案的新建AI数据中心已占全球30%份额。随着AI算力需求持续爆发,液冷技术的成熟度将直接决定企业的算力部署速度与成本控制能力,谷歌此次技术突破与亚洲区域部署布局,有望进一步巩固其在搜索、自动驾驶、企业级AI服务等领域的竞争优势。


Back to List