当前位置:首页 > 科技 > 正文

液冷新时代 智算大有为 浩云长盛液冷数据中心最佳实践知识介绍

液冷新时代 智算大有为 浩云长盛液冷数据中心最佳实践知识介绍

你们好,最近小时发现有诸多的小伙伴们对本文的疑点,今天小钱为大家梳理了下,一起往下看看吧。浩云长盛广州二号云计算基地,是华南区首家大型商用液冷数据中心,采用冷板...

你们好,最近小时发现有许多的小伙伴们对本文的疑点,今日小钱为咱们梳理了下,一同往下看看吧。

浩云长盛广州二号云核算基地,是华南区首家大型商用液冷数据中心,选用冷板式液冷技能,助力AI算力事务降本增效:进步算力功能10%,下降GPU芯片保护本钱50%,节约IB线缆出资30%。

低碳与数字双驱动,未来GPU资源继续炽热

数据中心是国家信息化战略的重要根底设施底座,开展的好坏快慢直接影响战略落地。方针、经济、社会、技能都在为数据中心职业高质量开展供给新动能。《“十四五”规划》清晰指出,到2025年,数字经济中心工业添加值占GDP比重到达10%,一起到2025年单位GDP能耗下降13.5%,从开展规划中以小见大,我国数字经济既要快速开展,更要高质量开展。

2023年3月,Open AI的ChatGPT 4.0大模型发布,将人工智能的运用面向了新的高度,该模型在许多专业测验中的体现“超出了人类水平”,“比以往任何时候都更具创造性和协作性”,“可以更准确地处理难题”,ChatGPT单月访问量打破10亿次。与此一起,各个职业都在积极探索人工智能与职业结合之路,如微软将ChatGPT接入Office 365,作业功率成倍添加。

这一股AI浪潮也冲击了算力根底设施底座。人工智能深度神经网络算法(DNL)需求处理很多且并行的卷积运算,而GPU显卡则能很好地匹配这种特性。依据事务侧的带动,加上A100的禁售,用于大模型练习的GPU一卡难求,价格改变更是按天衡量,8卡H100服务器从60万到150万只用了3个月的时刻。未来,GPU缺少的趋势或许会保持,OpenAI的ChatGPT GPT 4.0在大约10000-25000张A100进步行了练习,而GPT 5.0将或许需求30000-50000个H100。

低碳高密风退液进

这一系列微观环境的改变,对数据中心职业开展方向产生了许多影响,风冷结尾究竟能不能习惯这一改变?在咱们看来,风冷不能很好匹配事务需求的改变。

首要,风冷不能很好应对PUE应战,现在各省对数据中心PUE现已有清晰的辅导,以广东省为例,广东省工业和信息化厅印发了广东省5G基站和数据中心(IDC)总体布局规划(2021-2025)的告诉,新建数据中心PUE不高于1.3,这关于广东区域来说,是十分具有应战性要求。

其次,风冷的散热功率和制冷精度不行高。GPU芯片的功耗一定是趋向高密的,英伟达GPU A100/H100单卡功率挨近400W,芯片暖流密度50W/平方厘米,4U整机服务器功率挨近5.5kW/台,英伟达主推的下一代算力卡,A800/H800算力是上一代的3倍,价格只要本来的2倍,功耗挨近2倍,单卡功率挨近700W,暖流密度87.5W/平方厘米,4U整机挨近9kW,算力硬件功率越来越高,芯片暖流密度越来越大,传统风冷难匹配:

1.风冷制冷功率低,不适合高功率机柜。风冷密闭通道支撑的合理功率区间4~6kW,但单个4U的H800整机现已挨近9kW,此刻风冷制冷关于如此高密设备的散热有点无能为力,少数服务器场景下,能选用隔机柜安置方法应急,这种非集约化安置形式在规模化的算力场景下,散热作用并欠安,单个客户会把GPU服务器外壳翻开,添加散热面积。这种安置方法没有经过专业的CFD仿真验证,既不安全,又会形成机柜资源糟蹋。

2.风冷制冷关于热源(GPU)的制冷不行精准。纯气流组织散热支撑的芯片暖流密度极限约10W/平方厘米,达不到H800对散热功率的要求。芯片长时刻作业在高温状况,会导致功能下降,英伟达相同功能服务器,液冷版别和风冷版别功能间隔在10%;一起,依据“十度规律”,从室温起,电子元器材每添加十度,失功率添加一倍,寿数也会下降,GPU备件失功率添加,继而导致整个生命周下期算力本钱添加。

实践中常常会有通道温度低,可是芯片温度高的状况产生,长时刻高温运转,GPU的寿数短和功能低,导致经济本钱和时刻本钱都添加,由此可见在算力场景,风冷并不是最合适的。液冷是经过高比热容的冷液直接带走热量,这种高效的散热方法逐步进入咱们的视界。

液冷处理计划,是GPU算力的最优解

浩云长盛广州二号云核算基地,坐落广东省广州市番禺区,大湾区的中心和智能汽车工业中心(双中心),本项目依照国标CQC A级规范规划,定位为智能制作AI算力基地,是华南区首家大规模商用液冷数据中心,支撑功率密度8~19KW以上,单体系PUE 1.1以下,为华南区智能制作、AI超算高质量开展供给牢靠数字根底设施底座。


冷板式液冷基本原理

液冷基本原理是选用液体作为传热工质在冷板内部流道活动,经过热传递对热源完成冷却的非触摸液体冷却技能。在冷板式液冷体系中,需求专用的液冷服务器,服务器芯片等发热器材不直触摸摸液体,而是经过装配在需求冷却的电子元器材上的冷板进行散热,到达准确制冷的意图,让GPU运转温度更低。

二次侧选用25%乙二醇加去离子水的混合液,保证换热高效的一起统筹安全安稳。进水温度35-45℃规模之间,出水温度在45-55℃左右,进出水温高,体系经过天然冷却为芯片降温,下降体系PUE。一次侧和二次侧经过板换完成热交流,二次侧的水泵将热量从板换中带出到冷却塔散掉。

整个体系来看,跟传统的制冷方法是有差异的:

1.换热次数少,传统冷机体系5次换热,冷板液冷3次,更少的冷量损耗;

2.精准散热,冷板式液冷可以针对GPU芯片单点降温,且冷液的比热容是空气的4倍,换热功率更高,对GPU更友爱;

3.无压缩机,电扇等部件,体系PUE更低,设备噪音更小。

冷板式液冷比照传统气流交流方法,在归纳功能上有质的腾跃,更贴合算力事务的特色,液冷体系单柜功率密度支撑19kW以上,能进步散热功率,下降GPU作业温度达20℃以上。

当然,浩云长盛以为现在最佳的计划,应该是风液结合的计划,通道散热风液结合,液冷帮忙GPU散热,风冷作为辅佐散热,带走其他部件的热量;液冷机柜和风冷机柜混合安置,客户的一般机柜和算力机柜可以就近协作,进步合作功率,且便利保护。

液冷是算力事务的刚需

曩昔,关于终究用户来说,用什么样的制冷方法并不重要,风冷,水冷,直接蒸腾,只要能到达功率需求都可以承受,可是在算力年代,思想方法或许要做一些改变了,由于算力财物越来越难获取,也越来越贵重,而制冷方法的匹配与否,直接影响到事务上线速度和出资本钱。

榜首,相对风冷制冷环境,液冷可以进步GPU功能10%。依据设定,GPU长时刻高温运转功能会下降,液冷能供给高效的热散才能,进步GPU运用功能,依据OPPO算力团队在IDCC论坛上表明,经过验证,相同的算力装备,服务器在液冷方法下运转比风冷功率进步约10%,意味着相同的算力,液冷的学习周期比风冷短10%,事务能更早抢占商场。

第二,液冷可以下降IB线缆安置本钱30%以上。单台H800服务器4U即达9kW,选用传统的风冷制冷,单柜仅能放置1台,且需隔机柜安置,假如选用冷板式液冷方法,单柜可直接安置2台H800服务器,无需隔机柜安置。以单排微模块15个机柜为例,7台H800服务器需求14个机柜位,线缆总长度49A(A为相邻两个机柜间的均匀线缆衔接间隔),假如每柜可以放2台,则只需求4个机柜方位(如下图),线缆总长度16A,IB线缆长度节约超50%以上,而IB线缆每根价格在万元等级,长度越长价格越贵。考虑到价格与长度的联络非线性,且与场景有关,项目节约线缆金额在30%以上。


风冷安置与液冷安置线缆运用长度比照

咱们信任,传输间隔变短也会有利于算力模块之间的数据同享速率进步。有客户清晰要求,服务器到IB交流机柜的走线间隔小于30米。

第三,液冷可以下降GPU保护本钱50%,进步出资收益。液冷冷板针对GPU精准、高效的散热,下降GPU运用温度可达20℃,依据“十度规律”,GPU故障率削减至少50%(在风冷故障率根底之上),继而削减GPU备件购买量,未来GPU商场的不确定性,也会导致GPU的收购难度会加大,收购本钱添加,因而保持较低的GPU故障率可以节约出资本钱和时刻本钱,更不会由于GPU卡紧缺,而影响事务连续性。

综上,关于终究客户来说,跟着未来技能的迭代,GPU功耗添加,液冷现已不再是改进需求,而是智能算力的刚需。

本站声明:网站内容来源于出海日记www.kt775.com,如有侵权,请联络咱们,咱们将及时处理。

上一篇:核聚变北京站9月回归 八位堂携新品闪亮上台常识介绍

下一篇:追尾后直接撕裂卡车钢板!极氪009的A柱究竟有多强?官方科普知识介绍

发表评论

最新文章