人工智能服务器的底板管理控制器系统设计*

来源:优秀文章 发布时间:2023-02-11 点击:

罗荣 胡文庆

开发设计

人工智能服务器的底板管理控制器系统设计*

罗荣 胡文庆

(广东人工智能与先进计算研究院,广东 广州 510506)

针对人工智能计算单元或加速卡需要稳定可靠的工作电源以及实时高效的温度控制等需求,设计人工智能服务器的底板管理控制器系统,实现人工智能服务器的电源模块冗余管理、多路电源输出监测、机箱内部温度控制,并提供远程接口和设备管理能力。该系统采用ORing冗余电源设计,对每路输出电源进行电压、电流状态监测;
结合人工智能服务器的内部温度信息,依据电压、电流历史趋势对其散热风扇实施转速控制,不仅实现了电源冷、热冗余备份和切换管理,还有效提高了服务器的散热水平。应用该系统的人工智能服务器“香雪-3B”(XIANGXUE-3B)运行稳定可靠,并在MLPerf V2.0测试中取得了较好的成绩。

人工智能服务器;
底板管理控制器;
冗余管理;
散热管理

人工智能(artificial intelligence, AI)服务器是针对具有高并行、高精度、高速率等计算需求的浮点运算、数值计算和科学计算设计的高性能计算平台,是人工智能、大数据、数字孪生、智慧城市等领域的重要基础设施。AI服务器搭载大量的计算单元和高带宽、高容量的内存资源,可满足人工智能的模型训练、线上推理计算、科学仿真计算等应用需求。

随着AI服务器计算强度的增大,所需的计算单元数量也急剧上升。大量的计算单元虽使计算性能大幅地提升,但也导致系统功耗急剧上升。因此,有必要对AI服务器进行电源和散热管理。

本文针对AI服务器的电源和散热需求,设计了底板管理控制器(baseboard management controller, BMC)系统[1-2],实现电源冗余管理、电压电流状态检测、服务器温度状态检测、智能散热管理等功能。

为满足AI服务器高性能、大功率、高可靠性、高负荷的处理能力,BMC系统基本需求如下:

1)不少于16路加速卡电源供应,每路电源最大功率不低于300 W(12 V/25 A);

2)电源冗余管理,可随时切断故障电源模块;

3)电压电流实时状态检测;

4)服务器内部温度状态检测;

5)智能散热管理,根据服务器的温度、系统负荷等反馈,智能调整散热策略[3];

6)提供BMC用户管理界面;

7)支持智能平台管理界面(intelligent platform managment interface, IPMI)协议规范[4-5];

8)具有信息回溯、故障信息记录等功能。

人工智能服务器的底板管理控制器系统主要包括主控单元、冗余管理、电源监测、风扇监测、温度监测等功能模块,组成框图如图1所示[6-7]。

图1 人工智能服务器的底板管理控制器系统组成框图

2.1 主控单元

主控单元选用服务器管理处理器AST2600,内部集成2个ARM Cortex-A7核心和1个ARM Cortex-M3核心,具有VGA/2D图像显示接口,可提供四路千兆以太网接口、16路I2C和16路PWM接口[8-9]。

为方便实现BMC上层软件协议与控制, AST2600设计了2 GB LPDDR4;
采用16 GB的eMMC用于BMC系统软件、应用软件、数据存储等,主控单元的组成框图如图1所示。

2.2 电源管理

电源管理包括冗余管理和电源监测2部分。

冗余管理需满足16路最大功率300 W(12 V/25 A)的输出,此外服务器内部还有PCIe背板、散热风扇等设备的功率约为500 W,通过计算得到服务器电源总功率需满足以下条件:

服务器采用的单个电源模块的额定输出功率为2 400 W(12.2 V/196.7 A),因此至少需要3个电源模块并联工作,才能满足系统需求。此外,还需要1个额外的电源模块在其他电源模块故障时作冗余备用,故服务器采用4个电源模块。

本文采用ORing冗余电源设计,利用二极管的单向导通特性,防止电源模块之间的电压、电流倒灌现象,并可以分离有故障的电源模块。考虑到二极管通常无法承受196.7 A的导通电流,故采用ORing电源轨控制器与导通电流为240 A的N沟道MOSFET组合来实现。根据服务器实际功率提供灵活的2+2或者3+1的热备或冷备电源冗余模式,且各电源模块均支持热拔插。

电源监测采用集成式、零漂移、双向电流/功率监测计INA219,监测16路电源输出的电压、电流参数,并可直接读取电压、电流与功率,实时掌握各路电源输出的功率状态。

2.3 散热管理

散热管理包括风扇监测和温度监测2部分。

为实时监测AI服务器内部温度状况,在其内部设置6个温度监测点,如图2中小方块所示。采用此分布监测方案可较好地了解AI服务器的内部热量分布状态,以便实施智能散热管理。

图2 AI服务器内部温度监测点示意图

利用TMP75数字温度传感器进行温度监测,其分辨率达到0.062 5 ℃,无需校准和外部信号调理且误差范围为±1 ℃。TMP75采用I2C总线通信,在单个总线上最多可以寻址27个TMP75从设备。

AI服务器热量主要来源于计算单元(即加速卡)在计算过程中产生的电能消耗。计算单元的核心器件发热与功率之间的关系为

Tmax = Tmax(Pmax×Θ)(1)

式中:

Tmax——核心器件表面的最高温度;

Tmax——环境的最高温度;

Pmax——核心器件的最大功率;

Θ——核心器件的热阻率。

由公式(1)可知,核心器件的功率越大,其表面温度越高。

电阻与温度及功率之间关系如公式(2)、(3)所示。

0[1(0)](2)

2(3)

式中:

——导体电阻;

0——参考温度下的电阻;

——导体电阻的温度系数;

——实际温度;

0——参考温度;

——电流;

——功率。

由公式(2)可知,导体电阻与温度成比例关系,即

Tmax = Tmax(20[1(-0)]×Θ)

由公式(3)可知,电流不变时,功率随导体电阻的增大而增大。

对于正温度系数器件,其功率越大则温度越高,温度升高会导致内阻增大,内阻增大又导致功率增大,形成恶性循环。温度一旦超过极限就可能使核心器件损坏,因此必须对核心器件进行科学的散热管理。

温度属于迟滞型参数,AI服务器内部虽然空气流动性大,但局部温度通过空气或PCB传导到传感器仍存在延迟时间。常规的风扇控制采用温度反馈控制转速的方式,但因温度传递迟滞而导致系统获取的温度滞后于服务器内的实际温度,使得散热相对延后,进而影响服务器整体性能。本文设计的智能散热管理算法,将电压、电流的当前状态与历史状态结合,预测功耗趋势,提前对风扇进行转速调节,使机箱内部温度维持在合理范围,避免计算单元发生高温失效的情况。

AST2600内置的脉冲宽度调制(pulse width modulation, PWM)功能单元可对外提供16路输出,每路PWM输出都有自己的频率控制,占空比可在0%~100%之间设定。通过调节PWM输出占空比实现风扇转速控制,通过计数器监测风扇的工作状态与实时转速,构成AI服务器内部风扇的闭环控制。同时配合温度监测与电源监测策略即可实现智能散热管理算法,有效实时降低AI服务器的发热,保证大负载下AI服务器工作的可靠性和稳定性。

风扇转速监测利用AST2600内部集成的计数器功能,支持16个独立转速脉冲输入。测量方式可根据需要选择上升沿、下降沿或2个边沿测量,并可设置脉冲监测,在脉冲间隔不满足预设值时支持触发中断报警。

2.4 接口

为支持远程管理IPMI,系统设计了1 000 Mb/s以太网,方便用户远程登录、访问和控制。另外,为方便开发调试,预留了调试用UART接口。

系统软件根据功能和作用可划分为操作系统[10]、管理程序、BMC用户管理界面3部分。

3.1 操作系统

操作系统为AST2600处理器运行的系统程序(俗称固件),主要由U-Boot、Linux Kernel、只读根文件系统、可读可写文件系统等组成。其中,系统引导采用U-Boot-2019.04,内核采用Linux-5.10.35。

操作系统基于Ubuntu 18.04 LTS环境开发,编译器使用GCC 11.1.0,其他相关的工具和库工具版本分别为binutils 2.36.1和glibc 2.33。

操作系统主要实现系统的进程、存储、设备、文件、作业等管理,并为管理程序和用户界面提供运行环境和相关接口服务。

3.2 管理程序

管理程序主要用于AI服务器内部的电源、温度、风扇等监测[11]。管理程序与操作系统相互独立,操作系统在AI服务器接入220 V交流电源后,处于后台运行状态。管理程序检测到AI服务器的电源按钮短按或收到远程管理端发送的开机指令后,进行AI服务器初始化操作;
收到AI服务器的电源按钮长按或远程管理端发送的关机指令后,进行AI服务器关机操作。管理程序逻辑流程如图3所示。

图3 管理程序逻辑流程

服务器内共安装4组2 400 W电源模块,冗余策略设计为关机仅保留2组电源模块热备,防止其中1个电源模块出现故障而导致无法响应开机指令的情况。开机后,4组电源模块全部进入热备状态,根据AI服务器的计算单元功率需求,可设置为2+2或3+1冗余模式。如单张计算卡功率为250 W,则总功率为4 000 W,可设置为2+2或3+1冗余模式;
若单张计算卡功率为400 W,则总功率为6 400 W,则必须设置为3+1冗余模式(用户在BMC用户管理界面输入对应的单张计算卡功率后,会自动列出可选的冗余模式供用户选择)。

3.3 BMC用户管理界面

用户管理界面是方便用户查看、访问、管理、读取设备状态信息,并进行相关设置操作的交互程序。系统用户管理界面基于OpenBMC的开源OpenBMC Web UI进行二次开发设计,采用Vue.js框架。OpenBMC Web UI登录界面如图4所示。

图4 OpenBMC Web UI登录界面

登录后,可通过左侧的菜单栏选取相关的操作。左侧菜单栏信息如图5所示。

图5 菜单栏信息

4.1 电源管理测试

电源模块的输入输出效率曲线如图6所示。

图6 电源模块输入输出效率曲线

由图6可以看出,电源模块的负载在30%~80%时,电源效率高于92%,因此电源管理策略的重点在于尽量使电源模块的负载在30%~80%工作范围内。

为测试电源管理和热拔插功能,使用负载仪设定负载功率,系统根据负载状态设定工作电源模块,如表1所示。其中“√”表示工作中,“○”表示待机状态且热拔插正常。

表1 电源管理测试

由表1可知,系统可正确控制4组电源模块的工作状态和热拔插管理,满足设计要求。

为测试系统的自动冗余功能,按照表2设置4个电源模块的最大输出电流,模拟电源模块输出故障状态。

表2 电源冗余测试 单位:A

冗余测试时,将负载设定为3 200 W,系统均能自动识别各个电源模块的故障信息(电流超限报警),并切换到正常冷、热备的电源模块进行工作,且在系统日志中记录了相关事件的信息和时间等。

4.2 散热管理测试

通过加载不同负载,采用常规散热控制策略(即读取实时温度,根据温度线性调节风扇转速)与智能散热管理算法分别对AI服务器进行散热管理,并记录相应的温度数据,如图7所示。

图7 温度增速对比

由图7可以看出,采用智能散热管理算法的AI服务器,在负载增大过程中,其内部温度增速显著低于常规散热控制策略。

在上述的温度控制效果下,记录不同温度时常规散热控制策略与智能散热管理算法控制的风扇转速数据,得到不同温度下风扇转速对比图,如图8所示。

图8 不同温度下风扇转速对比

由图8可以看出,采用智能散热管理算法的AI服务器,因具有提前预判能力,散热速度更快,温度上升较慢,进而控制风扇转速低于常规散热控制策略,因此AI服务器的风扇噪声也相对较低。(注:在测试末段,为保护AI服务器内部计算单元不受损伤,均强制在温度高于62 ℃之后启动最大转速。)

应用该系统设计的“香雪-3B”(XIANGXUE-3B)服务器在单节点内可提供10 Pflops AI算力,灵活支持多种PCIE架构形式以适应广泛的应用需求。在2022年6月的MLPerf Training V2.0评测中,“香雪-3B”共参与5项测试场景,提交3组配置和7项测试结果[12],均取得较好的成绩[13]。

本文针对AI服务器的功能需求设计了BMC系统,电源模块可实现无缝冷、热备切换而不影响服务器的正常运行;
同时对AI服务器的16路输出电压和电流进行了实时监测,有效地掌握服务器各计算单元或加速卡的工作和负载水平。根据电源输出侧电压、电流状态,主动提前介入散热响应,相比常规基于温度反馈的散热控制策略,可有效降低AI服务器的内部温度。该系统既有利于AI服务器性能的发挥,又可以提升AI服务器工作的稳定性和可靠性。

[1] 朱建培.浅谈BMC管理系统在国产平台服务器中的运用分析[J].中国设备工程,2021(8):62-63.

[2] 吴之光,耿士华.浅谈BMC管理系统在国产平台服务器中的应用[J].信息技术与信息化,2016(Z1):51-53.

[3] 乔英良.刀片服务器监控管理系统设计与实现[D].济南:山东大学,2012.

[4] 王栩浩.基于IPMI的服务器管理系统的实现[D].上海:东华大学,2016.

[5] A joint message from the IPMI promoters (Dell, Hewlett Packard Enterprise, NEC, Intel Corporation). Intelligent plat- form management interface specification v2.0 rev. 1.1 [EB/ OL].2013-10-01.https://www.intel.com/content/www/us/en/products/docs/servers/ipmi/ipmi-second-gen-interface-spec-v2-rev1-1.html.

[6] 郭利文.基于FPGA的多节点服务器集群的均衡系统管理设计[D].长沙:湖南大学,2018.

[7] 蔡积淼.基于IPMI的服务器管理的软硬件设计与实现[D].济南:山东大学,2017.

[8] 何毅平.基于ARM的BMC设计与实现[D].武汉:华中科技大学,2014.

[9] 阮荣友.基于IPMI协议的服务器主板控制器的设计与实现[D].武汉:华中科技大学,2012.

[10] STALLINGS William. Operating systems: internals and design principles[M].9th edition. United States: Published by Pearson, 2021.

[11] 石博凡.基于IPMI协议的服务器管理系统安全诊断模块的设计与实现[D].南京:东南大学,2018.

[12] MLCommons. MLPerf training v2.0 results [EB/OL]. 2022- 06-29. https://mlcommons.org/en/training-normal-20/.

[13] 广东人工智能与先进计算研究院. 研究院“香雪”服务器斩获全球冠军![EB/OL]. 2022-06-30. https://mp.weixin.qq. com/s/L2-KjrVTRbJPpOzzzpNxow.

Design of Baseboard Management Controller System for Artificial Intelligence Server

LUO Rong HU Wenqing

(Guangdong Institute of Artificial Intelligence and Advanced Computing, Guangzhou 510506, China)

To meet the requirements of stable and reliable working power supply and real-time and efficient temperature control for the artificial intelligence computing unit or accelerator card, the floor management controller system of the artificial intelligence server is designed to realize the redundant management of the power module of the artificial intelligence server, multi-channel power output monitoring, and temperature control inside the chassis, and provide remote interface and equipment management capabilities. ORing redundant power supply design is adopted to monitor the voltage and current status of each output power supply; Combined with the internal temperature information of the AI server, the speed of the cooling fan is controlled according to the historical trend of voltage and current, which not only realizes the cold and hot redundancy backup and switch management of the power supply, but also effectively improves the cooling level of the server. The artificial intelligence server "XIANGXUE-3B" using this system runs stably and reliably, and has achieved good results in MLPerf V2.0 test.

artificial intelligence server; baseboard management controller; redundancy management; heat dissipation management

TP277

A

1674-2605(2022)06-0006-07

10.3969/j.issn.1674-2605.2022.06.006

罗荣,胡文庆.人工智能服务器的底板管理控制器系统设计[J].自动化与信息工程,2022,43(6):34-40.

LUO Rong, HU Wenqing. Design of baseboard management controller system for artificial intelligence server[J]. Automation & Information Engineering, 2022,43(6):34-40.

广东省重点领域研发计划(高水平创新研究院定向委托)项目(2019B090917009);
广州市科技计划项目(202201000009)。

罗荣,男,1993年生,工学学士,助理工程师,主要研究方向:智能仪器。E-mail: rong.luo@giaiac.cn

胡文庆(通信作者),男,1992年生,工学硕士,工程师,主要研究方向:人工智能与大数据。E-mail: wenqing.hu@ giaiac.cn

猜你喜欢 电源模块风扇电源 GRAS发布新12Bx系列、支持TEDS的测量麦克风电源模块电子测试(2022年3期)2023-01-14电动汽车充电桩电源模块热仿真分析汽车实用技术(2022年11期)2022-06-20DC-DC电源模块通用测试方法设计*计算机与数字工程(2021年4期)2021-10-09AirFan手持小风扇中国品牌(2021年6期)2021-08-06地铁车辆客室照明驱动电源模块故障处置分析科学家(2021年24期)2021-04-25Cool Invention炫酷发明阅读(快乐英语高年级)(2019年2期)2019-09-10电风扇故事大王(2017年4期)2017-05-08哪一款移动电源充电更多?更快?消费者报道(2016年3期)2016-02-28新蒙迪欧车冷却风扇常高速运转汽车维护与修理(2016年3期)2016-02-28阳光电源风能(2016年12期)2016-02-25推荐访问:底板 人工智能 控制器
上一篇:免疫学课程思政教学案例设计与实践——以“中枢免疫器官”为例
下一篇:免疫检查点抑制剂在妇科恶性实体肿瘤中的研究进展

Copyright @ 2013 - 2018 优秀啊教育网 All Rights Reserved

优秀啊教育网 版权所有