问题描述:服务器(ubuntu18.04)加装了4个2080ti,风扇狂转,噪音莫名的大。用iDRAC看了下,空载情况风扇的功率都达到了66%,吹的全是冷风。想想肯定不对劲啊。
问题分析:查了很多文章,发现问题是由于2080ti并不是官方认证的显卡型号,所以导致服务器识别错误,无法根据GPU温度自动调节风扇转速造成的。官方认证的型号如下图(但现在应该可以支持更多了,更新BIOS和iDRAC之后):
问题解决:
(总结了很多篇文章,以及联系dell 在线技术支持(公众号名字:戴尔中国服务)得到的综合解决方式,参考文章见文末。实在还有问题可以评论或者在工作日联系戴尔技术支持)way1 使用racadm 调控
way2 更新BIOS 和iDrac
1.安装dell 的 racadm(我这里服务器系统是ubuntu18.04 LTS)。T640 貌似对应的是14G(代),去官网下载适配的racadm版本(我这里是 racadm 9.3.0)
针对ubuntu,需要用这个网站的方法安装racadm。How to install Dell OpenManage 9.x and racadm on Ubuntu 16.04www.claudiokuenzler.com
2.
首先,获取所有PCI接口的信息
racadm get System.PCIESlotLFM // List all available PCI slots
其次,一个个接口去试,看看哪个接口接的是你的显卡。CardType=video
racadm get System.PCIESlotLFM.1 //1-8
注意,如果你的 3rdPartyCard=Yes,则可以使用如下的racadm命令(这个命令只针对第三方的卡有效,如果显示第三方,则这个命令无法执行),把风扇转速调成低功率模式(不用担心散热,这个是安全状态的最低功率。dell工程师在戴尔社区回答了的。可见文末)
racadm set System.PCIESlotLFM.1.LFMMode 2 //设置模式,应该只有0, 1, 2 三种,对应高中低。
但是,如果你的 3rdPartyCard=No,但风扇仍然不能根据温度调节,问题可能是GPU没有被识别成第三方,可能是因为nvidia从来就没有dell的固件,导致识别上有异常。我遇到的也就是这个情况。索性也解决了。方式就是更新BIOS和iDRAC固件。更新完风扇就可以根据温度自动调节转速了。可能dell后续解决了这个问题吧。
推荐使用iDRAC更新BIOS(也可以在服务器上升级,自己查查方法),记住,先更新BIOS,重启之后再更新iDRAC。
用iDRAC更新BIOS和iDRAC具体方法:
这篇文章讲得很清楚了,下载下方的固件,上传就能自动更新了。
注意,如果你使用iDRAC(web端远程)更新固件,需要下载固件的 .exe版本 (和你服务器用什么系统无关)。
BIOS固件下载链接(针对T640):
BIOS_8YK54_WN64_2.9.4.EXEhttps://www.dell.com/support/home/zh-cn/drivers/driversdetails?driverid=8yk54&oscode=wst14&productcode=poweredge-t640www.dell.com
idrac固件下载链接((针对T640)):
iDRAC-with-Lifecycle-Controller_Firmware_62GW1_WN64_4.40.00.00_A00.EXEhttps://www.dell.com/support/home/zh-cn/drivers/driversdetails?driverid=62gw1&oscode=wst14&productcode=poweredge-t640www.dell.com
更新完就舒服了,享受安静吧。
PS:之前也搜到过用ipmi tool 实现手动调节风扇转速的,我没改成功,因为命令上有点技巧,dell并不提供这个命令的地址。我把我尝试过的资料留在下面,如果上述方法没解决,你可以看看下面的参考文章。在工作日时间,联系dell 在线支持也是不错的选择,比打技术支持电话方便,能发图和上传日志,他们有工程师帮你分析的。
参考文章: