成长过程中会有一些节点(服务器10个节点)

运输工程师是集群环境平稳运行的保障者，他们面临的主要挑战是确保集群引进后的运行稳定和安全保障。随着集群规模的扩大，数百至数千个节点同时运行时，需要节点之间的准确通信和联动，这些课题变得更加复杂。

运输工程师的能力成长不仅离不开IT知识的学习，也离不开实战经验的积累。从几十个节点到几百乃至几千个节点，奥工服务工程师在这种高度规模提高的集群服务中实践性地成长着。本文论述了某1000个节点集群规模的运输实践过程。

01/项目背景

该集群显示，从长期维护的超级计算集群中，有一个系统在当前系统版本的内核中存在错误。各方经过研究解决方案，最终决定进行大规模升级和迁移。此次处理的用户集群规模大、难度大、问题多，紧急调动奥工工程师队伍力量，共用时间3天，顺利完成升级任务，保障了集群的顺利安全运行。

规模大：

升级的节点达到数千个，数据达到3P，操作难度很大。

难度高：

用户多，集群非常庞大，耗时长，任务繁重。

问题很多：

集群复杂性高，升级过程中出现的问题也很多。

02/升级过程

首先，去官网确认当前升级的内核版本、文件系统版本，同时确认各版本的兼容性，以免软件版本的冲突影响升级的正常进行。

在第二步中，编辑安装升级脚本。

1 .内核更新

此次内核升级为kernel-3.10.0-1127.19.1.el7.x86 _ 64

rpm-iv主干网-3. 10.0-1127.19.1.EL7. x86 _ 64.rpm

rpm -Uvh *.rpm

升级完成后，重新启动计算机，使用uname -a检查内核版本是否为升级后的版本

2 .重新安装IB驱动程序

首先安装相关的依赖软件包

yum-yinstallpython-devel red hat-rpm-config rpm-buildgccgcc-gfortrantk

重新插入Ib驱动器

./mlnxofedinstall---- all---- force

3 .文件系统升级

将gpfs-5.0.3-3升级到gpfs-5.0.5.2。请注意，它必须与升级后的内核版本相匹配。

第三步，单节点-多节点-工具箱测试升级整个脚本。

编写包含节点内核升级的自动安装脚本； GFS文件系统升级； Ib驱动器；硬盘；安装gpu驱动程序(gpu节点所需)等步骤。

节点测试必须从单节点开始。通过单节点的测试安装后，测试多节点的同时安装，如果没有问题，则进行整个机箱的批量安装。这样可以确保在分发所有节点的安装脚本时，安装过程的全自动化没有问题。

最后，使用xcat分发脚本安装所有节点并完成升级。

总结03/感悟

各项任务的圆满完成凝聚了奥工工程师专业细致、认真负责的职业素养和专业能力，在各项目的操作实践是工程师职业生涯中宝贵的财富。在实践中总结，在经验中成长，反观这次升级和过渡，一定会有宝贵的反思和感悟。

01/例如，一些节点在gpfs升级期间可能会丢失配置文件。 mmsdrrestore是GPFS群集的灾难恢复命令，可用于恢复GPFS群集中指定节点的性能分析。工程师们在灾难恢复时主要恢复mmsdrfs这个GPFS的重要档案。例如，mmsdrrestore命令可以执行以下命令： msdrrestore节点1f/var/mmfs/gen/mmsdrfs。通过以上操作，可以恢复适当的配置文件，确保升级迁移的顺利进行。

02/节点的相互信任有问题。在升级某些节点时，脚本自动升级失败。在故障诊断中，发现该节点的相互信任存在问题。因此，必须重新建立相互信任，以确保节点成功升级，然后成功加入群集。

03 )理论知识与实际操作之间存在很大的鸿沟，第一次面对成千上万个节点的升级和转移时，必须以平静的心情慢慢寻找问题所在，耐心处理问题，停止傲慢；再者，需要奥工工程师团队的全力支持，所有成员，他们的背后都是整个奥工工程师团队，他们的每一次成长都有奥工工程师团队的持续强大。

奥工工程师经过数百个项目的锻炼，从单一节点、数十个节点、数百甚至数千个节点，都留下了他们不怕挑战、稳步成长的印记。

专业和责任、团结和信任是奥工各工程师的职业信仰和工作标准。这次成千上万的服务过程，凝聚了整个团队的心血和力量。未来，奥工服务团队将继续奋斗，以专业和实力，“成就客户，成长自己”！

—结束—