首页 > 编程知识 正文

成长过程中会有一些节点(服务器10个节点)

时间:2023-05-03 12:44:29 阅读:86174 作者:1874

运输工程师是集群环境平稳运行的保障者,他们面临的主要挑战是确保集群引进后的运行稳定和安全保障。 随着集群规模的扩大,数百至数千个节点同时运行时,需要节点之间的准确通信和联动,这些课题变得更加复杂。

运输工程师的能力成长不仅离不开IT知识的学习,也离不开实战经验的积累。 从几十个节点到几百乃至几千个节点,奥工服务工程师在这种高度规模提高的集群服务中实践性地成长着。 本文论述了某1000个节点集群规模的运输实践过程。

01/项目背景

该集群显示,从长期维护的超级计算集群中,有一个系统在当前系统版本的内核中存在错误。 各方经过研究解决方案,最终决定进行大规模升级和迁移。 此次处理的用户集群规模大、难度大、问题多,紧急调动奥工工程师队伍力量,共用时间3天,顺利完成升级任务,保障了集群的顺利安全运行。

规模大:

升级的节点达到数千个,数据达到3P,操作难度很大。

难度高:

用户多,集群非常庞大,耗时长,任务繁重。

问题很多:

集群复杂性高,升级过程中出现的问题也很多。

02/升级过程

首先,去官网确认当前升级的内核版本、文件系统版本,同时确认各版本的兼容性,以免软件版本的冲突影响升级的正常进行。

在第二步中,编辑安装升级脚本。

1 .内核更新

此次内核升级为kernel-3.10.0-1127.19.1.el7.x86 _ 64

rpm-iv主干网-3. 10.0-1127.19.1.EL7. x86 _ 64.rpm

rpm -Uvh *.rpm

升级完成后,重新启动计算机,使用uname -a检查内核版本是否为升级后的版本

2 .重新安装IB驱动程序

首先安装相关的依赖软件包

yum-yinstallpython-devel red hat-rpm-config rpm-buildgccgcc-gfortrantk

重新插入Ib驱动器

./mlnxofedinstall---- all---- force

3 .文件系统升级

将gpfs-5.0.3-3升级到gpfs-5.0.5.2。 请注意,它必须与升级后的内核版本相匹配。

第三步,单节点-多节点-工具箱测试升级整个脚本。

编写包含节点内核升级的自动安装脚本; GFS文件系统升级; Ib驱动器; 硬盘; 安装gpu驱动程序(gpu节点所需)等步骤。

节点测试必须从单节点开始。 通过单节点的测试安装后,测试多节点的同时安装,如果没有问题,则进行整个机箱的批量安装。 这样可以确保在分发所有节点的安装脚本时,安装过程的全自动化没有问题。

最后,使用xcat分发脚本安装所有节点并完成升级。

总结03/感悟

各项任务的圆满完成凝聚了奥工工程师专业细致、认真负责的职业素养和专业能力,在各项目的操作实践是工程师职业生涯中宝贵的财富。 在实践中总结,在经验中成长,反观这次升级和过渡,一定会有宝贵的反思和感悟。

01/例如,一些节点在gpfs升级期间可能会丢失配置文件。 mmsdrrestore是GPFS群集的灾难恢复命令,可用于恢复GPFS群集中指定节点的性能分析。 工程师们在灾难恢复时主要恢复mmsdrfs这个GPFS的重要档案。 例如,mmsdrrestore命令可以执行以下命令: msdrrestore节点1f/var/mmfs/gen/mmsdrfs。 通过以上操作,可以恢复适当的配置文件,确保升级迁移的顺利进行。

02/节点的相互信任有问题。 在升级某些节点时,脚本自动升级失败。 在故障诊断中,发现该节点的相互信任存在问题。 因此,必须重新建立相互信任,以确保节点成功升级,然后成功加入群集。

03 )理论知识与实际操作之间存在很大的鸿沟,第一次面对成千上万个节点的升级和转移时,必须以平静的心情慢慢寻找问题所在,耐心处理问题,停止傲慢; 再者,需要奥工工程师团队的全力支持,所有成员,他们的背后都是整个奥工工程师团队,他们的每一次成长都有奥工工程师团队的持续强大。

奥工工程师经过数百个项目的锻炼,从单一节点、数十个节点、数百甚至数千个节点,都留下了他们不怕挑战、稳步成长的印记。

专业和责任、团结和信任是奥工各工程师的职业信仰和工作标准。 这次成千上万的服务过程,凝聚了整个团队的心血和力量。 未来,奥工服务团队将继续奋斗,以专业和实力,“成就客户,成长自己”!

—结束—

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。