部署HPC集群的实施方案

最近在研究HPC,找到一篇很有价值的文章,做个备份。

HPC

最近在研究HPC,找到一篇很有价值的文章,做个备份。

部署HPC集群的实施方案

零、前言

本教程(实际上是一个集群部署的操作流程)旨在通过一个小型的HPC集群部署过程讲述基于Beowulf架构的HPC集群原理、主流工具等相关内容,并不对各个工具的特性及其使用方法进行深入的研究分析。
一、系统配置

1.1 网络拓扑

服务器内网IP计算专网IP域名备注
登陆节点172.17.22.16loginserver-chaosuan
管理节点172.17.22.13
计算节点1172.17.29.11192.168.1.11compute11主节点
计算节点2172.17.29.12192.168.1.12compute12
计算节点3172.17.29.13192.168.1.13compute13
计算节点4172.17.29.14192.168.1.14compute14

1.2 操作系统

登录节点:CentOS Linux release 7.3.1611

管理节点:CentOS Linux release 7.3.1611

计算节点:CentOS Linux release 7.9.2009,
二、计算节点、登录节点配置

2.1 域名设置

在登录节点、所有计算节点上执行以下命令,完成节点域名配置

2.2 免密登录

以loginserver-chaosuan为例,在登录节点、所有计算节点上执行以下命令,设置免密登录

a) 生成公钥私钥

b) 拷贝公钥到其他节点

2.3 关闭防火墙

在登录节点、计算节点执行以下操作,

a) 查看防火墙状态

b) 关闭运行的防火墙

c) 开机关闭防火墙

d) 修改selinux

将SELINUX=enforcing改为:SELINUX=disabled,并执行setenforce 0使他立即生效,当然你也可以重启机器
三、NTP服务

使用compute11作为NTP服务器,loginserver-chaosuan 、compute12、compute13、compute14等作为NTP客户端。

3.1 NTP服务器

a) 安装NTP

b) 修改ntp的配置文件

c) 主机做时间同步

d) 开机启动

e) 重启NTP

f) 检查NTP

3.2 NTP客户端

a) 安装NTP

b) 修改ntp的配置文件

c) 开机启动

d) 重启NTP

e) 检查NTP

四、建立NFS服务

虽然在HPC场景下NFS性能被人所诟病,但是其部署比较简单,还是以NFS为例来说明。对性能有一定要求的场景,可以考虑GPFS、Lustre等并行文件系统。

使用compute11作为NFS服务器,loginserver-chaosuan 、compute12、compute13、compute14等作为NFS客户端。

4.1 NFS服务器

a) 安装RPC和NFS软件包

b) 启动服务和设置开启启动

c) 配置共享文件目录,编辑配置文件

4.2 NFS客户端(计算节点)

a) 安装RPC和NFS软件包

b) 查看服务器抛出的共享目录信息

c) 在客户端创建目录,并挂载共享目录

vi /etc/fstab #在该文件中挂载,使系统每次启动时都能自动挂载

d) 检查

4.3 NFS客户端(登录节点)

a) 安装RPC和NFS软件包

b) 查看服务器抛出的共享目录信息

c) 在客户端创建目录,并挂载共享目录

vim /etc/fstab #在该文件中挂载,使系统每次启动时都能自动挂载

d) 检查

五、建立NIS服务

使用compute11作为NFS服务器,loginserver-chaosuan 、compute12、compute13、compute14等作为NFS客户端。

5.1 NIS服务器

a) 安装软件包

b) 设置开机域名

c) 指定NIS查询的主机名称

d) 启动NIS

e) 验证

f) 使用NIS数据库设置服务搜索顺序

vi /etc/nsswitch.conf,将相关行改成以下值

g) 重启NIS

h) 添加账户

5.2 NIS客户端(计算节点)

a) 安装软件包

b) 设置开机域名

c) 指定NIS查询的主机名称

d) 启动NIS

e) 验证

f) 使用NIS数据库设置服务搜索顺序

vi /etc/nsswitch.conf,将相关行改成以下值

g) 重启NIS

5.3 NIS客户端(登录节点)

操作过程同上。

六、编译器配置

6.1 安装编译器

安装Intel Parallel Studio XE 2019 Cluster Edition编译器,解压之后直接运行./install.sh即可。

6.2 配置环境变量

在登录节点、所有计算节点上修改~/.bash_profile文件,

6.3 编写节点列表文件

6.4 运行Intel MPI测试程序

七、TORQUE

在管理节点上,通常需要安装LSF、TORQUE、SLURM等作业调度系统。虽然IBM提供了开源版本的LSF,但是对集群规模有一定的限制,建议预算有限的场景采用TORQUE、SLURM等。本文使用TORQUE进行讲解。

7.1 TORQUE服务器

使用节点loginserver-chaosuan.novalocal作为Torque服务器:

a) 安装依赖包

b) 编译安装torque

c) 开机启动

d) 设置环境变量

e) 将root设置为管理账户

f) 启动服务

g) 调度节点配置计算节点的主机名和CPU核数

h) 重启服务

7.2 torque客户端(计算节点)

使用compute11、compute12、compute13、compute14等作为torque客户端,以compute11为例,配置方法如下:

a) 将loginserver-chaosuan.novalocal上的安装包拷贝到compute11

a) .安装软件包

b) 配置环境

c) 启动pbs_mom

d) 配置环境变量

e) 查看节点是否正常

八、存储服务器

实际情况通常需要根据需要配置单独的存储服务器。由于这部分涉及到具体的存储系统,请视情况自行处理。

九、集群监控

Ganglia是一个跨平台可扩展的,高 性能计算系统下的分布式监控系统,主要是用来监控系统性能,如:cpu 、mem、硬盘利用率,I/O负载、网络流量情况等,通过曲线很容易见到每个节点的工作状态,对合理调整、分配系统资源,提高系统整体性能起到重要作用。网上已经有不少安装教程,不再赘述。

参考资料

[1]. Linux高性能计算集群 — Beowulf集群
————————————————
版权声明:本文为CSDN博主「JiNan.YouQuan.Soft」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/qq_26221775/article/details/111708789

打赏作者

作者: Centro Sun

Maintainer,Engineer,Fixer

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注