2.创建slurmdbd.conf,内容如下:
PurgeEventAfter=1month PurgeJobAfter=36month PurgeResvAfter=1month PurgeStepAfter=1month PurgeSuspendAfter=1month DebugLevel=debug5 LogFile=http://www.likecs.com/opt/slurm/slurm-16.05.3/log/slurmdbd.log PidFile=http://www.likecs.com/var/run/slurmdbd.pid AuthType=auth/munge AuthInfo=http://www.likecs.com/var/run/munge/munge.socket.2 DbdHost=node11 DbdPort=6819 SlurmUser=slurmadmin StorageType=accounting_storage/mysql StorageHost=node11 StorageLoc=slurm_acct_db StoragePort=3306 StorageUser=slurmadmin StoragePass=liwanliang3.创建cgroup.conf,内容如下:
#CgroupReleaseAgentDir=="/etc/slurm/cgroup" CgroupAutomount=yes CgroupMountpoint=http://www.likecs.com/cgroup CgroupReleaseAgentDir=="/tmp/slurm" ConstrainCores=yes TaskAffinity=no ConstrainRAMSpace=no MaxRAMPercent=98 AllowedRAMSpace=96 8.配置MySQL数据库环境根据配置文件,需要在node11上部署MySQL服务器
1.安装MySQL
yum -y install mysql mysql-server mysql-client mysql-libs
2.启动MySQL
service mysqld start && chkconfig mysqld on
3.配置MySQL
1.校对节点时间
2.启动munged进程
3.启动slurmdbd进程
ssh node11 slurmdbd
4.启动slurmctld进程
ssh node11 slurmctld
5.添加集群
sacctmgr add cluster myslurm
6.启动节点slurmd
pdsh -w node[11-18] slurmd
7.测试
sinfo
8.测试提交
srun -n 32 hostname
本博客中,只是对slurm部署做了最基本的配置和测试。
在部署过程中,遇到两个比较棘手的问题:
1.munge编译过程中的没有安装mysql-devel环境,导致在编译slurm的时候不能够编译相应的插件。
此时通过yum -y install msyql-devel安装依赖环境,然后重新编译解决 。
2.在所有环境部署好之后,通过sinfo发现有6个节点总是drain状态。
这个状态表示节点通过slurmd获取的节点配置和配置文件中的不相同,尤其是节点的CPU的参数。最后通过重新配置参数,然后清空state目录下的所有文件,同事修改log目录权限为777 解决。