slurm任务调度系统部署和测试(一) (2)

2.创建slurmdbd.conf,内容如下:

PurgeEventAfter=1month PurgeJobAfter=36month PurgeResvAfter=1month PurgeStepAfter=1month PurgeSuspendAfter=1month DebugLevel=debug5 LogFile=http://www.likecs.com/opt/slurm/slurm-16.05.3/log/slurmdbd.log PidFile=http://www.likecs.com/var/run/slurmdbd.pid AuthType=auth/munge AuthInfo=http://www.likecs.com/var/run/munge/munge.socket.2 DbdHost=node11 DbdPort=6819 SlurmUser=slurmadmin StorageType=accounting_storage/mysql StorageHost=node11 StorageLoc=slurm_acct_db StoragePort=3306 StorageUser=slurmadmin StoragePass=liwanliang

3.创建cgroup.conf,内容如下:

#CgroupReleaseAgentDir=="/etc/slurm/cgroup" CgroupAutomount=yes CgroupMountpoint=http://www.likecs.com/cgroup CgroupReleaseAgentDir=="/tmp/slurm" ConstrainCores=yes TaskAffinity=no ConstrainRAMSpace=no MaxRAMPercent=98 AllowedRAMSpace=96 8.配置MySQL数据库环境

根据配置文件,需要在node11上部署MySQL服务器
1.安装MySQL
yum -y install mysql mysql-server mysql-client mysql-libs
2.启动MySQL
service mysqld start && chkconfig mysqld on
3.配置MySQL

use mysql; delete from user where user = ' ' and host = 'localhost' ; delete from user where user = ' ' and host = 'node11'; grant all privileges on *.* to 'root'@'localhost' identified by 'liwanliag'; grant all privileges on *.* to 'root'@'node11' identified by 'liwanliag'; grant all privileges on *.* to 'root'@'127.0.0.1' identified by 'liwanliag'; grant all privileges on *.* to 'root'@'192.168.80.11' identified by 'liwanliag'; create database slurm_acct_db; grant all privileges on slurm_acct_db.* to 'slurmadmin'@'node11' identified by 'liwanliang'; flush privileges; 9.启动slurm集群

1.校对节点时间
2.启动munged进程
3.启动slurmdbd进程
ssh node11 slurmdbd
4.启动slurmctld进程
ssh node11 slurmctld
5.添加集群
sacctmgr add cluster myslurm
6.启动节点slurmd
pdsh -w node[11-18] slurmd
7.测试
sinfo
8.测试提交
srun -n 32 hostname

10.总结

本博客中,只是对slurm部署做了最基本的配置和测试。
在部署过程中,遇到两个比较棘手的问题:

1.munge编译过程中的没有安装mysql-devel环境,导致在编译slurm的时候不能够编译相应的插件。
此时通过yum -y install msyql-devel安装依赖环境,然后重新编译解决 。
2.在所有环境部署好之后,通过sinfo发现有6个节点总是drain状态。
这个状态表示节点通过slurmd获取的节点配置和配置文件中的不相同,尤其是节点的CPU的参数。最后通过重新配置参数,然后清空state目录下的所有文件,同事修改log目录权限为777 解决。

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/zzjsxg.html