在将要作为“Torque Server”机器上解压并build该torque包,这台机器将会通过在其上运行的pbs_server守护程序来控制和监控所有的计算节点。具体步骤如下:
$ tar -xzvf torqueXXX.tar.gz
$ cd torqueXXX
$ ./configure
$ make
$ make install
[注意:]默认的binary程序安装路径通常会在/usr/local/bin和/usr/local/sbin下,因此就不用再设置路径了
然后运行安装目录下的./torque.setup,会提示
pbs_server: error while loading shared libraries: libtorque.so.2: cannot open shared object file: No such file or directory
这主要是Ubuntu没有将/usr/local/lib加入动态连接库,缺少的这个文件就在那里
因此需要在/etc/ld.so.conf加入该目录,即:
include /usr/local/lib/*.*
然后运行ldconfig来更新,这里因为添加的是所有目录文件,因此会提示有的不是连接库问题,不会有问题,再运行./torque.setup就正确了
(2)Torque测试
首先编辑/var/spool/torque/server_priv/nodes (需要自己建立),加入主机名和cpu的核数目
master np=4
node01 np=4
........
node09 np=4
然后,启动主服务器上的pbs_server,pbs_sched,pbs_mom,并把其写到/etc/rc.local里使其能开机自启动,然后启动各个子服务器上的pbs_mom,并加入开机启动,注意子服务器上的/var/spool/torque/server_name应改成主服务器的hostname