Linux服务器集群中某节点多次因为断开连接而强制物理重启,根据日志寻找原因,发现日志中每次出现如下错误时候,集群断开此node:
itszecommadm2(服务器名) restorecond: Will not restore a file with more than one hard link (/etc/resolv.conf) No such file or directory
或类似此格式的错误。由此断定是此错误导致网络断开。google之后发现可用解决方案:
ls -i /etc/resolv.conf # 找一下这个文件连接到哪
find /etc -inum 1638416 # 数字是上面
lsof | grep resolv.conf # 确认没有进程在使用
rm /etc/sysconfig/networking/profiles/default/resolv.conf
restorecon /etc/resolv.conf
ln /etc/resolv.conf /etc/sysconfig/networking/profiles/default/resolv.conf
service network restart
观察几天,服务器集群正常。
另外是什么原因导致此问题的发生,至今没有找到答案。如果有朋友知道详情,请留言,谢谢!