文件名称:nhc:LBNL节点运行状况检查
文件大小:141KB
文件格式:ZIP
更新时间:2024-06-02 19:43:04
Shell
LBNL节点运行状况检查(NHC) TORQUE,Slurm和其他调度程序/资源管理器提供了对每个计算节点执行的定期“节点运行状况检查”,以验证该节点是否正常运行。 可以将确定为“不正常”的节点标记为“已关闭”或“脱机”,以防止计划作业或在其上运行作业。 通过减少由于配置错误,硬件故障等导致的可预防的作业故障,这有助于提高群集的可靠性和吞吐量。 尽管许多站点都创建了自己的脚本来实现此功能,但绝大多数站点都是一次性的工作,很少关注扩展性,灵活性,可靠性,速度或重用性。 开发人员创建了这个项目,以试图改变这一状况。 LBNL节点运行状况检查(NHC)具有多种设计功能,使其与大多数本地解决方案区分开来: 可靠-为了防止单线程脚本执行导致挂起,将子命令的执行保持在绝对最低限度,并且如果检查时间过长,则使用看门狗计时器终止检查。 快速-几乎完全以本机bash (2.x或更高版本)实施。 减少
【文件预览】:
nhc-master
----.gitignore(157B)
----COPYING(31B)
----bench()
--------nhc-bench(478B)
--------Makefile.am(109B)
----README.md(105KB)
----nhc.logrotate(95B)
----test()
--------test_lbnl_fs.nhc(12KB)
--------test_lbnl_hw.nhc(11KB)
--------test_lbnl_job.nhc(322B)
--------nhc-test(7KB)
--------test_lbnl_moab.nhc(343B)
--------test_lbnl_dmi.nhc(12KB)
--------test_common.nhc(14KB)
--------test_lbnl_cmd.nhc(2KB)
--------test_lbnl_file.nhc(10KB)
--------test_lbnl_ps.nhc(20KB)
--------test_zzz_bash_sanity.nhc(744B)
--------test_lbnl_net.nhc(8KB)
--------test_lbnl_nv.nhc(4KB)
--------Makefile.am(506B)
--------shut.inc.sh(5KB)
----LICENSE(2KB)
----ChangeLog(50KB)
----nhc-test.conf(30B)
----nhc-wrapper(13KB)
----autogen.sh(216B)
----contrib()
--------nhc.cron(756B)
----nhc(23KB)
----configure.ac(952B)
----RELEASE_NOTES.txt(2KB)
----nhc.conf(6KB)
----scripts()
--------lbnl_nv.nhc(1KB)
--------lbnl_cmd.nhc(8KB)
--------lbnl_job.nhc(4KB)
--------lbnl_hw.nhc(15KB)
--------lbnl_net.nhc(13KB)
--------common.nhc(20KB)
--------lbnl_fs.nhc(19KB)
--------lbnl_moab.nhc(5KB)
--------lbnl_ps.nhc(31KB)
--------lbnl_file.nhc(14KB)
--------lbnl_dmi.nhc(8KB)
----helpers()
--------node-mark-online(5KB)
--------node-mark-offline(5KB)
----lbnl-nhc.spec.in(3KB)
----nhc-genconf(16KB)
----Makefile.am(1KB)