文件名称:节点维护-思科命令手册
文件大小:3.85MB
文件格式:PDF
更新时间:2024-07-20 12:26:46
Proxmox proxmox VE 说明书 手册
14.8 错误恢复 如果经过各种尝试都不能恢复,服务将进入 error 状态。该状态下 HA 组件将不再操作该服 务。改变 error 状态的唯一方法就是手工禁用服务: # ha-manager set vm:100 --state disabled 该操作也可以通过 WebGUI 界面进行。 从 error 状态恢复的步骤如下: 确保资源处于安全并一致的状态(例如:在服务不能停止时强行杀死进程) 禁用资源以移除 error 标识 修复导致错误的故障 排除故障后,重新启动资源。 14.9 软件包升级 升级 ha-manager 时,你应该一个节点一个节点的进行。出于多种原因,永远不要同时升级 所有节点。首先,尽管我们会彻底测试 Proxmox VE,但不能确保消除一切 bug,特别在你 个性化的安装环境中。逐个节点进行升级,并在升级后检查每个节点的运行情况有助于在发 生意外时恢复集群。同时升级所有节点可能导致集群崩溃,并非最佳实践。 此外,Proxmox VE 的 HA 组件在集群节点和本地资源管理器之间采用了请求确认协议来传 递命令。在重启时,LRM 将向 CRM 发出请求,冻结其所有服务。这将防止 LRM 重启时避 免相关资源被集群访问。这样 LRM 就可以在重启时安全地关闭看门狗。LRM 重启通常发生 在软件升级时,当前的主 CRM 需要确认 LRM 的请求,如果不这样做,升级过程持续的时间 可能过长,并可能触发看门狗重启服务器。 14.10 节点维护 在维护节点时,例如更换硬件或安装新内核时,可以将节点关机或重启。 14.10.1 关机 关机(断电)通常在需要停止节点一段时间时使用。此时,LRM 将停止其管理的所有服务。 也就是说,其他节点将接手继续运行这些服务。