监控告警
监控告警功能是基于虚拟资源层面的监控数据,针对平台中的时序数据进行监控,例如虚拟机的内存利用率、CPU 利用率等。平台目前支持的监控对象为虚拟机,支持用户自定义告警规则和监控周期,监控告警有助于用户及时了解资源使用情况和处理突发事件。
创建监控告警
选择 「运维工具」 → 「监控告警」,点击 「+ 创建监控告警」。
设置告警规则
目前支持的监控项包括如下指标:
- CPU 利用率
- 内存利用率
- 磁盘使用量
- 硬盘 Inode
- 内网出流量
- 内网进流量
1、在弹窗中,设置监控周期为 5 分钟,告警规则中设置 CPU 利用率和内存利用率均大于 40 %。注意,设置的监控对象满足以下任何规则都会触发告警消息。点击 「下一步」。
提示:若还未创建主机,可参考 主机 进行创建。
2、告警方式中,参考如下提示设置告警方式:
- 告警名称:可自定义告警名称,。
- 发送通知:默认 “是”,开启通知
- 发送通知条件:仅勾选资源发生告警时
- 持续告警时,连续发送通知次数:这里填写 3 次
- 通知列表:点击 「创建通知列表」,输入列表名称,点击 「添加规则」,输入邮箱地址与备注,即收到告警通知的用户。
完成设置后点击 「应用修改」。
添加监控资源
1、右上角点击 「更多操作」→ 「添加监控资源」,因为在创建告警示例前主机 test-node 的内存使用率已经有 67%,为方便演示则选择该主机作为监控目标,点击 「确定」,然后点击右上角 「应用修改」。
验证监控告警
大约 5 分钟后,可以验证监控主机的告警记录。
1、回到虚拟机列表页进入主机 test-node,点击 「监控告警」 查看告警的历史记录。
2、点击右上角 「消息中心」 图标,在虚拟运维消息下也可以看到因为内存使用率超过设定的阈值而推送的告警消息。点击 「查看全部」即可进入消息中心查看所有告警消息,由于连续发送通知次数设置为 3 次,如下验证也收到了 3 条告警消息。
3、可登陆通知邮箱进一步验证告警邮件的推送。
修改或删除告警规则
告警规则列表中,点击进入其中一条监控告警规则,支持对告警规则修改或删除,用户也可以对触发条件进行编辑。
修改或删除告警行为
切换至 「告警行为」,用户可以对告警规则进行修改或删除。
查看操作日志
操作日志提供虚拟机的操作历史记录包括操作事项、时间、告警策略和监控资源、操作任务状态以及执行时长,可以根据资源的 ID 进行搜索相关的操作事项。