九界科技

监控告警

功能介绍:可根据预设的告警策略,一旦设备运行情况触发告警的异常值,则会按时通知到部门组及责任人,提前告警,有助于及时发现设备异常,防范于未然,化被动为主动,从而减少设备故障率。

支持的告警条件:有CPU使用率、CPU温度、CPU频率、内存使用率、硬盘使用率。

推送告警前提条件:参与监控设备需推送告警信息,必须开启日志监控服务,如何开启详见《日志监控》教程;

监控告警设置权限,目前仅为超级管理员权限(企业创建者)账户可编辑,以下分为通知组(策略)、性能监控(策略)、告警站内信,三个模块进行功能阐述和操作演示。


操作步骤:

一、通知组(策略):可使用(钉钉、企业微信、飞书)三种企业或组织的通讯软件群聊工具,作为通知媒介推送告警信息;

1、创建通知媒介:先提前确认好需要通知的部门钉钉群、企业微信群或飞书群,新建机器人并获取推送地址和加签密钥(备用),详见以下操作步骤;

1.1、钉钉群如何获取推送地址和加签密钥:

1、点击 钉钉群右上角 “设置”2、点击进入机器人设置页
3、添加机器人4、选择自定义机器人
5、点击添加6、勾选加签后,复制密钥备用,点击完成
7、复制推送地址备用,点击完成
至此,钉钉告警机器人创建完成

1.2、企业微信群如何获取推送地址:

1、进入企业微信群,点击右上角“设置”2、添加群机器人
3、创建机器人4、输入机器人名称,点击添加
5、复制地址,备用
至此,企业微信告警机器人创建完成

1.3、飞书群如何获取推送地址和加签密钥:

1、进入飞书群,点击右上角“设置”2、点击群机器人
3、点击“添加机器人”4、选择“自定义机器人”
5、输入机器人名称后,点击添加6、勾选“签名校验”,复制推送地址和加签密钥备用,点击完成

2.1、通知组(策略)设置路径:进入九界电脑管家平台,左侧导航栏进入“设备运维”,右上角点击“监控告警”,详见下图;

2.2、选择通知组,再点击“添加通知组”

2.3、以钉钉为例,填入群组名、设置发送周期和时段,输入钉钉群添加机器人时获取的推送地址加签密钥,点击保存后,可以点击“发送测试”看是否配置成功:

*通知组的发送周期,指在群组内机器人发送一次预警消息的周期

二、性能监控(策略):可通过监控部门(指向部门内的设备)、添加条件(需监控的性能指标)、监控执行频率(间隔X分钟,近X分钟)策略项,将监控执行结果推送至指定通知组

操作步骤:

1、回到“性能监控”,点击“添加策略”:

2、选择监控部门、设置监控执行频率及通知组、添加告警条件,设置完毕后,点击保存,详见下图;

*注1:间隔30分钟执行,指每隔30分钟就执行一次设备预警策略检查;近20分钟内满足条件,指检查取数为执行前的20分钟之内设备的运行数据;

*注2:如上图添加多个条件,则设备需同时满足条件才会推送告警,所以,通常建议设置为单告警条件多策略的设置,可以准确推送设备告警信息。

*注3:当告警条件设置为“硬盘使用率”时,任意磁盘超过告警条件都会触发告警机制,详见下图;

3、告警设置示例

及时性告警:策略设定间隔10分钟执行,近30分钟内满足条件;通知组发送周期为10分钟告警一次。此方案为每10分钟推送一次群内告警消息

定时性告警:策略设定间隔10分钟执行,近30分钟内满足条件;通知组发送周期为1小时告警一次。此方案为每1小时推送一次群内告警消息

间隔执行时间近X内满足条件通知组发送周期通知组告警结果
及时性告警10分钟30分钟10分钟每10分钟告警一次
定时性告警10分钟30分钟1小时每1小时告警一次

注:每次告警通知为通知组发送周期内最后一次执行结果。

三、告警站内信

1、平台首页右上角,可点击进入查看具体站内信告警通知列表;数字标记为未读的站内信数量

2、点击“所有消息”,可进入站内信查看列表页:

3、可将消息标记为已读、删除等

4、点击告警消息,可以进一步查看告警具体内容及设备号,点击设备号可直接进入设备详情查看

5、站内信推送逻辑:设备责任人将会收到归属设备的告警站内信。

浙公网安备 33010202002703号 浙ICP备2023018255号