Commit Graph

43 Commits

Author SHA1 Message Date
Zexi Li
8958913af2 fix(monitor): only query enabled host for alerting (#15297) 2022-11-07 02:17:18 +08:00
Zexi Li
531fc24b81 fix(monitor): alert resource not recorverd 2022-09-13 13:45:24 +08:00
zhaoxiangchun
5cf2937871 fix(monitor): monitor host query fix 2021-11-05 14:14:49 +08:00
zhaoxiangchun
b8bdcb0774 fix(monitor): fix monitor slow query
1. 使用apihelper 增量查询监控数据
2. 通过apihelper中set进行对应的资源过滤
2021-08-20 21:39:07 +08:00
zhaoxiangchun
1eaccaf72f fix(monitor): fix monitor bug
1.支持修改默认报警策略:查询周期、连续周期和静默期
2.监控总览-图表中过滤已删除机器信息
2021-07-19 15:54:51 +08:00
zhaoxiangchun
0919c2ee3e feat(monitor): update monitor resource overview
1.调整监控总览-报警资源逻辑
启用禁用策略时对报警资源进行对应的挂载和解绑
2021-07-07 20:36:11 +08:00
zhaoxiangchun
9c6d0b8252 fix(monitor): fix monitor process alert
修复进程监控报警后,没有触发前端报警提示的问题
2021-06-30 09:46:44 +08:00
zhaoxiangchun
7310d612e6 fix(monitor): fix alert record not return resource details 2021-06-28 19:39:03 +08:00
zhaoxiangchun
e228f19bb4 Merge branch 'master' of https://github.com/yunionio/onecloud into feature/zxc-overview-monitor-resource 2021-06-22 17:06:49 +08:00
zhaoxiangchun
f6d7f07c7e fix(monitor): fix monitor overview
1.监控总览中资源报警统计支持项目钻取
2. 资源报警状态修复
2021-06-22 17:04:09 +08:00
zhaoxiangchun
40f33db2a2 fix(monitor): fix agent monitor query
1.修复agent监控查询图表显示id的问题
2021-06-18 18:52:34 +08:00
zhaoxiangchun
cf29c44bbb fix: 修复云账号和宿主机报警问题
1.云账号报警时过滤掉已经禁用的云账号
2.修复宿主机报警时资源名称重复的问题
2021-06-04 19:23:25 +08:00
zhaoxiangchun
8685e96198 feat(monitor): add storage monitor metric
1.增加块存储storage监控信息:
  1)增加对应翻译信息
  2)监控信息和modules.Strorages接口进行交集取值
  3)返回信息处理
2021-05-12 16:19:47 +08:00
Zexi Li
8f6141ac42 Merge pull request #10978 from zhaoxiangchun/feature/zxc-agent-metirc
feat(monitor): add agent monitor metric
2021-05-08 17:27:01 +08:00
zhaoxiangchun
4c932ee961 feat(monitor): add agent monitor metric
1.增加对agent采集数据的翻译
2021-05-08 09:45:33 +08:00
zhaoxiangchun
f0eb80a2ae fix(monitor): monitor query : cloudaccount no data fix
1.修复云账号余额监控查询无数据返回
2021-05-07 09:39:21 +08:00
zhaoxiangchun
1391839ad9 fix(monitor):修复监控总览图标钻取后返回数据异常的问题 2021-04-01 10:02:35 +08:00
zhaoxiangchun
cb177bc4db fix(monitor): alertQuery fix
1.兼容meter相关的监控数据查询
2.根据groupby
  确定resType,从而确定云管中对应的资源,然后进行属性填充,解决资源属性修改的问题
2021-03-30 18:14:24 +08:00
zhaoxiangchun
beff4578c9 fix(monitor): filter alertquery result according to onecloud resources
1.排除已经删除的资源
2.对已经删除的资源不再持续报警
2021-03-28 18:52:12 +08:00
zhaoxiangchun
8fb4e1555b fix(monitor): fix 报警静默期和未恢复告警策略的兼容
1.处于告警静默期内的报警策略仍可以在未恢复告警策略中进行查询
2021-02-09 12:50:05 +08:00
zhaoxiangchun
4e0ce5b9e8 fix(monitor): 3.7 nodata and alertOverview fix
1.nodata相关逻辑调整
2.监控总览视图穿透,报警数量不一致问题修复
2021-02-04 20:52:53 +08:00
zhaoxiangchun
70c9dd397f feat(monitor): meter相关报警内容处理
1. meter 相关单位处理
2. 报警静默配置
3. meter 短信模版
2021-02-02 23:34:17 +08:00
zhaoxiangchun
ec589c4703 fix(monitor): fix alert notify info do not contain resourceName 2021-01-29 18:13:57 +08:00
zhaoxiangchun
abb4deebba fix(monitor): fix monitoroverview and meter send alerting info to notify
1.调整报警总览中今日报警数量计算逻辑
2.报警模版的web路径支持跳转到不同web页面:监控报警和meter
3.nodata 前端可配制功能fix
2021-01-09 15:33:06 +08:00
zhaoxiangchun
805ea5c0f5 feat(monitor): support create nodata alert from web
1.支持从前端页面创建nodata报警策略,对于nodata的情况给出对应的resource
2020-12-15 17:17:31 +08:00
zhaoxiangchun
68dfa8a8c8 fix(monitor): modify notify alertInfo and alertOk detach resource
1.修复报警信息中>等被转义的问题
2.针对:host_raid.adapter和smart_device.exit_status
  只能出现alerting和nodata
两种报警状态。在queryCondition的查询逻辑下,nodata情况也进行detach操作
3.修复报警记录中报警策略翻译异常的问题
2020-11-23 21:32:15 +08:00
zhaoxiangchun
d45c096390 modify monitor querycondition:
1.对于策略可以返回多个field value。供策略进行使用
2. 对于1种情况需要在commonalert种设置metadata属性
3. 修改alertresource get driver的判断逻辑
4. 针对host 相关的measurement 默认增加res_type 过滤filter
2020-11-04 10:43:47 +08:00
zhaoxiangchun
444ff1901d bugfix: commonalert
1.报警消息中取消返回sql信息
2.commonalert 中支持top bottom 结构influxdb 查询
2020-10-19 23:05:27 +08:00
zhaoxiangchun
1c7deaf7b6 bugfix commalert 3.4
1.后端先隐藏rds,redis,oss等相关信息
2.报警通知中规则描述增加单位信息
3.调整优化建议规则相关逻辑
2020-09-29 18:07:59 +08:00
zhaoxiangchun
475c81c58c commonalert bugfix 3.4 2020-09-23 21:41:13 +08:00
zhaoxiangchun
f58bca93db common alert bugfix/3.4 2020-09-22 11:36:17 +08:00
zhaoxiangchun
9a2267230d suggest rule modify:
1.规则由后端初始化,默认禁用
2.规则period默认为12h,扫描范围timeFrom默认为14d
3.增加notify相关的模版文件
4.更改消息重复发送的问题
2020-09-16 12:08:03 +08:00
zhaoxiangchun
a624625520 commonalet bugfix:
1.报警接受人通知渠道调整:由notify中解释发送到对应的channel
2.报警恢复增加对应的evalmatch,保存对应的metricvalue
3.报警记录中增加description相关信息
4.其他代码调整
2020-09-09 18:16:34 +08:00
zhaoxiangchun
dd8a07f364 metric describe 接口 (#7381)
* metric describe 接口

1.初始化influxdb measurement和field到本地
2.更新measurement和field的display_name,以及unit等信息

description api modify:

3.增加初始化json文件
4.统一查询的list接口信息增加description信息,并为description子集
5.增加measurement的权限的过滤

* 统一监控功能:

1.模版调整:
 1)修改email template
 2)格式化消息结构中的报警value,增加单位,同时可以转换为合适的单位
 3)简化消息体中的tag信息:name,ip,brand,value

2.增加报警历史记录
 1)记录每条报警规则的,报警信息
2020-08-26 13:44:34 +08:00
zhaoxiangchun
9214724557 修复统一报警bug
1.对系统内置的规则的处理,可以进行正确判断推送消息
2.一些初始化,validate的判断逻辑的修改
2020-07-24 11:06:52 +08:00
zhaoxiangchun
6c66185bd8 统一报警模块 2020-06-21 11:39:23 +08:00
zhaoxiangchun
c8a0d77364 bugfix-优化建议
在删除资源列表的信息时,增加对应的状态值。如果删除失败记录相关日志
2020-05-21 15:16:45 +08:00
zhaoxiangchun
42ed0b1c5a 优化建议增加时间筛选范围
1.在时间范围内查询未使用的资源,对于存在解绑的操作,通过查询对应的日志来确定最近的使用时间
2.基于监控的优化建议,增加新的reducer,当有足够多的points时,再进行其他逻辑
2020-05-21 15:16:45 +08:00
zhaoxiangchun
387880164c modify the logic of queryCondition save the evalMatch 2020-05-15 10:11:16 +08:00
zhaoxiangchun
cc3f5ed196 基于监控数据的优化建议 2020-05-13 22:24:13 +08:00
Rain
03868d28b5 fix(region): Fix some problem for Auto Scaling
1. 主机组的 vpc 和 backendgroup 可以为空,修复了使用 brand
过滤出现的问题
2. ScalingPolicy 的执行,区分手动和非手动
3. 拒绝执行或者执行失败的 ScalingAvtivity 不刷新冷却时间
4. 告警策略增加 Cycle 的检查和默认值
5. 修复 monitor 的一个数组越界问题
2020-04-18 14:13:43 +08:00
Zexi Li
56976a8b0d monitor: add alert config helper 2020-03-31 16:17:12 +08:00
Zexi Li
5645e4e15a add monitor service 2020-03-02 20:00:08 +08:00