|
破子真的很厉害。
提些建议和感受
“事件的分类
由于我们项目众多,考虑到横向统计的需要,我们要定义一个公用的事件分类,以便运维管理分析,我们分了硬件、软件、网络、数据库、接口、业务这几个大类,日后可能会进一步细化分类,以便做更深入的分析,但这个难度很大,需要时间的积累。”
我看到有些系统可以做到4级细化分类,system->component->item->module, 缩写成SCIM。 我也建议你的系统这样分。
你提出了“ 操作管理”,真是与我心有戚戚焉。这个功能太有用了。
“事件的时长与工作量
在任何一个事件的处理时,对于时间而言,有二个概念,一个是事件的时长,是指一个事件的处理周期(从8:00创建到12:00解决,4小时),一个是事件的花费的资源量,即工作量(4小时的时长中,工程师可能投入了2小时来处理),时长是为了SLA的计算,后者是为了运维资源的分析。”
工时的计算你是怎么实现的? 是工程师自己说了算是吗?
再提个要求,这个系统要和主流的监控工具有接口,变成全自动化。 |
|