智能运维项目引入的“负熵”冲击波

文/牛文灿

多年前,任正非在《华为之熵》之中提到:企业运作和管理是一个走向“熵增”乃至“熵死”的过程,若想保持基业长青,就需要打造耗散结构来抵御“熵增”,激发企业活力并不断提升企业发展势能。这套华为活力引擎模型(即耗散结构)后来奠定了华为发展理念的基石,那么何为“熵增”?如何减缓“熵增”甚至触发“负熵”冲击波?

量子物理学奠基人薛定谔曾对“熵”有过这样的定义:“自然万物都趋向从有序到无序,即熵值增加。而生命需要通过不断抵消其生活中产生的正熵,使自己维持在一个稳定而低的熵水平上。生命以负熵为生。”
在这里插入图片描述
事实上,“熵”源于热力学第二定律,主要用来度量一个系统内的混乱程度。对于一个封闭的系统,如果没有外界能量注入的话,最终的演化趋势是熵增越来越大。日常生活中有很多这样的例子,比如屋子不收拾会变乱、手机性能会越来越卡顿、热水会慢慢变凉甚至是头发会变得越来越少。

可是“熵增定律”和我们的日常工作有什么关系呢?

其实我们所在的企业、组织也可以理解为一个封闭的系统。在这个系统内,熵每天都在增加,而只有持续引入负熵才能减缓熵增的趋势。引入负熵,可以理解为引入外部资源、外部智慧来推动内部的变革,从而使内部的混乱变得有序。这里的“有序”,可以理解为沟通更顺畅,行动更高效,业绩提升水到渠成。

对于长年奔波在不同项目上的人来说,每一个项目就像是引入“负熵”减缓“熵增”的过程,即通过引入外部优秀资源,推动内部革新,使得项目效能得以提升,并间接促进企业高效长久的发展。以下,以经手的一个智能运维项目为例,简单阐述如何做到减缓“熵增”甚至触发“负熵”冲击波效果。
在这里插入图片描述
项目的主要目标是解决某中型银行客户(以下简称“A行”:一家位于中国南部的股份制银行)日常运维中存在的告警风暴问题。A行主要运维痛点是告警风暴频发,系统日增告警量达5000多条。在这种情况下运维人员根本无法及时处理告警事件,系统问题更无法及时得到修复,势必会引发用户频繁投诉。A行迫切需要引入智能化的运维方案来解决横亘已久的问题,破除告警风暴难题,提高告警处理能力。

在实地了解到客户的现状和痛点后,我方咨询专家给出的方案是通过实施告警信息丰富、告警智能压缩、告警智能关联、精准推荐告警优先级等功能,帮助运维人员逐步实现少做事、做重要的事、更高效地做事等三级目标。这些核心功能,最终要依赖擎创的智能运维产品——告警辨析中心来实现。

这些功能的实现逻辑如下:
1、告警信息丰富:原始告警信息关联CMDB配置信息,做如下内容丰富;
在这里插入图片描述
2、告警智能压缩:利用智能算法将相同或者相似的告警进行合并压缩;
3、告警智能关联:利用智能算法将可能是同一种根因产生的告警关联在一起,方便用户迅速查找问题症结;
4、精准推荐告警优先级:智能算法推荐告警优先级,使告警级别标注更精准。
在这里插入图片描述
整个项目历时3个月,投产后压缩掉了82%的无效告警,并大大提高了运维人员的排障效率,客户投诉量也降低了50%,真正达到了减缓“熵增”的过程。

此外,这个项目也引发了“负熵”冲击波,了却了客户心中的难题。A银行使用的监控平台建设于2009年,虽然采用的是某知名国际软件厂商的产品,但是产品的架构、功能和性能已经远远无法满足当前业务需要。客户3年前就表示希望更换监控平台,但由于涉及部门过多,新监控平台建设工作迟迟无法推进。

此次智能运维项目中发现客户的指标数据采样频率和告警频率都是5分钟一次,已经无法反应系统的真实状态,且会遗漏大量有价值的数据和信息。经过项目组向客户多次汇报和反复沟通,终于推动客户下定决心升级监控平台,目前该项目已经进入UAT测试阶段。

《高效能人士的七个习惯》这本书告诉我们,能掌控的事情就尽力掌控,无法掌控的事情就尽量去影响。A银行客户更新监控平台的决策可以说是“尽量影响”的结果。而这恰恰是智能运维项目的开展,外部资源(负熵)的引入,推动了新监控平台项目的建设。这次“负熵”引发的冲击波促成了客户一直想做,却一直未做的事情,可以认为是一箭双雕了。