智能运维AIOps如何使管理者卓有成效

1966年,管理学领域被誉为“大师中的大师”的彼得德鲁克出版了日后被无数次再版的经典作品——《卓有成效的管理者》。在书中他提到:管理者的使命就是“卓有成效”,但是卓有成效并非天分赋予,而是可以通过后天学习和实践获取的能力。这无异是给每一位普通管理者的一针强心剂,鞭策着一代又一代管理者向着卓有成效的目标迈进。

运维管理也是一种管理事务,因此运维管理者同样应该以卓有成效为目标。无论什么样的管理类产品,其优劣都应该以是否促进“卓有成效”为唯一的检验标准。当前,运维市场中炙手可热的智能运维AIOps作为一种全新的技术方案和产品,需要何种能力才能使运维管理者达到卓有成效的目标?

笔者选择智能运维中一个极为重要的应用场景——智能告警(也称为精准告警或者告警精细化)作为实例,并结合书中阐述的达成卓有成效的四要素来逐一分析。

第一 懂得时间管理,并做到要事为先

在这里插入图片描述
时间管理对于运维工作者而言非常重要,如何把自己的有效时间投入在最重要的事务上,如何按照事务的轻重缓急主动安排时间,有效利用整块时间去做有价值的事(比如应急修复肯定不如故障预案设计重要,但大多数人的时间耗费在前者而非后者)?

但现实很骨感,传统的集中监控方式只是集中采集告警信息,杂乱无章且充斥冗余信息的告警事件让人疲于奔命,无法厘清究竟应该以哪些事件为处理重点,很难准确记录处理事件所花费的时间,无法把有效工作时间投入在需要长期思考和规划性的工作上,总是在一次应急处理走向另一次应急处理的路上。

优秀的AIOps智能告警平台,应该在如下层面发挥作用:

  • 能够有效集中管理多样化事件信息,通过智能事件压缩,去除其中重复性噪音,而且具备一站式的事件处理能力,满足事件处理全流程,如事件丰富、压缩、关联和升级等,不但事件处理的时间可记录和回溯,而且极大节约了运维人员的处理时间;
  • 因为来自不同监控工具的事件质量良莠不齐,很多事件的级别定义有误导嫌疑,比如大量高频告警虽说常常出现,但并不影响生产,应该能识别出来并推荐降低处理级别;再比如一些突然出现的新增告警虽说级别不高,但影响度可能很大,智能运维应该能在这方面发挥作用,根据事件真实的严重程度推荐处理的级别,真正有效地实现要事为先。

第二 重视对外部的贡献

在这里插入图片描述
任何运维管理人员都要理解,运维的贡献不会在组织内部,而在于外部,只有获得业务部门的认可,才是绩效的体现。传统运维往往拘泥于各种IT组件的管理,缺乏业务运营思维,那么智能运维如何能够帮助我们体现对于业务的贡献呢?关键在于用业务能够理解的语言去展示运维的成果。而智能运维必须能够在这方面有所建树。

  • 要能够从业务视角去看待故障场景,场景的有效性是为业务排障服务的,通过智能算法甄别出有效的故障传播链,从而使得业务部门理解故障过程,同时又体现出较强的根因推荐能力,这才是业务希望看到的运维价值;

  • 要能够从业务视角展示全局性状况,既有实时的数据更新,又有历史数据的挖掘分析,这样会令业务部门清晰了解业务的状态和IT支撑服务的关系,有利于统一双方的目标。

第三 发挥人的长处

在这里插入图片描述
发挥所长,规避所短,是德鲁克极为强调的管理思维。任何人都不完美,在管理中应该避免设计出只有“天才”或者“通才”方能完成的职务。身为管理者,必须要发挥人之所长,并用于合适的位置,才能保证最大的有效性。

在运维管理中,运维管理者和智能运维的关系也是如此,智能运维是一种特殊的“人”,运维管理者要能用其所长,下面以智能告警为例,来看一看如何在具体工作中充分利用双方所长:

  • 要能够充分发挥机器学习算法的洞察力,通过智能告警工具找出具备相关性的告警组合,我们称其为告警场景。在这个方面,机器学习算法的能力是人难以企及的,“他”可以从时间维度、拓扑维度甚至告警语义的维度去洞察原始告警的相关性,并且把所发现的结论以友好的方式展示出来,消除人类识别数据能力的不足和可能存在的盲区;
  • 而运维管理者,则可以利用专业知识和经验,对于洞察的结果进行判断,因为对于自身业务逻辑最清楚的莫过于具体运维者,而且人的思维具备一种机器所无法企及的发散性,这对于利用经验判断尤为有效。这就要求智能运维工具能够允许多种不同专业的运维专家对场景进行评判,并对判断结果进行吸纳和回溯,从而既能对未来的算法洞察起到积极影响,又能作为知识沉淀对之后的故障分析管理起到指导作用,从而把个别专家的能力通过智能运维逐步平台化后演变为组织能力。这样的人机互动和闭环使得运维管理者和智能运维工具各自发挥所长,从而达到最卓越的成效。

第四 提升决策的有效性

在这里插入图片描述
德鲁克在谈论“决策”时花了最大的篇幅,整整三章都在论述决策的有效性,说明管理者的决策力是制约有效性的极其重要的因素。其中有两个点,对运维管理中发挥智能化手段的价值具有很大的指导意义。

  • 在决策前必须先搞清楚问题的性质,判断是经常性还是偶发性,若是经常性发生则必须分析其成因,并从更高的维度上审视解决办法,一般通过原则上的修改才能解决问题。

这是一个对于运维管理极为有价值的点,我们在事件处理中,时而会头痛医头,脚痛医脚,原因就是无法判断事件真正的性质。所以智能告警系统需要能从历史事件的维度甄别发生事件的性质,判断这究竟是一种高频的、偶发的、周期性的还是属于阶段性出现的事件。比如阶段性可能是某一种周期性维护动作造成的,而偶发的事件,也未必就能确保今后不会演变成经常发生的。比如应用升级后,第一次出现的事件,虽然级别很低,但却值得关注,所以关键是要找出发生的内在机理,以及相关性规律,按德鲁克的建议,任何事件都首先要假定是存在更深层的原因,所以精细化的分析成因可以说是持续改进运维水平的关键。

  • 决策的反馈,任何决策的执行有效性需要获得反馈方能验证。

我们在传统运维中的集中监控平台一般采用人工经验梳理规则,而静态规则最大的问题就是随着时移势易,许多既有规则变得无效但却没有人知道,智能告警并不是不需要依赖人的经验和规则,而是要能够利用智能手段从无序的事件中归纳出可能的规律,再通过运维者的实际反馈,逐渐梳理成为规则。因此优秀的智能告警平台,反馈机制的设定非常重要,要能够随着使用深入不断优化,达成持续的有效性。

本文以智能告警这个场景为例谈智能运维的必备能力,是因为智能运维可使用的场景虽然很多,但告警管理是企业运维事务中最重要的部分,几乎没有之一,因为其水平直接影响业务的可用性和客户满意度,是实时监控第一要务。告警是整体事后分析的触发器和抓手,无论是来自各种监控源的指标类数据,还是日志类数据,都可以提炼归结为告警维度,统一进行管理。几乎所有的企业都需要建立自身的集中监控平台,核心就是为了提升告警管理的能力。

因此在这个场景下引入智能运维,只要能够具备上述分析的能力,合理布局,充分发挥好人和“智能”的价值,一定能起到事半功倍的效果。而智能运维的建设可以在此基础上,再进一步展开,引入其他应用场景,比如指标的异常检测和根因定位、日志的精细化管理、容量的分析和预测等,逐步激活指标、日志、工单等其他类别运维数据的价值。

从集中监控中引入智能告警后,如何进一步展开其他的智能运维应用场景,需要具备哪些条件,能够达成怎样的有效性,将会在后续文章中逐一分析。