AIOps如何解放陷于规则泥潭的用户(三)

在这里插入图片描述

前言导读:上一篇文章AIOps如何解放陷于规则泥潭的用户(二)已对规则的“成本问题”作了相应的探讨,并给出了应对之策。那么本篇文章,将从另外一个角度,讨论规则的适用“范围”。

使用规则管理IT运维,主要是为了准确预测未来事件及可能发生的行为,而IT运维团队,对预测的准确性十分依赖。许多采用规则管理IT运维工作的机构会反复承诺,不断添加新规则、改进旧规则和评估结果来提高其准确性。但是,保持规则的准确性会受到多重因素的干扰,即规则不断调整,准确性却丝毫没有提高。这其实是规则范围大小所导致的。

在本文,规则的“范围”指的是可能影响系统性能的IT方案的潜在因素。规则的范围问题,就像是天空飘散的乌云一样,它掩盖住了预测的准确性。而要深究其因,可以想象一下,为什么每个通勤上班的人会感到烦恼。

01 通勤路线的选择,靠设置规则难以穷尽
在这里插入图片描述
开车通勤(上下班)的目的非常简单,即驾驶时注意安全和准时上班。该过程包括上车、启动发动机、打开谷歌地图、开车,最后,在迟到之前窜进你的座位。

通勤的决策逻辑是非常直截了当的,即存在一个驱动器、简单的二维道路系统,点A和点B之间的路线数量,以及驾驶所需的规则。尽管如此简单,但每个人都抱怨交通状况不断恶化,如一些不可预测的交通堵塞状况,即使地图上谷歌显示为“绿色”畅行。

如果路上唯一的司机是你,那这种抱怨便不会存在。但是,都市市区是一个庞大且复杂的系统,其中有数十万或百万的通勤者,而他们的随机行为会产生无数不可预测的结果。如果幸运的话,只是迟到的问题,但是如果遇到交通事故,那就另当别论了。

通勤决策的固有问题是其不可预测性,在数学上经常会被描述为NP完全问题。数学专家将此定义为计算的复杂性,即无论计算机有多大,你都可以拓展问题并快速解决它。例如,如果你可以通过笔记本电脑解决10辆车的通勤问题,那么100辆汽车将占用地球上所有可用的计算能力。当然你可以看到,这种通勤方案的范围,对于基于规则的方法来说太大。

02 IT运维规则范围的限制
在这里插入图片描述
对于IT运维来说,如前文所说的通勤决策问题,规则主要是用于识别影响系统性能的问题。个人规则如同汽车中的驾驶员,简而言之,“如果我获得的警告是X或Y,那么结果将是Z”。当操作变量的范围很小时(类似于在空旷道路上的通勤),总是可以获得结论性的、预测准确的结果。

但是企业的网络系统绝不可能是空空无物的。基于业务活动的规模和类型,企业的网络系统每天能够生成数百万甚至数十亿的事件信息,这种活动规模所产生事件的复杂性和潜在组合,会让地铁通勤所产生的决策问题相形见绌。

使用规则来管理IT运维难度很大,因为需要每个单独的规则来解决每一个场景,而且所有的规则必须协同工作,规则的结果通常还取决于其他规则。使用基于规则的方法,必须为每个方案验证规则,以确保预测的准确性,否则唯一的保证便是不可预测的结果。

在地铁通勤示例中,如果利用当前的数学技术和知识,来计算洛杉矶44万乘客决定的所有潜在结果是绝不可能的。对基于规则的IT运维来说,执行相同的操作也存在同样的问题。两者都是NP完全问题。按照规则的话,范围有限,无法知晓所有特定结果是否准确。因此,使用规则来保障IT服务交付,是存在风险的。

03 AIOps避免了规则范围的限制
在这里插入图片描述
使用智能运维的方法,而不是基于规则的方法,能够有效避免范围的约束限制。AIOps会极大减轻运维团队的压力和责任,不用花费大量的时间为每个可能的事件组合创建规则。通过人工智能和机器学习技术,企业的监控系统可以采集到所有运维的数据,还能应用算法确定事件的重要性。与基于规则的方法不同,AIOps可以自我进行学习,而不必提前考虑每个输入与输出。

在监测和预测可能妨碍系统性能事件方面,AIOps的准确性会更高,还能让团队高效运行企业IT系统。此外,AIOps还具备一个独特的功能,即能从整体上处理数据,以检测一些紧急行为。这对于基于规则的工具来说是个难题,因为它会受到范围的束缚。但是AIOps与地铁通勤的使命一样,都是为企业提供一条安全的路径,防止IT系统遇到故障或问题。

作者:Phil Tee
来源:国外网站
编译:林含飞
编译过程中有所删减