AIOps如何解放陷于规则泥潭的用户(一)

在这里插入图片描述
前言导读:随着IT运维监控工具技术越来越成熟,大量的运维数据也被记录下来,可是要从这些数据里提取出重要信息却并非易事。过去数十年来都依赖于撰写“规则”来解决问题。但完美书写的“规则”,真的能应对大量告警信息或运维指标吗?本系列文章将带你一探究竟~

过往的数十年来,规则掌控着IT运维监控和系统补救的方法。经验丰富的IT运维老兵,可能会将基于规则的方法视为熟悉的老友。当监控工具收到告警信息时,按照“如果存在这种情况,那就这样做”的简单逻辑即可以解决每个问题,还能提供可靠的执行结果。

但真的是这样吗?规则总是按照我们设定的方式行事吗?这个问题值得好好探讨,因为它挑战了规则的可预测性的基本假设。现在就让我们深入了解基于规则的IT运维方法,看看当前运维数据大量增加时,IT基础架构中规则是怎么迎接挑战的。

01 “规则”看似简单的错觉
在这里插入图片描述
规则看起来很简单,仅由固定输入和固定输出两部分组成。例如,通过一组规则识别黑色和白色,规则不会含糊不清地说:“我不知道下一步该做什么”。然而,看似简单明了的情况并非总是如此,原因是IT运维中,始终存在不可预测的异常情况。

规则中哪怕是最小的例外,都会被认作是偏离了该规则设计的目的。有例外即意味着规则的逻辑停止了运作。在创建新规则解决异常前,任何结果都是100%的错误。

对于IT运维来说,一家大型的现代企业,每天都会收到数十、数十万甚至数百万的告警信息。运维工程师们尝试使用规则驱动的方法,以此全面有效地解决这些告警信息。但是灰色地带却永远不会随着规则而消失。

02 复杂性呈指数级增长
在这里插入图片描述
规则是很容易创建的,如上所述,只需创建几个规则就能解决异常问题。但是如果将规则组合从一扩大到两倍,那么IT运维将变得很棘手,因为必须确保这两个规则是100%的一致的。而当为同一组创建更多规则时,复杂性也会呈指数级增长。

计算规则集的潜在组合是因子函数,它是小于或等于n的所有正整数的乘积(由n表示)。例如,假设有5个规则,那么将有120种可能的组合,有6条规则则有740条,而有10条则将产生3628800种潜在可能,100条规则将有9的157次方组合。

与企业数千条规则组合的总数相比,这些实例都微不足道。

测试规则组合以确保准确性的一致,是每一家企业面对的主要问题,而且还需验证每个规则组合,以避免告警信息误报或重大事件丢失。数据科学家将此成为“完全不可能”问题,因为满足此要求的计算机还没出现。

显然,对于企业IT运维使用基于规则的系统来说,“简单”将是一个误称,在一组规则中知晓报警异常的影响几乎是不可能的。

03 来自未知问题的挑战
在这里插入图片描述
IT运维决策的结果若是基于规则的工具生成时,将会出现逻辑归纳的典型问题。为了解决这个问题,可以考虑纳西姆·尼古拉斯·塔勒布在2007年提出的“黑天鹅理论”。在统计交易系统应用数据时,他讲述了假设黑天鹅不存在的古老神话,而在澳大利亚发现黑天鹅存在后才验证了这一点。

塔勒布的理论提出了两个相关的观点:(1)难以预测的罕见事件,在复杂的操作环境中起着不成比例的作用;(2)规则在预测这些事件的可能性方面做得不好。

“黑天鹅事件”已成为数据科学中常用短语,用在无法预测的事物中。例如,在IT运维中发现可能致命的、不寻常的事件。这正是为什么基于规则的IT运维,总让运维人员感觉不稳定,同样也是安全运营中心(SOC)团队需要果断采取行动的地方。

04 AIOps超越“规则”更加确定
在这里插入图片描述
越来越多的大型企业,开始转向数据科学(DT,Data Science),以便获得更广阔的视野和对IT运维更多的控制权。借助人工智能和机器学习,安全运营中心(SOC)团队能够处理所有IT运维数据的异常问题,而不用受到规则的限制。

通过AIOps中强大的AI算法功能特性,可以分析全量的运维数据。借助于算法,可以非常快速了解事件的不寻常特征,而不需经过统计对所有事物进行比较。

AIOps系统的无监督算法,其工作方式类似于人脑。例如,两张田野图片,一张里有动物,另一张里没有。即使从未见过这种动物,人脑也很容易发现哪张图片里有动物。大脑仅是简单地处理视觉图像,就能识别出与背景不同且在移动的事物。

但是,制定规则很难复制大脑的这种行为,规则需要一整套穷举实例以详细描述不同类型的动物。该规则还需能够处理例外情况,例如误将黑色汽车误判为是黑天鹅。而对于相同类型的动物,也需要有针对不同颜色的规则,例如白天鹅与黑天鹅。这样的规则是很难制定的,因为没有哪一个规则能够满足所有的可能性情况。

人脑处理数据的方法,为AIOps提供了可拓展的模型。AIOps算法是一种复杂的算法,可以发现企业事件的集合,这些集合表现为相关事件,而不仅仅是嘈杂又不重要的背景噪音。通过快速有效地找到安全运营中心(SOC)团队,AIOps能够优先考虑用事件模式取代规则的不确定性。

如果您的企业IT运维是依赖于脆弱且复杂的监控规则,那么考虑采用基于现代数据科学的方法,将有助于深入了解运维数据的真正含义。AIOps正在迅速成为这种强制转变的方式,以确保IT运维的高性能和完整性。
在这里插入图片描述
作者:Phil Tee
来源:国外网站
编译:林含飞
编译过程中有所删减