Gartner市场指南 | AIOps将成为运维最主要的工具(二)

在这里插入图片描述
前言导读:上一篇文章Gartner市场指南
| AIOps将成为运维最主要的工具(一)已对AIOps平台的市场状况和市场方向作了详细阐述,让我们对AIOps市场有了一个大致的了解。而本文则在分析AIOps目前现状的基础上,为AIOps平台的部署提供了相应的建议。

01市场分析

迄今为止,很少有供应商能够提供全面集成化的AIOps平台,不过大部分可以提供大量AIOps功能,且其中的子集是相互集成的。为了更清楚地了解市场如何发展,以及供应商在市场所处的地位,Gartner将现有AIOps能力划分为数据管理和分析结果两大类:

数据提取和处理

历史数据和流数据管理,包括对软件和应用的日志数据、网络数据、指标和文档数据的提取、索引和持久存储的管理,这就导致数据库中大部分是非结构化、多结构化的数据。

这种历史数据管理功能,可称为“大数据管理”。为了在IT运维用例中提供有价值的信息,该工具还需实时呈现用户对数据感知的时间尺度,且可以不必访问数据库就能提取数据、直接传递数据,还必须通过多个实时数据和历史数据流提供连贯分析功能。

分析结果

l 基础和高级统计分析:是一种单变量和多变量分析的组合,包括IT组织提取的指标、数据源管理数据的相关性、聚类、分类和推断。

l 自动发现和预测:使用上述一种或多种类型的历史数据和流数据,生成关联性的数学模式或结构模式,推断数据集运行情况,再利用这些模式及时预测不同事件出现的概率。

l 异常检测:使用以前组件发现的模式,先确定正常系统的构成情况,然后辨别出异于正常系统的偏差。

l 根因确定:精简由自动化发现模式和预测组件建立起来的相关性网络,隔离具有真正因果关系的相关性链接,从而提供有效干预的解决方案。

l 规范性建议:对问题进行分类并将其归类为已知类别,然后挖掘先前存储的解决方案并分析其适用性,再把结果优先提供给IT运维人员。这些将使用闭环的方式,在使用后还可以根据使用的有效性进行选择。

l 拓扑结构:对于AIOps检测到的模式,必须把提取的数据放置在合适的环境中,该环境就是拓扑结构。没有拓扑结构的环境和约束,检测到的模式虽然有效,但可能毫无用处,还会导致注意力分散。使用拓扑结构确定一部分因果关系,可以大大提高其准确性和有效性;使用图形和瓶颈分析方式,能够获得事件发生的位置及其上下游依赖关系,可以提供修复工作的重要内容。

在这里插入图片描述

但是,市场上存在一起误解,即认为AIOps是否会取代APM、NPMD、ITIM和DEM等局域网监控工具。AIOps不会取代监控工具,反而是让监控工具分析更高效,数据操作性更强。局域网监控工具将继续存在,将继续为专家提供数据提取、数据分析和数据可视化功能。不过,这些监控数据将会导入AIOps平台,并汇聚起来进行跨域分析。

随着市场发展,Gartner发现AIOps的功能也不断在延展:

l 供应商进入到非数据源的AIOps市场,这些都是通用产品,可以满足最广泛的使用案例;

l 供应商具有关键组件,但数据源受限。这些供应商通常专注于单个域(例如网络、系统终端和APM),或选择性地处理其他报警等数据类型。这些工具主要针对某些IT运维部门,且用例受限。

l 一些具备监控解决方案的供应商,将数据源限制在其监控的产品中,或是拓展至合作伙伴的生态系统中,这同样也是把目标受众限制在正确的数据源组合的例子。

l 一些开源项目能够让用户通过数据提取、大数据平台、ML和可视化图层来构建自己的AIOps平台,终端用户可以匹配多个供应商的组件。

AIOps平台增加了嵌入式监控工具之外的重要功能,除了不能默认锁定监控工具中静态数据模型之外,它能够获取数据模型、数据异常情况和因果关系。而监控工具可能会在数据强制进入预定模式时忽略这些功能。

02代表供应商

本市场指南列出的供应商只是其中的一部分,主要是提供对市场及其相关产品的建议。

市场介绍

AIOps平台供应商产品功能广泛,且不断在发展壮大。供应商提供的数据提取和开箱即用功能仅在最小配置下可用。

下表中,列出了提供AIOps平台功能的代表性供应商。

在这里插入图片描述

03市场建议

l 采用增量方式,确保成功部署AIOps功能

若想有效部署AIOps功能,需要从数据源重组IT域开始,并采用结构化的方式。这种方法能够将焦点转移到数据集,而不是转移到传统的工具集。Gartner发现,最好的方式是使用大数据集获取数据源。只有在IT运维团队熟悉AIOps采用的大数据技术之后,才能掌握AIOps的能力类别。

因此,在选择工具或者服务时,企业应该优先考虑这样的供应商:允许部署数据提取、数据存储和数据访问,而不是依赖剩余的AIOps组件。鉴于AIOps将用于多个用例,基础设施和运维负责人必须确保:供应商提供的产品需要支持逐步添加其他组件的功能。

l 选择支持历史数据和流数据类型的AIOps平台

当前的IT运维工作,旨在获得IT应用程序及其之间的相互关系、相互依赖性等综合性能,以便深入了解IT工作的整体环境。而选择正确的数据源,对于避开盲点至关重要。部署成熟度和用例就需要准备提取各种数据源。基础设施与运维负责人选择AIOps平台时,必须考虑到该平台能够提取、能够提供各种历史数据和流数据类型。

在这里插入图片描述

在之前,AIOps平台主要专注于单个数据源,例如日志、指标。然而比较遗憾的是,不管是给定数据集的大小,还是数据集频繁更新,单个数据类型往往会限制系统洞察行为。现有的IT系统,一般都具备模块化和动态性,采用多种方式了解正在观察的情况。例如,可以用AIOps进行数字体验的综合分析。

当然,也可以通过监控客户在数字体验中的表达行为模式,使用模式检测算法来改善客户关系,使用AIOps中的机器学习算法来感知并引导用户的模式:

l APM体验数据

l 业务交易有效负载中提取的订单数据

l 社交媒体情绪数据

l 服务台请求和状态

l CRM系统的账户数据

通过这种方式,在客户使用的应用程序中构建复合模型,甚至是在单个应用程序的多个模式中构建不同的行为,例如当他们使用Web浏览器而不是移动设备时。这可用于预测客户流失情况,并提供所需的洞察力和时间以防客户流失。

l 选择运维分析和机器学习等四个阶段的系统性工具

增量部署工具,需支持IT运维机器学习的四个阶段,并能够给予最高的优先级。

在这里插入图片描述
渐进式方法,是提高IT运维团队技能的关键因素之一。

在IT运维环境中部署AI不是很简单,必须逐步实现。IT运维团队开始人工智能之旅时,必须熟练掌握数据可视化,并能够使用基本统计分析工具。抵制诱惑,才能一次性完成所有的一切。在掌握了这些核心的“手工”学科之后,才能通过机器学习进行如下处理:

l 首先,尝试让软件显示大量数据的组织模式;

l 接下来,对这些模式进行测试,以预防未来事件及故障发生的可能;

l 最后,使用根因分析工具。

AIOps的四个阶段都很重要,企业应该尽可能多选择这些工具。这四个阶段当以模块化方式部署,确保学习IT运维时能够获得价值。

04证据

(1)在过去12个月内,关键词查询超过400次的,涉及到IT监控和AIOps各个方面:平台选择;部署策略;IT内外多个AIOps用例,有助于可视化、决策和诊断。

(2)6%与AIOps相关且针对ITSM各种使用案例。

(3)3%的AIOps交互与DevOps有关。

(4)15%的交互与AIOps用于定制仪表板有关。

代表性供应商选择

本研究中列出的供应商名单,可以根据以下一个或两个标准样本进行选择:

l 能够从多个数据源提取数据,包括历史数据和实时流数据。

l 不同的产品含有不同的版本,例如专有版本、开源版本、免费版本和商业化版本,能够现场部署,也可以基于SaaS选项部署。

数据类型

l 日志数据提取:能够从任何软件或硬件设备生成的日志文件中,提取字母和数字文本字符,并可以为存储编制索引的访问和数据分析做好准备。

l 互联数据提取:能够直接从网络上的分接头提取分组数据,准备所有协议和交流信息以供访问和分析。

l
度量数据提取:能够直接提取数值数据,例如可以即刻提取应用时间序列和一般数学运算的数据。

l 文档文本提取:能够对可读文档进行提取、解析、语法和语义搜索,包括使用通常被概括为自然语言处理的技术(NLP)

作者:Pankaj Prasad&
Charley Rich

来源:https://www.gartner.com/doc/reprints?id=1-5UWPRFW&ct=181126&st=sb

编译:林含飞

编译过程中有所删减