Gartner市场指南 | AIOps将成为运维最主要的工具(一)

在这里插入图片描述
前言导读:Gartner首席分析师Pankaj Prasad、Charley Rich,在对AIOps市场和用户进行了深入的调研之后, 给出了AIOps平台的市场分析和指南。对于国内面临数字化转型挑战的大多数企业来说,为什么要采用AIOps平台、AIOps有什么优势、到底能为企业带来什么价值,读完这系列文章或许能有所启发。

智能运维AIOps平台,往往是通过大数据、机器学习和可视化的方式让IT运维工作变得更高效。企业基础设施与运维负责人应该尽早启动AIOps平台部署工作,优化当前的性能分析,并在未来两年至五年内扩展至IT服务管理和自动化领域。

01市场概述

主要发现
AIOps提供企业决策支撑:AIOps主要用于IT运维,且在企业中日益占据主导地位,而一些成熟的组织已正在利用该技术为企业领导者提供决策支撑。

  • 数据质量成为新挑战:AIOps技能和IT运维成熟度,是通过这些工具快速实现数据价值的保证,而数据质量则成为成熟度部署的新挑战。
  • 人工智能发挥作用:企业使用人工智能进行IT运维(AIOps),以增强或偶尔替代APM和NPMD工具。
  • 机器学习算法愈发重要:软件商们正在制定机器学习战略(AIOps中主要采用的技术),来应对分析运维数据量巨大、数据类型繁多和数据生成速度快三方面的数据挑战。与此同时,他们也正在建立跨数据存储和人工智能实践的专业化水平。

落地建议
负责优化IT运维的基础设施与运维领导者应该注意:

  • 部署AIOps工作时应当采用从历史数据开始的增量方法,并逐步使用数据流,确保与不断改进的IT运维成熟度一致。
  • 选择能够全面了解IT系统过去和现在状态的平台,采集并提供对文本和指标数据的访问接口。
  • 深化IT运维团队分析能力,选择逐步部署基于IT运维机器学习四个阶段的工具,包括描述性、诊断性、主动性能力和根因分析,以避免高危的设备运行中断事故。

02市场定义

AIOps平台是将大数据与机器学习功能相结合的软件系统,主要对IT系统不断产生的数据量、类型和速度进行拓展性的采集和分析,以支撑IT运维的主要功能。该平台能够同时使用多个数据源、数据采集方法、数据分析及演示技术。

市场描述
AIOps可以应用到广泛的IT运维流程及场景中,包括性能分析、异常检测、事件关联分析、IT服务管理和自动化。

核心功能包括:

  • 从各种数据源中提取数据

    对提取的数据进行实时分析

    对存储的数据进行历史分析

    提供数据访问接口

    存储采集数据

    使用机器学习技术

    根据分析结果启动操作

AIOps分析工作的目标是发现含有新元素的模式,并以此预测可能发生的事件和出现的情况,并及时回顾过往,确定当前系统行为的根源(见下图)。
在这里插入图片描述

03市场方向

AI技术在过去20年里断断续续地影响了ITOM的演变,而AIOps就是最新的一个例子。IT运维管理面临着两难境地的巨大挑战,一方面要降低成本,另一方面其复杂度又不断攀升。主要体现在数据量巨大、数据类型繁多和数据生成速度快三个维度:

  • IT基础架构和应用程序产生的数据量快速增长(年增长2-3倍)
  • 机器和人工生成的数据类型越来越多(例如指标、日志、网络数据和知识管理文档)
  • 由于采用了云架构和其他临时性的架构,数据生成速度不断提高,IT架构内变化速率也在提高

鉴于现代企业所需的洞察力,对这三个维度进行权衡的代价将相当巨大。现有的监控工具,在处理体量巨大、类型众多、速度要求高的数据时,承受到了巨大压力。更为重要的是,监控工具不会在不考虑忽略数据类型的基础上提取数据。例如,企业需要通过大量数据来获得有用信息,这些数据包括跨越基础架构和应用程序指标、客户情绪数据、业务交易数据、传感器遥测和各种系统的日志。

非IT团队,如业务线员工和外派的运维团队(如应用程序开发人员和开发运维人员),对AIOps技术越来越感兴趣,以便在使用多个数据集时展现自己的洞察力。而在某些情况下,安全和IT运维人员正在寻思着怎么利用好这个通用平台。

AIOps平台的性能和成熟度,将会实现多个横跨IT和安全操作的用例,这已成为部署通用平台的主要阻碍。此外,由于数字业务造成的IT需求速度不断提高,因此需要借助于一些工具:

  • 降低噪音(例如通过收敛误报或冗余事件的形式)
  • 提供因果关系,以确定事故的可能原因
  • 获得超出静态阈值的异常并主动检测
  • 对未来事件加以推断,防止潜在故障
  • 启动解决问题的行动(通过直接/集成方式)

迄今为止,AIOps功能主要是用来支持IT运维流程,监控或观察IT基础架构、应用程序行为和数字化体验。基于减少问题解决平均时间的能力,AIOps平台无论是在事件管理中采用机器学习技术删除重复数据,还是在APM中通过字节检测或分布式数据跟踪分析应用程序的日志数据,都被证明是合理可行的。

目前,AIOps平台提取数据类型的范围正在扩展,特别是过去仅支持日志数据提取的供应商,正在大幅扩展数据类型范围,包括数值型数据和网络数据。
在这里插入图片描述
因此,考虑到供需方面的趋势和技术差异,Gartner预计:在接下来的5年内,AIOps平台事实上将扩展成为以AIOps功能交付的形式,而不是将AIOps的功能嵌入在APM、NPMD或ITIM等监控工具中。

Gartner的客户对AIOps越来越感兴趣,并想通过大数据和机器学习技术来分析服务台的有效性,以此参与到故障和问题解决流程中去。IT组织还开始在DevOps环境中探索AIOps,将其作为持续集成/持续交付(CI/CD)周期的一部分,便于在部署之前预测潜在的问题,并检测潜在的安全问题。

AIOps分析的应用超越了其最初的使用范围,而成为IT运维中事件关联和分析的最佳解决方案。

运维部门也开始关注IT运维领域之外的用例。例如,2018年1月开始,Gartner客户对设计仪表盘很感兴趣,通过此显示客户满意度、订单流程和业务健康的实时分析情况。在这种情况下,AIops的目标是向业务线负责人提供实时洞察情况,让他们了解IT对业务的影响,并帮助他们根据相关数据做出决策。

**Gartner认为,AIOps将演变为双向解决方案,不仅可以采集数据加以分析,而且还可以根据分析结果进行操作。**这些操作最有可能通过与其他ITOM和ITSM工具相集成的形式,包括以下几种:

  • 告警
  • 问题分类
  • CMDB
  • 订阅自动化运行
  • 应用程序发布与编排

AIOps工具监控作业分为四个阶段:数据采集、数据聚合、数据分析和数据处理,具有数据聚合和分析的核心功能。随着技术进一步的发展,用户将能够利用平台的主动建议功能,实现数据处理作业。
在这里插入图片描述

随着当下应用程序对机器用量的增加,一些组织将数据采集作为本机的应用能力。此外,一些用户利用开源技术采集数据,从而绕过作为专用域的监控工具APM,将AIOps作为主要的监控工具。

关于监控工具与AIOps的争论才刚刚开始,而且可能还会继续发酵。然而,从长远来看,监控工具将成为该领域的专家,而AIOps将成为IT运维最主要的工具。

如何通过AIOps手段增加运维效能和降低运维成本,对于企业来说都是很大的挑战。而致力于智能运维AIOps领域的擎创科技,已经为国内多家银行和证券用户成功部署夏洛克AIOps平台,助力企业运维降本增效:

  • 强大自研数据采集器:支持Linux、Windows、AIX等多种系统,可采集除日志外的性能数据、网络数据、CMDB数据等各类数据;
  • 创新的数据流处理方式:单数据流峰值每秒采集350000 条,可处理日增数据30TB;
  • 人工智能算法:与复旦大学运维实验室共研10+种人工智能算法,异常检测和根因定位更容易。

本文对AIOps平台的市场状况和市场方向作了详细的阐述,系列文章还将对AIOps进行市场分析,并提供相关AIOps平台的部署建议。

作者:Pankaj Prasad& Charley Rich
来源:https://www.gartner.com/doc/reprints?id=1-5UWPRFW&ct=181126&st=sb
编译:林含飞
编译过程中有所删减