数据多源分散,如何打通信托行业运维智能化的任督二脉

在这里插入图片描述

01客户现状及痛点

在这里插入图片描述

近些年,银保监会非常重视信息科技风险,多项法规都对运维监控提出了更高更严的要求,需要商业银行建立连续监控信息系统的相关程序,提升系统运行的可靠性、稳定性和可用性。而与此同时,随着信托登记管理平台系统日渐增多,复杂化程度加深,其业务平台的系统运维难度也不断提升,给系统的运维监控工作带来了诸多挑战。

  • 数据多源分散

客户现有的监控平台,已包括设备性能、阈值告警、应用日志、流程和配置等数据,但是这些数据不仅种类繁多,格式不一,而且还分散在各个系统中,形成一个个数据孤岛,这就导致这些数据内在的运维价值无法得以有效利用,数据价值也无法挖掘出来。

  • 定位耗时耗力

客户的故障定位多依赖现场运维经验,不仅很难做到快速准确定位根因,而且即便使用了相关的故障分析算法,也仅能针对单一的指标,而无法做到多指标的关联分析,这在很大程度上会导致根因定位不准确、定位不够及时。

  • 分析维度单一

客户各个监控模块都有配套的管理工具,但是大多数都是从某一产品视角出发,从单一维度对数据进行解析。一方面,数据分析手段比较简单,大多以阈值方式体现,缺乏动态感;另一方面,单视角在实战中对于运维问题的理解不够全面,直接效果不太理想。

  • 手段传统被动

客户现有的运维工作,主要包括质量、成本和效率三个方面,但是现有的运维手段还是被动的:故障发生后需要花费大量时间确定根因,无法做到根因定位或是提前预测;扩容需求缺乏前瞻,造成局部浪费;监控误报频繁,漏报时有发生。

02擎创解决方案

在这里插入图片描述
基于在运维过程中遇到的种种问题,为保障各重要系统持续稳定运行,信托登记管理平台借鉴了行业实践经验,计划建设统一的智能运维平台。通过大数据和人工智能技术,汇集数据中心各领域的监控信息,及时发行故障并快速定位根因,进而有效保障业务运行的连续性。

为了有效解决客户遇到的难题,擎创结合夏洛克AIOps平台,为信托登记管理平台建设了统一的智能运维平台,从“聚”“快”“准”“智”四个方面出发,为客户构建了一套系统化的智能大脑。

  • 聚·数据

通过流式处理引擎和实时聚合手段,有效聚合不同数据源、不同数据结构的数据,如来自于各个监控子系统、自动化子系统、流程管理子系统、CMDB中的数据,并汇集至运维大数据平台,已供进一步开放式分析和探索。

  • 快·速度

运维大数据平台,能够处理日增TB级别的数据,且能够通过优化过的分布式架构和流式存储引擎确保处理快中有稳,加快了故障定位速度,也提高了排障效率,减少了不必要的人力和财力资源的浪费。

准·质量

预警和报警对于智能运维平台来说非常重要,运维大数据平台便是从不同维度对数据进行分析和综合评估,大大提升了分析的准度。例如,从业务角度来看,横向分析可能包括交易实时情况、交易总量、交易峰值等精细化的维度分析,纵向分析则包括业务数据流经过的服务器上的基础架构性能指标来垂直多维分析。

  • 智·算法

项目主要通过一个性能告警主切入点、两类智能分析手段(单指标异常检测算法和多维指标分析算法)和一个辅助手段(智能日志分析算法)来施行,并构建出智能运维平台的核心体系,大大提高故障定位及排障、异常检测及预测等运维工作的效率。

03解决方案亮点

在这里插入图片描述
本项目在为客户构建智能化运维平台的基础上,还融入了AI实验室,提供AI智能化技术深度功能的打磨和落地,例如包括AI学件选择、模型管理、模型训练以及模型应用的全闭环服务。

AI实验室包括但不限于:

  • 通过服务全景图的形式串联各环节,让AI实验室使用者清晰了解和参与到整个模型训练到模型应用的全闭环服务。
  • 模型训练过程和模型效果实时可查
  • 可方便快捷的优化已有模型,及监控已应用模型。
  • 广泛地适用于各类AI智能化场景

04解决方案价值

在这里插入图片描述

擎创通过智能运维平台项目的建设,为信托登记管理平台有效解决了现存的四大问题,主要体现在:

  • 海量数据汇聚

通过高效实时多维度采集能力,聚合了每日1TB以上的数据量,并具备将现有信托登记管理平台多系统数据融合的能力。

  • 秒级业务支撑

开放式的架构和灵活的扩展能力,能够支撑实时的业务需求,例如冷热数据分层存储、数据归档聚合、数据审计要求及线上秒级反馈结果等。

多维分析视角

结合精细化告警处理、单指标异常检测、多指标关联分析、多维度异常分析以及智能日志分析,能够结合多个维度来分析问题,故障定位更准确,排障效率更高效。

  • 智能场景探索

通过AI实验室打磨和扩展智能算法能力,允许通过开放式的手段来探索数据,其中还加入了场景化的支持,使得基于智能引擎的主动管理方式成为可能。

05客户评价及期望

智能运维平台上线后,先了实时监测异常点与告警,并将发现异常和故障的时间缩短至分钟级;而针对异常点的根因分析,将定位异常或故障根源的平均耗时降低了80%。

信托登记管理平台信息技术部数据中心的负责人表示,智能运维平台项目的施行,很好地解决了运维监控中的难题,也有效降低了运维工作难度对人员及经验的依赖,给信托登记管理平台从运维走向运营指明了方向,也打通了走向AIOps的建设之路。

06项目获一类成果奖

在这里插入图片描述
此外,根据本项目内容提炼所得的风险管理课题——《基于多维度无监督行为学习技术的智能监控平台研究与实现》,经过银保监会银行业科技风险管理高层指导委员会评审后,被评为等级最高的一类成果奖。