银行业智能运维的探索与实践
前言
国家的“十四五”规划里面多次提到数字化相关概念,其背后反映了一种趋势——从数字化经济、数字化生活到数字化国家。近年来产业数字化不断加速,金融业的数字化更是走在前列,银行作为金融业的主要机构也在经历数字化转型的过程,在银行业务高速增长的背后离不开IT系统的支撑与支持,因此对IT系统的依赖与日俱增。IT运维是IT系统自身的运营管理,随着混合架构、互联网应用与传统应用的双模态发展,云计算、大数据、5G、移动互联等技术的应用,一方面对银行的发展带来了极大的助力,同时也对传统的IT运维带来了很大的挑战,智能运维的应用正在逐渐成为银行IT运维的新方向,已经有一些银行开始了智能运维的实践探索。
一、 银行传统运维的痛点
(一)质量
IT运维关系到系统运行的稳定和持续,是银行经营的基础,在数字化程度很高的今天,可以说IT运维质量是银行经营的命脉之一。如果简单的以系统不停机、可持续作为衡量标准是一个粗放的目标,运维质量需要从运维工作的各个环节来提升质量,有多种衡量指标,有了过程的质量控制才能实现结果的可控。传统运维在衡量体系上缺乏手段和工具,例如对运维环节的风险评估比较片面,一些人工复核也缺少体系化,在准确度和覆盖面都有可能遗漏,从而影响整个运维质量。
(二)成本
银行的运维会涉及到IT基础资源的规划、购买和使用,这些都直接关系到运维成本的高低。银行作为商业机构,肯定有控制成本的压力。传统运维根据数据中心的历史数据进行资源申请,有很大的局限性,不能根据业务系统的类型进行区分,某个系统是平稳型系统,还是一个波动型的系统,传统的评估是做不到的,因此在资源申请、规划、使用中就会产生过多的冗余或者不足,造成运维成本的上升。
(三)效率
IT运维的效率可以从两个角度来看发展趋势。
一是在云环境和混合异构环境之下,IT运维的复杂度在不断上升。银行的业务系统本来就比较庞杂,前中后台的业务系统叠加了不同的技术路线、不同的产品,包括开源、半开源、商业化产品的混合使用,让底层的IT基础设施也各有差异。这就让IT运维要在跨系统的环境中实现,导致运维复杂不断攀升,一个有经验的运维管理人员发现故障后,也要消耗大量时间检查每一个系统,进行例如状态数据分析、抓包分析才能定位故障。这种运维效率在系统复杂、工作量大的环境中就显得捉襟见肘。
另一个角度,银行运维人员每天被各种运维事件拖住,处于“四处救火”的状态,其实非常被动。而且要求在人员不增加的情况下实现高效运维,这就需要从运维思路上改进——把运维处置从事中、事后向事前处置的方向来发展,通过更多的事前处置来提高整个运维的效率。这是一种防患于事前的思路,把事中向事前做,这样才能大幅度提升运维效率。
二、智能运维带来的四点变化
智能运维的兴起将为解决上述提到的质量、效率、成本的三大痛点带来大幅度的提升,智能运维通过数据、AI算法与人类专家库经验的结合,深入运维场景为IT运维带来跨越式的提升。从运维工作的环节上来看,可以带来以下四点明显的变化。
(一)实现智能化监控
企业使用大量的监控工具如APM、NPM、日志、基础设施监控等,来实现各个技术栈的监控。然而大量无效、无用数据会增加后端数据处理的压力,而数据的漏采可能导致问题、故障的漏报;此外,监控工具需要大量的人工调试配置、严重依赖运维人员的经验,人工成本巨大。在智能运维中,通过基于机器学习算法的智能数据采集器来实现智能的数据过滤、关键数据识别、采集密度与频率调整以及采集服务器的性能均衡,从而提升数据采集的准确度、最小化人为干预程度、降低人力成本以及提高运维管理效能。
(二)智能化问题发现
企业IT系统规模的扩大、运维环境的复杂化,使得运维人员从海量的数据中发现问题的难度也越来越大。智能运维可以通过智能异常检测、故障关联分析、故障根因分析和智能异常预测等能力,帮助运维人员快速定位问题、追溯故障根源,并实现故障的预测预警。
以智能异常检测为例,通过基于密度算法的异常检测(LOF)方法、基于Ensemble的快速异常检测方法、基于历史数据模型的异常检测等方法等AI技术,能够自动、实时、准确地从监控数据中发现异常,为后续故障的分析与处理提供基础。
对故障进行根源分析是在众多可能引起故障的因素中,追溯到导致故障发生的症结所在,并找出根本性的解决方案。利用机器学习或者深度学习的方法可以找出不同因素的之间的强相关关系,并利用这些关系,推断出哪些因素是根本性的因素,帮助用户快速诊断问题、提高故障的定位速度以及修复效率。
(三)智能化告警
传统的告警管理一般使用固定阈值并且需要运维人员手动设置,这种方式不仅工作量巨大且十分依赖运维人员的经验,阈值设置不当可能导致告警风暴或者告警漏报等后果。当监控环境发生变化时,原先的固定阈值无法满足告警管理的要求。智能运维采用动态基线告警方式,智能分析数据的动态基线(即相对于历史时刻,当前状态的数据范围),弥补了以往人为设置固定阈值的缺陷,智能地分析数据的发展趋势以及分析数据动态基线,从而对告警做出智能的判断。
各种监控工具会产生海量的告警信息,这些告警信息中可能存在大量的冗余告警甚至形成告警风暴,对运维人员产生极大干扰,降低了运维工作的效率。智能运维针对短时、大量的、甚至是持续的冗余告警,可以通过相似度、相关性判断对这些冗余告警进行合并,从而为运维人员提供有效的告警信息,能够大幅降低运维工作的难度。
(四)智能化处置
传统运维管理中对故障的处理非常依赖运维人员的经验,但人的经验无法覆盖所有故障范围,运维人员经验不足可能会使得运维效率低下或者产生错误决策。智能运维将API接入的实时监测结果或者预测结果引入决策知识库(智慧大脑)智能生成决策建议,并根据实际结果及趋势判断采用的处理策略,可以是人工处理或者自动处理,有效减少问题排查的时间、大幅提升问题解决的效率,提升企业运维的标准化程度。
三、某互联网银行智能运维实践
某互联网银行在运维管理中,以提升整体运维服务质量为导向,为行内提供全方位的运维服务,进而制定了智能运维的目标:整合现有的运维数据资源,完成运维数据智能分析平台的原始数据准备;通过对接现有现有工具平台,实现现有运维数据的智能分析,事件根因定位,容量预测,动态基线监控,变更辅助决策等能力;通过建设运维数据智能分析平台,完成运维工具智能化转型,积累智能运维经验,提高智能运维比例。
(一)做好智能运维的准备工作
实践智能运维需要在运维数据的标准化和规范化做好充分准备。该银行把例如日志、交易、事件、CMDB、工单流程,这些源数据进行统一的归档管理,纳入归档平台,做好了运维数据的标准化和规范化。
策略知识库是提升智能运维的基座,日常处置的知识积累尤为重要,应该转化为知识库和自动化系统,从策略到智能,做的策略越多,后面的智能应用水平也越高。
此外,系统之间要充分开放API接口,才能打通各个系统。该行在系统之间接口开放上进行充分了准备,让智能运维的应用能够实现跨系统处置。
(二)研发智能分析平台,探索智能运维场景
该银行启动了智能监控、智能分析项目。通过全方位的监控和数据采集,把系统监控、交易监控、业务监控的源数据进行整合,提供给智能分析平台,再对输入的数据进行算法输出,结合CMDB、事件平台做了一些智能运维的场景应用,包括异常检测、动态阈值、告警压缩、自愈、容量预测。
以异常检测为例。针对业务四大黄金指标而设计的智能曲线异常检测系统。四大黄金指标包括交易量 (业务实时产生的交易量)、业务成功率 (业务成功量 / 交易量)、系统成功率 (系统成功量 / 交易量, 业务成功量和系统成功量的区别在于是否明确捕捉到系统异常)、平均时延 (交易的平均耗时)。这四大黄金指标都是分钟级数据,因为过去只要影响到业务层面的故障,最终都会在这四个指标上有所体现。因此只要能准确捕捉到这四个指标的异常波动,就可以检测到所有影响业务的异常。
异常检测场景设计
以容量预测为例。传统方式是使用同环比监控,需要运维人员根据经验设置阀值。智能运维能够对异常事件实现自动发现和预警,彻底摆脱根据人工经验定义异常阈值,使用机器学习算法实现无阈值 KPI 曲线异常识别,针对关键容量指标、进行容量预测及告警、关联自动化平台实现自动扩缩容和资源回收。
四、小结
智能运维作为近几年新生的运维方向,其本质是用人工智能算法在多个方面替代人的判断和行为,其所面向的应用场景仍然与现有的运维场景相似,都可以根据事件的不同分为三大类,分别为针对历史事件、针对当前事件以及针对未来事件的智能运维。根据这三大分类也就形成了三大典型场景:一是分析类场景、二是检测类场景、三是预测类场景(故障自动化处置建立在上述三个场景之上)。
目前,银行业对智能运维的实践还处于探索阶段,许多实践领域需要数据、系统、算法与人类知识的结合,这不是一个机器算法完全代替人的实践,而是一个综合的工程化实践,需要对应用场景的深刻理解与各类工具的细致导入,人的经验不可或缺。因此,无论是银行业用户,还是IT供应商都应该从场景落地的角度出发去实践智能运维,以达到最佳的应用效果。
免责声明:市场有风险,选择需谨慎!此文仅供参考,不作买卖依据。