探索主机智能运维,加速银行科技创新

来源:经济师 发布时间:2020-10-17 点击:

 伴随着互联网金融时代的到来,以及在“数字中国”蓝图指引下,金融机构的业务形态都出现了爆发式的增长。企业要在流程、技术和人员管理三方面共同均衡发展,才能有效支撑数字业务目标,因此 IT 运维迫切需要进行实际转型,并引入 AIOps(智能运维)作为支撑 IT 运维转型的核心。

 提高运维产能和效率,保证金融信息系统安全稳定、持续运行,从而为客户提供便捷高效的金融业务服务,成为了每个银行的改革目标。如何结合分布式、大数据、人工智能、云计算等新兴技术,来提升主机运维的自动化、智能化,则成为大型机运维的新趋势。

 省农村信用社联合社借助 IBM Z Operations Analytics 等解决方案,积极探索智能运维,从传统的以人为核心的运维模式,逐步过渡到以科技为中心的运维模式。通过智能监控、机器学习、面向服务的运维管理,来为农商行提供稳定、安全、省时省力、快速响应,及可持续的运维生产力。同时,积极与开放平台协同联动,不断向“让银行大型主机的运维、银行数据中心整体运维实现智能化”的目标迈进。

 长 传统运维模式弊端显现,难以支持业务快速增长 农信成立于 2001 年 9 月 19 日,是全国农村信用社首家改革试点单位。在近 20 年的发展中,农信为支持乡村振兴促进农业持续增长、农民持续增收、农村经济社会持续健康发展作出了积极贡献,已成为省金融机构中网点覆盖最广、从业人员最多、资产负债规模最大的金融机构。

 然而随着互联网时代的到来,业务发展速度加快,传统运维模式的弊端日益显现,给农信和辖区各地农商行的科技部门带来巨大运维压力。

 1. 过于依赖个人经验,容易出错难排查。传统运维主要以人为中心,并借助多种监控和分析工具来进行,例如 Omegamon、RMF、CICSPA 等,多数运维都是人工操作,存在误操作性、漏操作率高,更新操作不及时,内容不一致等问题。一旦发生系统故障,需要人工操作多个工具来获取数据进行分析,故障排查定位时间过长,不利于业务快速恢复。

 2. 监控渠道不统一,影响业务快速恢复。随着硬件、平台、软件、数据的急剧扩张,农信出现了多层独立的监控渠道,从而产生大量的监控告警。这些告警信息来源不同,彼此之间关系依赖复杂,导致无用信息量剧增,给运维人员带来了很大的信息干扰,使他们无法快速定位问题,也无法快速恢复相应业务。

 3. 自动化工具缺乏,运维工作效率低下。系统部署、版本投产、维护变更、应急演练、健康检查、故障报告、事后监督等属于数据中心日常例行高频工作,需配套进行大量事前准备、事中分析、事后总结、任务跟踪等工作。由于缺乏自动化工具应用,均需要人工完成,不仅效率低,而且耗费了本就紧张的人力资源,对员工聚焦自身专业技术水平提升,以及中心运维能力提升,也形成了一定的制约。

 4. 运维数据分析不足,难以实现预测性监控。传统监控工具主要用来对系统运行状态和性能指标进行实时监控及告警,以及当发生异常问题时采集数据进行临时的问题诊断工作。但是由于没有很好的途径来利用采集到的历史数据,农信无法挖掘系统性能变化趋势,以及对系统状况进行前瞻性预测。此外,系统各个日志也没有得到很好的收集和聚合,现阶段一旦问题产生,诊断时需

 要从各个不同的系统中来回查看日志,无法实现快速定位。因此在实现敏感性、精细化和预测性监控上,还存在很大的提升空间。

 势 打造新型运维数据分析平台,探索智能运维新趋势 如何将主机与开放相结合,利用前沿的大数据处理、机器学习等技术高效地处理运维数据,提供更深更广的洞察力,为银行业务的高效稳定运行,提供强有力的运维支撑,这已成为智能运维的新趋势。

 农信主机运维团队在运维自动化、智能化方面等做了一些积极尝试。希望借助新技术逐步夯实运维基础,提升运维的自主可控水平,为农商行提供更新、更稳定、更高效的科技支撑能力,积极寻找保障业务安全稳定可持续的有效路径。

 经过探索,农信提出了一种新的运维数据分析平台的技术架构(如图 1),涵盖从运维数据产生、收集、存储、分析到运维报表展示等数据全生命周期,并且保障不同模块之间的有机衔接。

  图 1 运维数据分析平台总体架构

 1. 运维数据近实时统一全量收集,迈向智能化第一步。支撑业务层面交易的系统底层,有着大量的运维数据产生,这些数据对诊断系统运行状况、问题探测与分析有着重要意义。但传统的运维数据收集有着独立化、分散化、滞后性的特点,缺乏统一的数据收集工具进行近实时的数据收集,带来数据格式不统一,数据收集滞后等问题,进而导致分析滞后,故障检测滞后等一连串连锁反应。

 农信采用 IBM Z Operations Analytics(IBM IZOA)中的数据收集工具进行多源运维数据收集,可以近实时地将海量大机运维数据收集起来分发到不同的分析平台。同时通过界面交互自定义数据收集规则,包括收集的源、传输的目的地,以及需要收集的数

 据类型等,实现收集工具自动运转。这不仅可以有效地减小数据传输量,提高传输效率,降低成本,也使运维从数据收集层面就开始自动化和智能化。

 IBM IZOA 不仅可以对接 IBM 主机运维数据源,同时对接开放平台的 Logstash 组件,从而实现了主机运维数据向开放平台准实时转移的目的。进而可以实现充分利用开放平台先进的大数据分析技术和成熟的机器学习技术对主机运维数据进行更准确的智能分析。

 2. 运维数据智能分析,助力快速精准决策。运维数据分析是智能运维的核心,是智能运维的大脑。智能运维的成功与否很大程度取决于运维平台的数据分析能力。而 IBM IZOA 是一个容器化的解决方案,可以利用机器学习技术,对整体交易运行状况近实时地进行趋势分析,帮助运维人员更精准地对异常情况进行判断,更及时地采取措施。运维数据分析架构如图 2 所示。

  图 2 运维数据分析架构

 与传统的监控工具通过设置固定阈值来监控报警不同,IBM IZOA通过对历史数据进行近实时趋势分析。当出现趋势性发展异常的时候,便推送信息报警,使问题在发生之前得到及时处理。同时,IBM IZOA 会根据 300 多个交易相关的指标进行综合分析,将有高问题风险的交易事件由高到低排序,并提供相应风险级别的指标记录。运维人员就可以像医生看病一样,快速找到需要重点关注的病人,并看到病人各项检查的信息,从而做出快速而精准的诊断。

 大多数异常事务其实都是在系统运行高峰时期产生的,交易率非常高的时候,往往也会出现资源争用。如何在系统高峰时期,不

 能获得全量交易数据的情况下,还能很好地探测到交易异常,也是系统运维的一个难题。在 IZOA 分析平台中,每一个时刻都会为每一个事务的关键指标制定性能概要,同时利用机器学习的方法来识别下一个间隔的性能概要。性能概要可以被用来更新过滤规则,进而对交易事务数据进行动态采样。这样不仅节省系统空间,也能让系统在高峰时期专心处理关键业务,也不遗失失败交易的关键监控数据。

 3. 运维数据可视化,系统状况实时掌控。智能运维模式中另一个至关重要的环节,就是数据可视化展示。好的可视化展示可以让运维人员实时了解系统运行状况、业务运转情况等,帮助他们进行系统健康分析、问题检测、趋势预测、根因分析等工作,不仅可以大大减少人工分析的工作量,减少对具体经验丰富人员的依赖,更为运维自动化提供了强有力的支撑。

 农信采用 IBM IZOA 智能分析 Insight 用作运维数据可视化展示。该方案提供企业健康中心、交易健康中心、交易异常诊断中心、Workload 健康中心、系统健康中心、工具健康中心六个展示模块,使得运维人员可从业务层面、系统层面和工具层面三方面结合来分析问题、解决问题,保障银行业务安全稳定可持续进行。

推荐访问:科技创新 加速 探索
上一篇:准予税务行政许可决定书
下一篇:公务员面试自我介绍一分钟

Copyright @ 2013 - 2018 优秀啊教育网 All Rights Reserved

优秀啊教育网 版权所有