交通银行信息系统自动化运维的研究与实践
image 信息安全 10/12

一、行业现状

当前商业银行随着互联网的发展正经历着快速变革,各类业务创新和交易量呈爆炸式增长、信息系统规模及复杂程度迅速增长、云计算、区块链等新兴概念快速涌现,业务发展对IT的依赖性越来越强,同业之间的竞争已愈加趋向于产品质量和客户体验的竞争,行业监管愈发严格。对于商业银行信息系统而言,功能实现是根本,生产稳定运行是关键。

交通银行信息系统自动化运维的研究与实践

二、商业银行IT运维难点和痛点

1、商业银行信息系统的建设大都优先强调开发和管理流程建设,运维自动化建设工作则在其次,优先级甚至低于测试自动化建设;

2、业务的稳定性、健壮性要求越来越高;

3、业务系统对IT支撑的依赖性越来越强;

4、IT架构的复杂度不断提高;

5、IT部门工作职责越来越重;

6、人员不足难以应对繁重的运维要求;

7、IT事故直接影响客户使用责任重大;

8、运维成本居高不下,耗费大量人力物力财力。

日常运维过程中可固化的、例行且操作步骤复杂的工作项较多,要求操作人员具备丰富的技能。这部分工作如仍然依赖人工操作,如通过人工编写脚本,生产环境直接执行命令等,效率低、风险大、缺乏审核机制,过度依赖技术人员的技术能力和工作状态,稍有不慎就有可能出现差错。

因此既需要利用自动化工具代替人工快速高效地完成这些工作,也需要严格的流程控制确保固化和例行的工作按照正确的步骤执行不被遗漏,并能及时发现诊断过程中出现的问题,同时要尽可能支持各应用系统的个性化需求。

三、自动化运维体系

交通银行IT应用系统已实现全球一体化架构设计,建立了全球一体化运维体系。IT部门聚焦运维工作的新变化和新挑战,务实地面对运维自动化的迫切需求,扎扎实实打牢基础,搭建了自动化运维平台,并逐步实现规范化、自动化、服务化、智能化的运维体系,将平台作为一个产品去运营打磨,更好地实现IT服务管理和价值创造。

交通银行信息系统自动化运维的研究与实践

图1  自动化运维平台逻辑结构

将日常运维工作做成功能模块以服务的形式供各信息系统按需使用。

技术人员可以在平台办公端进行服务的配置和信息系统基础信息的管理,经过审核后即可提交生产使用。服务的输出结果可通过电脑终端、移动终端、电话等多种形式通知和展现。服务List包含了日常巡检、应用版本发布、数据文件备份、日志集中展示、验证、监控告警、变更、信息系统异常处理、定时调度、实时交易量监控展示等。

严格控制工作流程,通过实现各流程管理要求对运维操作进行管理,避免人为操作风险,保证生产运维工作合规、安全、可追溯。

同时对生产数据和自动化数据进行分析,并将分析结果作用于服务,包括交易运行报表、流程报表、自动化运行报表、审计报表等。例如对于应急启停和自动化验证作业流,平台自动出统计报表显示以作业流和系统为单位的调用情况,包括调用次数、成功次数、失败次数、作业流执行耗时、报错原因等信息,供技术人员和管理人员进行分析和调优。

四、自动化服务介绍

1.验证自动化。

自动化验证分自动化脚本和实时交易量场景两个模块。

(1)自动化脚本模块,在自动化运维工具平台提供了大而全的模板供技术人员按需挑选。 缺省检查项包括文件系统mount检查、进程检查、网络端口检查、WAS数据源连通性检查、日志文件错误码检查、网络端口连通性测试、文件更新检查、MQ队列管理器和通道状态检查、日志错误码检查等。

(2)实时交易量场景模块,自动化运维平台获取交易量管理平台的实时交易信息,由技术人员设置不同纬度的判断阀值、调用频率等参数,实现模拟人工对实时交易情况进行验证。

技术人员可以授权一线值班人员或24小时运行值班人员远程执行,也支持设置定时调度。自动化验证作业流执行结果将在平台展示通过消息推送的方式发至技术人员手机。

交通银行信息系统自动化运维的研究与实践

图2 自动化验证作业流执行平台

交通银行信息系统自动化运维的研究与实践

2.信息系统异常处理自动化 。

当信息系统发生异常时,无需技术人员到场可以通过执行配置的作业流一键完成故障信息收集、恢复、验证。

交通银行信息系统自动化运维的研究与实践

表1 信息系统异常处理对比

发现故障: 通过实时监控收到告警短信,并接到24小时运行值班电话通知。

故障信息收集: 例如CPU、内存、端口连接情况、进程、交换空间、数据库快照,网络连接,生成JavaCore、文件句柄使用情况、日志错误码信息等。为了不影响快速恢复的原则,整体故障信息收集时间控制在20秒以内。

快速恢复: 包括摘集群、suspendMQ、停SNA、停止应用、启动应用、恢复MQ、启动SNA、加集群等。

一键验证: 通过自动化验证作业流进行一键验证。

3.应用版本发布自动化。

技术人员事先在自动化运维工具平台自行配置版本发布的各种环节,将准生产环境预发布、备份、传输、解包、停服务、更新、启服务、验证甚至回退在同一个平台配置好固化下来。

主机系统更是实现了无人值守的全自动版本发布流程。通过自动执行特殊作业、主动监测CICS状态、主动判别DB2ENTRY资源、多进程多任务发布模式、设置启停联机交易场景、主动判断资源更新级别、精确控制同步触发停联机交易等手段,减少了版本发布人力成本,大大降低了操作风险,满足了全球一体化的版本发布需求。通过监控系统实时跟踪发布进程,准确判断发布过程对交易的影响,对安全稳定的发布起到显著的保障作用。

4.变更自动化。

规范变更的步骤,将变更的内容标准化,形成变更模版,基于模版编写变更的实际步骤,在自动化运维平台配置变更计划。确保变更在规定的变更时间窗口执行,以及变更严格按照既定步骤实施;确保变更与预期的目标和要求一致,并监控变更执行的结果。

变更自动化还有助于简化变更管理流程。如果实现了变更自动化操作功能,可能只需要在变更申请单上说明变更自动化功能执行的简单步骤,相关环节可大大简化。避免了手工执行变更的情形下,巨大的编写、审核的工作量。

5.巡检、日志集中展示和备份自动化。

各系统部署巡检脚本,每日定时自动调用,产生格式化结果文件在统一页面展示,技术人员无需登录生产即可查看详细巡检结果。巡检异常信息将会发送短信通知技术人员。备份自动化,对程序包、重要文件和数据库文件按需进行自动化定时备份。

6.实时交易量监控。

统一页面展示各系统实时交易量情况,除了展示整体交易情况,技术人员按需提维度信息需求进行配置。例如服务器IP、分行号、渠道编号、交易码等,并可以对不同纬度的交易情况设置监控告警,并具有历史信息查询及交易量分析预测功能。


简介:
一、行业现状当前商业银行随着互联网的发展正经历着快速变革,各类业务创新...
本文采集自互联网,如有版权问题请联系我们进行处理。
联系方式:system@shangyexinzhi.com
2000+知识点 7000+案例
商业新知助力数字化转型
下载