当今世界充斥着各式各样的风险,传统的业务管理方法和流程在遭遇灾害事件时常常不堪一击。在金融领域,重大灾害事故屡见不鲜,造成了重大社会影响,是威胁金融服务的洪水猛兽。随着银行业务和机构的不断扩张,信息化进程突飞猛进,如何同步进行灾备建设,保证金融安全稳定发展,是商业银行经营管理者们共同关心的课题。
一.防范于未然,呼唤业务连续性
当今银行的日常业务运营高度依赖于信息系统,信息系统的故障极易影响到银行的正常运转,甚至造成经济损失或社会影响。在这种业务与信息系统的紧耦合模式下,一旦发生突发灾难或恶意攻击,首要保障的就是用户金融数据的安全和金融服务的延续,信息系统的容灾能力从未显得如此至关重要。据美国明尼苏达大学对灾害所造成的影响分析显示,发生突发灾难后,如两星期无法恢复信息系统,75%的公司业务将停顿,43%的公司将无法再开展业务;没有实施灾难备份的公司,将在灾后2~3年破产。
时势造英雄,业务连续性在此情形下应运而生。业务连续性指的是企业在遭到意外突发情况下,快速恢复业务运行的能力,它来源于灾备恢复技术的发展,更是灾难恢复的最终目的。在这种背景之下,业务连续性计划的理论和方法得到了广泛的研究和重视。严格来讲,业务连续性是一个一体化的管理过程,通过这一过程,可以识别威胁组织机构的潜在风险,并提供一个指导性框架来建立组织机构的恢复能力和有效应急响应能力,从而保护利益相关者的资产,组织机构的信誉、品牌及其创造价值的活动。
商业银行重视业务连续性,主要推动力有以下几个方面:包括有兑现服务承诺(SLA)、满足法规要求、保护企业资产等。近几年,我国对业务连续性管理及其相关的信息安全、应急管理、灾难恢复等领域相继发布了监管规范和指引,如《银行业信息系统突发事件应急管理规范》、《商业银行信息科技风险管理指引》等。尤为引起注意的是,2011年12月底,中国银监会发布《商业银行业务连续性监管指引》,明确商业银行应当将业务连续性管理纳入全面风险管理体系,建立与本机构战略目标相适应的应急管理和可持续性管理体系。
业务连续性也是激励商业银行IT科技发展的动力之一,近十年来,灾备体系建设始终是国内商业银行信息化建设中的重大课题之一,但是,灾备建设的技术复杂、投资巨大、有备无换等难题也一直困扰着同业的IT建设者们。首先,大型商业银行的IT系统通常采用大型机和开放平台的混合架构,系统规模庞大,技术复杂,大规模的系统切换没有成熟的解决方案。其次,灾备体系建设投资巨大,但是备份中心的IT资源,尤其是投资占比最大的大机资源,主要用于开发测试或处于闲置状态,没有得到充分的利用。最后,灾备建设成果需要实地演练进行验证,而真实环境下的验证往往伴随着巨大风险,商业银行的灾备系统往往处于“有备无换”的状态,其有效性没有经过真实切换的验证。
如何破局?路在何方?经过艰苦的自主研发和反复测试验证,交通银行的同城双中心主机、开放一体化解决方案为上述问题提供了答案。
二.同城双中心,引领灾备新潮流
交通银行是中国五大国有大型商业银行之一,机构遍布国内250多个城市,营业网点数达到2600多个,且在中国香港、台北、澳门、纽约、东京、新加坡、首尔、法兰克福、悉尼、伦敦、旧金山、卢森堡等地设有分(子)行。交通银行已经走上了国际化、综合化的道路,业务处理模式也正向全球24小时不间断运营方式发展。
从2008年至今,交通银行在同城灾备及双活体系建设方面连续取得了突破性的进展。2008年7月,交通银行在国内同业中首次实现生产系统同城灾备切换运行和回切。2009年8月,在国际同业中首次实现70公里距离的大型机系统同城双活运行,使得核心、贷记卡系统可以在70公里距离的两个中心之间平滑分流业务。2011年11月,在国内首次实现分钟级的同城灾备切换运行。2012年12月,在国际同业中首次实现70公里距离的开放平台DB2系统同城双活试点运行。2013年-2014年,同城双活架构推广到二代支付、个人网银等关键业务系统。
交通银行在灾备体系建设方面进行了深入的创新实践,突破了IBM GDPS Multi-Site技术的限制,研发了若干具有自主知识产权的关键技术,比如大机系统远距离(30公里以上)双活架构FDAA和交易智能路由分流技术BJD,成功实现关键业务系统在张江和漕河泾(光纤)距离70公里的两个中心之间的同步运行,使得传统意义上的同城备份中心转变为生产的副中心,开创了同城灾备体系建设的新模式。
在大机系统双中心运行的基础上,交行于2011年首先利用海外行业务系统实现了分钟级灾备切换。参与切换的海外分行关键业务系统包括:海外行核心业务系统(GEMS)、卡交换系统(GCPS)、网上银行系统和企业客户信息系统(ECIF)等。其中GEMS系统和ECIF系统的数据库运行在大型机上,其余的业务系统及ECIF的应用服务器端均运行在开放平台(IBM P6小型机系统)上。
分钟级灾备切换效果达到了预期目标,FDAA架构下的计划内灾备切换和回切,切换和回切分别用时13分钟和12分钟,切换过程对业务完全透明,没有交易失败或中断的现象。FDAA架构下的计划外的灾备切换用时4分钟,切换过程核心系统交易中断4分钟。无论计划内还是计划外切换,RPO均为零,表示灾备切换不会有任何用户信息丢失,切换全过程自动、安全、可控。
为了缩短切换时间,减少切换对人工的依赖,交行自主开发了大规模灾备自动化切换控制技术,集中控制平台集中式管理所有生产分区的切换脚本,根据灾备切换的总控流程和上一个脚本执行的结果(返回码),采用串行、并行、同步等程序逻辑,调用相应生产分区及脚本的执行。整个切换过程,从关闭操作系统到应用数据比对及检查等,全部实现了自动化,大规模集中控制切换技术大大提高了灾备切换任务的并行处理效率,缩短了灾备切换的时间,也避免了人工误操作的风险。
三.保障高可用,金融创新结硕果
交通银行的同城双活一体化建设,不仅仅是技术的创新,更是理念的革新。交行成功地把传统意义上冷备的灾备中心转化成了可以充分使用的生产副中心,在保障高可用、提高业务连续性方面取得了丰硕的成果。具体来讲,可以概括为“等级保护最高,创新实践最早,知识产权自主,安全效益兼顾”。
等级保护最高
交通银行大机、开放一体化的同城双活运行不但提高了生产系统的可用性和弹性扩展能力,也提升了同城备份系统的灾难恢复能力,使得交行同城备份中心的灾难恢复等级达到国际和国家标准的最高等级 。实现了灾备的随时可切换,计划外的切换达到了分钟级,将灾备标准提升至国家标准最高等级,对于交行的拓展业务、提高服务水平、提升综合竞争力具有重要意义。
交行在灾备建设中取得的成就,引起了海内外的瞩目,对于国内同业未来灾备建设路线产生了深远的影响。据新华社内参报道,交通银行 “改变了长期困扰我国金融行业灾备体系建设有备无换的局面,标志着国内商业银行的灾备体系建设跨入国际先进行业”。 IBM美国实验室的多位专家,包括GDPS Multi-Site的首席架构师、IBM存储实验室主任等,先后到交行调研交流,对交行的双中心运行给予了高度的评价。IBM公司出具的评价认为交行解决了交易性能随距离下降的难题,实现了大机系统远距离双中心运行的突破,在国际上处于领先地位(附件3)。2010年8月,时任银监会主席刘明康亲临交行数据中心观摩了大机生产系统双中心切换运行,对交行双中心运行的成果给予了充分的肯定和认可。
创新实践最早
交行在灾备体系建设的过程中,屡屡创下多项国际国内的“第一”。
2008年:在国内大型商业银行中首次实现生产系统的真实灾备切换运行
2009年:实现大机远距离同城双活运行,到目前为止,交通银行仍是国内唯一一家在生产系统成功实现大机系统远距离双中心运行的商业银行。根据IBM公司的反馈,交行也是国际上第一家实现大机系统远距离(30公里以上)双活运行的单位。
2011年:在国内同业中首次实现分钟级的灾备切换运行,分钟级的灾备切换运行及回切在国内商业银行中也属首次。
2012年:实现开放平台DB2系统远距离同城双活运行,不但在国内,在国际上也是第一个远距离(30公里以上)的DB2数据库系统同城双活实施案例。
知识产权自主
交通银行通过自主创新,提出大胆假设,经历反复的测试验证,终于实现了大型机系统和开放平台一体化的远距离同城双活运行,并在双活运行的基础上成功实现了分钟级的灾备切换运行。在项目建设过程中,交行研发了多项具有自主知识产权的关键技术,解决了大型机及开放平台应用领域的重大问题。
交行提出了一种新的远距离大机系统双活运行架构FDAA(Far-Distance Active Active),通过自主研发的交易自动映射识别技术,于2009年8月实现了大机系统在光纤距离70公里的张江和漕河泾中心之间的同步运行,解决了大型机交易性能随光纤距离的延迟而急剧下降的难题,先后获得了中国国家发明专利和美国发明专利授权。
接着,交行将FDAA同城双活架构迁移到开放平台,自主研发了基于JDBC的交易智能路由分流技术BJD(BOCOM JDBC Driver),于2012年12月实现了开放平台DB2数据库系统在光纤距离70公里的同城两个中心之间的同步运行,实现了SQL语句和存储过程的智能分流处理,使得DB2数据库系统集群可以扩展到远距离的同城双中心运行,相关技术已经同时申请了中国和美国专利。
提出了大规模系统灾备切换的集中控制技术,在大机、开放系统一体化运行的基础上,实现了分钟级的同城灾备切换运行及回切。其中大规模的灾备切换集中控制技术获得了2项国家专利授权。
值得骄傲的是,以上在主机、开放、自动切换控制领域的关键技术,均具有自主知识产权,共申请专利10项,目前已经获得3项中国国家专利授权和1项美国国家专利授权,其余申请也在受理和公开之中。
安全效益兼顾
交通银行同城双活的创新实践为商业银行降本增效,充分利用备份中心的闲置资源分流业务提供了可资参考的范例,推动了行业的进步和发展,取得了显著的社会经济效益。
关键业务系统的双中心运行提高了生产系统的弹性扩展能力和可用性。在实现大机系统双中心运行之前,交行几乎每年都要进行大机系统CPU容量的扩充。在实施双中心之后,可以分流50%以上的生产交易和40%的CPU资源,累计节省的CPU升级扩容费用超过4个亿。开放系统双活运行使得备份中心的服务器资源也可以用于生产运行,降低了投资成本,单以交行目前已经完成推广的二代支付、新一代个人网银等计算,项目节省的小型机采购费用就超过800万元,项目的进一步推广将获得更大的经济效益。
提高了生产中心大机系统的CPU利用率。以生产中心4台大机,备份中心2台大机为例,为了防范单机故障,一般情况下,生产中心要预留25%的CPU冗余资源。在双中心架构下,备份中心的大机可以作为生产的延伸,生产中心每台大机的CPU利用率可以从75%提高到84%,使得生产中心的大机CPU资源得到充分的利用。
提高了生产系统的可用性和防范风险的能力。在双中心架构下,大机系统的计划内切换可以在较短的时间内完成,对业务的运行完全透明;计划外切换业务的中断时间降低到10分钟之内,大大提高了生产系统的可用性。
交行实现了大机系统双中心运行的常态化,在交易的低谷期,大机系统采用Active-Warm模式运行,在交易的高峰期(如:国庆、元旦、春节前两周)或资源紧张的情况下,则将大机系统切换到FDAA模式运行,缓解张江中心的CPU压力。
在大机双中心运行实施之后,交行的银联卡交易系统成功率在15家商业银行中的排名从2009年的第5上升到2011年的第1。分钟级灾备切换运行为交通银行业务的安全、稳定运行提供了坚实的保障,对于维护国家金融安全和社会稳定具有重要意义。