金融行业在业务运营中会产生大量纸制凭证,传统的业务处理方式存在着凭证保存成本高,手工录入、翻阅,效率低,无法进行历史交易统计和关联交易分析等种种不便。随着金融电子化、流程银行及集中作业中心等理念的深入推广,许多金融机构建设了票据影像集中管理平台。这是一个集档案录入、图像处理、智能识别、数据核对、统计分析、海量存储、精确查询于一体的计算机辅助管理系统。此平台为其它业务系统提供影像管理方面的业务支持,极大地提高了工作效率,降低银行自身的生产运营成本和管理成本,同时提高客户和员工的满意度。
1、海量票据影像数据的管理难题
idc研究表明,金融行业未来80%的数据主要呈现为影像、照片、音频、视频等非结构化数据。 从2010年到2020年,非结构化数据将以44倍的发展速度迅猛增长。
票据影像数据为银行业务流程中产生的扫描文件、照片等业务凭证,随着业务的发展,总体数据量增长迅速。票据影像数据与传统的结构化数据有很大的不同,其具有以下特点:
文件小
数量大
空间占用大
调阅频率与生成时间有关
总体上讲,银行票据影像系统的数据特点是一个典型的“海量小文件”场景。
从监管上讲,在银行业务流程过程中产生的数据是交易的重要凭据,应当长期保存;系统要对生产系统中的票据影像文件进行备份,保证生产系统数据损坏后能够快速恢复;对业务发生达到一定时间,访问概率低的票据影像数据应当实现归档,以降低对生产存储的占用;当业务需要时,譬如在司法场景下、客户投诉、业务调取场景下,能够迅速地查询到已经归档的票据影像文件。然而,票据影像系统数据的文件小、数目多、总量大的特点,使得数据存储与数据保护存在诸多技术难点:
备份时间长: 针对文件系统进行数据保护时,首先需要对全部文件进行扫描,当文件数量过多时,扫描时间会非常长。其次,需要逐一定位文件,拷贝文件,当文件海量时,备份时间也会非常长。这使得客户在指定的备份窗口内,无法实现数据备份;
离线保存后文件调阅麻烦: 如果将长期不用的文件离线保存至光盘或磁带,需要人工操作。调阅时,必须遵守一系列业务流程进行。如由业务发起调阅请求,科技人员受理,找到相应的介质,并将离线介质回迁至生产存储进行查询,查询后还需要进行删除;
数量逐年增加: 随着银行业务的拓展、网点数目不断的增加、上线时间的变长,数据量成显著上升的趋势。这导致生产系统容量需求不断增加,需要不断的扩容。
以某城城市商业银行为例,其票据影像系统上线3年,文件总数目达8000万,数据总量已达10tb,且以每年2~3tb的速度增长。大量的票据文件很快消耗了主存储系统的空间,面临着对昂贵主存扩容的压力。更为严峻的是,业界目前主流的数据保护方案,都没有充分考虑到票据影像“海量小文件”的特点,只能管理约百万级的文件,备份速度在每小时几十gb,10tb的数据备份需要数周时间。但实际环境中,是不可能有这么长的备份窗口。因此,所有票据影像文件根本无法完成备份。
近几年,我国有上百家银行逐渐建设了自己的票据影像系统,由于票据影像数据管理的技术难点,几乎都没有实现数据保护,系统长期处于高风险运行状态,一旦生产系统出现故障,后果不堪设想。
2、针对票据影像的业务特点,我们认为在票据影像数据管理上需要满足以下需求:
非结构化数据量巨大,每天产生大量凭证、票据、报表、档案以及其他非结构化数据;
非结构化数据直接关系到核心价值,包括信用、法规遵从、风险管理、客服等;
非结构化数据涉及诸多业务领域,并存在大量业务间的传递和共享需求;
非结构化数据的操作常常是业务流程的重要环节,直接影响业务流程的效率;
非结构化数据通常有很强的生命周期管理和安全方面的需求;
票据影像数据是交易中的重要凭证,必须满足监管部门对系统可靠性及数据保护的监管要求,实现千万级数据文件在给定的时间窗口内实现备份是基本要求;
对于已经归档的票据影像文件需要调阅的情况下,在一堆归档磁带或光盘中人工搜索文件工作量是无法想象的,必须提供“自动化”的、快速的归档文件调阅手段;
长期不用的票据影像文件需要从高端生产存储迁移到成本更低的近线存储,减少高端存储的扩容费用; 数据的备份与恢复、归档与调阅、数据校验等数据管理操作需要实现“自动化”, 降低运行与维护的难度,减少人力投入。
1)金融影像数据管理现实挑战
新业务和监管需求下,内容数据存储量大大增加,现有集中式架构面临扩展;
庞大的历史影像数据需要挖掘新的价值,需要实现实时的查询和调用;
现有内容管理架构需要专用存储,成本高;
内容数据和元数据管理不能统一管理,运维难度大、成本高;
内容数据分散在不同业务系统,难以进行整合和统一管理;
集中式架构难以实现多区域中心的数据统一管理;
传统海外内容管理软件产品厂商支持不到位,产品线转授 技术停滞。
2)影像数据管理需求变化
3)影像数据集中化统一存储管理
3、金融海量影像管理核心技术
新一代金融海量影像数据管理需要在以下五个角度对传统架构进行重新定义:
分布式架构
非结构化数据管理
多模式数据处理
标准化数据访问
数据可靠性
1)分布式架构
弹性扩容
性能线性增长
数据可用性
有效降低tco
提升开发运维效率
2)非结构化数据管理 -- 分布式对象存储 ---- pb级别
分布式对象存储,通过分布式架构,结合平台化的、可扩展的基础内容服务模块,解决了大中型企业存储、管理和使用海量非结构化数据所面临的技术挑战和痛点 。
3)多模式数据处理 ---- 数据统一管理
为了实现金融业务数据的统一管理和数据融合,新型数据库需要具备多模式(multi- model)数据管理和存储的能力,以满足应用程序对于结构化、半结构化、非结构化数据的管理需求。
多模式数据管理能力,使得金融级数据库能够进行跨部门、跨业务的数据统一存储与管理,实现多业务数据融合,支撑多样化的金融服务。
4)标准化数据访问 ---- 快速接入、敏捷开发
新型分布式数据库除了需要对结构化数据提供标准sql语言的支持,还需要针对半结构化、非结构化 数据提供如json、对象存储管理等访问能力。标准化数据访问能力既满足了多类型数据管理的需求, 也为企业有效提升了开发与运维的效率。更为重要的是, 满足各个业务系统快速接入的需求。
批次管理
版本控制
元数据管理
检入/检出
自定义标签
模糊搜索
5)数据可靠性 ---- 多副本高可用、两地三中心容灾
金融级数据库需要具备数 据的高可用,还需要实现 数据容灾和双活;
数据容灾与双活是金融企 业数据安全的最后保障。
加米谷大数据行业大数据应用案例分享:融海量影像数据管理。有兴趣的童鞋请关注加米谷大数据,后续将持续分享大数据技术及相关应用案例。需要大数据技术资料的童鞋可以关注本头条号后私信获取。