随着移动互联网、信息技术、物联网等技术的发展,数据呈指数级增长。其价值,就像是一座有无数宝藏的矿山,对数据的洞察力、提取力和分析力决定了能挖出的是钻石还是煤炭。数据刚产生的时候价值是最好的,及时分析处理,最能够体现它在应用上的价值。如果已经落地,那么在价值链上也衰减了,而且是指数级的衰减。所以,新鲜产生的数据热度最强。
数据中所蕴藏的价值就在于分析的过程。“热数据”带来无以伦比的价值,如何充分利用“热数据”是一个新生事务,也是大数据处理技术大有可为之处。
以银行为例,银行的实时交易、实时到账业务,需要知道每笔交易请求是真实的正常交易,还是一笔欺诈需求,这个数据一定是要实时产生。银行开展的信用卡秒批秒贷业务,也需要基于非常快速的数据计算、指标生成的能力。
以金融客户的行为追踪为例,金融客户的行为指标由客户的基本状态、交易环境、账户交易行为等多维信息构成,这些维度与时间结合,构成了一个客户或关联客户群的完整画像。基于这些指标,可以在很多业务场景对客户的真实性、可信度、交易意图进行管理和控制,包括申请和交易反欺诈、营销反欺诈、实时授信等。
许多业务场景需要基于单个行为对整体意图做出判断,并作出快速的处置。这些业务场景对时效性有高要求,尤其是在金融行业,由于业务复杂度较高,如何能够快速计算出支撑业务中的复杂指标已成为实时业务场景中的关键因素。
银行等金融机构的技术演进是跟随业务需求一起进行的。传统的基于数据库的数据处理技术、现有的Hadoop大数据处理体系之下的批处理(MapReduce)和流式处理技术(Spark Streaming/Storm等),由于各自的技术定位和设计目标,并没有对这类需求的针对性处理方法。
在整个金融行业对实时指标供给需求不断增大时,实现一个快速、高效、智能且自主可控的系统级方案,才能让数据不再是“过客”。
流立方是邦盛科技自主研发的流式大数据实时处理技术,在这一领域实现了技术突破。可以集成海量批式数据里面的知识,加上刚刚产生的数据流,结合二者进行实时分析,可以做到毫秒级,甚至可以做到600-800微秒级的分析。
邦盛科技基于流立方的大数据实时处理平台不仅存储原始的交易流水,也存储真正金融行业需要用的状态指标。这种状态指标的实时运算和实时供给,可以帮助金融行业快速做出实时性、时效性要求高,吞吐量要求高的业务决策。
在这套完整的产品生态里,流立方解决了从原始的流水到指标的实时计算,和指标的快速存储、快速读取问题。PipeACE来完成实时的指标采集和清洗问题,建模平台来完成模型的建立训练,双核实时智能决策平台来完成实时的判断,各司其职又相互协作,实现热数据价值最大化发挥。
以国内最大的银行卡收单机构银联商务为例,其日交易量近亿元,需对旗下800多万联网商户和900多万台POS终端设备进行实时风险监控。邦盛科技通过流立方和生态下的核心技术,实现了对各类业务监控的覆盖,每年减少亿元级别的损失。目前带有银联标志的银行卡刷卡时,从刷卡到生成小票的过程中,“流立方”在后台用13-17毫秒实时分析该笔刷卡是否是伪卡、盗卡或商户欺诈等风险。
再举一例,如今网络爬虫遍布票务、电商、政府、社交等网站,消耗了40%-60%的网络流量。邦盛科技基于机器防御技术和流立方生产的预算指标,形成一整套技术生态,帮助全国最大的票务平台,高峰期在每日1500亿次访问请求的情况下,通过生物离散型模型的实时计算能在0.4-0.8毫秒完成一笔互联网访问请求是生物体还是网络机器人的判断,有效识别了90%以上的抢票流量,同时使其业务系统服务器压力降为原来的10%。
此外,在智慧交通领域也大有作为。通过实时分析从预埋在全国各地的摄像头采集的车牌信息,配合地理位置信息服务及基于地理信息系统的最短交通距离计算,实现实时套牌车信息抓取,为打击违法犯罪服务提供帮助;通过实时分析交叉路口双向的车流量信息,实时控制每个路口的红绿灯、智能变换潮汐车道及可变车道,从而大大提升城市的通行效率。
基于批式大数据,可以不断学习新的知识,积累新的经验。然而在应用这些知识和经验时,流式大数据更能够极大限度地挖掘“热数据”的潜在价值。因此,在采用“事中”甚至“事前”模式实现感知、分析、判断、决策等功能的智能系统都需要流式大数据实时处理平台的支撑。