环球创业频道导航栏_fororder_WechatIMG203

    滚动   |   环球快讯   |   环球专访   |   政策解读   |   会员页面   

苏景志:云原生湖仓一体 激活数据产业新动能

2022-05-10 16:57:31  来源:中央广电总台国际在线  责编:郑思雯

  国际在线消息:5月10日,由中国软件行业协会主办的2022中国软件产业年会举行,大会以“数字经济新时代--软件产业赋能高质量发展”为主题,盛邀产业主管部门领导、两院院士、京津冀行业主管部门领导、国内外软件领域知名专家、领军企业负责人、行业组织和机构代表等业界翘楚及权威媒体,传递政策之声、洞察产业之势、研究发展之策。

  大会现场,北京偶数科技有限公司副总裁苏景志致辞。

苏景志:云原生湖仓一体 激活数据产业新动能_fororder_苏志景.JPG

  以下为实录全文:

  苏景志:尊敬的各位嘉宾,大家下午好!

  我是来自北京偶数科技的苏景志,今天跟大家分享的题目是云原生湖仓一体方案,激活数据产业新动能。

  北京偶数科技,在数据领域一直是默默耕耘。经过这几年的努力,我们也取得了一定的成绩,我们一直秉持着用户至上、技术为本的理念,以优质的产品和服务,来回报市场客户。

  偶数科技成立于2016年12月,它是由ApacheHAWQ数据库顶级项目创始人和团队创立的,之后我们又获得了金山云、腾讯互联网巨头的加持,现在估值已经超过10亿,在云原生赛道上一个准独角兽的企业。公司的技术实力非常的精深深厚,很多研究成果已经在国际顶级学术会议上得到了发表和录用。

  偶数科技最核心的产品是新一代的云原生数据仓库。这个产品充分的利用了云原生的存算分离、弹性扩展的架构优势,目前可以说是世界上最快的数据库引擎之一。以新一代偶数DB为核心,又构建了机器学习的平台、数据管理平台、数据分析平台,为完整一体的产品矩阵。我们支持主流的公有云部署,也支持私有云的方式,支持混合云的方式,可以为用户提供海量统一数据存储的方案,数据的秒级分析,也可以提供国产化替代的整体解决方案。

  偶数科技是高新技术企业,同时也是北京市专精特新企业。作为一个软件企业,我们在软件成熟度方面,已经获得了CMMI5最高等级的认证证书,同时我们的产品也有相应的涉密认证、安全认证等等,这是公司获得相关的荣誉。2021年数据库产品,入围了中央国家政府机关采购的名录,同时也全面响应国家对信创的要求,我们是工委会成员单位,也和主流的操作系统、主流的现在国产的CPU架构、主机厂商都进行了相关的兼容适配的认证。

  耕耘了五年,偶数科技现在在国内顶级的金融领域、电信、电网、能源,IT要求很高,而且对性能要求非常高的客户里面都有很多的应用,我们简单列出了几个。同时也说一点,在疫情当下,2020年在武汉湖北的抗疫攻坚战支撑当中,偶数科技的数据库也发挥了应有的作用,贡献了我们的一份力量。

  第二部分给各位领导汇报一下实时湖仓一体解决方案。

  提到湖仓,先把数据仓库与数据湖的概念简单做一个阐释,数据仓库主要是要解决以前比较规范成熟的问题,数据在进入仓库之前,要进行规范化的清洗等整理工作,如果不满足要求,根本就进入不到仓库里面来,从此可以保证数据的质量和规范性。而数据湖本身面对的问题有所区别,它的定位更多要解决一些未知的问题,可能存储的时候我们还不是很清晰数据库接下来怎么分析、怎么利用,但是此时此刻首要要把灵活、海量的数据先记录下来,后续读取的时候再建立一种结构,读取型的支持,复杂的大数据的分析、查询。所以一句话,数据湖是读取型的,而数据仓库是写入型的。

  从上世纪80年代,数据平台经历了四个阶段的发展,从最开始的数据库的阶段,Oracle是典型的代表,都是共享存储的专用架构、高端的硬件设备独占。在处理交易性业务的时候,性能比较好,但是一旦到了大规模集群的时候,性能有了很大的瓶颈,超几十台之后很难支撑。第二个阶段,随着分析型需求的逐渐扩展,出现了单独的分析型的数据库,也就是称之为数据仓库。数据仓库以MMP架构无共享存储架构为主,走过了专用的硬件到普通的X86支持的结构,性能得到了很好的提升。但是也有一个问题,就是在数据类型的支持上,有着明显的不足。随着互联网的应用大规模普及,需要一种面向更大规模数据的、更多类型数据的、一种更多维度数据的大数据场景的解决方案,进入第三个阶段就是以Hadoop开源结构为基础的数据湖和数据仓库并存的阶段逐渐到来了,数据中台的概念在各个企业里面得到了比较好的普及。但是Hadoop扩展性非常好,可以达到上千节点,但是在性能处理上,无法替代原有的数仓功能,因此这个阶段使这个类型的架构并存,这样给用户带来架构的复杂度,也会带来软件硬件成本急剧上升。到2019年之后,随着云技术的普及和广泛的应用,随着元原生技术进一步的发展,逐渐进入到湖仓一体的阶段。

  刚才提到数据湖与数据仓库各有各的定位,有各自的优点与不足,都非常突出。很自然的想到是不是把底层打通一下就会很好了,当然很多企业已经开始这样做了,已经做了很多的尝试。这样做的好处,可以充分利用原有的设施,可以利用已经搭建的Hadoop数据湖平台,存储海量的原始数据。同时把原始数据经过预处理之后,再导入到数据仓库里面进一步的进行处理,完成用户的一些报表、查询实时性比较高的应用。这可以看作是湖仓一体的最初雏形阶段,有很大的意义,但是我们可以看到数据湖与数据仓库,还是在各自一体的阶段,他们之间只是有联系,但是架构并没有统一,复杂度的问题、成本高的问题,依然没有解决。

  从湖仓各自一体,过渡到真正的湖仓融为一体,偶数科技在这方面提供了比较好的解决思路和方案。真正的湖仓融为一体的方案里面,是以新一代的云原生架构的数据仓库为基础的,为什么原来数据湖会出现,因为数据仓库解决不了新型数据的问题,解决不了海量数据的廉价统一存储问题,但是随着技术的进步,新一代云原生仓库完全可以解决这个问题,就可以在一个统一的平台上,一个统一的数据仓库里面,把用户的数据完完整整的保存一份在底层,不需要再进行复制,不需要再进行倒换。在底层的数据统一之上,进行统一的加工处理,对用户不管是BI,还是报表业务,还是像数据探索类的业务,都可以提供支撑与服务,真正简化了数据架构的复杂度,也极大降低了成本。

  我们总结湖仓真正一体的方案,应该具备以下六个特点:第一,极低成本实现数据的存储;第二,提供高性能的数据计算引擎;第三,具有良好的可扩展性与敏捷性。第四,事务一致性保证数据仓库优良特征,在新的方案里面得到无损耗的保证。第五,统一平台支持多样化的工作负载,无论是批处理、即时查询,还是AI、BI都可以在一个平台上统一负载支撑。第六,实现数据治理和数据高质量的保证,因为一份数据,相互之间的冗余减少了,互相不一致性自然就大幅度的降低了。只有满足了以上这六个特点,我们认为才是真正的湖仓融为一体的解决方案。

  我们提供的首先是存储分离,我们有统一的存储引擎,可以对接各种不同的可插拔的存储方式,像大家常见的S3块存储,像大数据里面经常用到HDFS,还有表存储的方式都可以很好的兼容支持,在此之上按照构建非结构化的数据区、结构化的数据区,底下数据平台打成一整块,不需要分割。上边的计算平台,有非常良好的虚拟计算集群技术K应,可以按照业务的需求构建不同的集群。需要强调是,集群每个计算节点,都可以对节点进行访问,没有障碍,只要符合规则、符合要求就没有问题,这样的话在底层数据是完整一块,上边计算集群、弹性伸缩、按需分配,需要的时候就充分使用,不需要的时候及时释放,共享给其他用户使用,这样架构简洁,而且效率极大提高,有效降低用户的使用成本与维护成本。

  这是偶数湖仓一体平台的技术总体架构,大概分为三个层次、四个部分,最下面是统一的数据采集平台,是由偶数技术平台提供的功能,像批量采集、流失采集、数据文件的入库都在这一层实现。中间统一存储计算平台,包含实时数据处理集群,存储计算的集群,也包含了AI自动学习的集群。在上层服务能力开放层,我们支持数据工厂、数据服务,包括资源服务,它们都可以以API的方式向上层提供多用户的开放接口。整个平台提供统一的平台管控,提供统一的平台治理结构,能够更好地支撑上边的像精准营销、风险控制、运营优化、自助查询、监管报送等应用场景。

  这是我们存储架构具体的细节,不再赘述。

  说到实时,业界里面最常见的是Lambda和Kappa,分别在互联网与传统里面有广泛的应用,这两个架构优点很明显,缺点也很突出。比如说Lambda两套数据一致性难以保证的问题,比如说Kappa 对Kafka大量依赖,Kafka有原生的,他们的性能有待提高。在按需智能需求出现之后,偶数科技于2021年已经5岁,偶数科技我们自己命名Omega全实时数据处理架构,这个架构包含两个大部分,一个是流数据的处理系统,一大部分是实时的数仓系统,我们融合了Lambda架构和Kappa架构,对流数据良好的支撑,同时也增加了按需实时智能与离线实时智能的能力,同时对变更数据的实施试图,也提供了非常良好的支持。

  这是Omega架构具体到实时的时候,整个非常简洁,层次非常清晰,用户使用也会非常方便。如果一旦有数据的问题,需要去追溯,需要去追查,也是很方便、很容易的。

  最后花2分钟向大家汇报一下三个典型案例的分析。这是东方证券东方数仓的项目,东方证券也是国内大中型证券企业,数据量也非常大,现在以我们新一代云原生仓库偶数DB为基础,构建东方证券统一的数据平台,替代了它原有的数仓,同时也满足当前国家对金融信创相关的要求。建设银行是偶数科技非常重要的案例和客户,我们基于偶数新一代湖仓一体化方案,提供的建行湖仓一体系统里面,在保证上千级别节点可扩展性的情况下,支持秒级在线的动态扩容。而且高性能的CMID执行器与优化算法,使得我们能够在国际标准测试方面,比Greengrass快10倍,这是整体架构。因为我们跟建行合作非常好,建信金科作为具体承接的支撑单位,非常认可偶数科技的实力,单独跟偶数成立高性能大数据处理技术实验室,以后会合作,内部做数仓的建设,同时合作对外的中小机构、政府的项目合作推进。最后是浙商行分布式数据平台,这是我们一个重要的案例。别的效果就不再赘述了,简单说一句,原来跑批任务完成的话,到第二天下午2点就可以结束,上了我们平台之后,每天早上8点任务可以审批完毕,可以给领导呈现结果。

  这是我分享的主要内容,最后偶数科技也非常愿意与业界同仁一道,共同努力,把我们的数据产业、软件产业,能够做大做强,来贡献我们应有的力量。谢谢!

  (声明:所有会议实录均为现场速记整理,未经演讲者审阅,国际在线登载此文出于传递更多信息之目的,并不意味着赞同其观点或证实其描述。)

分享到: