打印本文 打印本文  关闭窗口 关闭窗口  
浅析数据湖和数据中台的关系
时间:2022/3/9 16:46:41

一、那些让人眼花缭乱的概念

不知道大家有没有发现,这几年的数据领域有好多的概念,例如:大数据、人工智能、物联网、边缘计算、数据治理、数据湖、数据中台、数据可视化……。这说明数据这个领域真的很“火”,可谓是“百花齐放”!

新技术、新概念的出现,为企业业务和管理的创新,社会经济的发展,注入新活力,激发新动能。很多企业都认识到了数据的重要性,数据是企业的重要资产,成为了企业的普遍共识。这激活了企业创新和改革的动力,加速了企业向互联网化、数字化方向的转型,提高了企业跨行业、跨领域的学习能力,推动了整个社会的数字化发展。纷至沓来的新概念在推动社会的数字化发展的同时,给相关领域的从业人员带来了一定的困惑。一个新概念还未来及吸收和消化,新新的概念又来了。再加上,一些“别有用心”的厂商不遗余力的“忽悠”和“炒作”,导致了很多人的迷茫困惑、心浮气躁!有的人一味追求新概念、新技术而脱离了业务、脱离了实际,认为新概念(例如:数据中台)能够“包治百病”,一些企业花费很大的成本买来数据中台之后才发现:在人家那儿是治病的良药,而到了你这里却成了“埋人的深坑”。所以有人叫苦道:“中台搞了2年,项目叫停,CIO被裁!本以为是个送分题,没想到是个送命题!”面对着纷繁芜杂的新概念,面对着浩瀚的数字化海洋,面对着“厂商们”的炒作,不论是企业,还是我们这些IT从业人员,都需要保持好初心,坚守初衷。不要看:“人家都【数据中台】了,你还在做数据报表,人家都【数据湖】了,你还在搞数据仓库,人家都【人工智能】了,你还在抽数、取数”!这里说明下,我并不是一个顽固的守旧派,也不是排斥新概念、新技术。反而,我也非常喜欢研究一些新概念,也非常支持大家对新的概念、技术进行探索和实践。但要强调的是,企业也好,个人也好,在使用引进或使用一个新概念和新技术的同时,不要忘记问自己:我们使用它们的初衷是什么?我们的本质需求是什么?要用这些新的概念和技术来帮我们解决什么问题?坚守初心,不被繁杂的概念所迷惑,才能找到适合企业或个人的数字化转型之路!

二、数据湖和数据中台的概念

我们先说说数据湖数据湖(Data Lake)概念最早是2011年由CITO Research网站的CTO和作家Dan Woods所提出,其比喻是:如果我们把数据比作大自然的水,那么各个江川河流的水未经加工,源源不断地汇聚到数据湖中。数据湖的权威定义(来自维基百科):数据湖(Data Lake)是一个以原始格式存储数据的存储库或系统,它按原样存储数据,而无需事先对数据进行结构化处理。一个数据湖可以存储结构化数据(如关系型数据库中的表),半结构化数据(如CSV、日志、XML、JSON),非结构化数据(如电子邮件、文档、PDF)和二进制数据(如图形、音频、视频)。数据湖概念的提出时间是仅次于大数据,可以说是一个很老的概念了。笔者认为数据湖本质上就是一个大数据平台,它随着大数据的技术不断完善,目前成熟的数据湖体系已具备了大数据存储、大数据处理、机器学习、大数据分析等等能力。国外公司好像对数据湖情有独钟,像亚马逊的AWS、Informatica、IBM、微软等公司都有数据湖的相关产品和解决方案。而在国内,数据湖到底是个啥?他有啥用?时至今日依然存在着不少的争议。正如来自网友 @流风(网名)的疑问:绝大部分企业的需求数据仓库基本都能满足了,只有少部分企业才能用到数据湖或大数据平台,好多企业都被忽悠上了大数据平台,光有个架子,却不知道能用来干嘛。对非结构化数据的处理,大多数企业本身除了数据存储之外,几乎不知道该怎么用。甚至大多数据企业连结构化数据都还处理不好,数据意识还停留在起步阶段。@流风(网名)所说的是事实,也是目前的普遍现象。但在笔者看来:一项新技术,一个新事物从诞生到发展到普及,是需要一个由“基础认知---知识学习---能力建设---探索应用---成熟应用”的过程。在这个过程中,各企业的发展水平一定是参差不齐的,没有那两家企业的现状、需求、目标、数据是完全相同的,所以不同企业对数据的意识程度不相同、技术能力不一样、应用水平差异大也是正常的。我们再说数据中台对于数据中台,笔者阅读了很多大咖的文章,查阅了很多资料,也没有找到关于数据中台的标准定义。事实上也确实如此,数据中台是具有“中国特色”的一个概念,在国外并没有太多的人谈数据中台。而我们中国人创造的数据中台概念,目前还未形成一个统一的认知和基于共识的标准定义。中台概念的鼻祖——阿里巴巴的数据产品部总经理朋新宇表示:“数据中台是数据+技术+产品+组织的组合,是企业开展新型运营的一个中枢系统。具象的说,它是一套解决方案,抽象的理解,它是一种新的公司运营理念”。数澜科技CDO付登坡表示:“数据中台是让数据用起来持续的一套机制,经过业务数据化、数据资产化、资产服务化,并在有权限管理的情况下以 API 的方式开放出去 ”。袋鼠云CEO 拖雷认为:“数据中台可以理解为企业的最核心的数据大脑……是一种理念,一种思维,是一种面向未来的架构”。袋鼠云将其总结为“5+1”模式,5是建设数据中台的五步法,即:咨询、规划、建设、应用、运营,1是是指一个大数据平台,提供大数据的处理、计算、分析、应用。云徙首席架构师陈新宇表示:“数据中台与业务中台的一体化,其核心作用便是业务中台天然打通、统一了各个渠道的数据,所有数据都是高质量的,而这些数据通过分析能够反哺到业务本身,业务本身又将数据留给数据平台,从而形成良好的正向反馈”。网易严选的魏文庆给出了网易严选对数据中台的定义:“数据中台是高质量、高效赋能数据前台的一系列数据系统和数据服务的组合”,无论是数据中台、业务总台、技术中台,核心都是“标准化”,实现流程都是先“规范化”,然后把规范“产品化工具化”。百分点程佳表示:“数据中台是一个集数据采集、融合、治理、组织管理、智能分析为一体,持续促进业务创新为目标的整体平台”。我们看到这么多企业都试图给数据中台下一个标准的定义,尽管各家的说法都略有差异,并不相同,但却也有异曲同工之妙!那么,数据湖与数据中台到底有什么关系?我们不妨先看一看业界典型的数据湖和数据中台架构。

三、典型的数据湖和数据中台架构

1、亚马逊AWS数据湖亚马逊AWS的张侠看来:“数据湖是一个中心数据存储的容器,这个容器可以存储格式化、非格式化的各种各样的数据;这些数据非常容易被快速缩放、有各种方法和工具对这些数据进行查询、可以做各种各样的分析”。如下图所示,AWS数据湖提供了大量的数据处理组件,支持把数据按需要移动、加载到不同地方;然后把数据清理好,建成数据目录。这些数据要安全的、合规的存好、管好,需要的时候使用工具把这些数据拿出来做各种分析。

AWS数据湖架构2、微软Azure数据湖Azure数据湖是在微软内部的大数据平台Cosmos的技术和经验教训基础上构建的。Cosmos用来处理应用程序比如Azure, AdCenter, Bing,MSN, Skype和Windows Live的数据。Cosmos有一个像SQL一样的查询引擎叫做SCOPE,U-SQL是在其上构建的。Azure数据湖包括Azure Datalake Store和Azure Datalake Analytics。前者是存储,有API提供。后者是分析平台。它的分析平台支持Hadoop的那一套,也支持一个全新的U-SQL。如果你想要同时读取在Datalake里面的数据和Datalake外面的数据做分析的话,那就只有U-SQL可以选了。由于U-SQL和Hadoop生态圈不兼容,而且是基于没有多少人愿意学习的C#语言的,这导致了Azure数据湖卖的并不好。也有内部人传由于各种原因,Azure数据湖几乎要凉凉了。

微软Azure数据湖3、阿里系数据中台作为“中台”的开山鼻祖——阿里巴巴的数据中台全景图如下图所示:阿里巴巴数据中台核心内核是OneData体系,即数据中台构建的方法论体系总称,包括数据构建管理的OneModel,实现数据融通连接的OneID,再到提供统一数据服务的One Service,贯穿于整个数据研发流程中并且通过工具实施落地,帮助企业高效建设及管理数据。有兴趣可以参考笔者之前写的一篇:《什么是One Data体系?阿里数据中台解读》。

阿里巴巴数据中台实际上阿里的数据中台并不是一套产品,而是阿里的数据中台方法论体系+生态产品。这里所谓的数据中台生态产品,就是带着明显的阿里基因的数据中台产品或解决方案,例如:数澜科技、袋鼠云、奇点云、云徙等创业公司都属于阿里生态,他们很多公司的核心成员甚至创始人都是从阿里巴巴出来的,所以带着阿里基因也很正常。阿里基因是什么?笔者认为的阿里基因即做电商或者说2C业务的商业化思维。由于这篇文章重点在写数据湖与数据中台的关系,就不对阿里基因和阿里系数据中台做过多介绍了。

四、数据湖与数据中台的关系

看过了各大厂的数据湖和数据中台的介,我们回过头来再来看数据湖与数据中台的关系。
大数据时代,数据量越来越多,数据形式日益复杂,而以数据仓库为代表的、现有的数据存储和处理技术无法满足海量、多样的数据处理需求的背景下产生的。“数据湖”是将复杂的事物具象化,偏技术一些,以一个形象的名字,反应了它在大数据存储和大数据处理方面的优势和能力。数据湖作为一个集中的存储库,可以在其中存储任何形式(结构化和非结构化)、任意规模的数据。在数据湖中,可以不对存储的数据进行结构化,只有在使用数据的时候,再利用数据湖强大的大数据查询、处理、分析等组件对数据进行处理和应用。因此,数据湖具备运行不同类型数据分析的能力。数据中台从技术的层面承接了数据湖的技术,通过数据技术,对海量、多源、多样的数据进行采集、处理、存储、计算,同时统一标准和口径,把数据统一之后,以标准形式存储,形成大数据资产层,以满足前台数据分析和应用的需求。数据中台更强调应用,离业务更近,强调服务于前台的能力,实现逻辑、算法、标签、模型、数据资产的沉淀和复用,能更快速的相应业务和应用开发的需求,可追溯,更精准。

五、数据湖和数据中台哪家强?

我们都数据中台了,为什么老外还在数据湖?在近代史上,由于欧美国家的工业起步早,所以在科技领域我们的创新能力(从0到1的能力)一直不如一些欧美国家,但是中国人的应用能力非常强,更注重商业和管理的创新(商业模式的各种玩法和创新),中国人始终要比老外玩的溜,也就是说我们从1到100的能力是极强的。因此,更强调业务和应用的“数据中台”在国内以迅雷不及掩耳之势,迅速成为了国内IT界的“头牌网红”。随着以大数据、云计算、人工智能等新技术为主要特征的第四次工业革命的到来,中国大数据战略的布局和“新基建”的发展,我相信,在这场数字化的变革中,我们的技术创新能力也一定会追上甚至超越欧美的!最后,再回答网友的一个问题:数据湖与数据中台哪家强?

在笔者来看,不论是数据湖还是数据中台,都是“千人千面”的,不同的人理解不同,数据湖和数据中台也没有孰弱孰强之说。对企业而言,不为眼花缭乱的“概念”所迷惑,一切要从实际需求出发,不能人云亦云,盲目跟风,也不能墨守成规、固步自封。企业数据项目的建设还是应当从企业的业务需求出发构建与企业相匹配的一套数据管理和使用流程,以及与之需求相匹配的数据平台和工具。