打印本文 打印本文  关闭窗口 关闭窗口  
一篇读懂数据治理、共享和应用
时间:2019/10/7 17:42:45

前言

如何让数据资产工具更好的用户体验,实现数据“好找、好用、好看、实时和共享”,需借助大数据、云搜索、微应用等先进技术,搭建企业数据资产管理体系,推动企业数据资产管理规范和创新,丰富数据应用与消费工具,提升了数字资产应用价值,解决了企业数据资产查找难,应用难,管理难等问题,实现了企业数据价值挖掘及数据资产变现升值。

主数据管理是数据资产管理最重要和核心的内容,本文通过“一平台、两体系、三性特征、四个统一、五个超越、六类服务”应用场景,比较体系化详尽的介绍主数据治理、共享和应用全过程。(本文谈数据管理对象范围主要涉及到参考数据、主数据、指标数据)

主数据管理要点概览

主数据是数据之源,是数据资产管理的核心,是信息系统互联互通的基石,是信息化和数字化的重要基础。

主数据指满足跨部门业务协同需要的、反映核心业务实体状态属性的基础信息。主数据相对交易数据而言,属性相对稳定,准确度要求更高,唯一识别。

主数据管理是一系列规则、应用和技术,用以协调和管理与企业的核心业务实体相关的活动。通俗来讲,良好的主数据治理、共享和应用主要包含:搭建一个数据治理平台、建立两个体系、实现主数据三性特征、达到四个统一、实现五个超越、提供六类服务。

图1 一体化数据治理、共享和应用全景图

1)一平台:搭建一个一体化数据治理和共享平台;

2)两体系:建立两个体系(数据标准体系和保障体系);

3)三性特征:确保主数据三性特征(唯一性、准确性、共享性);

4)四个统一:达到四个统一(统一标准、统一来源、统一接口、统一服务);

5)五个超越:实现五个超越(超越部门、超越流程、超越主题、超越系统、超越技术);

6)六类服务:提供六种数据服务(数据订阅/分发服务、主数据查询/申请服务、数据调用API服务、公共数据资源池、数据资源服务、数据即时服务)。

一、一体化数据治理、共享和应用详解

1.1一平台

建立企业级的、一体化的数据治理和共享平台,确保数据资源中心的数据质量和安全管理。详细功能描述可以参照数据治理平台工具前世今生。

图2 一体化数据治理与服务平台功能架构

基于Spring boot框架, 引入Eureka、Zuul、Feign、Ribbon等Spring cloud相关组件,形成微服务解决方案,前端页面应用服务实现前后端分离。

图3 数据治理平台技术框架


云计算为数据管理工具提供了能够满足“共享服务”功能的新的架构模式,采用微服务技术满足数据管理工具的高可用性、稳定性和易用性。人工智能为主数据清洗提供了自动化思路,利用自然语言处理及数据标准库提升数据质量。

基于统一技术架构、统一指标数据驱动的元数据(业务元数据、管理元数据、技术元数据等)、统一治理工具、统一安全管控,通过不同的模块组合,形成不同的数据服务和治理解决方案;

图4 一体化数据治理和服务应用场景

实现数据资产“三全管理”:

1)全生命周期(时间):基于数据指标驱动的元数据的数据资产全过程管理,采集、存储、应用及管理过程的全记录与监控。权衡效率和需求之间的关系,合理分级存储和保留、销毁数据;

2)全流程(空间):基于数据指标驱动的、元数据的数据资产溯源管理(血缘与影响分析),数据来源、存储位置、处理方式、流转过程、安全稽查规则,能追本溯源的发现所有资产的“前世今生”。

3)全景式(场景):基于指标数据驱动的资产全场景视图,从应用场景的维度,既有全局规划的管理者,也有关注细节定义的使用者,还有加工、运维的开发者,提供多层次的图形化展示,满足应用场景的图形查询和辅助分析。

二、两个体系2.1数据管理体系

图5 数据管理体系架构

数据管理体系包含:数据标准管理体系、数据管控体系、数据技术服务体系、数据质量要求、数据安全要求等。

1)数据标准管理体系包含业务标准(编码规则、分类规则、描述规则等)、数据模型标准。数据标准管理体系在建设梳理的过程中,一般会衍生出一套代码体系表或称主数据资产目录。数据管理标准体系是数据管理工作的重中之重,通过主数据标准化,才能为实现部门和系统间的数据集成和共享,打通企业横向产业链和纵向管控奠定数据基础。

2)数据管控体系包括主数据管理组织、制度、流程、应用及管理评价五部分。

3)数据技术服务体系:数据管理工具及技术服务体系。

4)数据质量要求:数据质量标准、质量评估等。

5)数据安全要求:数据分类、分级授权,数据模型等管理。

2.2数据运维体系

建五位一体数据运维服务体系,加强应用推广的组织和培训指导,有序推进数据共享、应用

图6 五位一体数据运维服务体系


三、主数据三性特征

3.1唯一性

在一个系统、一个平台,甚至一个企业范围内,主数据实体要求具有唯一标识即数据编码,同名同义,保证同一个对象在应用的唯一性,如:统一员工和组织主数据,对所有系统的员工和组织进行规范。

3.2准确性

主数据实体内容正确性,数据内容符合预期, 真实反映被描述对象;格式合规性,数据格式 (包括数据类型、数值范围、数据取值) 。进入主数据管理的数据实体一定要确保的准确性,不能同名不同义。在主数据日常管理中,需要优先从权威途径获得主数据,如将国家各部委基础库以及企业通用主数据库(“人口基础信息库”、“法人单位基础信息库”、“自然资源和空间地理基础信息库”、“宏观经济信息数据库”)融合连通,为企事业单位提供服务。

3.3共享性

跨部门、跨系统高度共享的数据,可以被多个认识主体接收和利用。明确主数据的获取来源、加快数据的获取效率催生了跨业务协同和跨系统共享的管理实施模式,这些概念使得各自为政的信息系统在共享整合过程中有据可循、有标可依。

图7 主数据代码库

支持企业多业务类型、多地域经营的应用,在流程规范、系统集成、主题共享、系统数据一致性等方面都需要通过数据标准化来支撑,从而最终提高管理效率,加强管控落地。

图8 数据共享性示意图

数据治理工作在提升企业整体价值的同时,也为企业内部的数据共享等具体提供了良好的和可持续的数据基础,为数据的进一步挖掘和分析夯实基础。


四、四个统一

4.1统一标准

在组织范围统一了数据标准,所有成员单位都遵守同样的数据标准,使标准有法可依;

4.2统一来源

统一数据产生来源,统一配码,确保数据唯一性,避免重复填报、不一致;

4.3统一接口

采用数据总线的集成方式、对数据集成工作进行标准化的统一化处理,简化工作,避免了网状结构的对接复杂接口。

4.4统一服务

为目标系统和应用提供统一数据服务,避免了分散管理,数据不一致。

五、五个超越

5.1超越部门

超越部门:主数据不是那种局限于某个具体职能部门的数据库。主数据是满足跨部门业务协同需要的,是各个职能部门在开展业务过程中都需要的数据,是所有职能部门及其业务过程的“最大公约数据”。

5.2超越流程

超越流程:主数据不依赖于某个具体的业务流程,但却是主要业务流程都需要的。主数据的核心是反映对象的状态属性,它不随某个具体流程而发生改变,而是作为其完整流程的不变要素。

5.3超越主题

超越主题:与信息工程方法论中通过聚类方法选择主题数据不同,主数据是不依赖于特定业务主题却又服务于所有业务主题的有关业务实体的核心信息。例如:物料主数据,它有自身的自然属性,如:规格、材质,也有业务赋予的核心属性,如:设计参数、工艺参数、采购、库存要求、计量要求、财务要求等。同时,主数据也要服务于业务,可谓是———从业务中来到业务中去。

5.4超越系统

超越系统:主数据管理系统是信息系统建设的基础,应该保持相对独立,它服务于但是高于其它业务信息系统,因此对主数据的管理要集中化、系统化、规范化。

5.5超越技术

超越技术:由于主数据要满足跨部门的业务协同,因而必须适应采用不同技术规范的不同业务系统,所以主数据必须应用一种能够为各类异构系统所兼容的技术条件。从这个意义上讲,面向微服务架构为主数据的实施提供了有效的工具。在不同环境、不同场景下,主数据的技术是可以灵活应对的。主数据的集成架构是多样的,如:总线型结构、星型结构、端到端结构;集成技术也是多样的,如:webservice、REST、ETL、MQ、kafka等;不论是架构还是技术,没有最好的只有更合适的。企业在做技术选型的时候,要充分考虑企业的核心业务需求和未来的发展要求去构建自身的主数据技术体系。


六、六种数据服务

以下为6种比较常用的数据服务方式,其中,1-4是主数据应用的服务,5-6已经超越主数据的概念,可以针对交易数据,指标数据提供数据共享服务。

图9 数据服务6种方式

6.1数据订阅/分发服务

简单来讲,就是传统的主数据订阅分发模式,通常通过ESB来分发;

图10 主数据订阅分发模式

将所有类型的主数据注册到ESB平台上,各目标系统提供接收各类主数据的接口,到ESB平台自主订阅相应的主数据,所有目标系统通过ESB平台订阅规范(参照ESB平台订阅文档)即可完成数据的订阅服务。

6.2主数据查询/申请服务

6.2.1主数据查询服务:

基于页面的查询服务,通常是提供给人来检索的,将系统内部的查询页面或者外部企查查的相关页面封装成服务,供其他系统嵌套调用;

图11 主数据查询服务

数据治理平台面向企业所有终端用户的查询封装成服务,集成到各应用系统,各应用系统可以方便快捷地查询各类主数据,提高查询效率,更好的用户体验。

针对外部数据来源(如:企查查),数据治理平台首先集成企查查相关页面,其他各应用系统再与数据治理平台进行集成,减少对接成本。

6.2.2主数据申请服务:

主数据将所有数据的申请功能封装成服务,供应用系统调用。当业务系统有添加主数据的需求时,不需要登陆主数据平台,只需要正常在业务系统提交新增申请,就可以以任务的形式提交到数据治理平台,数据治理平台处理完成后,以消息的形式反馈至业务系统;此服务部署在API网关上。

图12 主数据申请服务

应用系统将主数据申请功能封装成服务,供各应用系统调用。主数据申请服务注册在ESB数据服务总线平台上,提供主数据申请服务的数据类型如港口、外部单位,具体调用地址各应用系统可联系集成平台。业务系统通过调用申请服务给主数据传递一个申请任务后,由主数据运维人员进行处理,处理完成后以消息形式反馈至业务系统。

6.3数据调用API服务

指定数据类型,通过关键字查询数据详细信息。基于接口层面的点对点的方式的查询服务(模糊查询、精确查询、组合查询),通常时提供给系统接口调用的,业务系统指定关键字来调用;此服务部署在API网关上;

图13 数据调用API服务

6.4公共数据资源池

开放主数据平台基础库只读权限,各应用系统可直接查询调用。公共数据资源池相当于主数据生产库的一个镜像,业务系统可直接访问,只有只读权限。一般用于业务系统需要进行大量数据初始化操作的时候采用这种方式;

图14 公共数据资源池

该资源池数据库与主数据生产库具有实时同步机制,业务系统直接调用主数据系统的主数据,真正确保唯一源头,实现基础数据准确和一致性。具体对接方式一般是业务系统确认采取这种方式后,指明需要哪几类数据,我们再给出访问资源池数据库的连接信息,字段说明等。

6.5数据资源服务

通过相关工具(Sqoop等)将源系统的数据(HR、财务、业务等)抽取到大数据平台,经过整合、清洗、归并后形成各种主题数据,对外提供不同的数据服务(主数据、交易数据、指标数据);数据资源服务是各类数据高级应用,是将源系统数据大集中在数据资源中心,通过大数据技术工具,提供各类数据自助式服务。

6.6数据即时服务

基于ES(ElasticSearch)搜索服务器,面向所有业务系统提供快速查询检索的服务。主要原理是将不同类型的全量主数据同步到ES存储服务器中,然后业务通过ES提供的API接口进行查询,解决了大数据量查询时,查询效率比较低的问题,提供了数据的及时服务。

ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口。Elasticsearch是用Java开发的,并作为Apache许可条款下的开放源码发布,是当前流行的企业级搜索引擎。设计用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便。

结束语

数据治理的目标是提高数据的质量,保证数据的安全性,实现数据资源在各组织机构部门的共享;数据治理工作在提升企业整体价值的同时,也为企业内部的数据共享等具体提供了良好的和可持续的数据基础,推进信息资源的整合、对接和共享,从而提升企业信息化水平,充分发挥信息化作用,发掘数据资产的商业价值。