大数据

论数据治理实践的八大要点

成文背景

从2008年到2020年,笔者的数据治理从业经历已有整整12年。在这个不短的过程中,笔者经历了数据治理的软件产品经理、项目经理、咨询顾问、创业者、国家标准编写者、协会负责人、国内会议和奖项的发起人、国际会议的演讲者等多重角色,有幸能在一个相对较长的周期内用多个视角去观察、学习这个领域的理论发展,并在实践中参与到电力、能源、通信、金融、政府、地产等多个行业的数据治理实践的规划设计、落地推行、平台建设等工作之中,从而形成自己的理论思考和实践建议。

根据笔者有限的观察和经验,中国数据治理领域于2004-2010年前后在银行与通信业经历了早期实践探索,在2010年~2014年十二五期间被进一步纳入电力、能源等大型央企的信息化规划和信息化建设,也因互联网巨头的业务与数据规模快速增长而被关注。自2015年之后,数据治理领域进入了一个加速发展的阶段:在理论与标准层面不断推陈出新——国际上有DAMA数据管理知识体系(1.0、2.0)、CMMI-DMM数据管理成熟度模型、ISO38505-1/2数据治理标准,中国则有信标委制定的数据管理能力成熟度模型DCMM、数据治理规范和信通院编制的数据资产管理等系列白皮书,笔者均参与了这些理论和标准的引进、编制和推广。在实践层面,随着国内互联网+、云计算、大数据、物联网、人工智能、数据中台与数字化转型的技术成熟、市场发展和政策支持,数据治理作为一项基础工作获得了业界更广泛的重视,有更多的政府和企事业单位开始数据治理工作,行业发展一派欣欣向荣之势,然而挑战并不少。

数据治理在理论层面固然日趋完整、多家争鸣,各家理论颇有高屋建瓴、指点江山之势,然而在实践层面,数据治理仍然存在着诸多困惑和挑战、尚未形成行之有效的实践方法和路径,数据治理工作在组织内的开展仍然举步维艰、往往在一段轰轰烈烈之后便偃旗息鼓,数据治理从业者的职业发展之路并不顺畅,在不同甲方之间和甲方乙方之间辗转、经过短暂的新环境刺激后,又进入一个困惑的轮回。

      本文根据笔者根据自己多年的数据治理理论研究、实践经验和思考分析而写成,更多专注于让数据治理工作顺利开展、落地见效所应关注的八个方面及各方面中关键要素之间的关系。由于本文不过多探讨数据治理工作的意义和必要性,不展开辨析数据治理相关的基本概念,如若有兴趣对为什么、是什么的话题进行探讨,我们另行择机进行,特别是数据治理的基本概念辨析,是笔者一直所关注并强调其重要性的。

       一句题外话,想写这样一篇文章,应该能追溯到2016年6月参加数据治理规范的应用研讨会。会上笔者首次谈了数据治理的十大关系,而这篇文章的提纲初稿,也在2017年1月就已经留在云笔记中了。本想仍以十大关系为题,但仔细梳理后,发现重要的关系远不止十个,强求十全十美并不现实。因此,换以八大要点为题,希望能对同业朋友有所启发借鉴。文后也附上了笔者其他一些相关文章供参考。

简史回顾:数据治理为何而来?

数据治理的作用与意义,在很多书籍和文章中都有过非常多的论述,但对于数据治理相关理论的起源和发展,并未有过多阐述。我们不妨回顾数据治理相关理论的发展及其历史背景,来看待不同历史时期数据治理的主要作用。

数据治理最早应该源于70年代末期的数据管理(Data Administration)。DA的概念在诺兰信息化成熟度模型中有过阐述,彼时正处于美国信息化发展到数据库成为主流存储进入广泛建设阶段,形成了不少数据孤岛,数据过时、冗余、不一致,因此提出要开展数据管理工作。注意,此时并不称为数据治理(Data Governance),甚至还不是Data Management,而专家Robert Seiner的数据管理专栏网站,也以此命名:TDAN, The Data Administration Newsletter,这一定程度上体现了行业发展早期的特点。在80年代,信息工程理论(Information Engineering)得到发展,战略信息规划(Information Strategic Engineering)、数据管理(Data Management)的相关理论逐渐成型,对数据的统筹规划和管理、保障数据一致性被业界所重视。国内高复先老师在90年代将信息工程理论引进国内并独创一门信息资源规划(IRP),对国内普及数据元素、数据标准、元数据的概念起到很大作用,高老师也应是国内数据治理业界的开创者和先行者之一了。

不过,数据治理的发展并未一帆风顺,John Zachman老爷子在1987年提出了企业架构(Enterprise Architecture)框架,顺应了更为宏观的信息化规划的需求,企业架构理论特别强调了数据架构对于解决数据大量重复建设、缺乏统一数据视图和数据集成关系混乱等问题的重要性。但是,相比于业务架构的贴近业务与应用架构的看得见摸得着,数据架构的作用并不明显,因此数据管理一直不温不火的发展,数据治理作为概念也还没有正式提出。

当然,1984年DAMA的首个分会在洛杉矶成立,1988年DAMA国际成立,还是能够说明数据管理圈子缘起和发展的必要性。德勤公司的同行对数据治理简史做了不错的总结和整理,在这里与大家共享。

直到90年代末,随着美国数据仓库技术的兴起和广泛应用,数据质量问题日益凸显,在业界著述中,数据治理、数据认责与数据质量的概念越来越多的被提及。于是长久以来,我们在业界实践中开展的数据治理工作,很大程度上是为了提升组织的数据质量、让数据本身及基于数据建设的数据应用更加可信,从而保障数据的价值创造。

2015年以来,随着隐私与数据保护、数据权属得到更广泛重视,数据治理的内涵中,有关数据安全、数据主权的成分进一步提高,“数据安全治理、数据安全与治理”的叫法开始出现,在技术解决方案中,有关GDPR合规的功能支撑开始增加,数据安全公司与数据治理公司的互动合作日益频繁,而在理论方面,有更多关注网络安全法、个人信息保护法的律师朋友开始与数据治理圈子探讨合作可能性。明确数据所有权、使用权、保护数据相关方的隐私和合法权益、保障数据资产安全,已经成为数据治理当下及未来发展的不可或缺的目标。

概念辨析:数据治理内涵几何?

笔者认为,对于一个理论的基本概念的深度理解和推敲至关重要,特别对于国外的舶来品,受制于历史、文化、社会、管理等诸多背景的不一样,对基本概念及概念之间的关系精准拿捏就显得更为重要,否则对概念的理解模棱两可,再与自己经历的、看来的、听来的实践经验混在一起,最后添一些个人的想象推演,用这样模糊的理论去指导实践,不翻车才怪,而最终可能还会对理论倒打一耙、付之一炬或束之高阁。

对于数据治理而言,其内涵繁多,精确辨析就更加重要。因此,在我们的数据治理培训中,在开场概述之后,都会有一门“基本概念辨析”。本文中我们适度提出有哪些经常让从业者困惑的概念,但囿于篇幅,无法一一展开,另找机会交流。

数据治理四个字一分为二:数据,治理。在《小议数据与治理》一文中,笔者曾经详细阐述了对这两个词的辨析。数据与真实世界

谈及数据,我们可以使用DAMA DMBOK书中的定义,虽然文字有些晦涩,但其最关键一点,阐明了“数据是对事实的表现”。沿着这个思路,我们进一步介绍了《数据质量测量的持续改进》一书对数据的定义,这也是笔者最欣赏的一个定义,因为专家将数据产生的过程还原到了真实世界,并分析了从客观世界、到数据产生、再到数据理解、最终在数据使用者脑海中还原客观世界的过程,以及这个过程中可能存在的缺陷而导致数据质量问题。这个概念将数据与真实世界相关联,也与我们的信息化过程相关联,还与数据质量管理相关联,堪称概念中的精品!

最近,另一个让笔者产生共鸣的对数据的定义是与新冠疫情相关的。在1月30日世界卫生组织宣布中国的新冠疫情是国际关注的公共卫生紧急事件的新闻发布会上,世卫组织总干事谭德塞语重心长的说道:We must remember that these are people, not numbers.

是的,我们做数据工作的人,往往会将数据等同于数据库、数据表和数据平台,而即便我们在关注数据值,我们也仅仅在考虑那个值本身,而可能忽视了这个数字在真实世界中实际意义!而做数据治理工作时间越久,越发希望真的通过自己的工作,对真实世界作出积极的影响和改变。数据分类的两种视角

谈完数据本身,其实我们还要进一步关注数据的分类。一个人的概念能力、分类能力和逻辑能力,直接决定着他的思维能力和行动能力。在我们的思维习惯中,更擅长做“综合”而不是“分析”(或称为:分类),这就导致我们强调高度概括精炼,而忽视了细分、也就可能失去了在细分之中获得创新的机会。

业界对数据分类的探讨也很多,见到最多的应该是IBM一片文章中将数据一共分为了13类!而通常而言,根据数据治理的工作特点,笔者会强调将数据分为两类——业务视角的分类和数据管理视角的分类:前者更接近数据的业务主题,目的也是引导将数据还原到业务之中,更好的与业务人员沟通;而后者,则是根据数据本身记录的客观世界对象的不同进行划分,并与数据管理工作的不同子领域相对应。用一张图来说明:

数据生命周期的两种视角

更进一步,我们还需要关注数据生命周期。我们更多从时间和空间两个维度去关注数据的生命周期,从时间的角度,关注数据从规划到消亡全过程中被各类角色人员的行为带来的影响和改变,从空间的角度,则关心数据从产生到流转途径的全过程被各业务、各系统的影响和改变。理解了这些改变,也就不难治理了。

空间视角的数据生命周期:

时间视角的数据生命周期:

多种治理的对比

谈完数据,我们仍要谈一谈治理。在《小议》一文中,我们详细对比了“治理、管控、公司治理、数据治理、数据管控”几个词的区别,也提出了“广义数据治理与狭义数据治理”的差异,正式对这些概念的对比推敲,才能更准确把握其内涵并应用于实际的数据治理工作。这些见解应该是对业界有一些帮助的,但多次被同行不提及源头的引用,也是颇有些让人无奈!

数据管理体系各项职能之间关系

在初步了解了数据治理与数据管理的狭义与广义之区别之后,我们再来看一看数据治理体系框架。这里面同样存在着很多需要辨析的概念和关系。例如,DMBOK的饼状图大家都已经很熟悉了,但在1.0书中没有讲过,究竟这些工作职能之间是个什么样的关系?如何互为依赖、互相作用?正是因为这些关系不明,也导致了在实践中各项工作协同不利、效果不佳。笔者对这些关系的总结是:DAMA数据管理职能框架1.0分为10个职能领域,可理解为1个保障机制、3个核心工作、3个数据特性、3个数据方案。领域间逻辑关系可以概括为:在数据治理工作的统筹管理下,以数据全生命周期为主线开展3个核心工作,紧抓3个数据特性,确保数据质量良好,安全可控、定义一致;在此基础上,提供3个综合解决方案,充分挖掘结构化数据、非结构化数据以及基础数据的业务价值。

而在DMBOK2.0中,国际专家们似乎意识到了这一点,对于职能间的关系做出了阐述,具体如下图所示。其中,值得探讨的一些点包括,主数据管理与主数据使用分开,是否合适?数据仓库、文档与内容管理,又是否应该独立于数据存储、操作、集成、互操作?也许我们再多看一看原文,能够发现更多有价值的讨论点。

其他应得到辨析的基本概念…

数据治理领域还有诸多概念需要仔细辨别和对比分析,比如:数据架构与数据模型,数据模型与数据标准,元数据与数据元,数据资源与数据资产,数据治理与数据中台,数据治理与数据运营等等,还存在许多令人困惑之处,而在数据治理的理论框架方面DGI,DAMA,DCMM,ISO38505,CMMI-DMM,DCAM,数据治理规范,数据资产管理白皮书等等,大同小异却又不得不辨….实在囿于本文的篇幅不能再展开,需要赶快进入正题了。

深度探讨:数据治理如何落地?

数据治理落地之难,让许多从业者颇为无奈,先发一段去年底与御数坊老客户的聊天记录,来看一看大家的困惑。

是的,每年都是元年,这就是数据治理在很多企业的实践现状!在之前所写过的一系列文章中,笔者对于“如何让数据治理工作落地见效?”这一困扰业界多年的问题有过不少探讨,在本节中我们将做相对系统的梳理,来看一看有哪些关键要素影响着数据治理的成效,为此我们整理成八个主要方面,一一来谈。

我还没有学会写个人说明!

分食7000亿蛋糕,阿里、华为、万向、美的进击“工业互联网+区块链”

上一篇

案例实战 | 美股熔断,A股跳水,金融数据分析和我有什么关系?

下一篇

你也可能喜欢

论数据治理实践的八大要点

长按储存图像,分享给朋友

ITPUB 每周精要将以邮件的形式发放至您的邮箱


微信扫一扫

微信扫一扫