|
这个话题很大啊, 可能放到数据仓库板块去讨论更好,下面是自己的一些认识,
1、你们在工作中有没有用到数据治理?
基本上所有的系统或多或少的都有些数据处理的功能,现在稍微大型一点的仓库项目都会把数据清理单独出来,做为一个重要的模块来处理.甚至于还衍生出了类似于专门的MDM(主数据管理)系统来单独开发。
所有的这些几乎都是为了确保数据的准确性,也是为了确保最终的BI系统的效果而必不可少的。
目前很多公司都有专门的数据清理工具。
2、数据治理项目的基本流程是什么?
这个要分多个阶段了,
首先在OLTP系统阶段,要保准数据的准确性和有效性,避免重要数据确实,以及垃圾数据的产生。
这步工作是非常重要的,直接决定了最终的数据质量
其次,在ETL阶段,定义准确合适的清理逻辑和清理方案,且严格按照方案编码, 将一些诸如重复数据,异常数据以及违反业务逻辑的数据清理掉
在多源数据合并的时候,制定同一维度模型,使得不同系统的数据可以汇总合并,清除因此带来的重复数据和垃圾数据
3、在2013数据库大会上你期待听到有关数据治理的那些内容?
最希望听到真实的大型最好是超大型仓库系统数据清理的真实案例,包括系统现状,清理思路,清理方案以及最终清理效果等 |
|