楼主: arron刘

【话题讨论】谈话题 得门票 数据治理要面临的问题

[复制链接]
求职 : 数据库管理员
论坛徽章:
45
2011新春纪念徽章
日期:2011-02-18 11:43:322014年新春福章
日期:2014-04-14 09:54:08马上有对象
日期:2014-03-20 10:10:18马上有房
日期:2014-02-18 16:42:022014年新春福章
日期:2014-02-18 16:42:02技术图书徽章
日期:2014-01-24 10:11:16兰博基尼
日期:2013-12-11 10:38:11ITPUB社区12周年站庆徽章
日期:2013-11-07 10:34:33ITPUB社区12周年站庆徽章
日期:2013-10-17 13:56:592014年新春福章
日期:2014-04-14 09:54:08
11#
发表于 2013-1-23 13:45 | 只看该作者
1、你们在工作中有没有用到数据治理?
    用到过,而且还是一段比较痛苦的经历。
    谋省计生数据,据说是通过execl导入到数据库中的,而且存在着很多的错误,当时我的任务就是配合应用来清洗数据,把认为错误的剔除,然后做各种计生系统的统计分析。
    之所以说痛苦,是因为当时是用的数据库mysql(第一次接触到mysql),导入的数据量大概在2亿行左右,执行一个sql ,几个小时跑不出来。而且要求完成的时间比较紧张啊。

2、数据治理项目的基本流程是什么?
    根据要求过滤数据
    将不符合要求的,过滤到一张表中。根据不同要求进行修改。
   数据的导入导出
    根据要求,对符合要求的数据信息进行汇总统计,生成各种应用报表
   
3、在2013数据库大会上你期待听到有关数据治理的那些内容?
    数据质量管理方法、经验和实际的案例。

使用道具 举报

回复
论坛徽章:
52
慢羊羊
日期:2015-05-27 16:05:40灰彻蛋
日期:2012-02-28 15:52:532012新春纪念徽章
日期:2012-02-13 15:13:202012新春纪念徽章
日期:2012-02-13 15:13:202012新春纪念徽章
日期:2012-02-13 15:13:202012新春纪念徽章
日期:2012-02-13 15:13:202012新春纪念徽章
日期:2012-02-13 15:13:20蛋疼蛋
日期:2012-01-04 18:27:252012新春纪念徽章
日期:2012-01-04 11:49:54紫蛋头
日期:2011-12-27 15:12:01
12#
发表于 2013-1-23 14:43 | 只看该作者
1、当年提出落实“可靠、可信、可用”“三可原则”的要求,至今没看到结果。目前很多具体的工作,事实上都是需要以此为基础的。只是,作为项目而项目的现实,只能是边赶工,边完善。

2、不同的项目要求、思路和方案会决定具体做法和计划。目前来说,大家还只遵从相似的具体做法和计划在做。另外,缺乏不同成功项目及其关键成功因素的驱动,现在也不可能有太多其他的不同创新。只是目前的做法,对于具体项目是否属于关键成功因素,本身有待商榷。

3、谁来管数据治理,跟管控体系什么关系,跟审计如何互动,诸如此类很具体的问题。毕竟,数据治理是一项长期工作。还可以探讨,数据治理,本身就是一个问题。毕竟数据治理所因何来,根本出发点上也许有其他的选择。

使用道具 举报

回复
论坛徽章:
1
ITPUB十周年纪念徽章
日期:2011-11-01 16:19:41
13#
发表于 2013-1-23 15:33 | 只看该作者
本帖最后由 dbwyl 于 2013-1-23 15:36 编辑

讨论话题:

1、你们在工作中有没有用到数据治理?
   有。从两方面保证:业务流程和系统校验。数据仓库与商业智能通的输入源通常是前端的业务系统,如果业务系统乱、商业智能的输出也是垃圾。

2、数据治理项目的基本流程是什么?
   1、首要任务是制定数据准入标准,确定数据范围界定和分类。大至划分数据所述领域、 小至命名定义如用户单位的命名方式,做好元数据管理。
   2、其次是定义数据流向,其中重中之重是接口层设计。底层的业务系统和中心系统是什末关系?采集哪些数据?业务冲突怎么办?
      中间会遇到各种利益平衡的问题。但是最终,技术和业务部门要达成一个同意共识,明确将要提供的数据意义
   大致流程如下:数据采集、数据预处理ETL、数据校验。辅以:同步、异步处理、监控告警。            
      
3、在2013数据库大会上你期待听到有关数据治理的那些内容?
   1、成功海量数据的治理流程分析。
   2、用到的好软件。
   

使用道具 举报

回复
论坛徽章:
67
现任管理团队成员
日期:2012-06-02 02:10:00ITPUB元老
日期:2012-09-12 14:06:14ITPUB社区千里马徽章
日期:2013-06-09 10:15:34季节之章:冬
日期:2012-09-04 11:05:30季节之章:春
日期:2012-09-05 09:20:36优秀写手
日期:2013-12-18 09:29:09马上有房
日期:2014-04-10 13:35:362014年新春福章
日期:2014-04-14 09:54:08马上有车
日期:2014-02-28 16:43:13马上加薪
日期:2014-02-19 11:55:14
14#
发表于 2013-1-23 15:43 | 只看该作者
这个话题很大啊, 可能放到数据仓库板块去讨论更好,下面是自己的一些认识,

1、你们在工作中有没有用到数据治理?
基本上所有的系统或多或少的都有些数据处理的功能,现在稍微大型一点的仓库项目都会把数据清理单独出来,做为一个重要的模块来处理.甚至于还衍生出了类似于专门的MDM(主数据管理)系统来单独开发。
所有的这些几乎都是为了确保数据的准确性,也是为了确保最终的BI系统的效果而必不可少的。
目前很多公司都有专门的数据清理工具。

2、数据治理项目的基本流程是什么?
这个要分多个阶段了,
首先在OLTP系统阶段,要保准数据的准确性和有效性,避免重要数据确实,以及垃圾数据的产生。
这步工作是非常重要的,直接决定了最终的数据质量
其次,在ETL阶段,定义准确合适的清理逻辑和清理方案,且严格按照方案编码, 将一些诸如重复数据,异常数据以及违反业务逻辑的数据清理掉
在多源数据合并的时候,制定同一维度模型,使得不同系统的数据可以汇总合并,清除因此带来的重复数据和垃圾数据

3、在2013数据库大会上你期待听到有关数据治理的那些内容?
最希望听到真实的大型最好是超大型仓库系统数据清理的真实案例,包括系统现状,清理思路,清理方案以及最终清理效果等

使用道具 举报

回复
论坛徽章:
0
15#
发表于 2013-1-23 18:31 | 只看该作者
1、你们在工作中有没有用到数据治理?
    用到过。数据分析部门的数据往往来源比较广泛,应用系统产生的日志,由业务数据库产生的数据,以及网络爬虫抓取、nosql半结构化等的数据,这些数据都需要进行处理。
    这些数据都是不同业务系统产生的,而数据的治理往往却是大量的人工参与,这就很难保证数据的质量。人工而不是系统处理存在的问题主要有二个:1,数据的规范,比如业务数据中使用ID和STATUS来保证某一时间内的唯一性,但是在数据仓库或是其他分析环境下,却需要在长久历史上是唯一的标识,只用业务的ID是不行的,这就需要一个映射规则;2,数据传输的问题,大量的数据汇总计算,再汇总再计算,传输有数据库方式、ftp,rsync等不同方式,一旦有数据传输的问题,就会影响一下步的处理,而出现问题时候,数据的恢复往往是复杂的,耗时的。

2、数据治理项目的基本流程是什么?
  1,数据的清晰定义
  2,数据处理流程的可回滚性(靠数据版本以及监控保证),上游数据处理完毕后产生成功的标志位,下游数据根据标志位判断是否接着进行处理;上游、下游处理通过时间或是触发器关系进行,下游在规定时间进行处理,发现上游数据不成功则报警并触发上游数据回滚,重新进行。
  3,数据终端最后进行简单的数据校验
  注:数据之间的接口尽量抽象化,易扩展  
   
3、在2013数据库大会上你期待听到有关数据治理的那些内容?
   自动化的、节省人力成本的方法介绍;数据的价值评估等。

使用道具 举报

回复
求职 : 数据库管理员
论坛徽章:
15
复活蛋
日期:2013-01-11 22:03:44秀才
日期:2015-11-30 09:59:23优秀写手
日期:2013-12-24 06:00:13ITPUB社区千里马徽章
日期:2013-08-22 09:58:03ITPUB社区12周年站庆徽章
日期:2013-08-12 17:41:08迷宫蛋
日期:2013-06-26 10:29:27迷宫蛋
日期:2013-06-24 09:16:43咸鸭蛋
日期:2013-05-17 13:33:14茶鸡蛋
日期:2013-05-09 11:07:43灰彻蛋
日期:2013-04-16 17:22:39
16#
发表于 2013-1-23 21:08 | 只看该作者
这个太诱人了

使用道具 举报

回复
论坛徽章:
24
技术图书徽章
日期:2013-08-16 14:31:52问答徽章
日期:2013-11-04 08:53:14目光如炬
日期:2013-12-23 06:00:11目光如炬
日期:2013-12-30 06:00:11明星写手
日期:2014-02-22 06:00:12马上有钱
日期:2014-03-31 14:09:05沸羊羊
日期:2015-05-20 12:42:59秀才
日期:2015-06-24 13:05:36秀才
日期:2015-07-13 09:48:14
17#
 楼主| 发表于 2013-1-24 09:07 | 只看该作者
to_be_dba 发表于 2013-1-23 21:08
这个太诱人了

使用道具 举报

回复
论坛徽章:
2
ITPUB 11周年纪念徽章
日期:2012-10-09 18:09:19蜘蛛蛋
日期:2013-01-10 11:08:12
18#
发表于 2013-1-24 14:20 | 只看该作者
数据仓库没研究过,对于历史数据,接触的一些项目是通过建立历史库,采用expdp/impdp,goldengate,或者自己开发的程序汇总数据,结合分区表管理历史数据。

使用道具 举报

回复
论坛徽章:
67
现任管理团队成员
日期:2012-06-02 02:10:00ITPUB元老
日期:2012-09-12 14:06:14ITPUB社区千里马徽章
日期:2013-06-09 10:15:34季节之章:冬
日期:2012-09-04 11:05:30季节之章:春
日期:2012-09-05 09:20:36优秀写手
日期:2013-12-18 09:29:09马上有房
日期:2014-04-10 13:35:362014年新春福章
日期:2014-04-14 09:54:08马上有车
日期:2014-02-28 16:43:13马上加薪
日期:2014-02-19 11:55:14
19#
发表于 2013-1-24 16:09 | 只看该作者
foreversunyao 发表于 2013-1-23 18:31
1、你们在工作中有没有用到数据治理?
    用到过。数据分析部门的数据往往来源比较广泛,应用系统产生的日 ...

如果是数据仓库环境下,人工处理太夸张了

使用道具 举报

回复
求职 : 数据库管理员
论坛徽章:
14
2013年新春福章
日期:2013-02-25 14:51:24秀才
日期:2017-09-18 17:33:21秀才
日期:2017-09-18 17:04:24秀才
日期:2017-08-18 11:04:35秀才
日期:2017-08-18 11:02:47秀才
日期:2017-03-28 15:59:38秀才
日期:2017-03-01 13:53:392017金鸡报晓
日期:2017-02-08 14:09:13秀才
日期:2015-09-06 10:19:32秀才
日期:2015-07-03 17:00:53
20#
发表于 2013-1-25 10:08 | 只看该作者
支持!

使用道具 举报

回复

您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

TOP技术积分榜 社区积分榜 徽章 团队 统计 知识索引树 积分竞拍 文本模式 帮助
  ITPUB首页 | ITPUB论坛 | 数据库技术 | 企业信息化 | 开发技术 | 微软技术 | 软件工程与项目管理 | IBM技术园地 | 行业纵向讨论 | IT招聘 | IT文档
  ChinaUnix | ChinaUnix博客 | ChinaUnix论坛
CopyRight 1999-2011 itpub.net All Right Reserved. 北京盛拓优讯信息技术有限公司版权所有 联系我们 未成年人举报专区 
京ICP备16024965号-8  北京市公安局海淀分局网监中心备案编号:11010802021510 广播电视节目制作经营许可证:编号(京)字第1149号
  
快速回复 返回顶部 返回列表