ITPUB??ì3
ITPUB论坛 » 数据仓库与数据挖掘 » 数据清洗一问

标题: 数据清洗一问
离线 tigervivan
初级会员



精华贴数 0
个人空间 0
技术积分 60 (23673)
社区积分 3 (19234)
注册日期 2002-5-14
论坛徽章:0
      
      

发表于 2002-8-15 20:49 
数据清洗一问

    公司在做数据仓库的项目,现在在数据清洗的阶段。公司给我们
四个数据库,让我们做清洗(一个库为主,三个做为参考库)。说是要对每个字段在四个数据库中比较,然后再清洗。我是新手,想问问个位是如何做清洗的,清洗一般包括那些任务,清洗完的标准是什么?在四个库中做比较的情况很多,如何处理呀?总觉得清洗好像不是那么回事.



只看该作者    顶部
离线 graysun
老会员



精华贴数 1
个人空间 0
技术积分 1267 (1339)
社区积分 652 (1166)
注册日期 2002-1-25
论坛徽章:7
会员2007贡献徽章授权会员2008北京奥运纪念徽章:射箭2008北京奥运纪念徽章:羽毛球2008北京奥运纪念徽章:垒球生肖徽章2007版:鸡
ITPUB新首页上线纪念徽章     

发表于 2002-8-19 00:23 
能不能说的清楚一些

清洗说的太笼统的,
比如业务逻辑是什么,数据的内容有那些
这么具体的问题,我觉得还是对一个具体的问题讨论比较有效,
如果象你这么问,不会有什么答案,反正很难有比较好的答案

是不是象版主说的你们公司的项目也是第一个,刚刚开始?


只看该作者    顶部
离线 Arraysladeh
一般会员



精华贴数 0
个人空间 0
技术积分 212 (8831)
社区积分 24 (6768)
注册日期 2001-12-19
论坛徽章:0
      
      

发表于 2002-8-21 09:52 
我觉得是这样

实际上数据清洗就是数据的标准化过程。在实施数据仓库的项目的时候,数据来源很多,而且原有系统中数据定义不一定一致。这就需要在数据转载的时候按照标准进行转化。比如两个系统中同一个业务数据对于0值有不同的表示方式,一个存储0,另一个可以是0也可能是null,在转化的时候就需要统一存储标准。
个人看法,不知道是否准确。


只看该作者    顶部
离线 graysun
老会员



精华贴数 1
个人空间 0
技术积分 1267 (1339)
社区积分 652 (1166)
注册日期 2002-1-25
论坛徽章:7
会员2007贡献徽章授权会员2008北京奥运纪念徽章:射箭2008北京奥运纪念徽章:羽毛球2008北京奥运纪念徽章:垒球生肖徽章2007版:鸡
ITPUB新首页上线纪念徽章     

发表于 2002-8-21 11:54 
Re: 我觉得是这样



QUOTE:
最初由 sladeh 发布
实际上数据清洗就是数据的标准化过程。在实施数据仓库的项目的时候,数据来源很多,而且原有系统中数据定义不一定一致。这就需要在数据转载的时候按照标准进行转化。比如两个系统中同一个业务数据对于0值有不同的表示方式,一个存储0,另一个可以是0也可能是null,在转化的时候就需要统一存储标准。
个人看法,不知道是否准确。


实施上我遇到的数据清洗往往不会这么简单
主要的麻烦来一下的方面
1.重复工作很多,开发人员积极性下降
2.,很多清洗的工作主要的工作量来源于各个厂商对业务逻辑理解不一致,从而造成模型含盖的范围不一,
3.建模人员和etl人员对模型的理解不一致,内部问题
4由于数据仓库的目的--.历史数据问题
5.增量抽取问题


只看该作者    顶部
离线 Arraysladeh
一般会员



精华贴数 0
个人空间 0
技术积分 212 (8831)
社区积分 24 (6768)
注册日期 2001-12-19
论坛徽章:0
      
      

发表于 2002-8-21 13:15 
这样

开发人员的积极性不高,需要高明的领导来重树团队目标。并不是因为重复工作多,造成开发人员积极性下降。这只是能够直接看到的关联。实际上,在这种情况下,真实的情况是开发人员看不到项目的尽头,只要制定合适的工作目标。开发人员还是可以很好的完成这些工作的。(我就是在这种项目中累死的,当时所有的技术问题都解决了,可就是重复重复,看不到头。自己给自己放了个假)。这个问题要解决好,不然会腐蚀整个队伍的热情。

对于不同的厂商业务理解不同,就需要统一,这是不可避免的。这里要根据你们的技术方案为准,耍耍手腕吧。

历史数据也比较好解决。

增量抽取是比较麻烦的。使用工具或者自己开发。


只看该作者    顶部
 
    

相关内容


CopyRight 1999-2006 itpub.net All Right Reserved.
北京皓辰广域网络信息技术有限公司. 版权所有
E-mail:Webmaster@itpub.net
京ICP证:010037号 联系我们 法律顾问