QUOTE:
最初由 sladeh 发布
实际上数据清洗就是数据的标准化过程。在实施数据仓库的项目的时候,数据来源很多,而且原有系统中数据定义不一定一致。这就需要在数据转载的时候按照标准进行转化。比如两个系统中同一个业务数据对于0值有不同的表示方式,一个存储0,另一个可以是0也可能是null,在转化的时候就需要统一存储标准。
个人看法,不知道是否准确。
实施上我遇到的数据清洗往往不会这么简单
主要的麻烦来一下的方面
1.重复工作很多,开发人员积极性下降
2.,很多清洗的工作主要的工作量来源于各个厂商对业务逻辑理解不一致,从而造成模型含盖的范围不一,
3.建模人员和etl人员对模型的理解不一致,内部问题
4由于数据仓库的目的--.历史数据问题
5.增量抽取问题