12
返回列表 发新帖
楼主: wangfans

数据仓库中的数据清洗

[复制链接]
论坛徽章:
212
现任管理团队成员
日期:2012-01-16 14:02:09马上有对象
日期:2014-02-19 11:55:14马上有钱
日期:2014-02-19 11:55:14马上有房
日期:2014-02-19 11:55:14马上有车
日期:2014-02-19 11:55:14ITPUB 11周年纪念徽章
日期:2012-10-09 18:06:202012欧洲杯之星
日期:2012-07-02 11:27:02奥运会纪念徽章:射击
日期:2012-06-27 15:36:35NBA季后赛纪念徽章
日期:2012-06-25 12:19:11NBA常规赛纪念章
日期:2012-04-27 16:07:05
11#
发表于 2012-5-28 16:36 | 只看该作者
innovate511 发表于 2012-5-27 21:15
如果对业务非常清楚,对未来有预见性,可以选择性保留数据;

对于业务不清楚的情况,建议ODS保留大部分 ...

因为我们的BI系统,是我来之前架构就定好的 ,其中根本没有ODS层,我想请教下ODS到底该不该有,用途又是哪些?

使用道具 举报

回复
论坛徽章:
51
2015年新春福章
日期:2015-03-06 11:57:31茶鸡蛋
日期:2012-03-18 19:28:08鲜花蛋
日期:2012-02-29 11:37:262012新春纪念徽章
日期:2012-02-13 15:12:092012新春纪念徽章
日期:2012-02-13 15:12:092012新春纪念徽章
日期:2012-02-13 15:12:092012新春纪念徽章
日期:2012-02-13 15:12:092012新春纪念徽章
日期:2012-02-13 15:12:092012新春纪念徽章
日期:2012-01-04 11:50:44ITPUB十周年纪念徽章
日期:2011-11-01 16:20:28
12#
发表于 2012-5-28 16:55 | 只看该作者
laou2008 发表于 2012-5-28 16:36
因为我们的BI系统,是我来之前架构就定好的 ,其中根本没有ODS层,我想请教下ODS到底该不该有,用途又是哪 ...

大多数情况,ODS最好建一个,它是一个缓冲,和DW的staging不同,它信息更原始、更完整、更与业务数据一致

使用道具 举报

回复
论坛徽章:
3
生肖徽章2007版:猴
日期:2008-01-02 17:35:53生肖徽章2007版:鼠
日期:2008-01-02 17:35:532012新春纪念徽章
日期:2012-01-04 11:50:44
13#
发表于 2012-5-29 10:09 | 只看该作者
innovate511 发表于 2012-5-28 16:55
大多数情况,ODS最好建一个,它是一个缓冲,和DW的staging不同,它信息更原始、更完整、更与业务数据一致

ODS的数据是最明细最原始的数据,它需要加载到DW吗?因为如果有需要查到最明细的情况,是要到ODS里查询还是把ODS数据加载到DW中?

使用道具 举报

回复
招聘 : 数据工程师
论坛徽章:
92
生肖徽章2007版:鸡
日期:2013-11-12 07:55:03马上有房
日期:2014-02-18 16:42:02马上有钱
日期:2014-04-09 17:17:412014年世界杯参赛球队: 美国
日期:2014-06-28 21:46:122014年世界杯参赛球队:喀麦隆
日期:2014-07-07 10:46:48马上有车
日期:2014-07-21 13:04:39马上加薪
日期:2014-07-29 10:04:19马上有对象
日期:2014-07-29 10:04:53马上有车
日期:2014-07-29 10:04:20马上加薪
日期:2014-08-26 22:26:06
14#
发表于 2012-5-29 10:52 | 只看该作者
数据清洗是一定要的,如果不进行清洗,往往一条数据可以影响你的数据精度,误差很大。如果误差超过百分之几十,人为可以发现,如果误差在5%有时候你根本发现不了,进而影响业务决策

使用道具 举报

回复
招聘 : 数据工程师
论坛徽章:
92
生肖徽章2007版:鸡
日期:2013-11-12 07:55:03马上有房
日期:2014-02-18 16:42:02马上有钱
日期:2014-04-09 17:17:412014年世界杯参赛球队: 美国
日期:2014-06-28 21:46:122014年世界杯参赛球队:喀麦隆
日期:2014-07-07 10:46:48马上有车
日期:2014-07-21 13:04:39马上加薪
日期:2014-07-29 10:04:19马上有对象
日期:2014-07-29 10:04:53马上有车
日期:2014-07-29 10:04:20马上加薪
日期:2014-08-26 22:26:06
15#
发表于 2012-5-29 10:55 | 只看该作者
laou2008 发表于 2012-5-28 16:36
因为我们的BI系统,是我来之前架构就定好的 ,其中根本没有ODS层,我想请教下ODS到底该不该有,用途又是哪 ...

看情况了,数据量超大,业务量复杂,ODS必不可少,可提供原始数据进行校验,还可以处理及时性要求比较高的业务需求;如果业务简单,数据量少,建议ODS直接整合到dw的原子层,版本,校验都在这里做也可以,这样减少项目复杂度,减少成本。

使用道具 举报

回复
论坛徽章:
0
16#
发表于 2013-5-11 10:44 | 只看该作者
车联网的数据清洗方面的论文好写吗,这方面还是个初学者,可不可以提供个思路

使用道具 举报

回复
论坛徽章:
4
ITPUB十周年纪念徽章
日期:2011-11-01 16:23:26ITPUB 11周年纪念徽章
日期:2012-10-09 18:07:312014年新春福章
日期:2014-02-18 16:42:02马上有房
日期:2014-02-18 16:42:02
17#
发表于 2013-5-12 09:39 | 只看该作者
understand your customer,understand your data

使用道具 举报

回复

您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

TOP技术积分榜 社区积分榜 徽章 团队 统计 知识索引树 积分竞拍 文本模式 帮助
  ITPUB首页 | ITPUB论坛 | 数据库技术 | 企业信息化 | 开发技术 | 微软技术 | 软件工程与项目管理 | IBM技术园地 | 行业纵向讨论 | IT招聘 | IT文档
  ChinaUnix | ChinaUnix博客 | ChinaUnix论坛
CopyRight 1999-2011 itpub.net All Right Reserved. 北京盛拓优讯信息技术有限公司版权所有 联系我们 未成年人举报专区 
京ICP备16024965号-8  北京市公安局海淀分局网监中心备案编号:11010802021510 广播电视节目制作经营许可证:编号(京)字第1149号
  
快速回复 返回顶部 返回列表