楼主: innovate511

[精华] ETL架构是否可标准化?

[复制链接]
论坛徽章:
16
生肖徽章2007版:鸡
日期:2008-01-02 17:35:532013年新春福章
日期:2013-02-25 14:51:24ITPUB十周年纪念徽章
日期:2011-11-01 16:21:152011新春纪念徽章
日期:2011-02-18 11:43:33ITPUB9周年纪念徽章
日期:2010-10-08 09:28:522010新春纪念徽章
日期:2010-03-01 11:08:372010新春纪念徽章
日期:2010-01-04 08:33:08参与WIN7挑战赛纪念
日期:2009-11-06 11:40:06奥运会纪念徽章:足球
日期:2008-10-24 13:28:14授权会员
日期:2008-01-07 11:10:15
31#
发表于 2009-7-16 11:24 | 只看该作者
呵呵,学习了,谢谢innovate511 。

使用道具 举报

回复
论坛徽章:
1
授权会员
日期:2009-04-01 12:41:54
32#
发表于 2009-7-16 15:46 | 只看该作者
非常感谢楼主共享

使用道具 举报

回复
论坛徽章:
26
ITPUB新首页上线纪念徽章
日期:2007-10-20 08:38:44奥运会纪念徽章:铁人三项
日期:2012-08-21 21:48:242013年新春福章
日期:2013-02-25 14:51:24劳斯莱斯
日期:2013-08-11 20:46:31本田
日期:2013-12-10 22:01:02劳斯莱斯
日期:2013-12-16 22:07:38本田
日期:2013-12-19 20:35:46技术图书徽章
日期:2014-03-10 14:09:19喜羊羊
日期:2015-02-22 13:44:282015年新春福章
日期:2015-03-04 14:51:12
33#
发表于 2009-7-16 16:32 | 只看该作者
原帖由 wolfheat 于 2009-7-15 18:01 发表


我想您应该属于BI实施供应商吧。我在做BI供应商的时候也是坚决拥护代码方式,因为用了工具结果就是减少我的团队收入,增加了产品采购费用。我反对用PLSQL或者其他代码方式实现ETL,主要因为当你维护一个6年7年的数据仓库后,你会发现面对海量级别的存储过程是多么的无奈。一切的项目在交付的时候是最清晰的,但是如何保证运行维护了6 7年之后文档与代码还能保持一致性,供应商开发人员变动后还能保持维护质量。SP的注释永远是对的,但是其内部产生的错误,你找一个其他人去理解作者的思路是非常困难的。

我的理解与您恰恰相反,Informatica并不是一个适合10人以上的团队,它最大的作用就是简化开发,很多地方体现出设计完成即完工的思想。一个原来需要3-5人完成的ETL模块开发项目,使用了工具我只需要1-2人配置工具。工具中的对象逆向导出的文档也能保持与实际流程的一致性。



我不是实施供应商,以前一直做内部项目的,自己开发、实施、管理、维护。在刚开始这个行业的前两年,我一直推崇使用ETL工具,鄙视那些使用SP的。informatica、oracle、microsoft的工具都用过。其中informatica给我的印象最糟糕,当时一个项目用的是8.1.1 sp4版本。功能上极其简单,比如遍历一个文件夹下面的文件,正则表达式、match & merge等等都实现不了。最郁闷的是bug一大堆,中文经常乱码,全角字符不支持。出错后看日志找错误,我靠,真想把电脑给砸了。另外,informatica的团队开发、版本控制必须连接到repository。这样对于小型团队灵活、独立的开发方式是不适合的。

后来数据库接触的多了,深入这块。发现SP在性能方面都比工具有优势。特别是做了两个海量数据的项目后(每周5~6TB的数据量),更是坚定了这种看法。尽管我还不是专业的DBA,但数据库经过优化后的ETL方案比用工具快很多。你可以去问问,移动通讯用DB2的,它们那种数据级别用的脚本,很大程度上也是因为性能的因素吧。
开发方面,SP比用工具直接、便捷。用工具拖控件,做一个mapping需要10分钟,而SP只要5分钟就搞定了。
至于维护方面,不好说。上个项目,用工具做,交接时居然还要教甲方维护人员怎么使用工具。天啊,光教他们最基本的都拖了我们一个礼拜。SP代码虽然看起来麻烦一些,但是最直接,任何IT人员都能看懂什么意思。这样后期的修改就方便一些。

使用道具 举报

回复
论坛徽章:
0
34#
发表于 2009-7-16 17:10 | 只看该作者
原帖由 esestt 于 2009-7-16 16:32 发表



我不是实施供应商,以前一直做内部项目的,自己开发、实施、管理、维护。在刚开始这个行业的前两年,我一直推崇使用ETL工具,鄙视那些使用SP的。informatica、oracle、microsoft的工具都用过。其中informatica给我的印象最糟糕,当时一个项目用的是8.1.1 sp4版本。功能上极其简单,比如遍历一个文件夹下面的文件,正则表达式、match & merge等等都实现不了。最郁闷的是bug一大堆,中文经常乱码,全角字符不支持。出错后看日志找错误,我靠,真想把电脑给砸了。另外,informatica的团队开发、版本控制必须连接到repository。这样对于小型团队灵活、独立的开发方式是不适合的。

后来数据库接触的多了,深入这块。发现SP在性能方面都比工具有优势。特别是做了两个海量数据的项目后(每周5~6TB的数据量),更是坚定了这种看法。尽管我还不是专业的DBA,但数据库经过优化后的ETL方案比用工具快很多。你可以去问问,移动通讯用DB2的,它们那种数据级别用的脚本,很大程度上也是因为性能的因素吧。
开发方面,SP比用工具直接、便捷。用工具拖控件,做一个mapping需要10分钟,而SP只要5分钟就搞定了。
至于维护方面,不好说。上个项目,用工具做,交接时居然还要教甲方维护人员怎么使用工具。天啊,光教他们最基本的都拖了我们一个礼拜。SP代码虽然看起来麻烦一些,但是最直接,任何IT人员都能看懂什么意思。这样后期的修改就方便一些。


可以换hadoop
其实所有这些,都是在工具框架下讨论问题,并没有超然于工具之上的方法
一旦某个地方严重成为瓶颈,其解决方法无非就是——换个开发工具。。。

使用道具 举报

回复
论坛徽章:
66
现任管理团队成员
日期:2011-05-07 01:45:08版主9段
日期:2013-04-21 02:21:02ITPUB年度最佳版主
日期:2014-02-19 10:05:27ITPUB年度最佳版主
日期:2013-01-30 17:30:25ITPUB年度最佳技术原创精华奖
日期:2012-03-13 17:12:05优秀写手
日期:2013-12-18 09:29:15元宝章
日期:2015-02-10 19:57:54金牌徽章
日期:2015-02-10 19:59:42银牌徽章
日期:2015-02-10 19:59:42铜牌徽章
日期:2015-02-10 19:59:41
35#
发表于 2009-7-17 15:57 | 只看该作者
楼主,能否根据你的经验,介绍下ETL事务控制方面的。

使用道具 举报

回复
论坛徽章:
0
36#
发表于 2009-7-17 16:57 | 只看该作者
学习了!

使用道具 举报

回复
论坛徽章:
1
ITPUB十周年纪念徽章
日期:2011-11-01 16:21:15
37#
发表于 2009-7-21 21:21 | 只看该作者
当然可以标准化。但标准化的理解每个人都有不同。

etl架构设计 几个重要的点都要考虑到。 指定好规范和模板,开发和维护很easy。

没有复杂的etl,只有不合适的数据模型和etl设计。

使用道具 举报

回复
论坛徽章:
3
八级虎吧徽章
日期:2009-01-24 11:59:34CTO参与奖
日期:2009-02-20 09:44:20授权会员
日期:2009-03-21 09:19:07
38#
发表于 2009-7-22 12:14 | 只看该作者
楼主很有心得。。。

使用道具 举报

回复
论坛徽章:
2
设计板块每日发贴之星
日期:2011-07-17 01:01:01ITPUB十周年纪念徽章
日期:2011-11-01 16:25:22
39#
发表于 2009-11-17 15:15 | 只看该作者
etl要建立一个标准需要一个长期的过程,对业务的理解不一致,提出的需求也不一致,导致取数的逻辑不一致。所以建立一个取数的规范才是正道。

使用道具 举报

回复
论坛徽章:
0
40#
发表于 2009-12-2 11:35 | 只看该作者
我是外行,谈谈自己的看法,呵呵,不对请指正!
其实ETL本身就是标准,因为它将E、T和L拆分了,我不知道你们讨论的标准是什么,是不是代码标准化。
ETL和BI是分开独立设计的,ETL是负责数据抽取、整合和加载,BI是在这基础上进行数据汇总和展示,汇总的工作不应该是ETL干的,这就是现在所讲的数据和应用分离的思想。我们内部开发了ETL可视化可配置的平台,现在在努力改进和优化中,目前就是提供ETL过程的可监控可追溯和可维护。

使用道具 举报

回复

您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

TOP技术积分榜 社区积分榜 徽章 团队 统计 知识索引树 积分竞拍 文本模式 帮助
  ITPUB首页 | ITPUB论坛 | 数据库技术 | 企业信息化 | 开发技术 | 微软技术 | 软件工程与项目管理 | IBM技术园地 | 行业纵向讨论 | IT招聘 | IT文档
  ChinaUnix | ChinaUnix博客 | ChinaUnix论坛
CopyRight 1999-2011 itpub.net All Right Reserved. 北京盛拓优讯信息技术有限公司版权所有 联系我们 未成年人举报专区 
京ICP备16024965号-8  北京市公安局海淀分局网监中心备案编号:11010802021510 广播电视节目制作经营许可证:编号(京)字第1149号
  
快速回复 返回顶部 返回列表