楼主: supkim

[精华] 接ETL考虑。。。。。

[复制链接]
论坛徽章:
0
41#
发表于 2002-10-27 14:18 | 只看该作者

我的看法

市面上的各种etl工具都有其的不足,做dw or dss 最好是自己写etl.
我自己做过etl工具,两天时间,比那些市面上的etl工具不只好多少,毕竟他们是通用工具,我的是专用工具,没得比。但造价差的远了。

使用道具 举报

回复
论坛徽章:
15
ITPUB元老
日期:2005-02-28 12:57:002012新春纪念徽章
日期:2012-02-13 15:10:582012新春纪念徽章
日期:2012-02-13 15:10:582012新春纪念徽章
日期:2012-02-13 15:10:582012新春纪念徽章
日期:2012-02-13 15:10:58管理团队成员
日期:2011-05-07 01:45:082011新春纪念徽章
日期:2011-01-25 15:42:562011新春纪念徽章
日期:2011-01-25 15:42:332011新春纪念徽章
日期:2011-01-25 15:42:152011新春纪念徽章
日期:2011-01-25 15:41:50
42#
发表于 2002-10-28 14:23 | 只看该作者
行价比好呀,公司预算控制:)

使用道具 举报

回复
论坛徽章:
0
43#
发表于 2002-10-30 13:31 | 只看该作者

to ""

最初由 justforit 发布
[B]TERADATA是用FASTLOAD和BTEQ两个工具来做ETL
FASTLOAD主要是载入临时表
BTEQ主要是做一些变换,导入到数据库中 [/B]

使用道具 举报

回复
论坛徽章:
0
44#
发表于 2002-10-30 13:34 | 只看该作者

Re: 如果你要做ETL的话

最初由 我思我在 发布
[B]请参考一下PowerMart,专门用于数据提取、清洗、加载,功能的确强大,我就是用它将源数据加载到数据仓库,至于究竟有多强大,你用用就知道,对开发ETL很有帮助。

在数据仓库设计时,确定维的一般方法:属性确定成维,计算确定为指标(或度量)

请大家参考《数据仓库》这本书,很经典的 [/B]


"指标"是不是就是指实事表里的数值属性呀?

使用道具 举报

回复
论坛徽章:
1
授权会员
日期:2005-10-30 17:05:33
45#
发表于 2003-10-15 11:42 | 只看该作者
SQL LOADER 只是一个简单的装数吧

使用道具 举报

回复
论坛徽章:
1
授权会员
日期:2005-10-30 17:05:33
46#
发表于 2003-10-15 11:43 | 只看该作者
指标是一个维度吧?

使用道具 举报

回复
论坛徽章:
1
授权会员
日期:2005-10-30 17:05:33
47#
发表于 2003-10-15 11:46 | 只看该作者
最初由 supkim 发布
[B]现在最大的问题是哪些指标做为维,哪些指标做为指标维,要分起来还真的有点麻烦 [/B]


有同样的感受这是不应该取决于你的CUBE设计
有些维值可以放到指标维中也可以单列一个维度
有利有闭

使用道具 举报

回复
论坛徽章:
2
授权会员
日期:2005-10-30 17:05:33ITPUB元老
日期:2007-08-02 17:28:05
48#
发表于 2003-10-16 10:31 | 只看该作者
我实现ETL的基本思路:
定义源表,源字段,目标表,目标字段,源和目标的字段关系,转换的时候对维表进行查找,转换成ID,装载设计为独立的进程,调用数据库的装载工具,通过查目标表和字段定义表构成装载语句。
基本上是模仿powermat的抽取的模式,可以满足需要,每天抽取的数据量为30G
个人感觉磁盘速度在抽取的时候不是瓶颈,瓶颈是CPU,目前的通用的抽取工具都没有能够做到在单一的数据转换中使用多个cpu,一般是使用多个任务并发的方式实现多个CPU的利用的,而在数据转换的过程中大量需要CPU的运算来完成,实际运行中也证明了这一点。

使用道具 举报

回复
论坛徽章:
1
奥运会纪念徽章:游泳
日期:2008-10-24 13:22:07
49#
发表于 2003-10-17 11:01 | 只看该作者
不是这样的。
目前有些ETL工具可以做到在单一的数据转换中使用多个cpu,像sagent,datastage现有版本都是可以的。PowerCenter我觉得应该也可以,但没有验证过。

使用道具 举报

回复
论坛徽章:
2
授权会员
日期:2005-10-30 17:05:33ITPUB元老
日期:2007-08-02 17:28:05
50#
发表于 2003-10-29 16:34 | 只看该作者
最初由 bestball 发布
[B]不是这样的。
目前有些ETL工具可以做到在单一的数据转换中使用多个cpu,像sagent,datastage现有版本都是可以的。PowerCenter我觉得应该也可以,但没有验证过。 [/B]


单一的数据转换是无法用到多个CPU的,设计到buffer的同步问题,非常难解决,一般在抽取过程设计的时候对数据进行分片,分成多个job来进行。
datastage和PowerCenter的partial都只是做到了在数据流中不同的转换可以用到多个cpu来运算,本质上是不同的

使用道具 举报

回复

您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

TOP技术积分榜 社区积分榜 徽章 团队 统计 知识索引树 积分竞拍 文本模式 帮助
  ITPUB首页 | ITPUB论坛 | 数据库技术 | 企业信息化 | 开发技术 | 微软技术 | 软件工程与项目管理 | IBM技术园地 | 行业纵向讨论 | IT招聘 | IT文档
  ChinaUnix | ChinaUnix博客 | ChinaUnix论坛
CopyRight 1999-2011 itpub.net All Right Reserved. 北京盛拓优讯信息技术有限公司版权所有 联系我们 未成年人举报专区 
京ICP备16024965号-8  北京市公安局海淀分局网监中心备案编号:11010802021510 广播电视节目制作经营许可证:编号(京)字第1149号
  
快速回复 返回顶部 返回列表