接ETL考虑。。。。。

nowise · 发表于 2002-10-27 14:18

市面上的各种etl工具都有其的不足，做dw or dss 最好是自己写etl.
我自己做过etl工具，两天时间，比那些市面上的etl工具不只好多少，毕竟他们是通用工具，我的是专用工具，没得比。但造价差的远了。

musicalzhu · 发表于 2002-10-28 14:23

行价比好呀，公司预算控制：）

linliner · 发表于 2002-10-30 13:31

最初由 justforit 发布
[B]TERADATA是用FASTLOAD和BTEQ两个工具来做ETL
FASTLOAD主要是载入临时表
BTEQ主要是做一些变换,导入到数据库中 [/B]

linliner · 发表于 2002-10-30 13:34

最初由我思我在发布
[B]请参考一下PowerMart，专门用于数据提取、清洗、加载，功能的确强大，我就是用它将源数据加载到数据仓库，至于究竟有多强大，你用用就知道，对开发ETL很有帮助。

在数据仓库设计时，确定维的一般方法：属性确定成维，计算确定为指标（或度量）

请大家参考《数据仓库》这本书，很经典的 [/B]

"指标"是不是就是指实事表里的数值属性呀？

frank_fan · 发表于 2003-10-15 11:42

SQL LOADER 只是一个简单的装数吧

frank_fan · 发表于 2003-10-15 11:43

指标是一个维度吧?

frank_fan · 发表于 2003-10-15 11:46

最初由 supkim 发布
[B]现在最大的问题是哪些指标做为维，哪些指标做为指标维，要分起来还真的有点麻烦 [/B]

有同样的感受这是不应该取决于你的CUBE设计
有些维值可以放到指标维中也可以单列一个维度
有利有闭

孤烟 · 发表于 2003-10-16 10:31

我实现ETL的基本思路：
定义源表，源字段，目标表，目标字段，源和目标的字段关系，转换的时候对维表进行查找，转换成ID，装载设计为独立的进程，调用数据库的装载工具，通过查目标表和字段定义表构成装载语句。
基本上是模仿powermat的抽取的模式，可以满足需要，每天抽取的数据量为30G
个人感觉磁盘速度在抽取的时候不是瓶颈，瓶颈是CPU，目前的通用的抽取工具都没有能够做到在单一的数据转换中使用多个cpu，一般是使用多个任务并发的方式实现多个CPU的利用的，而在数据转换的过程中大量需要CPU的运算来完成，实际运行中也证明了这一点。

bestball · 发表于 2003-10-17 11:01

不是这样的。
目前有些ETL工具可以做到在单一的数据转换中使用多个cpu，像sagent，datastage现有版本都是可以的。PowerCenter我觉得应该也可以，但没有验证过。

孤烟 · 发表于 2003-10-29 16:34

最初由 bestball 发布
[B]不是这样的。
目前有些ETL工具可以做到在单一的数据转换中使用多个cpu，像sagent，datastage现有版本都是可以的。PowerCenter我觉得应该也可以，但没有验证过。 [/B]

单一的数据转换是无法用到多个CPU的，设计到buffer的同步问题，非常难解决，一般在抽取过程设计的时候对数据进行分片，分成多个job来进行。
datastage和PowerCenter的partial都只是做到了在数据流中不同的转换可以用到多个cpu来运算，本质上是不同的

[精华] 接ETL考虑。。。。。

我的看法

to ""

Re: 如果你要做ETL的话

浏览过的版块