接ETL考虑。。。。。

qianzhhua · 发表于 2004-2-3 21:53

期待当中

cliser · 发表于 2004-2-4 20:27

最初由 ligengocp 发布
[B]我的朋友做过300G的DBF到ORACLE抽取,只需要1个小时;NCR需要23个小时.

方法透露一点,,使用C与SQLLOAD,将DBF文件当成普通文本文件来读..当然数据源与目标数据库的网络通道要多要宽,此外后台数据库的表设计一定要到位,表的分区要大,不要写日志等. [/B]

看大家这么热烈，非常高兴。我在DB2 8.1上实验，表上无索引和有索引速度差太多了。无索引载入＋再建索引《《《有索引载入。
但是实际应用都是原来有索引啊，也不能每次都删除索引再重建吧？NCR就是原来有索引吧，而ORACLE无索引吧（也可能是不记日志吧）

caucasus_lee · 发表于 2004-2-13 19:59

理解对否？

bpmfhu · 发表于 2004-3-2 12:18

db2load的确是在装载前先屏蔽掉index,在完成阶段在给你重建index,db2load直接写page,所以速度比较快

yh312153 · 发表于 2004-4-20 09:56

通常情况下，如果是小数据量，可以用MS 的DTS等工具，此类工具较为简单，也比较容易找到。如数据量较大，而处理较为简单，就是说你的DW中的物理数据模型与业务系统的数据模型十分接近，数据不许作过多的处理，则可考虑用成熟的ETL产品，如informatic等。但是，如果你的DW较为复杂，并需产生多维立方体等功OLAP使用的数据，最好的方式是利用数据库提供的加载工具，配合自己开发的脚本（用于数据导出、转换、清洗等操作）完成ETL工作。

xiaomiao · 发表于 2004-4-26 11:03

Oracle中装载数据用sql*loader，动态生成ctl控制文件，在C程序中调用比较快。SQL*Loader可以起多进程的

jorgon · 发表于 2004-4-27 14:29

各位在用各种ETL工具时，能不能满足真正需要的业务数据处理？
我以前有尝试着用比如Datastage等工具，总是觉得这些工具对于数据量变动小的，可以实现，一些比较负责的业务逻辑，都要通过自己手工编写脚本实现，有没有谁用工具比较成熟的例子？

solarise · 发表于 2004-5-10 10:34

从源表中提取大量数据（千万甚至亿），然后进行转换（包括计算、以及将属性转成维度关键字等），再载入目标事实表中。

请问，这个过程一般的ETL工具处理性能如何？是直接在数据库中进行处理，还是先将源表数据写入文件，然后基于文件在内存中进行转换，再写入输出文件，最后loader进入目标表中？

cuceeyar · 发表于 2004-5-10 15:40

如果你是项目上的需求，还不如有针对性的做一个

bestball · 发表于 2004-5-11 09:27

你说的计算和处理一般来说是在ETL工具内部完成的，一般来说，除非排序，聚合等处理，大多数处理是不需要读写文件的，而是在内存中进行的。用ETL工具主要是因为快速开发，维护方便，元数据管理规范，便于运行时的监控和管理。如果你的数据源包含很多类型的DB，用工具就更有优势了。至于性能问题，目前主流的ETL工具，informatica，sagent，datastage应该都能满足你的需要。

[精华] 接ETL考虑。。。。。

是不是发贴够一定数量，才可以看到链接

大数据量转换问题

我看做个通用的ETL 工具很难，基于你的情况，针对数据转换开发一个小程序就得了

to solarise

浏览过的版块