楼主: supkim

[精华] 接ETL考虑。。。。。

[复制链接]
论坛徽章:
0
61#
发表于 2004-2-3 21:53 | 只看该作者
期待当中

使用道具 举报

回复
论坛徽章:
2
授权会员
日期:2005-10-30 17:05:332011新春纪念徽章
日期:2011-02-18 11:43:33
62#
发表于 2004-2-4 20:27 | 只看该作者
最初由 ligengocp 发布
[B]我的朋友做过300G的DBF到ORACLE抽取,只需要1个小时;NCR需要23个小时.

方法透露一点,,使用C与SQLLOAD,将DBF文件当成普通文本文件来读..当然数据源与目标数据库的网络通道要多要宽,此外后台数据库的表设计一定要到位,表的分区要大,不要写日志等. [/B]




看大家这么热烈,非常高兴。我在DB2 8.1上实验,表上无索引和有索引速度差太多了。无索引载入+再建索引《《《有索引载入。
但是实际应用都是原来有索引啊,也不能每次都删除索引再重建吧?NCR就是原来有索引吧,而ORACLE无索引吧(也可能是不记日志吧)

使用道具 举报

回复
论坛徽章:
0
63#
发表于 2004-2-13 19:59 | 只看该作者

是不是发贴够一定数量,才可以看到链接

理解对否?

使用道具 举报

回复
论坛徽章:
71
马上加薪
日期:2014-02-19 11:55:14ITPUB十周年纪念徽章
日期:2011-11-01 16:19:412010广州亚运会纪念徽章:橄榄球
日期:2011-05-22 10:54:33管理团队成员
日期:2011-05-07 01:45:082011新春纪念徽章
日期:2011-01-25 15:42:562011新春纪念徽章
日期:2011-01-25 15:42:332011新春纪念徽章
日期:2011-01-25 15:42:152011新春纪念徽章
日期:2011-01-25 15:41:502011新春纪念徽章
日期:2011-01-25 15:41:012010年世界杯参赛球队:丹麦
日期:2010-04-06 10:23:36
64#
发表于 2004-3-2 12:18 | 只看该作者
db2load的确是在装载前先屏蔽掉index,在完成阶段在给你重建index,db2load直接写page,所以速度比较快

使用道具 举报

回复
论坛徽章:
0
65#
发表于 2004-4-20 09:56 | 只看该作者
通常情况下,如果是小数据量,可以用MS 的DTS等工具,此类工具较为简单,也比较容易找到。如数据量较大,而处理较为简单,就是说你的DW中的物理数据模型与业务系统的数据模型十分接近,数据不许作过多的处理,则可考虑用成熟的ETL产品,如informatic等。但是,如果你的DW较为复杂,并需产生多维立方体等功OLAP使用的数据,最好的方式是利用数据库提供的加载工具,配合自己开发的脚本(用于数据导出、转换、清洗等操作)完成ETL工作。

使用道具 举报

回复
论坛徽章:
19
ITPUB元老
日期:2005-02-28 12:57:00马上有对象
日期:2014-02-19 11:55:14马上有钱
日期:2014-02-19 11:55:14马上有房
日期:2014-02-19 11:55:14马上有车
日期:2014-02-19 11:55:142012新春纪念徽章
日期:2012-02-13 15:11:182012新春纪念徽章
日期:2012-02-13 15:11:182012新春纪念徽章
日期:2012-02-13 15:11:182012新春纪念徽章
日期:2012-02-13 15:11:182012新春纪念徽章
日期:2012-02-13 15:11:18
66#
发表于 2004-4-26 11:03 | 只看该作者
Oracle中装载数据用sql*loader,动态生成ctl控制文件,在C程序中调用比较快。SQL*Loader可以起多进程的

使用道具 举报

回复
论坛徽章:
2
授权会员
日期:2005-10-30 17:05:33ITPUB 11周年纪念徽章
日期:2012-10-09 18:05:07
67#
发表于 2004-4-27 14:29 | 只看该作者
各位在用各种ETL工具时,能不能满足真正需要的业务数据处理?
我以前有尝试着用比如Datastage等工具,总是觉得这些工具对于数据量变动小的,可以实现,一些比较负责的业务逻辑,都要通过自己手工编写脚本实现,有没有谁用工具比较成熟的例子?

使用道具 举报

回复
论坛徽章:
0
68#
发表于 2004-5-10 10:34 | 只看该作者

大数据量转换问题

从源表中提取大量数据(千万甚至亿),然后进行转换(包括计算、以及将属性转成维度关键字等),再载入目标事实表中。

请问,这个过程一般的ETL工具处理性能如何?是直接在数据库中进行处理,还是先将源表数据写入文件,然后基于文件在内存中进行转换,再写入输出文件,最后loader进入目标表中?

使用道具 举报

回复
论坛徽章:
0
69#
发表于 2004-5-10 15:40 | 只看该作者

我看做个通用的ETL 工具很难,基于你的情况,针对数据转换开发一个小程序就得了

如果你是项目上的需求,还不如有针对性的做一个

使用道具 举报

回复
论坛徽章:
1
奥运会纪念徽章:游泳
日期:2008-10-24 13:22:07
70#
发表于 2004-5-11 09:27 | 只看该作者

to solarise

你说的计算和处理一般来说是在ETL工具内部完成的,一般来说,除非排序,聚合等处理,大多数处理是不需要读写文件的,而是在内存中进行的。用ETL工具主要是因为快速开发,维护方便,元数据管理规范,便于运行时的监控和管理。如果你的数据源包含很多类型的DB,用工具就更有优势了。至于性能问题,目前主流的ETL工具,informatica,sagent,datastage应该都能满足你的需要。

使用道具 举报

回复

您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

TOP技术积分榜 社区积分榜 徽章 团队 统计 知识索引树 积分竞拍 文本模式 帮助
  ITPUB首页 | ITPUB论坛 | 数据库技术 | 企业信息化 | 开发技术 | 微软技术 | 软件工程与项目管理 | IBM技术园地 | 行业纵向讨论 | IT招聘 | IT文档
  ChinaUnix | ChinaUnix博客 | ChinaUnix论坛
CopyRight 1999-2011 itpub.net All Right Reserved. 北京盛拓优讯信息技术有限公司版权所有 联系我们 未成年人举报专区 
京ICP备16024965号-8  北京市公安局海淀分局网监中心备案编号:11010802021510 广播电视节目制作经营许可证:编号(京)字第1149号
  
快速回复 返回顶部 返回列表