楼主: earth2mars

有没比SQL*LOADER更快的文本数据导入方法?

[复制链接]
论坛徽章:
14
2009新春纪念徽章
日期:2009-01-04 14:52:28沸羊羊
日期:2015-03-04 14:51:52优秀写手
日期:2014-03-14 06:00:13马上有房
日期:2014-02-18 16:42:022014年新春福章
日期:2014-02-18 16:42:022013年新春福章
日期:2013-02-25 14:51:24ITPUB 11周年纪念徽章
日期:2012-10-09 18:08:15蜘蛛蛋
日期:2012-06-27 21:08:142012新春纪念徽章
日期:2012-01-04 11:53:29ITPUB十周年纪念徽章
日期:2011-11-01 16:23:26
21#
发表于 2012-12-7 18:49 | 只看该作者
本帖最后由 yulihua49 于 2012-12-7 19:18 编辑
earth2mars 发表于 2012-12-3 13:45
如果仅仅是每秒加载数据几万行是不快的
sqlldr每秒可以加载20万行,笔记本,行长200字节


不要简单的看多少行,还有行大小,列多少,类型复杂性,索引问题等等。
我那个表是146列,总行长8K,实际平均行长1.5K,带3个索引,其中一个是函数索引。
我们相对来看,SQLLDR每秒加载10000,我30000(昨天的结果)。(还包括一组很复杂的运算,不过完全与插库并发了,其时间忽略不计);
我用3台服务器,9个连接并发,同时动用2个RAC节点,都是异地加载,中间是1G网。

我准备写个通用的多线程并行加载器,来代替sqlldr,届时与大家分享。
当然,这在RAC环境下,具有很大的SGA才会有比较好的效果。

使用道具 举报

回复
论坛徽章:
407
紫蛋头
日期:2012-05-21 10:19:41迷宫蛋
日期:2012-06-06 16:02:49奥运会纪念徽章:足球
日期:2012-06-29 15:30:06奥运会纪念徽章:排球
日期:2012-07-10 21:24:24鲜花蛋
日期:2012-07-16 15:24:59奥运会纪念徽章:拳击
日期:2012-08-07 10:54:50奥运会纪念徽章:羽毛球
日期:2012-08-21 15:55:33奥运会纪念徽章:蹦床
日期:2012-08-21 21:09:51奥运会纪念徽章:篮球
日期:2012-08-24 10:29:11奥运会纪念徽章:体操
日期:2012-09-07 16:40:00
22#
发表于 2012-12-7 19:08 | 只看该作者
yulihua49 发表于 2012-12-7 18:49
不要简单的看多少行,还有行大小,列多少,类型复杂性,索引问题等等。
我那个表是146列,总行长8K,实 ...

记得同时实现直接和常规路径加载

使用道具 举报

回复
论坛徽章:
14
2009新春纪念徽章
日期:2009-01-04 14:52:28沸羊羊
日期:2015-03-04 14:51:52优秀写手
日期:2014-03-14 06:00:13马上有房
日期:2014-02-18 16:42:022014年新春福章
日期:2014-02-18 16:42:022013年新春福章
日期:2013-02-25 14:51:24ITPUB 11周年纪念徽章
日期:2012-10-09 18:08:15蜘蛛蛋
日期:2012-06-27 21:08:142012新春纪念徽章
日期:2012-01-04 11:53:29ITPUB十周年纪念徽章
日期:2011-11-01 16:23:26
23#
发表于 2012-12-7 19:19 | 只看该作者
〇〇 发表于 2012-12-7 19:08
记得同时实现直接和常规路径加载

我不会,你可以介绍一下。

使用道具 举报

回复
论坛徽章:
407
紫蛋头
日期:2012-05-21 10:19:41迷宫蛋
日期:2012-06-06 16:02:49奥运会纪念徽章:足球
日期:2012-06-29 15:30:06奥运会纪念徽章:排球
日期:2012-07-10 21:24:24鲜花蛋
日期:2012-07-16 15:24:59奥运会纪念徽章:拳击
日期:2012-08-07 10:54:50奥运会纪念徽章:羽毛球
日期:2012-08-21 15:55:33奥运会纪念徽章:蹦床
日期:2012-08-21 21:09:51奥运会纪念徽章:篮球
日期:2012-08-24 10:29:11奥运会纪念徽章:体操
日期:2012-09-07 16:40:00
24#
发表于 2012-12-7 19:53 | 只看该作者

使用道具 举报

回复
论坛徽章:
2
2013年新春福章
日期:2013-02-25 14:51:24优秀写手
日期:2014-04-05 06:00:00
25#
 楼主| 发表于 2012-12-7 20:04 | 只看该作者
yulihua49 发表于 2012-12-7 18:49
不要简单的看多少行,还有行大小,列多少,类型复杂性,索引问题等等。
我那个表是146列,总行长8K,实 ...

看着你们这么牛鼻,我也好好学C了

使用道具 举报

回复
论坛徽章:
14
2009新春纪念徽章
日期:2009-01-04 14:52:28沸羊羊
日期:2015-03-04 14:51:52优秀写手
日期:2014-03-14 06:00:13马上有房
日期:2014-02-18 16:42:022014年新春福章
日期:2014-02-18 16:42:022013年新春福章
日期:2013-02-25 14:51:24ITPUB 11周年纪念徽章
日期:2012-10-09 18:08:15蜘蛛蛋
日期:2012-06-27 21:08:142012新春纪念徽章
日期:2012-01-04 11:53:29ITPUB十周年纪念徽章
日期:2011-11-01 16:23:26
26#
发表于 2012-12-7 20:25 | 只看该作者
本帖最后由 yulihua49 于 2012-12-7 21:29 编辑
〇〇 发表于 2012-12-7 19:53
你看过我的帖子的


这个我看过。可是,跟加载问题有什么关系?
里边有个:
text *sqlstmt = (text *)"INSERT INTO yourcube (c1,c2,c3,c4,cv,sv,gid) \
values (:c1,:c2,:c3,:c4,:cv,mod(:sv+4294967296,4294967296)+:sv1*4294967296,:gid)";
没见到怎么用的。
“翻遍网络,好像非direct path只能调用存储过程forall才能批量装载”
上次我就没弄懂什么叫direct path,我用oci批量绑定算是direct path吗?
http://www.itpub.net/thread-1271979-8-1.html 79楼,那时我刚刚在练批量绑定。现在学成了,到处用,不仅能批量插入,还可以批量修改。
很有意思的一点,在批量修改时,如果WHERE PK_COL_1=:1 and PK_COL_2=:2,然后:1和:2各绑定1000个值,确定了1000个主键值,它就相当于:
wherer PK_COL_1 in (1000个值) and PK_COL2 in(1000个值) .....这个SQL写不对,还需要这两个in(...) 逐个对应。

他能够正确的将每行的值修改到对应的主键的行中,我原来很担心ORACLE做不对。



使用道具 举报

回复
论坛徽章:
14
2009新春纪念徽章
日期:2009-01-04 14:52:28沸羊羊
日期:2015-03-04 14:51:52优秀写手
日期:2014-03-14 06:00:13马上有房
日期:2014-02-18 16:42:022014年新春福章
日期:2014-02-18 16:42:022013年新春福章
日期:2013-02-25 14:51:24ITPUB 11周年纪念徽章
日期:2012-10-09 18:08:15蜘蛛蛋
日期:2012-06-27 21:08:142012新春纪念徽章
日期:2012-01-04 11:53:29ITPUB十周年纪念徽章
日期:2011-11-01 16:23:26
27#
发表于 2012-12-7 20:29 | 只看该作者
本帖最后由 yulihua49 于 2012-12-7 20:35 编辑
earth2mars 发表于 2012-12-7 20:04
看着你们这么牛鼻,我也好好学C了


不仅是C的问题,要了解体系架构。比方说我们要解决批量、并行处理,就要进行多线程+RAC架构的处理,这个思路。其它语言也可以,只不过我只会C,JAVA弄过一点,不熟。
另外,我在C上弄了个框架,处理这东西比较方便。
单纯的OCI,会使用就够费事的了,要弄这么复杂的程序结构,太费力。

使用道具 举报

回复
论坛徽章:
2
2013年新春福章
日期:2013-02-25 14:51:24优秀写手
日期:2014-04-05 06:00:00
28#
 楼主| 发表于 2012-12-7 20:39 | 只看该作者
yulihua49 发表于 2012-12-7 20:29
不仅是C的问题,要了解体系架构。比方说我们要解决批量、并行处理,就要进行多线程+RAC架构的处理,这 ...

RAC的成本比较高,我们的客户未必会接受的
yulihua老师的框架估计可以卖大钱了。不是一般人整得出来的

使用道具 举报

回复
论坛徽章:
14
2009新春纪念徽章
日期:2009-01-04 14:52:28沸羊羊
日期:2015-03-04 14:51:52优秀写手
日期:2014-03-14 06:00:13马上有房
日期:2014-02-18 16:42:022014年新春福章
日期:2014-02-18 16:42:022013年新春福章
日期:2013-02-25 14:51:24ITPUB 11周年纪念徽章
日期:2012-10-09 18:08:15蜘蛛蛋
日期:2012-06-27 21:08:142012新春纪念徽章
日期:2012-01-04 11:53:29ITPUB十周年纪念徽章
日期:2011-11-01 16:23:26
29#
发表于 2012-12-7 21:30 | 只看该作者
本帖最后由 yulihua49 于 2012-12-7 21:35 编辑
earth2mars 发表于 2012-12-7 20:39
RAC的成本比较高,我们的客户未必会接受的
yulihua老师的框架估计可以卖大钱了。不是一般人整得出来的


卖不了钱,我不会经商。
谁要,白给。
http://www.itpub.net/thread-1088197-1-1.html
那个帖子后来提到了批量插入。

我想,即使不是RAC,只要是多核数据库引擎+大的SGA,多路并行批量插入也会有效果,这需要试验。

使用道具 举报

回复
论坛徽章:
2
2013年新春福章
日期:2013-02-25 14:51:24优秀写手
日期:2014-04-05 06:00:00
30#
 楼主| 发表于 2012-12-7 21:38 | 只看该作者
本帖最后由 earth2mars 于 2012-12-7 21:40 编辑
yulihua49 发表于 2012-12-7 21:30
卖不了钱,我不会经商。
谁要,白给。
http://www.itpub.net/thread-1088197-1-1.html


yulihua老师是我佩服的人!
其实我想学的是方法,而不是别人做好的工具自己拿来用用,希望有一天自己也能做出来。

使用道具 举报

回复

您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

TOP技术积分榜 社区积分榜 徽章 团队 统计 知识索引树 积分竞拍 文本模式 帮助
  ITPUB首页 | ITPUB论坛 | 数据库技术 | 企业信息化 | 开发技术 | 微软技术 | 软件工程与项目管理 | IBM技术园地 | 行业纵向讨论 | IT招聘 | IT文档
  ChinaUnix | ChinaUnix博客 | ChinaUnix论坛
CopyRight 1999-2011 itpub.net All Right Reserved. 北京盛拓优讯信息技术有限公司版权所有 联系我们 未成年人举报专区 
京ICP备16024965号-8  北京市公安局海淀分局网监中心备案编号:11010802021510 广播电视节目制作经营许可证:编号(京)字第1149号
  
快速回复 返回顶部 返回列表