12
返回列表 发新帖
楼主: xiongdh

请问大家你们对重单是怎么进行剔除的?

[复制链接]
论坛徽章:
2
授权会员
日期:2005-10-30 17:05:33ITPUB 11周年纪念徽章
日期:2012-10-09 18:03:32
11#
发表于 2003-4-18 13:31 | 只看该作者
记录重复的问题在很多项目中都会遇到:

根据需要查重的数据量可以有多种解决方案

1、数据量较小,需要查的存量数据及其增量百万条以下

  使用数据库,设置使该表索引保持在高速缓存中

2、数据量中等,需要查的存量数据及其增量生成的内存B+树小于主机可分配的内存

使用内存B+树

3、数据量极大

使用3级文件索引(可查阅 软件学报)

使用道具 举报

回复
论坛徽章:
0
12#
发表于 2003-4-18 14:18 | 只看该作者
关注ing。。。。

使用道具 举报

回复
论坛徽章:
0
13#
 楼主| 发表于 2003-4-19 02:10 | 只看该作者
to truezxd
能否把三级文件索引的相关资料(最好能有一些例子)发一些到我的邮箱?
xdhdyx@163.com
谢谢!

使用道具 举报

回复
论坛徽章:
0
14#
发表于 2003-4-20 20:32 | 只看该作者

to truezxd

能否再详细一些吗,最好提供些资料,十分感谢

使用道具 举报

回复
论坛徽章:
0
15#
发表于 2003-4-29 13:05 | 只看该作者
如果只排除完全重单,在5000万条话单以下的情况下,可以使用数据库排重。
如果要排除交叉话单的话,则必须在内存中进行排重。内存可以建立共享内存,这样跨文件的
的问题就可以解决了。只是内存的大小是有限制的,可以考虑在内存中话单达到一定的条数是
将共享内存清除,重新建立。如果能保证话单文件的根据时间的的顺序进行处理时,就可以在
删除共享内存时,将临近几天的话单读出来,重建时在将其读入。这样基本上可以解决排重问题。
  只是,这种排重方式,因为考虑目前的程序的实时性,格式化后的话单马上需要计入话单表,不能对重单和交叉单的第一条进行操作。
  一家之言,请大家讨论。

使用道具 举报

回复
论坛徽章:
0
16#
发表于 2003-5-8 11:36 | 只看该作者
关注,我实际接触过的一个查重的是在数据库中完成
(hp lh6000 双cpu,1G内存,oracle8.1.6)1000万左右话单量(其中重单200万左右)
指定大回滚段,用delete删除大概一刻钟。

使用道具 举报

回复
论坛徽章:
0
17#
发表于 2003-5-31 02:28 | 只看该作者

truezxd的是比较好的方法

indexed file system & B+ tree

[QUOTE]最初由 xiongdh 发布

使用道具 举报

回复
论坛徽章:
9
奥运会纪念徽章:水球
日期:2008-10-24 13:17:39生肖徽章2007版:猪
日期:2009-11-17 16:40:482010新春纪念徽章
日期:2010-01-04 08:33:082010新春纪念徽章
日期:2010-03-01 11:19:50ITPUB9周年纪念徽章
日期:2010-10-08 09:28:522010广州亚运会纪念徽章:卡巴迪
日期:2010-12-06 11:00:042011新春纪念徽章
日期:2011-02-18 11:43:32ITPUB十周年纪念徽章
日期:2011-11-01 16:19:41
18#
发表于 2004-5-31 17:08 | 只看该作者
yes,索引文件是不错的。

使用道具 举报

回复

您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

TOP技术积分榜 社区积分榜 徽章 团队 统计 知识索引树 积分竞拍 文本模式 帮助
  ITPUB首页 | ITPUB论坛 | 数据库技术 | 企业信息化 | 开发技术 | 微软技术 | 软件工程与项目管理 | IBM技术园地 | 行业纵向讨论 | IT招聘 | IT文档
  ChinaUnix | ChinaUnix博客 | ChinaUnix论坛
CopyRight 1999-2011 itpub.net All Right Reserved. 北京盛拓优讯信息技术有限公司版权所有 联系我们 未成年人举报专区 
京ICP备16024965号-8  北京市公安局海淀分局网监中心备案编号:11010802021510 广播电视节目制作经营许可证:编号(京)字第1149号
  
快速回复 返回顶部 返回列表