请问大家你们对重单是怎么进行剔除的？

truezxd · 发表于 2003-4-18 13:31

记录重复的问题在很多项目中都会遇到：

根据需要查重的数据量可以有多种解决方案

1、数据量较小，需要查的存量数据及其增量百万条以下

使用数据库，设置使该表索引保持在高速缓存中

2、数据量中等，需要查的存量数据及其增量生成的内存B+树小于主机可分配的内存

使用内存B+树

3、数据量极大

使用3级文件索引（可查阅软件学报）

zhanggz · 发表于 2003-4-18 14:18

关注ing。。。。

xiongdh · 发表于 2003-4-19 02:10

to truezxd
能否把三级文件索引的相关资料(最好能有一些例子)发一些到我的邮箱？
xdhdyx@163.com
谢谢！

gdream · 发表于 2003-4-20 20:32

能否再详细一些吗，最好提供些资料，十分感谢

jnowen · 发表于 2003-4-29 13:05

如果只排除完全重单，在5000万条话单以下的情况下，可以使用数据库排重。
如果要排除交叉话单的话，则必须在内存中进行排重。内存可以建立共享内存，这样跨文件的
的问题就可以解决了。只是内存的大小是有限制的，可以考虑在内存中话单达到一定的条数是
将共享内存清除，重新建立。如果能保证话单文件的根据时间的的顺序进行处理时，就可以在
删除共享内存时，将临近几天的话单读出来，重建时在将其读入。这样基本上可以解决排重问题。
只是，这种排重方式，因为考虑目前的程序的实时性，格式化后的话单马上需要计入话单表，不能对重单和交叉单的第一条进行操作。
一家之言，请大家讨论。

fish1840 · 发表于 2003-5-8 11:36

关注，我实际接触过的一个查重的是在数据库中完成
（hp lh6000 双cpu，1G内存，oracle8.1.6）1000万左右话单量（其中重单200万左右）
指定大回滚段，用delete删除大概一刻钟。

fastester · 发表于 2003-5-31 02:28

indexed file system & B+ tree

[QUOTE]最初由 xiongdh 发布

JAVABUG · 发表于 2004-5-31 17:08

yes,索引文件是不错的。

请问大家你们对重单是怎么进行剔除的？

to truezxd

truezxd的是比较好的方法