|
|
Re: 数据库判断重复是否可取
最初由 yangxiangdong 发布
[B]现在有一个表需要保存三个月的历史数据--2亿条左右,占70个G左右的空间,每天需要把文本文件入库,可能会有很多重复的记录,请问使用数据库自身判断重复可不可行,如果不这样的话有没有什么好的办法。 [/B]
我也來加一句.
我想問的是,是不是假如發現這個數據數據庫有的,這數據就不給insert進去?如果是的話,請看下面:
假設現在有2億數據。
你把這2億數據分成4個table(當然也可以3,5個)
假如是表A,B,C,D
每個表占用5000萬的數據。(具體怎麼實現我就不多講了)
這四個表都有PK,
你insert的時候,有順序的查找A->B->C->D
當查找A的時候,如果發現有重復的話就可以馬上返回了。
如果A沒有,再找B......
這樣的好處是,你每次找的數量大大的減少。如果好叩脑挘?贏表的時候就找到了,大不了就去B表,再不好也就是找到D了。 |
|