楼主: ocpdba591

[精华] 递归分组问题求解(疑似相似客户分组)

[复制链接]
论坛徽章:
484
ITPUB北京香山2007年会纪念徽章
日期:2007-01-24 14:35:02ITPUB北京九华山庄2008年会纪念徽章
日期:2008-01-21 16:50:24ITPUB北京2009年会纪念徽章
日期:2009-02-09 11:42:452010新春纪念徽章
日期:2010-03-01 11:04:552010数据库技术大会纪念徽章
日期:2010-05-13 10:04:272010系统架构师大会纪念
日期:2010-09-04 13:35:54ITPUB9周年纪念徽章
日期:2010-10-08 09:28:512011新春纪念徽章
日期:2011-02-18 11:43:32ITPUB十周年纪念徽章
日期:2011-11-01 16:19:412012新春纪念徽章
日期:2012-01-04 11:49:54
11#
发表于 2014-3-20 00:18 | 只看该作者
这个业务逻辑有点奇怪

先 having count(*)>=2 进行下过滤呢?

使用道具 举报

回复
论坛徽章:
520
奥运会纪念徽章:垒球
日期:2008-09-15 01:28:12生肖徽章2007版:鸡
日期:2008-11-17 23:40:58生肖徽章2007版:马
日期:2008-11-18 05:09:48数据库板块每日发贴之星
日期:2008-11-29 01:01:02数据库板块每日发贴之星
日期:2008-12-05 01:01:03生肖徽章2007版:虎
日期:2008-12-10 07:47:462009新春纪念徽章
日期:2009-01-04 14:52:28数据库板块每日发贴之星
日期:2009-02-08 01:01:03生肖徽章2007版:蛇
日期:2009-03-09 22:18:532009日食纪念
日期:2009-07-22 09:30:00
12#
发表于 2014-3-20 02:28 | 只看该作者
lastwinner 发表于 2014-3-20 00:18
这个业务逻辑有点奇怪

先 having count(*)>=2 进行下过滤呢?

他是要找团伙。

使用道具 举报

回复
论坛徽章:
26
2010年世界杯参赛球队:智利
日期:2010-07-03 17:16:26比亚迪
日期:2014-01-16 17:12:41宝马
日期:2014-01-24 10:32:252014年新春福章
日期:2014-02-18 16:44:08马上有对象
日期:2014-02-18 16:44:08马上有对象
日期:2014-03-05 21:30:32马上有车
日期:2014-03-11 16:46:45优秀写手
日期:2014-03-25 05:59:50马上加薪
日期:2014-03-26 16:46:30问答徽章
日期:2014-05-09 16:40:36
13#
 楼主| 发表于 2014-3-20 07:59 | 只看该作者
Naldonado 发表于 2014-3-19 23:18
把你的方法拿出来看看。

我的方法就是根据每个客户id做一次递归,然后找出同组的客户
id集合,然后再对这些集合进行去重:

--疑似相似客户表创建
  1. create type varchartable is table of varchar2(4000);
  2. /

  3. create table retval_tmp(id int,ref_var varchartable)
  4. nested table
  5.   ref_var
  6. store as
  7.   next_ref_var;
  8. /
复制代码
--集合转hash函数创建

注:由于utl_raw.cast_to_raw函数的限制,导致listagg拼出的
字符长度不能超过1500字节。
  1. create or replace function coll2hash(in_coll in varchartable)
  2.   return varchar2 as
  3.   v_retval varchar2(3000);
  4. begin
  5.   select dbms_crypto.hash(src => utl_raw.cast_to_raw(listagg(column_value,
  6.                                                              ',') within
  7.                                                      group(order by null)),
  8.                           typ => dbms_crypto.HASH_MD5)
  9.     into v_retval
  10.     from table(in_coll);

  11.   return v_retval;
  12. end;
  13. /
复制代码
--每个id进行循环递归
  1. declare
  2.   v_cur_varchar varcharTable;
  3. begin

  4.   execute immediate 'truncate table retval_tmp';

  5.   for loop_idx in (select id from cus_tab) loop
  6.   
  7.     with t as
  8.      (select /*+materialize*/
  9.        id, phone_num
  10.         from phone_tab),
  11.    
  12.     t2 as
  13.      (select distinct t1.id
  14.         from t t1
  15.        start with t1.id = loop_idx.id
  16.       connect by nocycle prior t1.id = t1.id
  17.               or prior t1.phone_num = t1.phone_num)   
  18.     select id bulk collect into v_cur_varchar from t2;
  19.   
  20.     insert into retval_tmp values (loop_idx.id, v_cur_varchar);
  21.     commit;
  22.   end loop;
  23. end;
  24. /
复制代码
--集合去重
  1. with t as
  2. (select t1.*,
  3.          row_number() over(partition by coll2hash(t1.ref_var) order by id) rn
  4.     from retval_tmp t1)
  5. select ref_var from t where rn = 1;
复制代码

使用道具 举报

回复
论坛徽章:
407
紫蛋头
日期:2012-05-21 10:19:41迷宫蛋
日期:2012-06-06 16:02:49奥运会纪念徽章:足球
日期:2012-06-29 15:30:06奥运会纪念徽章:排球
日期:2012-07-10 21:24:24鲜花蛋
日期:2012-07-16 15:24:59奥运会纪念徽章:拳击
日期:2012-08-07 10:54:50奥运会纪念徽章:羽毛球
日期:2012-08-21 15:55:33奥运会纪念徽章:蹦床
日期:2012-08-21 21:09:51奥运会纪念徽章:篮球
日期:2012-08-24 10:29:11奥运会纪念徽章:体操
日期:2012-09-07 16:40:00
14#
发表于 2014-3-20 09:14 | 只看该作者
把连在一起的电话号码取最小的

使用道具 举报

回复
论坛徽章:
1088
金色在线徽章
日期:2007-04-25 04:02:08金色在线徽章
日期:2007-06-29 04:02:43金色在线徽章
日期:2007-03-11 04:02:02在线时间
日期:2007-04-11 04:01:02在线时间
日期:2007-04-12 04:01:02在线时间
日期:2007-03-07 04:01:022008版在线时间
日期:2010-05-01 00:01:152008版在线时间
日期:2011-05-01 00:01:342008版在线时间
日期:2008-06-03 11:59:43ITPUB年度最佳技术原创精华奖
日期:2013-03-22 13:18:30
15#
发表于 2014-3-20 14:59 | 只看该作者
昨天和他说了,这东西每次都做一下是不可能的
最好先把老的处理掉,以后新增,删除,更新数据的时候,针对单个数据来做,这样估计性能会满足要求。。。

使用道具 举报

回复
论坛徽章:
407
紫蛋头
日期:2012-05-21 10:19:41迷宫蛋
日期:2012-06-06 16:02:49奥运会纪念徽章:足球
日期:2012-06-29 15:30:06奥运会纪念徽章:排球
日期:2012-07-10 21:24:24鲜花蛋
日期:2012-07-16 15:24:59奥运会纪念徽章:拳击
日期:2012-08-07 10:54:50奥运会纪念徽章:羽毛球
日期:2012-08-21 15:55:33奥运会纪念徽章:蹦床
日期:2012-08-21 21:09:51奥运会纪念徽章:篮球
日期:2012-08-24 10:29:11奥运会纪念徽章:体操
日期:2012-09-07 16:40:00
16#
发表于 2014-3-20 15:44 | 只看该作者
dingjun123 发表于 2014-3-20 14:59
昨天和他说了,这东西每次都做一下是不可能的
最好先把老的处理掉,以后新增,删除,更新数据的时候,针对 ...

如果一个电话就2人,1个人就2电话还是可以做的

使用道具 举报

回复
论坛徽章:
484
ITPUB北京香山2007年会纪念徽章
日期:2007-01-24 14:35:02ITPUB北京九华山庄2008年会纪念徽章
日期:2008-01-21 16:50:24ITPUB北京2009年会纪念徽章
日期:2009-02-09 11:42:452010新春纪念徽章
日期:2010-03-01 11:04:552010数据库技术大会纪念徽章
日期:2010-05-13 10:04:272010系统架构师大会纪念
日期:2010-09-04 13:35:54ITPUB9周年纪念徽章
日期:2010-10-08 09:28:512011新春纪念徽章
日期:2011-02-18 11:43:32ITPUB十周年纪念徽章
日期:2011-11-01 16:19:412012新春纪念徽章
日期:2012-01-04 11:49:54
17#
发表于 2014-3-20 17:03 | 只看该作者
newkid 发表于 2014-3-20 02:28
他是要找团伙。

是,不过这和我们之前的找团伙问题不一样,所以我说有点奇怪

使用道具 举报

回复
论坛徽章:
26
2010年世界杯参赛球队:智利
日期:2010-07-03 17:16:26比亚迪
日期:2014-01-16 17:12:41宝马
日期:2014-01-24 10:32:252014年新春福章
日期:2014-02-18 16:44:08马上有对象
日期:2014-02-18 16:44:08马上有对象
日期:2014-03-05 21:30:32马上有车
日期:2014-03-11 16:46:45优秀写手
日期:2014-03-25 05:59:50马上加薪
日期:2014-03-26 16:46:30问答徽章
日期:2014-05-09 16:40:36
18#
 楼主| 发表于 2014-3-20 17:09 | 只看该作者
谢谢各位关注,目前看来只有变通了,不然就是原地打转转。。。

使用道具 举报

回复
论坛徽章:
484
ITPUB北京香山2007年会纪念徽章
日期:2007-01-24 14:35:02ITPUB北京九华山庄2008年会纪念徽章
日期:2008-01-21 16:50:24ITPUB北京2009年会纪念徽章
日期:2009-02-09 11:42:452010新春纪念徽章
日期:2010-03-01 11:04:552010数据库技术大会纪念徽章
日期:2010-05-13 10:04:272010系统架构师大会纪念
日期:2010-09-04 13:35:54ITPUB9周年纪念徽章
日期:2010-10-08 09:28:512011新春纪念徽章
日期:2011-02-18 11:43:32ITPUB十周年纪念徽章
日期:2011-11-01 16:19:412012新春纪念徽章
日期:2012-01-04 11:49:54
19#
发表于 2014-3-21 01:09 | 只看该作者
ocpdba591 发表于 2014-3-20 17:09
谢谢各位关注,目前看来只有变通了,不然就是原地打转转。。。

http://www.itpub.net/forum.php?m ... %3D28%26typeid%3D28

这个问题的逻辑跟你的不一样,而且,似乎也无法参考

使用道具 举报

回复
论坛徽章:
520
奥运会纪念徽章:垒球
日期:2008-09-15 01:28:12生肖徽章2007版:鸡
日期:2008-11-17 23:40:58生肖徽章2007版:马
日期:2008-11-18 05:09:48数据库板块每日发贴之星
日期:2008-11-29 01:01:02数据库板块每日发贴之星
日期:2008-12-05 01:01:03生肖徽章2007版:虎
日期:2008-12-10 07:47:462009新春纪念徽章
日期:2009-01-04 14:52:28数据库板块每日发贴之星
日期:2009-02-08 01:01:03生肖徽章2007版:蛇
日期:2009-03-09 22:18:532009日食纪念
日期:2009-07-22 09:30:00
20#
发表于 2014-3-21 02:25 | 只看该作者
lastwinner 发表于 2014-3-21 01:09
http://www.itpub.net/forum.php?mod=viewthread&tid=1232557&extra=page%3D1%26filter%3Dtypeid%26typei ...

其实是一样的,你把第二张表变换一下:

SELECT t1.id id2,t2.id id2
  FROM phone_tab t1,phone_tab t2
WHERE t1.phone_num = t2.phone_num AND t1.id id2<>t2.id id2

使用道具 举报

回复

您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

TOP技术积分榜 社区积分榜 徽章 团队 统计 知识索引树 积分竞拍 文本模式 帮助
  ITPUB首页 | ITPUB论坛 | 数据库技术 | 企业信息化 | 开发技术 | 微软技术 | 软件工程与项目管理 | IBM技术园地 | 行业纵向讨论 | IT招聘 | IT文档
  ChinaUnix | ChinaUnix博客 | ChinaUnix论坛
CopyRight 1999-2011 itpub.net All Right Reserved. 北京盛拓优讯信息技术有限公司版权所有 联系我们 未成年人举报专区 
京ICP备16024965号-8  北京市公安局海淀分局网监中心备案编号:11010802021510 广播电视节目制作经营许可证:编号(京)字第1149号
  
快速回复 返回顶部 返回列表