楼主: hwayw

《数据挖掘:实用案例分析》有奖图书试读活动

[复制链接]
论坛徽章:
7
2012新春纪念徽章
日期:2012-01-04 11:58:44ITPUB 11周年纪念徽章
日期:2012-10-09 18:16:00双黄蛋
日期:2013-01-10 11:07:542013年新春福章
日期:2013-02-25 14:51:242015年新春福章
日期:2015-03-04 14:53:162015年新春福章
日期:2015-03-06 11:58:39喜羊羊
日期:2015-03-16 11:00:26
31#
发表于 2013-7-18 10:26 | 只看该作者
数据挖掘 执行起来是比较困难的,需要整个公司的大力支持,整个公司的业务部门都要明白数据挖掘的重要性,特别是要有领导强力的推进。数据是核心,数据准备的准确是数据挖掘的基础。

使用道具 举报

回复
论坛徽章:
57
SQL极客
日期:2013-12-09 14:13:35秀才
日期:2016-01-21 13:42:39秀才
日期:2016-01-13 12:14:26SQL大赛参与纪念
日期:2016-01-13 10:32:19SQL数据库编程大师
日期:2016-01-13 10:30:43秀才
日期:2015-12-14 14:47:54秀才
日期:2015-10-19 15:50:392015年新春福章
日期:2015-03-06 11:58:18懒羊羊
日期:2015-03-04 14:52:11优秀写手
日期:2014-11-08 06:00:14
32#
发表于 2013-7-18 21:05 | 只看该作者
fk1987614 发表于 2013-7-18 10:26
数据挖掘 执行起来是比较困难的,需要整个公司的大力支持,整个公司的业务部门都要明白数据挖掘的重要性,特 ...

还要持续投入,和坚定的决心

使用道具 举报

回复
论坛徽章:
43
现任管理团队成员
日期:2011-05-07 01:45:08ITPUB元老
日期:2012-09-12 14:50:28版主5段
日期:2014-06-11 02:21:31阿斯顿马丁
日期:2013-11-19 10:38:16祖母绿
日期:2012-11-06 12:43:12路虎
日期:2013-11-20 11:37:53雪佛兰
日期:2013-09-05 13:28:25ITPUB9周年纪念徽章
日期:2010-10-08 09:28:512015中国数据库技术大会纪念徽章
日期:2015-04-24 16:04:24秀才
日期:2015-05-26 13:32:07
33#
发表于 2013-8-2 12:09 | 只看该作者
pastime_Wang 发表于 2013-7-15 13:05
占位,更新!

1、数据挖掘常用的算法和规则有哪些 ?

这个不错,赞一个!

使用道具 举报

回复
论坛徽章:
43
现任管理团队成员
日期:2011-05-07 01:45:08ITPUB元老
日期:2012-09-12 14:50:28版主5段
日期:2014-06-11 02:21:31阿斯顿马丁
日期:2013-11-19 10:38:16祖母绿
日期:2012-11-06 12:43:12路虎
日期:2013-11-20 11:37:53雪佛兰
日期:2013-09-05 13:28:25ITPUB9周年纪念徽章
日期:2010-10-08 09:28:512015中国数据库技术大会纪念徽章
日期:2015-04-24 16:04:24秀才
日期:2015-05-26 13:32:07
34#
发表于 2013-8-2 12:14 | 只看该作者
〇〇 发表于 2013-7-15 21:29
不转,以前学过一门课

oo兴趣非常广泛!

使用道具 举报

回复
论坛徽章:
17
生肖徽章2007版:牛
日期:2012-11-05 08:45:07ITPUB元老
日期:2016-06-20 16:53:52优秀写手
日期:2013-12-18 09:29:13ITPUB社区12周年站庆徽章
日期:2013-10-17 13:56:59ITPUB社区12周年站庆徽章
日期:2013-10-08 17:44:42ITPUB社区12周年站庆徽章
日期:2013-08-20 11:30:112013年新春福章
日期:2013-02-25 14:51:24迷宫蛋
日期:2013-01-10 11:04:16授权会员
日期:2013-01-02 13:15:07紫蛋头
日期:2012-12-13 13:31:27
35#
发表于 2013-8-2 13:48 | 只看该作者
1。C4.5:是机器学习算法中的一种分类决策树算法,其核心算法是ID3算法。
2. K-means算法:是一种聚类算法。
3.SVM:一种监督式学习的方法,广泛运用于统计分类以及回归分析中
4.Apriori :是一种最有影响的挖掘布尔关联规则频繁项集的算法。
5.EM:最大期望值法。
6.pagerank:是google算法的重要内容。
7. Adaboost:是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器然后把弱分类器集合起来,构成一个更强的最终分类器。
.KNN:是一个理论上比较成熟的的方法,也是最简单的机器学习方法之一。
9.Naive Bayes:在众多分类方法中,应用最广泛的有决策树模型和朴素贝叶斯(Naive Bayes)
10.Cart:分类与回归树,在分类树下面有两个关键的思想,第一个是关于递归地划分自变量空间的想法,第二个是用验证数据进行减枝。


关联规则规则定义
在描述有关关联规则的一些细节之前,我们先来看一个有趣的故事: "尿布与啤酒"的故事。在一家超市里,有一个有趣的现象:尿布和啤酒赫然摆在一起出售。但是这个奇怪的举措却使尿布和数据挖掘
啤酒的销量双双增加了。这不是一个笑话,而是发生在美国沃尔玛连锁店超市的真实案例,并一直为商家所津津乐道。沃尔玛拥有世界上最大的数据仓库系统,为了能够准确了解顾客在其门店的购买习
惯,沃尔玛对其顾客的购物行为进行购物篮分析,想知道顾客经常一起购买的商品有哪些。沃尔玛数据仓库里集中了其各门店的详细原始交易数据。在这些原始交易数据的基础上,沃尔玛利用数据挖掘
方法对这些数据进行分析和挖掘。一个意外的发现是:"跟尿布一起购买最多的商品竟是啤酒!经过大量实际调查和分析,揭示了一个隐藏在"尿布与啤酒"背后的美国人的一种行为模式:在美国,一些年
轻的父亲下班后经常要到超市去买婴儿尿布,而他们中有30%~40%的人同时也为自己买一些啤酒。产生这一现象的原因是:美国的太太们常叮嘱她们的丈夫下班后为小孩买尿布,而丈夫们在买尿布后又
随手带回了他们喜欢的啤酒。按常规思维,尿布与啤酒风马牛不相及,若不是借助数据挖掘技术对大量交易数据进行挖掘分析,沃尔玛是不可能发现数据内在这一有价值的规律的。数据关联是数据库中
存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。关联可分为简单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联网。有时并不
知道数据库中数据的关联函数,即使知道也是不确定的,因此关联分析生成的规则带有可信度。关联规则挖掘发现大量数据中项集之间有趣的关联或相关联系。Agrawal等于1993年首先提出了挖掘顾客交
易数据库中项集间的关联规则问题,以后诸多的研究人员对关联规则的挖掘问题进行了大量的研究。他们的工作包括对原有的算法进行优化,如引入随机采样、并行的思想等,以提高算法挖掘规则的效
率;对关联规则的应用进行推广。关联规则挖掘在数据挖掘中是一个重要的课题,最近几年已被业界所广泛研究。

使用道具 举报

回复
论坛徽章:
57
SQL极客
日期:2013-12-09 14:13:35秀才
日期:2016-01-21 13:42:39秀才
日期:2016-01-13 12:14:26SQL大赛参与纪念
日期:2016-01-13 10:32:19SQL数据库编程大师
日期:2016-01-13 10:30:43秀才
日期:2015-12-14 14:47:54秀才
日期:2015-10-19 15:50:392015年新春福章
日期:2015-03-06 11:58:18懒羊羊
日期:2015-03-04 14:52:11优秀写手
日期:2014-11-08 06:00:14
36#
发表于 2013-8-3 08:05 | 只看该作者
这些算法已经有了,但是好像单机版的sas和r都无法支持大数据,5g的数据一处理就挂了

使用道具 举报

回复
论坛徽章:
57
SQL极客
日期:2013-12-09 14:13:35秀才
日期:2016-01-21 13:42:39秀才
日期:2016-01-13 12:14:26SQL大赛参与纪念
日期:2016-01-13 10:32:19SQL数据库编程大师
日期:2016-01-13 10:30:43秀才
日期:2015-12-14 14:47:54秀才
日期:2015-10-19 15:50:392015年新春福章
日期:2015-03-06 11:58:18懒羊羊
日期:2015-03-04 14:52:11优秀写手
日期:2014-11-08 06:00:14
37#
发表于 2013-8-3 08:09 | 只看该作者
xgghxkhuang 发表于 2013-8-3 08:05
这些算法已经有了,但是好像单机版的sas和r都无法支持大数据,5g的数据一处理就挂了

他的那本书推荐了tipdm,
不知道那个工具效果如何?
并且费用多少?
如果合适的话,可以推荐给业务,然后看能否出一些预算。
其中,提到可以在hadoop跑,不知效果如何?

使用道具 举报

回复
论坛徽章:
0
38#
发表于 2013-8-5 12:57 | 只看该作者
有兴趣参与。

使用道具 举报

回复
论坛徽章:
3
鲜花蛋
日期:2013-06-05 12:33:11ITPUB社区12周年站庆徽章
日期:2013-08-13 09:43:23林肯
日期:2013-09-12 15:57:33
39#
发表于 2013-8-6 17:24 | 只看该作者
本帖最后由 mcyeah 于 2013-8-6 17:27 编辑

1、数据挖掘常用的算法和规则有哪些?
根据实施数据挖掘的目的和要解决的问题,分为一下五方面的算法:
    (1)分类与回归算法:BP ( Back Propagation ,反向传播)、LM ( Levenberg-Marquardt )  、FNN ( Fuzzy Neural Network ,  模糊神经网络)、RBF ( Radial Basis Function ,  径向基函数) 、ANFIS ( Adaptive Neural Fuzzy Inference System ,自适应神经模糊推理系统)、  WNN ( Wavelet Neural Network ,小波神经网络)、SVM ( Support Vector Machine ,  支持向量机)  、CART ( Classification And Regression Tree ,分类与回归树)等;
   (2) 聚类算法
             划分(分裂)方法:K- 平均值、K- 中心点、基于选择的算法等;
             层次方法:平衡迭代规约和聚类、代表点聚类、动态模型等;
             基于密度的方法:基于高密度连接区域、 密度分布函数、对象排序识别等;
             基于网格的方法 :统计信息网络、聚类高维空间、小波变换等;
             基于模型的方法 :统计学方法  、神经网络方法等;
   (3)关联规则算法:Apriori 、FP-Tree 、灰色关联法、HotSpot 等;
   (4)时序模式算法:一元线性回归预测法、多元线性回归预测法、非线性回归预测法、趋势外推法、移动平均法、指数平滑法、平稳时间序列预测法、灰色预测法等;
   (5) 偏差检测算法:这方面主要是所采用的数据集不同,用于分析异常情况和反常行为,具体要从异常情况数据中提取哪种有用信息可以根据上面的四个方面来采用合适的算法。

自己总结的应用于数据挖掘过程的一些规则:
  (1)数据质量要过关:资料完整无缺,各类指标项齐全;数据准确无误,能够反映出数据挖掘目标所需要的信息。
  (2)需要对数据进行预处理
  (3)采用合适的数据挖掘工具进行数据挖掘或二次开发。            
2、数据挖掘的核心是什么?

    就数据挖掘的过程:定义挖掘目标->数据取样-> 数据探索->预处理->模式发现->模型构建->模型评价而言,模型构建是数据挖掘的核心环节,采用合适的算法对数据进行分析,建立正确的模型才能够分析出数据对于挖掘目标有价值的信息,反映出数据内部的一般结构特征;模型构建是一个需要反复进行,多次评估对比的工作。
3、试读图书章节后谈谈您的感想?
  是读了本书的3章试读,发现这本书主要还是从数据挖掘的应用方面来铺开的。本书结合理论与实践,配有详细的理论介绍和丰富的案例,同时对于高阶内容数据挖掘的2次开发和基于hadoop框架的数据挖掘。这本书的讲解简洁易懂,案例实用性很强,可以在实际应用中作为有力的参考依据,很值得一读,希望能一睹全貌。


使用道具 举报

回复
论坛徽章:
0
40#
发表于 2013-9-24 20:18 | 只看该作者
这本书是本好书

使用道具 举报

回复

您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

TOP技术积分榜 社区积分榜 徽章 团队 统计 知识索引树 积分竞拍 文本模式 帮助
  ITPUB首页 | ITPUB论坛 | 数据库技术 | 企业信息化 | 开发技术 | 微软技术 | 软件工程与项目管理 | IBM技术园地 | 行业纵向讨论 | IT招聘 | IT文档
  ChinaUnix | ChinaUnix博客 | ChinaUnix论坛
CopyRight 1999-2011 itpub.net All Right Reserved. 北京盛拓优讯信息技术有限公司版权所有 联系我们 未成年人举报专区 
京ICP备16024965号-8  北京市公安局海淀分局网监中心备案编号:11010802021510 广播电视节目制作经营许可证:编号(京)字第1149号
  
快速回复 返回顶部 返回列表