楼主: hwayw

《数据挖掘:R语言实战》有奖试读活动(获奖结果已公布)

[复制链接]
论坛徽章:
0
61#
发表于 2014-6-16 18:56 | 只看该作者
谢谢分享

使用道具 举报

回复
论坛徽章:
57
SQL极客
日期:2013-12-09 14:13:35秀才
日期:2016-01-21 13:42:39秀才
日期:2016-01-13 12:14:26SQL大赛参与纪念
日期:2016-01-13 10:32:19SQL数据库编程大师
日期:2016-01-13 10:30:43秀才
日期:2015-12-14 14:47:54秀才
日期:2015-10-19 15:50:392015年新春福章
日期:2015-03-06 11:58:18懒羊羊
日期:2015-03-04 14:52:11优秀写手
日期:2014-11-08 06:00:14
62#
发表于 2014-6-16 20:46 | 只看该作者
dataguru上有r的课程,tigerfish讲解的,适合初学者入门,有兴趣可以看看,考试通过返还所有学费的

使用道具 举报

回复
论坛徽章:
63
2010广州亚运会纪念徽章:台球
日期:2010-10-18 12:43:48茶鸡蛋
日期:2013-01-09 10:59:002013年新春福章
日期:2013-02-25 14:51:24奥运会纪念徽章:帆船
日期:2013-04-02 17:07:052013年新春福章
日期:2013-04-08 17:42:48奥运纪念徽章
日期:2013-07-18 13:55:12优秀写手
日期:2013-12-18 09:29:10马上有车
日期:2014-03-20 16:13:24马上有房
日期:2014-03-20 16:14:11马上有钱
日期:2014-03-20 16:14:11
63#
发表于 2014-6-17 17:13 | 只看该作者
1. 数据挖掘的方法有哪些
1)决策树(Decision Tree)
决策树是一种非常成熟的、普遍采用的数据挖掘技术。之所以称为树,是因为其建模过程类似一棵树的成长过程,即从根部开始,到树干,到分枝,再到细枝末节的分叉,最终生长出一片片的树叶。在决策树里,所分析的数据样本先是集成为一个树根,然后经过层层分枝,最终形成若干个结点,每个结点代表一个结论。
2)神经网络(Neural Network)
神经网络是通过数学算法来模仿人脑思维的,它是数据挖掘中机器学习的典型代表。神经网络是人脑的抽象计算模型,我们知道人脑中有数以百亿个神经元(人脑处理信息的微单元),这些神经元之间相互连接,使得人的大脑产生精密的逻辑思维。而数据挖掘中的“神经网络”也是由大量并行分布的人工神经元(微处理单元)组成的,它有通过调整连接强度从经验知识中进行学习的能力,并可以将这些知识进行应用。
3)回归(Regression)分析包括线性回归(Linear Regression),这里主要是指多元线性回归和逻辑斯蒂回归(Logistic Regression)。其中,在数据化运营中更多使用的是逻辑斯蒂回归,它又包括响应预测、分类划分等内容。
4)关联规则(Association Rule)
关联规则是在数据库和数据挖掘领域中被发明并被广泛研究的一种重要模型,关联规则数据挖掘的主要目的是找出数据集中的频繁模式(Frequent Pattern),即多次重复出现的模式和并发关系(Cooccurrence Relationships),即同时出现的关系,频繁和并发关系也称作关联(Association)。
5)聚类分析(Clustering Analysis)
聚类分析有一个通俗的解释和比喻,那就是“物以类聚,人以群分”。针对几个特定的业务指标,可以将观察对象的群体按照相似性和相异性进行不同群组的划分。经过划分后,每个群组内部各对象间的相似度会很高,而在不同群组之间的对象彼此间将具有很高的相异度。
6)贝叶斯分类方法(Bayesian Classifier)
贝叶斯分类方法是非常成熟的统计学分类方法,它主要用来预测类成员间关系的可能性。比如通过一个给定观察值的相关属性来判断其属于一个特定类别的概率。贝叶斯分类方法是基于贝叶斯定理的,已经有研究表明,朴素贝叶斯分类方法作为一种简单贝叶斯分类算法甚至可以跟决策树和神经网络算法相媲美。
7)支持向量机(Support Vector Machine)
支持向量机是Vapnik 等人于1995 年率先提出的,是近年来机器学习研究的一个重大成果。与传统的神经网络技术相比,支持向量机不仅结构简单,而且各项技术的性能也明显提升,因此它成为当今机器学习领域的热点之一。
8)主成分分析(Principal Components Analysis)
主成分分析属于传统的统计分析技术范畴,但是正如本章前面所阐述的,统计分析与数据挖掘并没有严格的分割,因此在数据挖掘实战应用中也常常会用到这种方式,从这个角度讲,主成分分析也是数据挖掘商业实战中常用的一种分析技术和数据处理技术。
9)假设检验(Hypothesis Test)
假设检验是现代统计学的基础和核心之一,其主要研究在一定的条件下,总体是否具备某些特定特征。
10)区别分析(Discriminant Analysis)
区别分析当所遭遇问题它的因变量为定性(categorical),而自变量(预测变量)为定量(metric)时,区别分析为一非常适当之技术,通常应用在解决分类的问题上面。若因变量由两个群体所构成,称之为双群体 — 区别分析 (Two-Group Discriminant Analysis);若由多个群体构成,则称之为多元区别分析(Multiple Discriminant Analysis;MDA)。
11)罗吉斯回归分析(Logistic Analysis)
当区别分析中群体不符合常态分配假设时,罗吉斯回归分析是一个很好的替代方法。罗吉斯回归分析并非预测事件(event)是否发生,而是预测该事件的机率。它将自变量与因变量的关系假定是S行的形状,当自变量很小时,机率值接近为零;当自变量值慢慢增加时,机率值沿着曲线增加,增加到一定程度时,曲线协率开始减小,故机率值介于0与1之间。
12)连结分析(Link Analysis)
连结分析是以数学中之图形理论(graph theory)为基础,藉由记录之间的关系发展出一个模式,它是以关系为主体,由人与人、物与物或是人与物的关系发展出相当多的应用。例如电信服务业可藉连结分析收集到顾客使用电话的时间与频率,进而推断顾客使用偏好为何,提出有利于公司的方案。除了电信业之外,愈来愈多的营销业者亦利用连结分析做有利于企业的研究。
……

2. R在数据挖掘中的优势有哪些
R在数据挖掘中的优势有:
1)R语言开源、免费
2)拥有超庞大数量的统计分析工具包
3)与多种编程语言间存在调用接口
4)支持Hadoop等大数据平台
5)语法简单、易学易掌握
6)R语言天生就是为数据分析而生的。

3. 说说读完试读章节后您的感想

试读章节提供了第五章的内容,讲的是数据预处理方面的知识,从数据集加载到数据清理,缺失值处理(删除法、插补法)、噪声数据处理、数据不一致的处理、数据集成;数据变换,数据归约等等。
感觉这本书写的比较细致,名副其实,就是使用R语言应用到数据挖掘领域,可以帮助大家解决数据挖掘面临的实际问题,在理论和实践方面都很有指导意义。

使用道具 举报

回复
论坛徽章:
57
SQL极客
日期:2013-12-09 14:13:35秀才
日期:2016-01-21 13:42:39秀才
日期:2016-01-13 12:14:26SQL大赛参与纪念
日期:2016-01-13 10:32:19SQL数据库编程大师
日期:2016-01-13 10:30:43秀才
日期:2015-12-14 14:47:54秀才
日期:2015-10-19 15:50:392015年新春福章
日期:2015-03-06 11:58:18懒羊羊
日期:2015-03-04 14:52:11优秀写手
日期:2014-11-08 06:00:14
64#
发表于 2014-6-17 21:17 | 只看该作者
chszs 发表于 2014-6-17 17:13
1. 数据挖掘的方法有哪些
1)决策树(Decision Tree)
决策树是一种非常成熟的、普遍采用的数据挖掘技术。 ...

r所有数据都内存计算,内存溢出很容易遇到,这是它的瓶颈。

使用道具 举报

回复
论坛徽章:
0
65#
发表于 2014-6-24 17:09 | 只看该作者
1. 数据挖掘的方法有哪些
神经网络,回归,向量机,聚类,分类,贝叶斯,决策树等。
2. R在数据挖掘中的优势有哪些
R在数据挖掘中具有可以方便加载,分析样本数据,快速建立模型。并通过R来对模型进行检验。
并迅速在实际中检测。但目前R所具有的hadoop套件,Rhadoop,并不是非常方便实用。
在实际中也主要是对样本数据进行分析,不能分析太大的数据。
3.说说读完试读章节后您的感想
本章从实战角度,选择了一个大家都忽视,但在实际中作用非常大的数据处理步骤,预处理来进行R的实战讲解。
R具有很强大的缺失值处理预处理能力。通过强大的图形能力对数据有个总体的认识,为下一步进行的预处理打下
扎实的基础。利用R方便多样的工具包,无论是用删除法,插补法,还是噪声数据的处理,总能治“大国如烹小鲜”,
优雅而快捷的完成。当然了,接下来的数据集成,对于R来说也是“小菜一碟”,所以,选择R总是大家不悔的选择!

使用道具 举报

回复
论坛徽章:
63
2010广州亚运会纪念徽章:台球
日期:2010-10-18 12:43:48茶鸡蛋
日期:2013-01-09 10:59:002013年新春福章
日期:2013-02-25 14:51:24奥运会纪念徽章:帆船
日期:2013-04-02 17:07:052013年新春福章
日期:2013-04-08 17:42:48奥运纪念徽章
日期:2013-07-18 13:55:12优秀写手
日期:2013-12-18 09:29:10马上有车
日期:2014-03-20 16:13:24马上有房
日期:2014-03-20 16:14:11马上有钱
日期:2014-03-20 16:14:11
66#
发表于 2014-6-24 22:19 | 只看该作者
xgghxkhuang 发表于 2014-6-17 21:17
r所有数据都内存计算,内存溢出很容易遇到,这是它的瓶颈。

Right.

使用道具 举报

回复

您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

TOP技术积分榜 社区积分榜 徽章 团队 统计 知识索引树 积分竞拍 文本模式 帮助
  ITPUB首页 | ITPUB论坛 | 数据库技术 | 企业信息化 | 开发技术 | 微软技术 | 软件工程与项目管理 | IBM技术园地 | 行业纵向讨论 | IT招聘 | IT文档
  ChinaUnix | ChinaUnix博客 | ChinaUnix论坛
CopyRight 1999-2011 itpub.net All Right Reserved. 北京盛拓优讯信息技术有限公司版权所有 联系我们 未成年人举报专区 
京ICP备16024965号-8  北京市公安局海淀分局网监中心备案编号:11010802021510 广播电视节目制作经营许可证:编号(京)字第1149号
  
快速回复 返回顶部 返回列表