|
1. 数据挖掘的方法有哪些
1)决策树(Decision Tree)
决策树是一种非常成熟的、普遍采用的数据挖掘技术。之所以称为树,是因为其建模过程类似一棵树的成长过程,即从根部开始,到树干,到分枝,再到细枝末节的分叉,最终生长出一片片的树叶。在决策树里,所分析的数据样本先是集成为一个树根,然后经过层层分枝,最终形成若干个结点,每个结点代表一个结论。
2)神经网络(Neural Network)
神经网络是通过数学算法来模仿人脑思维的,它是数据挖掘中机器学习的典型代表。神经网络是人脑的抽象计算模型,我们知道人脑中有数以百亿个神经元(人脑处理信息的微单元),这些神经元之间相互连接,使得人的大脑产生精密的逻辑思维。而数据挖掘中的“神经网络”也是由大量并行分布的人工神经元(微处理单元)组成的,它有通过调整连接强度从经验知识中进行学习的能力,并可以将这些知识进行应用。
3)回归(Regression)分析包括线性回归(Linear Regression),这里主要是指多元线性回归和逻辑斯蒂回归(Logistic Regression)。其中,在数据化运营中更多使用的是逻辑斯蒂回归,它又包括响应预测、分类划分等内容。
4)关联规则(Association Rule)
关联规则是在数据库和数据挖掘领域中被发明并被广泛研究的一种重要模型,关联规则数据挖掘的主要目的是找出数据集中的频繁模式(Frequent Pattern),即多次重复出现的模式和并发关系(Cooccurrence Relationships),即同时出现的关系,频繁和并发关系也称作关联(Association)。
5)聚类分析(Clustering Analysis)
聚类分析有一个通俗的解释和比喻,那就是“物以类聚,人以群分”。针对几个特定的业务指标,可以将观察对象的群体按照相似性和相异性进行不同群组的划分。经过划分后,每个群组内部各对象间的相似度会很高,而在不同群组之间的对象彼此间将具有很高的相异度。
6)贝叶斯分类方法(Bayesian Classifier)
贝叶斯分类方法是非常成熟的统计学分类方法,它主要用来预测类成员间关系的可能性。比如通过一个给定观察值的相关属性来判断其属于一个特定类别的概率。贝叶斯分类方法是基于贝叶斯定理的,已经有研究表明,朴素贝叶斯分类方法作为一种简单贝叶斯分类算法甚至可以跟决策树和神经网络算法相媲美。
7)支持向量机(Support Vector Machine)
支持向量机是Vapnik 等人于1995 年率先提出的,是近年来机器学习研究的一个重大成果。与传统的神经网络技术相比,支持向量机不仅结构简单,而且各项技术的性能也明显提升,因此它成为当今机器学习领域的热点之一。
8)主成分分析(Principal Components Analysis)
主成分分析属于传统的统计分析技术范畴,但是正如本章前面所阐述的,统计分析与数据挖掘并没有严格的分割,因此在数据挖掘实战应用中也常常会用到这种方式,从这个角度讲,主成分分析也是数据挖掘商业实战中常用的一种分析技术和数据处理技术。
9)假设检验(Hypothesis Test)
假设检验是现代统计学的基础和核心之一,其主要研究在一定的条件下,总体是否具备某些特定特征。
10)区别分析(Discriminant Analysis)
区别分析当所遭遇问题它的因变量为定性(categorical),而自变量(预测变量)为定量(metric)时,区别分析为一非常适当之技术,通常应用在解决分类的问题上面。若因变量由两个群体所构成,称之为双群体 — 区别分析 (Two-Group Discriminant Analysis);若由多个群体构成,则称之为多元区别分析(Multiple Discriminant Analysis;MDA)。
11)罗吉斯回归分析(Logistic Analysis)
当区别分析中群体不符合常态分配假设时,罗吉斯回归分析是一个很好的替代方法。罗吉斯回归分析并非预测事件(event)是否发生,而是预测该事件的机率。它将自变量与因变量的关系假定是S行的形状,当自变量很小时,机率值接近为零;当自变量值慢慢增加时,机率值沿着曲线增加,增加到一定程度时,曲线协率开始减小,故机率值介于0与1之间。
12)连结分析(Link Analysis)
连结分析是以数学中之图形理论(graph theory)为基础,藉由记录之间的关系发展出一个模式,它是以关系为主体,由人与人、物与物或是人与物的关系发展出相当多的应用。例如电信服务业可藉连结分析收集到顾客使用电话的时间与频率,进而推断顾客使用偏好为何,提出有利于公司的方案。除了电信业之外,愈来愈多的营销业者亦利用连结分析做有利于企业的研究。
……
2. R在数据挖掘中的优势有哪些
R在数据挖掘中的优势有:
1)R语言开源、免费
2)拥有超庞大数量的统计分析工具包
3)与多种编程语言间存在调用接口
4)支持Hadoop等大数据平台
5)语法简单、易学易掌握
6)R语言天生就是为数据分析而生的。
3. 说说读完试读章节后您的感想
试读章节提供了第五章的内容,讲的是数据预处理方面的知识,从数据集加载到数据清理,缺失值处理(删除法、插补法)、噪声数据处理、数据不一致的处理、数据集成;数据变换,数据归约等等。
感觉这本书写的比较细致,名副其实,就是使用R语言应用到数据挖掘领域,可以帮助大家解决数据挖掘面临的实际问题,在理论和实践方面都很有指导意义。 |
|