|
一 数据挖掘的方法主要有分类、回归分析、聚类、关联规则、特征、变化和偏差分析、Web页挖掘等, 它们分别从不同的角度对数据进行挖掘
1、分类
分类是找出数据库中一组数据对象的共同特点并按照分类模式将其划分为不同的类,其目的是通过分类模型,将数据库中的数据项映射到某个给定的类别。它可以应用到客户的分类、客户的属性和特征分析、客户满意度分析、客户的购买趋势预测等,如一个汽车零售商将客户按照对汽车的喜好划分成不同的类,这样营销人员就可以将新型汽车的广告手册直接邮寄到有这种喜好的客户手中,从而大大增加了商业机会。
2、回归分析
回归分析方法反映的是事务数据库中属性值在时间上的特征,产生一个将数据项映射到一个实值预测变量的函数,发现变量或属性间的依赖关系,其主要研究问题包括数据序列的趋势特征、数据序列的预测以及数据间的相关关系等。它可以应用到市场营销的各个方面,如客户寻求、保持和预防客户流失活动、产品生命周期分析、销售趋势预测及有针对性的促销活动等。
3、聚类
聚类分析是把一组数据按照相似性和差异性分为几个类别,其目的是使得属于同一类别的数据间的相似性尽可能大,不同类别中的数据间的相似性尽可能小。它可以应用到客户群体的分类、客户背景分析、客户购买趋势预测、市场的细分等。
4、关联规则
关联规则是描述数据库中数据项之间所存在的关系的规则,即根据一个事务中某些项的出现可导出另一些项在同一事务中也出现,即隐藏在数据间的关联或相互关系。在客户关系管理中,通过对企业的客户数据库里的大量数据进行挖掘,可以从大量的记录中发现有趣的关联关系,找出影响市场营销效果的关键因素,为产品定位、定价与定制客户群,客户寻求、细分与保持,市场营销与推销,营销风险评估和诈骗预测等决策支持提供参考依据。
5、特征
特征分析是从数据库中的一组数据中提取出关于这些数据的特征式,这些特征式表达了该数据集的总体特征。如营销人员通过对客户流失因素的特征提取,可以得到导致客户流失的一系列原因和主要特征,利用这些特征可以有效地预防客户的流失。
6、变化和偏差分析
偏差包括很大一类潜在有趣的知识,如分类中的反常实例,模式的例外,观察结果对期望的偏差等,其目的是寻找观察结果与参照量之间有意义的差别。在企业危机管理及其预警中,管理者更感兴趣的是那些意外规则。意外规则的挖掘可以应用到各种异常信息的发现、分析、识别、评价和预警等方面。
7、Web页挖掘
随着Internet的迅速发展及Web 的全球普及, 使得Web上的信息量无比丰富,通过对Web的挖掘,可以利用Web 的海量数据进行分析,收集政治、经济、政策、科技、金融、各种市场、竞争对手、供求信息、客户等有关的信息,集中精力分析和处理那些对企业有重大或潜在重大影响的外部环境信息和内部经营信息,并根据分析结果找出企业管理过程中出现的各种问题和可能引起危机的先兆,对这些信息进行分析和处理,以便识别、分析、评价和管理危机
二 R在数据挖掘中的优势有哪些?
1 R是统计分析、绘图功能的自由开源软件,拥有完整体系的数据分析和挖掘工具,也为数据挖掘提供的强大图形功能。
2 R有丰富的数据挖掘工具包(Packages)方便使用。
3 R语言向量化运算功能强大,R语言使用apply函数系列取代传统的for循环做运算节约内存和时间。
4 R是一种面向对象的编程语言,和其它编程语言及平台、数据库之间有很好的接口
三 说说读完试读章节后您的感想
我仔细看了试读章节 主要给我们讲了用R语言如何进行数据预处理
1 首先用R语言进行加载数据 告诉我们如何通过R语言进行数据的加载
2数据的清洗部分 因为我们数据一般来源于日志记录 数据有好多是没有的 我们用的原始的数据进行清洗 把有用的数据保留下来做分析 这部分主要是通过R语言进行数据的清洗。
3数据的集成部分 这部分主要是讲将不同的数据源进行合并 把这些不同的数据源存储到一个一致的数据存储中 讲了如何用R语言进行合并数据源的操作
4数据的变换 讲了如何用R语言把数据变换成自己想要的数据和想要的数据类型 比如通过分箱 聚集 回归的手段
5数据的归约 就是如何通过R语言将数据进行分类归档操作 这章主要给读者把数据归档的一些认识 相当于传统数据库里的聚合操作
由于试读部分只给我们如何用R语言的数据预处理的操作 ,讲的还比较详细 ,感觉书写的很浅显易懂 ,很适合初学者,
我们以前数据预处理都是用python或者perl 现在大数据分布式下一般用mapreudce进行数据预处理操作
相信通过读了这本书之后对数据预处理的操作的方法能够更完善 ,更好的利用数据的挖掘手法 做到好的BI分析 为公司创造效益
|
|