本帖最后由 mcyeah 于 2013-8-6 17:27 编辑
1、数据挖掘常用的算法和规则有哪些?
根据实施数据挖掘的目的和要解决的问题,分为一下五方面的算法:
(1)分类与回归算法:BP ( Back Propagation ,反向传播)、LM ( Levenberg-Marquardt ) 、FNN ( Fuzzy Neural Network , 模糊神经网络)、RBF ( Radial Basis Function , 径向基函数) 、ANFIS ( Adaptive Neural Fuzzy Inference System ,自适应神经模糊推理系统)、 WNN ( Wavelet Neural Network ,小波神经网络)、SVM ( Support Vector Machine , 支持向量机) 、CART ( Classification And Regression Tree ,分类与回归树)等;
(2) 聚类算法:
划分(分裂)方法:K- 平均值、K- 中心点、基于选择的算法等;
层次方法:平衡迭代规约和聚类、代表点聚类、动态模型等;
基于密度的方法:基于高密度连接区域、 密度分布函数、对象排序识别等;
基于网格的方法 :统计信息网络、聚类高维空间、小波变换等;
基于模型的方法 :统计学方法 、神经网络方法等;
(3)关联规则算法:Apriori 、FP-Tree 、灰色关联法、HotSpot 等;
(4)时序模式算法:一元线性回归预测法、多元线性回归预测法、非线性回归预测法、趋势外推法、移动平均法、指数平滑法、平稳时间序列预测法、灰色预测法等;
(5) 偏差检测算法:这方面主要是所采用的数据集不同,用于分析异常情况和反常行为,具体要从异常情况数据中提取哪种有用信息可以根据上面的四个方面来采用合适的算法。
自己总结的应用于数据挖掘过程的一些规则:
(1)数据质量要过关:资料完整无缺,各类指标项齐全;数据准确无误,能够反映出数据挖掘目标所需要的信息。
(2)需要对数据进行预处理
(3)采用合适的数据挖掘工具进行数据挖掘或二次开发。
2、数据挖掘的核心是什么?
就数据挖掘的过程:定义挖掘目标->数据取样-> 数据探索->预处理->模式发现->模型构建->模型评价而言,模型构建是数据挖掘的核心环节,采用合适的算法对数据进行分析,建立正确的模型才能够分析出数据对于挖掘目标有价值的信息,反映出数据内部的一般结构特征;模型构建是一个需要反复进行,多次评估对比的工作。 3、试读图书章节后谈谈您的感想? 是读了本书的3章试读,发现这本书主要还是从数据挖掘的应用方面来铺开的。本书结合理论与实践,配有详细的理论介绍和丰富的案例,同时对于高阶内容数据挖掘的2次开发和基于hadoop框架的数据挖掘。这本书的讲解简洁易懂,案例实用性很强,可以在实际应用中作为有力的参考依据,很值得一读,希望能一睹全貌。
|