|
关于第二个话题:
个人认为:机器学习是指统计学习方法,或者称为贝叶斯统计学习;但是数据挖掘则更偏向计算机科学中算法,更偏向应用,例如数据库等,这些都是机器学习不考虑的,可以说数据挖掘是对机器学习的应用。
数据挖掘:数据挖掘主要是面向决策,从海量数据中挖掘不为人知、无法直观得出的结论。例如内容推荐、相关度计算等。此工作更注重数据内在联系,数据仓库组建,分析系统开发,挖掘算法设计,甚至很多时候要亲力而为的从ETL开始处理原始数据,因此对计算机水平有较高要求。一般不及数据分析,使用工具除海量数据库如Oracle,分布式计算Hadoop,C++,Java,Python等编程语言外,也有可能会用到第三方挖掘工具如Weka。
数据分析:专注于中小网站分析优化,网站地图、结构优化,SEO。大多使用第三方工具如:开源分析模块(BIRT)、CNZZ、GA,通过对网站属性数据(如pv, uv, 新用户占比,搜索词,跳出率,蹦失率,访问时长,忠诚度等)的分析,对网站结构、内容进行优化。此方向更偏产品一些,极大的依赖分析经验和对数据的敏感度,产品是关键。
数据统计:专注于建模及统计分析,通过概率、统计、离散等数学知识建立合理模型,充分发掘数据内容。例如用回归分析,充分利用网站历史数据,进行评估、预测、反向预测、发掘因素。利用贝叶斯方法建立模型来进行机器学习、聚类、垃圾邮件过滤等。常用工具如:SAS,R,SPSS。个让人认为这个更注重数学,尤其是统计学。
简单的来说:数据挖掘就是从海量数据中找到隐藏的规则,数据分析一般要分析的目标比较明确,数据统计则是单纯的使用样本来推断总体。至于差别:
数据分析的重点是观察数据,数据挖掘的重点是从数据中发现知识规则KDD,数据统计的重点是参数估计和假设检验。数据分析、数据统计得出的结论是人的智力活动结果,数据挖掘得出的结论是机器从学习集(或训练集、样本集)发现的知识规则,注意,但是绝不等于就是机器学习。 |
|