12
返回列表 发新帖
楼主: 王楠w_n

【大话IT】从数据挖掘谈起,悟空胜,还是杨戬胜?

[复制链接]
论坛徽章:
223
2010新春纪念徽章
日期:2010-03-01 11:20:51ITPUB元老
日期:2019-04-25 13:46:07至尊黑钻
日期:2015-08-13 13:38:12至尊黑钻
日期:2015-02-15 09:47:472015年中国系统架构师大会纪念徽章
日期:2015-07-31 17:48:20管理团队2007贡献徽章
日期:2015-01-19 09:48:272015中国数据库技术大会纪念徽章
日期:2015-05-15 14:08:23海蓝宝石
日期:2015-02-03 10:23:39红宝石
日期:2015-02-03 10:26:04会员2007贡献徽章
日期:2015-02-03 10:26:41
11#
发表于 2016-9-17 13:46 | 只看该作者
jszxcyit 发表于 2016-9-14 13:18
进哥哥,要好好工作哦

使用道具 举报

回复
论坛徽章:
98
秀才
日期:2016-02-18 10:06:46山治
日期:2017-02-21 16:18:12秀才
日期:2017-02-22 15:14:12秀才
日期:2017-02-22 15:16:26秀才
日期:2017-02-22 15:18:00秀才
日期:2017-03-01 13:53:39秀才
日期:2017-03-20 13:42:20秀才
日期:2017-03-27 17:52:06秀才
日期:2017-03-28 15:11:09秀才
日期:2017-03-28 15:59:38
12#
发表于 2016-9-18 10:24 | 只看该作者
石头剪刀布吧

使用道具 举报

回复
论坛徽章:
571
NBA季后赛纪念徽章
日期:2012-06-25 12:19:11洛杉矶快船
日期:2014-06-16 11:45:27NBA常规赛纪念章
日期:2013-04-22 11:49:35NBA季后赛纪念徽章
日期:2011-06-13 11:34:51NBA常规赛纪念章
日期:2011-04-15 13:34:11NBA季后赛纪念徽章
日期:2013-06-21 14:52:05NBA常规赛纪念章
日期:2012-04-27 16:07:05生肖徽章:羊
日期:2014-08-15 14:12:01ITPUB9周年纪念徽章
日期:2016-10-28 17:00:11ITPUB9周年纪念徽章
日期:2016-10-28 17:00:11
13#
发表于 2016-9-19 16:41 | 只看该作者

使用道具 举报

回复
论坛徽章:
0
14#
发表于 2016-9-20 09:42 | 只看该作者
一、说说你对数据挖掘的理解
数据挖掘是从生产、生活、经营活动等中的海量数据中通过数学模型、算法、并再结合与业务知识将发现隐藏于各类生产、生活、活动等规律性或者先前未知的知识信息。数据挖掘通常与数学、计算机学科、统计学科等息息相关。利用数学统计、在线分析处理、情报检索、机器学习、模式识别、专家系统等诸多方法来实现知识的发现。

二、数据挖掘有哪些算法
2.1  C4.5算法
C4.5在继承ID3优点算法的基础上进行了改进,
1)        用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足;
2)        在树构造过程中进行剪枝;
3)        能够完成对连续属性的离散化处理;
4)        能够对不完整数据进行处理。
C4.5算法有如下优点:产生的分类规则易于理解,准确率较高。其缺点是:在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,因而导致算法的低效。

2.2  The k-means algorithm 即K-Means算法
k-means algorithm算法是一个聚类算法,把n的对象根据他们的属性分为k个分割,k < n。它与处理混合正态分布的最大期望算法很相似,因为他们都试图找到数据中自然聚类的中心。它假设对象属性来自于空间向量,并且目标是使各个群组内部的均 方误差总和最小。

2.3.  Support vector machines
支持向量机,英文为Support Vector Machine,简称SV机(论文中一般简称SVM)。它是一种監督式學習的方法,它广泛的应用于统计分类以及回归分析中。支持向量机将向量映射到一个更 高维的空间里,在这个空间里建立有一个最大间隔超平面。在分开数据的超平面的两边建有两个互相平行的超平面。分隔超平面使两个平行超平面的距离最大化。假 定平行超平面间的距离或差距越大,分类器的总误差越小。一个极好的指南是C.J.C Burges的《模式识别支持向量机指南》。van der Walt 和 Barnard 将支持向量机和其他分类器进行了比较。

2.4.  The Apriori algorithm
Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。其核心是基于两阶段频集思想的递推算法。该关联规则在分类上属于单维、单层、布尔关联规则。在这里,所有支持度大于最小支持度的项集称为频繁项集,简称频集。

2.5. 最大期望(EM)算法
在统计计算中,最大期望(EM,Expectation–Maximization)算法是在概率(probabilistic)模型中寻找参数最大似然 估计的算法,其中概率模型依赖于无法观测的隐藏变量(Latent Variabl)。最大期望经常用在机器学习和计算机视觉的数据集聚(Data Clustering)领域。

2.6.  PageRank
PageRank是Google算法的重要内容。2001年9月被授予美国专利,专利人是Google创始人之一拉里•佩奇(Larry Page)。因此,PageRank里的page不是指网页,而是指佩奇,即这个等级方法是以佩奇来命名的。PageRank根据网站的外部链接和内部链接的数量和质量俩衡量网站的价值。PageRank背后的概念是,每个到页面的链接都是对该页面的一次投票, 被链接的越多,就意味着被其他网站投票越多。这个就是所谓的“链接流行度”——衡量多少人愿意将他们的网站和你的网站挂钩。PageRank这个概念引自 学术中一篇论文的被引述的频度——即被别人引述的次数越多,一般判断这篇论文的权威性就越高。

2.7.  AdaBoost
Adaboost是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器(弱分类器),然后把这些弱分类器集合起来,构成一个更强的最终分类器 (强分类器)。其算法本身是通过改变数据分布来实现的,它根据每次训练集之中每个样本的分类是否正确,以及上次的总体分类的准确率,来确定每个样本的权 值。将修改过权值的新数据集送给下层分类器进行训练,最后将每次训练得到的分类器最后融合起来,作为最后的决策分类器。

2.8.  kNN: k-nearest neighbor classification
K最近邻(k-Nearest Neighbor,KNN)分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一。该方法的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。

2.9.  Naive Bayes
在众多的分类模型中,应用最为广泛的两种分类模型是决策树模型(Decision Tree Model)和朴素贝叶斯模型(Naive Bayesian Model,NBC)。 朴素贝叶斯模型发源于古典数学理论,有着坚实的数学基础,以 及稳定的分类效率。同时,NBC模型所需估计的参数很少,对缺失数据不太敏感,算法也比较简单。理论上,NBC模型与其他分类方法相比具有最小的误差率。 但是实际上并非总是如此,这是因为NBC模型假设属性之间相互独立,这个假设在实际应用中往往是不成立的,这给NBC模型的正确分类带来了一定影响。在属 性个数比较多或者属性之间相关性较大时,NBC模型的分类效率比不上决策树模型。而在属性相关性较小时,NBC模型的性能最为良好。

2.10.  CART: 分类与回归树
CART, Classification and Regression Trees。 在分类树下面有两个关键的思想。第一个是关于递归地划分自变量空间的想法;第二个想法是用验证数据进行剪枝。

三.如果由你来做数据挖掘,是倾向哪种语言(C、C++、java、python...)?
其一种是基于挖掘工具SPSS的功能进行创建各种模型,再进行数据拟合匹配等。其中是基于各类各种开发语言的开发。目前更多的是采用python,使用过python的都知道,这个做网络爬虫的最为合适的工具之一,目前的互联网的数据是最为丰富的资源,也是最为宝贵的信息资源,因此对于数据的分析离不开爬虫的支持。结合Python提供的丰富插件,API等等,及在数据高效运算的性能等等,综合来考虑数据的获取与整理分析挖掘采用python是一种比较合理的选择。

1人打赏

使用道具 举报

回复
论坛徽章:
0
15#
发表于 2016-9-20 09:43 | 只看该作者
本帖最后由 zhlin0054 于 2016-9-20 09:46 编辑

一、说说你对数据挖掘的理解
数据挖掘是从生产、生活、经营活动等中的海量数据中通过数学模型、算法、并再结合与业务知识将发现隐藏于各类生产、生活、活动等规律性或者先前未知的知识信息。数据挖掘通常与数学、计算机学科、统计学科等息息相关。利用数学统计、在线分析处理、情报检索、机器学习、模式识别、专家系统等诸多方法来实现知识的发现。


二、数据挖掘有哪些算法
2.1  C4.5算法
C4.5在继承ID3优点算法的基础上进行了改进,
1)    用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足;
2)    在树构造过程中进行剪枝;
3)    能够完成对连续属性的离散化处理;
4)    能够对不完整数据进行处理。
C4.5算法有如下优点:产生的分类规则易于理解,准确率较高。其缺点是:在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,因而导致算法的低效。

2.2  Thek-means algorithm 即K-Means算法
k-meansalgorithm算法是一个聚类算法,把n的对象根据他们的属性分为k个分割,k < n。它与处理混合正态分布的最大期望算法很相似,因为他们都试图找到数据中自然聚类的中心。它假设对象属性来自于空间向量,并且目标是使各个群组内部的均 方误差总和最小。

2.3.  Supportvector machines
支持向量机,英文为Support VectorMachine,简称SV机(论文中一般简称SVM)。它是一种監督式學習的方法,它广泛的应用于统计分类以及回归分析中。支持向量机将向量映射到一个更 高维的空间里,在这个空间里建立有一个最大间隔超平面。在分开数据的超平面的两边建有两个互相平行的超平面。分隔超平面使两个平行超平面的距离最大化。假 定平行超平面间的距离或差距越大,分类器的总误差越小。一个极好的指南是C.J.C Burges的《模式识别支持向量机指南》。van derWalt 和 Barnard 将支持向量机和其他分类器进行了比较。

2.4.  TheApriori algorithm
Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。其核心是基于两阶段频集思想的递推算法。该关联规则在分类上属于单维、单层、布尔关联规则。在这里,所有支持度大于最小支持度的项集称为频繁项集,简称频集。

2.5. 最大期望(EM)算法
在统计计算中,最大期望(EM,Expectation–Maximization)算法是在概率(probabilistic)模型中寻找参数最大似然 估计的算法,其中概率模型依赖于无法观测的隐藏变量(Latent Variabl)。最大期望经常用在机器学习和计算机视觉的数据集聚(Data Clustering)领域。

2.6.  PageRank
PageRank是Google算法的重要内容。2001年9月被授予美国专利,专利人是Google创始人之一拉里·佩奇(Larry Page)。因此,PageRank里的page不是指网页,而是指佩奇,即这个等级方法是以佩奇来命名的。PageRank根据网站的外部链接和内部链接的数量和质量俩衡量网站的价值。PageRank背后的概念是,每个到页面的链接都是对该页面的一次投票, 被链接的越多,就意味着被其他网站投票越多。这个就是所谓的“链接流行度”——衡量多少人愿意将他们的网站和你的网站挂钩。PageRank这个概念引自 学术中一篇论文的被引述的频度——即被别人引述的次数越多,一般判断这篇论文的权威性就越高。

2.7.  AdaBoost
Adaboost是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器(弱分类器),然后把这些弱分类器集合起来,构成一个更强的最终分类器 (强分类器)。其算法本身是通过改变数据分布来实现的,它根据每次训练集之中每个样本的分类是否正确,以及上次的总体分类的准确率,来确定每个样本的权 值。将修改过权值的新数据集送给下层分类器进行训练,最后将每次训练得到的分类器最后融合起来,作为最后的决策分类器。

2.88.  kNN: k-nearest neighbor classification
K最近邻(k-NearestNeighbor,KNN)分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一。该方法的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。

2.9.  Naive Bayes
在众多的分类模型中,应用最为广泛的两种分类模型是决策树模型(Decision Tree Model)和朴素贝叶斯模型(Naive BayesianModel,NBC)。 朴素贝叶斯模型发源于古典数学理论,有着坚实的数学基础,以 及稳定的分类效率。同时,NBC模型所需估计的参数很少,对缺失数据不太敏感,算法也比较简单。理论上,NBC模型与其他分类方法相比具有最小的误差率。 但是实际上并非总是如此,这是因为NBC模型假设属性之间相互独立,这个假设在实际应用中往往是不成立的,这给NBC模型的正确分类带来了一定影响。在属 性个数比较多或者属性之间相关性较大时,NBC模型的分类效率比不上决策树模型。而在属性相关性较小时,NBC模型的性能最为良好。

2.10.  CART: 分类与回归树
CART, Classification andRegression Trees。 在分类树下面有两个关键的思想。第一个是关于递归地划分自变量空间的想法;第二个想法是用验证数据进行剪枝。



.如果由你来做数据挖掘,是倾向哪种语言(CC++javapython...)?
其一种是基于挖掘工具SPSS的功能进行创建各种模型,再进行数据拟合匹配等。其中是基于各类各种开发语言的开发。目前更多的是采用python,使用过python的都知道,这个做网络爬虫的最为合适的工具之一,目前的互联网的数据是最为丰富的资源,也是最为宝贵的信息资源,因此对于数据的分析离不开爬虫的支持。结合Python提供的丰富插件,API等等,及在数据高效运算的性能等等,综合来考虑数据的获取与整理分析挖掘采用python是一种比较合理的选择。

1人打赏

使用道具 举报

回复
论坛徽章:
91
秀才
日期:2015-11-02 11:24:03秀才
日期:2017-12-12 10:00:50秀才
日期:2017-09-18 17:34:47秀才
日期:2017-09-18 17:02:592017金鸡报晓
日期:2017-02-08 14:09:132017金鸡报晓
日期:2017-01-10 15:39:05秀才
日期:2016-12-21 16:55:07ITPUB15周年纪念
日期:2016-10-06 10:54:102016猴年福章
日期:2016-02-23 09:58:342016猴年福章
日期:2016-02-18 09:31:30
16#
发表于 2016-9-20 16:21 | 只看该作者
bfmo 发表于 2016-9-6 15:10
1.说说你对数据挖掘的理解
数据挖掘(Data Mining)是有组织有目的地收集数据,通过分析数据使之成为信息 ...

好专业123

使用道具 举报

回复
论坛徽章:
35
授权会员
日期:2007-11-28 20:47:35ITPUB元老
日期:2008-05-20 15:05:57
17#
发表于 2016-9-26 17:10 | 只看该作者

使用道具 举报

回复
论坛徽章:
35
授权会员
日期:2007-11-28 20:47:35ITPUB元老
日期:2008-05-20 15:05:57
18#
发表于 2016-9-26 17:27 | 只看该作者
  数据挖掘,我只用python.python作为一门不算新生的脚本语言,有着简单、易学、免费开源、可移植性、可扩展性等特点.所以现在越来越多的人在应用.虽然他的效率没有C.java等语言的效率高.但是现在硬件越来越好,谁有差在0.1秒上面再加一秒呢

  python做数据挖掘还有个好处就是上手快,不用自己造轮子,有好多县城的库可以直接用 numpy、pandas、scipy、matplotlib、scikit-learn等.

  Python数据挖掘基础主要是对数据分析相关库的使用,比如数据整理需要用到numpy和pandas库,数据描述与分析分析则主要用到pandas库,用Scipy处理非结构化数据,使用回归线性模型和回归树模型进行预测等等用python做数据分析和数据挖掘的库的应用。

  不过现在也有很多人用R语言或者其他语言的. 任何一项工程都其实都有很多实现方式,只能找一个最适合的而已.

1人打赏

使用道具 举报

回复
招聘 : 系统架构师
论坛徽章:
372
双子座
日期:2015-08-18 12:18:21摩羯座
日期:2015-09-20 17:10:27秀才
日期:2015-09-21 09:46:16秀才
日期:2015-09-21 11:16:42秀才
日期:2015-10-08 17:57:58天枰座
日期:2015-10-28 18:28:29秀才
日期:2015-11-11 09:48:44秀才
日期:2015-11-11 10:07:14秀才
日期:2015-11-11 10:22:49秀才
日期:2015-09-11 10:43:06
19#
发表于 2016-9-28 15:13 | 只看该作者
算了,你胜罢!!

使用道具 举报

回复
论坛徽章:
91
秀才
日期:2015-11-02 11:24:03秀才
日期:2017-12-12 10:00:50秀才
日期:2017-09-18 17:34:47秀才
日期:2017-09-18 17:02:592017金鸡报晓
日期:2017-02-08 14:09:132017金鸡报晓
日期:2017-01-10 15:39:05秀才
日期:2016-12-21 16:55:07ITPUB15周年纪念
日期:2016-10-06 10:54:102016猴年福章
日期:2016-02-23 09:58:342016猴年福章
日期:2016-02-18 09:31:30
20#
发表于 2016-10-10 09:54 | 只看该作者
sjf0115 发表于 2016-9-3 21:26
1.说说你对数据挖掘的理解数据挖掘基于机器学习,人工智能,模式识别和现代统计学的迅速发展的一种交叉学科 ...

     不错

使用道具 举报

回复

您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

TOP技术积分榜 社区积分榜 徽章 团队 统计 知识索引树 积分竞拍 文本模式 帮助
  ITPUB首页 | ITPUB论坛 | 数据库技术 | 企业信息化 | 开发技术 | 微软技术 | 软件工程与项目管理 | IBM技术园地 | 行业纵向讨论 | IT招聘 | IT文档
  ChinaUnix | ChinaUnix博客 | ChinaUnix论坛
CopyRight 1999-2011 itpub.net All Right Reserved. 北京盛拓优讯信息技术有限公司版权所有 联系我们 未成年人举报专区 
京ICP备16024965号-8  北京市公安局海淀分局网监中心备案编号:11010802021510 广播电视节目制作经营许可证:编号(京)字第1149号
  
快速回复 返回顶部 返回列表