楼主: pipihappy8888

【有奖话题讨论】大数据:互联网大规模数据挖掘与分布式处理(已公布获奖)

[复制链接]
21#
发表于 2014-7-30 16:59 | 只看该作者
谢谢领导给我书,我必须好好看   谢谢!!

使用道具 举报

回复
论坛徽章:
249
Jeep
日期:2013-09-04 19:17:57Jeep
日期:2013-10-08 09:46:02Jeep
日期:2013-10-08 16:38:27Jeep
日期:2013-11-22 14:53:46Jeep
日期:2013-11-08 23:59:45Jeep
日期:2013-11-22 17:15:17Jeep
日期:2013-11-22 17:15:17Jeep
日期:2013-11-17 09:59:04季节之章:夏
日期:2015-01-28 14:58:51季节之章:春
日期:2014-12-25 16:20:50
22#
发表于 2014-7-30 23:54 | 只看该作者

飘过,表示对大数据不太懂

使用道具 举报

回复
论坛徽章:
0
23#
发表于 2014-7-31 08:35 | 只看该作者

使用道具 举报

回复
论坛徽章:
127
茶鸡蛋
日期:2012-01-16 14:24:41鲜花蛋
日期:2012-06-06 14:48:18双黄蛋
日期:2013-01-07 21:07:482013年新春福章
日期:2013-02-25 14:51:24优秀写手
日期:2013-12-18 09:29:082014年新春福章
日期:2014-02-18 16:44:08马上有对象
日期:2014-02-18 16:44:08马上加薪
日期:2014-03-18 09:57:11马上有车
日期:2014-03-20 16:13:24马上有房
日期:2014-03-20 16:14:11
24#
 楼主| 发表于 2014-7-31 09:24 | 只看该作者
boxermm 发表于 2014-7-30 15:16
楼主是不是阿里的?上周阿里的人才给我们做了推荐系统的培训,开头就提到了《今日头条》,主要讲的是推荐系 ...

我是IT168的,想到今日头条比较火,就想问这个啦!

使用道具 举报

回复
论坛徽章:
0
25#
发表于 2014-7-31 11:54 | 只看该作者

支持,好的活动哈 不错的书

使用道具 举报

回复
论坛徽章:
5
复活蛋
日期:2011-07-23 11:36:29灰彻蛋
日期:2011-08-30 22:02:45ITPUB十周年纪念徽章
日期:2011-11-01 16:26:59ITPUB 11周年纪念徽章
日期:2012-10-09 18:16:002013年新春福章
日期:2013-02-25 14:51:24
26#
发表于 2014-7-31 16:52 | 只看该作者
本帖最后由 keithguofan 于 2014-7-31 16:54 编辑

谈第二个话题:
数据挖掘受到了很多学科领域的影响,其中数据库、机器学习、统计学无疑影响最大
。粗糙地说,数据库提供数据管理技术,机器学习和统计学提供数据分析技术。由于统计学界往往醉心于
理论的优美而忽视实际的效用,因此,统计学界提供的很多技术通常都要在机器学习界进一步研究,
变成有效的机器学习算法之后才能再进入数据挖掘领域。从这个意义上说,统计学主要是通过机器
学习来对数据挖掘发挥影响,而机器学习和数据库则是数据挖掘的两大支撑技术。
从数据分析的角度来看,绝大多数数据挖掘技术都来自机器学习领域。但能否认为数据挖掘只
不过就是机器学习的简单应用呢?答案是否定的。一个重要的区别是,传统的机器学习研究并不把
海量数据作为处理对象,很多技术是为处理中小规模数据设计的,如果直接把这些技术用于海量数
据,效果可能很差,甚至可能用不起来。因此,数据挖掘界必须对这些技术进行专门的、不简单的
改造。例如,决策树是一种很好的机器学习技术,不仅有很强的泛化能力,而且学得结果具有一定
的可理解性,很适合数据挖掘任务的需求。但传统的决策树算法需要把所有的数据都读到内存中,在面对海量数据
时这显然是无法实现的。为了使决策树能够处理海量数据,数据挖
掘界做了很多工作,例如通过引入高效的数据结构和数据调度策略等来改造决策树学习过程,而这
其实正是在利用数据库界所擅长的数据管理技术。实际上,在传统机器学习算法的研究中,在很多
问题上如果能找到多项式时间的算法可能就已经很好了,但在面对海量数据时,可能连
算法 都是难以接受的,这就给算法的设计带来了巨大的挑战。

机器学习和数据挖掘以及统计之间的关系表面上很像,但是也有非常大的区别

相似点在于:都是数据分析的工具,三个领域内都有办法用来分析同一数据,基本原理都很浅显。

不同点在于:

统 计对模型的要求比较苛刻,如谢所引,一定要对模型的各种性质,比如大样本,小样本,是否无偏,有多大的variance,是否达到c-r bound,是否一致,最后最好还要有model checking. 机器学习很少关心模型在大样本的情况下如何,也不关心estimator的传统的性质--这也可能是因为他们的模型太过复杂,无法从数学上证明,这也从一个侧面反映了为什么normal distribution在统计中的用处如此之大(有了它,很多模型的性质的研究就便的容易了),也有可能是因为他们一般都用在数据量大的地方--但是机器学习却挺关心另一个东西--error,包括empirical error and structural error。举个简单的例子,我们眼看着神经网络和支持向量机这两种网络模型很流行,很容易懂,很有用,但是很多人却不知道它们来自何处,为什么能具有对广泛的数据拥有广泛的用途,为什么精度会很高?--背后的原因很简单,它们两分别优化的是这两种error。而机器学习正是着眼于研究这两种error,通过这两种error的研究垮身为一种具有很浓数学味道的学科--用了大量的分析学--而这一点也是它与数据挖掘的本质区别--数据挖掘只需要设计一张鱼网(算法),在大量的数据中网到自己需要的模式,很多时候相当的需要运气。所以很多人都说这是渔夫的工作。

统计学习和机器学习的差别不怎么大。倒是统计建模和机器学习有些差别。2001年Brieman(是这么拼的吗?)写了一篇文章,叫做statistical modeling:two cultures,介绍了之间的区别。统计建模是基于数据的概率分布的。因此统计模型中很重视推断inference,这些推断,比如假设检验,置信区间,都是基于某种分布假设的。而机器学习最近本的问题,便是要最小化预测误差的某种度量。这两种方法对于世界的认知是不同的。统计建模,最终的目的,是获得数据的概率分布,如果数据产生的分布已知,那么就天下大吉。统计建模认为世界可以用概率分布来逼近。而机器学习不这么认为,它不在乎数据产生于什么分布,并且认为这个世界运行的方式是无法单纯用概率分布来解释的,比如神经网络。因此,它的目的,是预测的精准性。这是两种建模的方式,而归根结底,是对这个世界认知的方式。

统计学习更倾向于模型,通常会基于某种已知的模型就行计算。而机器学习更倾向于数据本身,往往会通过某些算法(决策树,聚类,支持向量机,神经网络等)来从数据本身挖掘信息。

总的来说:机器学习是数据挖掘中的一种重要工具。然则数据挖掘不仅仅要研究、拓展、应用一些机器学习方法,还要通过许多非机器学习技术解决数据仓储、大规模数据、数据噪音等等更为实践问题。机器学习的涉及面也很宽,常用在数据挖掘上的方法通常只是“从数据学习”,然则机器学习不仅仅可以用在数据挖掘上,一些机器学习的子领域甚至与数据挖掘关系不大,例如增强学习与自动控制等等。所以我个人认为,数据挖掘是从目的而言的,机器学习是从方法而言的,两个领域有相当大的交集,但不能等同。


使用道具 举报

回复
论坛徽章:
6
CTO参与奖
日期:2009-02-12 11:45:482009日食纪念
日期:2009-07-22 09:30:002010新春纪念徽章
日期:2010-03-01 11:08:292011新春纪念徽章
日期:2011-02-18 11:43:34ITPUB十周年纪念徽章
日期:2011-11-01 16:21:152012新春纪念徽章
日期:2012-01-04 11:51:22
27#
发表于 2014-7-31 17:15 | 只看该作者
支持,有没金融领域的大数据分析案例和前沿研究?

使用道具 举报

回复
论坛徽章:
512
生肖徽章2007版:猴
日期:2012-10-24 13:24:51生肖徽章2007版:猴
日期:2012-10-24 13:24:51生肖徽章2007版:猴
日期:2012-10-24 13:24:51生肖徽章2007版:猴
日期:2012-10-24 13:24:51生肖徽章2007版:猴
日期:2012-10-24 13:24:51生肖徽章2007版:猴
日期:2012-10-24 13:24:51生肖徽章:猴
日期:2012-10-24 13:25:07生肖徽章:猴
日期:2012-10-24 13:25:07生肖徽章:猴
日期:2012-10-24 13:25:07生肖徽章:猴
日期:2012-10-24 13:25:07
28#
发表于 2014-7-31 17:22 | 只看该作者
3.真正能够驾驭这个文件系统是一个高级编程系统的开发环境,Map-Reduce就是其中的核心系统之一。它实现了很多基于大规模数据的最常见计算能够在大规模计算机集群上高效实现,还能够支持计算过程的硬件容错性。Map-Reduce是一种计算模式,包含了Map和Reduce函数,请分析下Map任务和Reduce任务的区别。

简单的说就是map任务进行切分分配计算到各个节点计算, reduce任务把各个计算节点的计算结果汇总起来

使用道具 举报

回复
论坛徽章:
277
马上加薪
日期:2014-02-19 11:55:14马上有对象
日期:2014-02-19 11:55:14马上有钱
日期:2014-02-19 11:55:14马上有房
日期:2014-02-19 11:55:14马上有车
日期:2014-02-19 11:55:14马上有车
日期:2014-02-18 16:41:112014年新春福章
日期:2014-02-18 16:41:11版主9段
日期:2012-11-25 02:21:03ITPUB年度最佳版主
日期:2014-02-19 10:05:27现任管理团队成员
日期:2011-05-07 01:45:08
29#
发表于 2014-7-31 17:45 | 只看该作者
看看。。。。

使用道具 举报

回复
论坛徽章:
54
ITPUB15周年纪念
日期:2017-02-19 21:29:36双子座
日期:2015-11-26 23:31:18天蝎座
日期:2015-11-23 18:37:14天枰座
日期:2015-11-23 10:05:24秀才
日期:2015-11-11 09:48:44摩羯座
日期:2015-11-05 17:21:49射手座
日期:2015-10-26 15:35:30狮子座
日期:2015-10-09 09:25:42双子座
日期:2015-08-26 10:23:172015年新春福章
日期:2015-06-02 14:55:00
30#
发表于 2014-8-1 17:02 | 只看该作者
xiaohua510510 发表于 2014-7-30 09:50
请楼主施舍给我一本书,目前正在学习相关方面的东东,完事后定会来分享,谢谢~

原书名~《Mining of Massive Datasets》
http://www.itpub.net/thread-1708388-1-1.html

使用道具 举报

回复

您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

TOP技术积分榜 社区积分榜 徽章 团队 统计 知识索引树 积分竞拍 文本模式 帮助
  ITPUB首页 | ITPUB论坛 | 数据库技术 | 企业信息化 | 开发技术 | 微软技术 | 软件工程与项目管理 | IBM技术园地 | 行业纵向讨论 | IT招聘 | IT文档
  ChinaUnix | ChinaUnix博客 | ChinaUnix论坛
CopyRight 1999-2011 itpub.net All Right Reserved. 北京盛拓优讯信息技术有限公司版权所有 联系我们 未成年人举报专区 
京ICP备16024965号-8  北京市公安局海淀分局网监中心备案编号:11010802021510 广播电视节目制作经营许可证:编号(京)字第1149号
  
快速回复 返回顶部 返回列表