楼主: pipihappy8888

【有奖话题讨论】大数据:互联网大规模数据挖掘与分布式处理(已公布获奖)

[复制链接]
论坛徽章:
211
季节之章:冬
日期:2016-06-05 14:40:19NBA季后赛大富翁
日期:2018-06-13 16:07:24NBA季后赛大富翁
日期:2010-06-21 13:42:32NBA大富翁
日期:2016-04-18 15:51:28博彩大赢家
日期:2014-07-30 11:23:12生肖徽章2007版:猪
日期:2016-03-21 17:13:36生肖徽章2007版:兔
日期:2016-03-21 16:57:43生肖徽章2007版:羊
日期:2016-04-19 10:52:34芝加哥公牛
日期:2018-04-13 15:04:50金牌徽章
日期:2013-01-25 12:09:36
31#
发表于 2014-8-2 08:57 | 只看该作者

使用道具 举报

回复
论坛徽章:
12
祖国60周年纪念徽章
日期:2009-10-09 08:28:00沸羊羊
日期:2015-03-04 14:43:43马上有车
日期:2014-02-18 16:41:112014年新春福章
日期:2014-02-18 16:41:112013年新春福章
日期:2013-02-25 14:51:24ITPUB 11周年纪念徽章
日期:2012-10-10 13:11:14奥运会纪念徽章:足球
日期:2012-06-28 17:20:362012新春纪念徽章
日期:2012-01-04 11:49:54ITPUB十周年纪念徽章
日期:2011-11-01 16:19:412011新春纪念徽章
日期:2011-02-18 11:42:49
32#
发表于 2014-8-4 10:32 | 只看该作者
不错的书,英文版还是免费的呢。

使用道具 举报

回复
论坛徽章:
57
ITPUB15周年纪念
日期:2016-10-13 13:15:342017金鸡报晓
日期:2017-01-10 15:39:052017金鸡报晓
日期:2017-02-08 14:09:13秀才
日期:2017-02-22 15:14:12秀才
日期:2017-02-22 15:16:26秀才
日期:2017-02-22 15:18:00秀才
日期:2017-05-09 11:37:55秀才
日期:2017-07-11 14:19:35ITPUB18周年纪念章
日期:2018-11-13 15:31:24
33#
发表于 2014-8-5 11:48 | 只看该作者
,....

使用道具 举报

回复
论坛徽章:
5
ITPUB十周年纪念徽章
日期:2011-11-01 16:24:04懒羊羊
日期:2015-03-04 14:52:112015年新春福章
日期:2015-03-06 11:58:18秀才
日期:2015-10-19 15:49:55秀才
日期:2015-10-19 15:50:39
34#
发表于 2014-8-6 17:28 | 只看该作者
1.
基于内容项(Item-based)的协同过滤技术

2.
机器学习是数据挖掘中的一种重要工具。然则数据挖掘不仅仅要研究、拓展、应用一些机器学习方法,还要通过许多非机器学习技术解决数据仓储、大规模数据、数据噪音等等更为实践问题。机器学习的涉及面也很宽,常用在数据挖掘上的方法通常只是“从数据学习”,然则机器学习不仅仅可以用在数据挖掘上,一些机器学习的子领域甚至与数据挖掘关系不大,例如增强学习与自动控制等等。所以我个人认为,数据挖掘是从目的而言的,机器学习是从方法而言的,两个领域有相当大的交集,但不能等同。

3.
map/reduce思想来源于lisp, map偏向于数据搜集, reduce偏向于数据处理聚合等,  两者各有侧重。

4.
协同过滤是基于用户和用户的关联,简单说就是看和某一用户有相似喜好的其他用户的喜好,从而预测该用户对物品的可能喜好。
基于内容就是根据商品与商品的关联,简单说就是看某一用户之前喜欢过的物品,通过对属性的匹配分析,预测用户喜好。
聚类推荐是根据相关聚类算法,发现未知的不同的客户群

5.
最短路径, SN搜索算法

6.
该书好像是教授给学生们上的初级课程总结而出的一本书,虽然没有对某个具体算法讲得很深很细,但是结合实例讲了在大数据背景下的数据挖掘与分布式处理,相比于传统中小数据规模的数据挖掘,也算是非常及时与有用,非常喜欢!

使用道具 举报

回复
论坛徽章:
11
奥运纪念徽章
日期:2012-11-28 09:37:30马上加薪
日期:2014-03-20 16:14:11马上有对象
日期:2014-03-20 16:14:11马上有钱
日期:2014-03-20 16:14:11马上有房
日期:2014-03-20 16:14:11马上有车
日期:2014-03-20 16:13:24ITPUB社区12周年站庆徽章
日期:2013-10-17 13:56:39ITPUB社区12周年站庆徽章
日期:2013-10-08 17:44:422013年新春福章
日期:2013-02-25 14:51:24ITPUB官方微博粉丝徽章
日期:2012-12-11 17:06:47
35#
发表于 2014-8-6 21:56 | 只看该作者
2.有些人将数据挖掘看成是机器学习的同义词,您认为呢?一些常见的数据挖掘方法有哪些?数据分析、数据挖掘、数据统计之间哪些差异?
个人理解:不能算是同义词,数据挖掘应该是机器学习的一种过程。

使用道具 举报

回复
求职 : ERP实施
论坛徽章:
9
奥运会纪念徽章:足球
日期:2012-09-19 13:48:18奥运会纪念徽章:帆船
日期:2012-08-03 14:11:05奥运会纪念徽章:曲棍球
日期:2012-09-18 09:13:02奥运会纪念徽章:手球
日期:2012-10-09 11:27:07ITPUB 11周年纪念徽章
日期:2012-10-09 18:06:202013年新春福章
日期:2013-02-25 14:51:24ITPUB社区千里马徽章
日期:2013-06-09 10:15:342015年新春福章
日期:2015-03-04 14:51:122015年新春福章
日期:2015-03-06 11:57:31
36#
发表于 2014-8-8 10:56 | 只看该作者
大数据现在就是企业隐形的宝藏,越来越多的企业看是重视起来,但是原始数据的准确性还需要加强管理,尽量干净

使用道具 举报

回复
论坛徽章:
8
红宝石
日期:2014-08-28 15:18:18紫水晶
日期:2014-08-28 15:18:42祖母绿
日期:2014-09-11 13:38:41itpub13周年纪念徽章
日期:2014-10-08 15:13:38马上有车
日期:2014-10-09 16:50:00蓝锆石
日期:2014-11-05 17:13:52itpub13周年纪念徽章
日期:2014-11-17 17:01:01蓝色妖姬
日期:2015-01-05 17:16:44
37#
发表于 2014-8-15 15:32 | 只看该作者
1.《今日头条》的个性化推荐是如何实现的?你用过的推荐引擎或者个性化推荐服务有哪些?
      《今日头条》是主打信息挖掘路径。信息收集和推荐都是通过技术手段来实现,用户在微博上发出的言论、地域、转发、与他有直接或间接的好友关系都给这名用户打上了多个标签或者属性来实现。比挖掘SNS信息比重更多的是,挖掘机器不断学习用户在使用《今日头条》时的每一个动作,比如时间、位置等信息,不断增加人的属性,从而实现通过技术对人的定义更加准确。

2.有些人将数据挖掘看成是机器学习的同义词,您认为呢?一些常见的数据挖掘方法有哪些?数据分析、数据挖掘、数据统计之间哪些差异?
把数据挖掘看成是机器学习的同义词,主要是因为一些数据挖掘方法中适当使用了机器学习算法。机器学习的实践者将数据当成训练集来训练某类算法,比如贝叶斯网络、支持向量机、决策树、隐马尔可夫模型等。
数据挖掘的方法主要有:关联分析、聚类分析、预测、时序模式分析和偏差分析等。
数据分析:专注于中小网站分析优化,网站地图、结构优化,SEO。
数据挖掘:主要是面向决策,从海量数据中挖掘不为人知、无法直观得出的结论。
数据统计:专注于建模及统计分析,通过概率、统计、离散等数学知识建立合理模型,充分发掘数据内容。

3.真正能够驾驭这个文件系统是一个高级编程系统的开发环境,Map-Reduce就是其中的核心系统之一。它实现了很多基于大规模数据的最常见计算能够在大规模计算机集群上高效实现,还能够支持计算过程的硬件容错性。Map-Reduce是一种计算模式,包含了Map和Reduce函数,请分析下Map任务和Reduce任务的区别。
map:接受一个键值对(key-value pair),产生一组中间键值对。MapReduce框架会将map函数产生的中间键值对里键相同的值传递给一个reduce函数。 即输入数据,分片、计算中间结果,传给reduce。
reduce:接受一个键,以及相关的一组值,将这组值进行合并产生一组规模更小的值(通常只有一个或零个值)。即接收map处理的结果,归并,输出结果。

4.越来越多的企业牵手个性化推荐系统,对用户喜好进行预测,推荐系统用到的主流技术有三大类,内容推荐、协同过滤推荐、聚类推荐三种策略,请谈谈对这三种推荐技术的理解。
CB(Content-based Recommendations)应该算是最早被使用的推荐方法,它根据用户过去喜欢的产品(item),为用户推荐和他过去喜欢的产品相似的产品。常用的学习算法有:最近邻算法、Rocchio算法等。然而,此策略存在很多问题,如Item的特征一般很难抽取,无法挖掘出用户的潜在兴趣,因此,常辅用在其他策略中。
CF(Collaborative Filtering Recommendations)是目前最流行的推荐方法,它最大限度的利用用户之间,或物品之间的相似相关性,而后基于这些信息的基础上实行推荐。
一般包括三类:
(1)基于用户的推荐(通过共同口味与偏好找相似邻居用户,K-邻居算法,你朋友喜欢,你也可能喜欢),
(2)基于项目的推荐(发现物品之间的相似度,推荐类似的物品,你喜欢物品A,C与A相似,可能也喜欢C),
(3)基于模型的推荐(基于样本的用户喜好信息构造一个推荐模型,然后根据实时的用户喜好信息预测推荐)。
聚类推荐:是将数据分为多个簇 (Cluster),在同一个簇中的对象之间有较高的相似度,而不同簇的对象差别较大。常见的算法有K-Means、Canopy聚类算法等。

5.想象下社交网站的网络图结构错综复杂,包含了上亿个节点和几十亿条边。如何在社交网站的朋友关系网络中搜索?常用的搜索算法有哪些?
常用的搜索算法:一般就是上述的三大类算法:内容推荐、协同过滤推荐、聚类推荐

6.分享下试读《大数据:互联网大规模数据挖掘与分布式处理》图书的感想。
大数据时代,数据挖掘已经发展成为一个热门话题,挖掘算法也越来越多,越来越完善。此书的第一章,主要介绍了数据挖掘领域的基本概念,属于入门吧,看了下书的目录,更期待书中关于三大类推荐算法的分析。

使用道具 举报

回复
论坛徽章:
3
2014年世界杯参赛球队:克罗地亚
日期:2014-06-12 16:53:56海蓝宝石
日期:2014-08-06 14:09:32红宝石
日期:2014-08-28 15:18:18
38#
发表于 2014-8-24 21:33 | 只看该作者
1.《今日头条》的个性化推荐是如何实现的?你用过的推荐引擎或者个性化推荐服务有哪些?
答:
1)、今日头条个性化推荐还是蛮准的,从推荐的结果来看应该是基于内容的个性化推荐,基于历史的浏览记录,给用户打上tag,然后基于
tag推荐与之相似或相近的新闻。但今日头条也还有很长的路要走,比如某天我一时兴起看了某条娱乐新闻,结果接下来首页上给我推荐大量
的八卦新闻,但其实我打底对娱乐新闻不太感冒!
2)、用过个性化推荐服务:目前基本大的互联网公司都在做个性化推荐,比如亚马逊、淘宝、京东等等。


2.有些人将数据挖掘看成是机器学习的同义词,您认为呢?一些常见的数据挖掘方法有哪些?数据分析、数据挖掘、数据统计之间哪些差异

答:
1)、有些人将数据挖掘看成是机器学习的同义词。毫无疑问,一些数据挖掘方法中适当使用了机器学习算法。机器学习的实践者将数据当成
训练集来训练某类算法,比如贝叶斯网络、支持向量机、决策树、隐马尔可夫模型等。--摘自试读章节
2)常见的数据挖掘方法:聚类、分类、层次分析、灰色预测、主成分分析、贝叶斯网络、决策树、关联规则以及个性化推荐等等
3)、数据分析、挖掘、统计的区别:这更像是个学术问题,我的理解都是基于统计学基础上衍生出来的~,所以区别不大!

3.真正能够驾驭这个文件系统是一个高级编程系统的开发环境,Map-Reduce就是其中的核心系统之一。它实现了很多基于大规模数据的最常
见计算能够在大规模计算机集群上高效实现,还能够支持计算过程的硬件容错性。Map-Reduce是一种计算模式,包含了Map和Reduce函数,请分析下Map任务和Reduce任务的区别。
答:map任务:负责将文件进行split,一般64M~128M为一个split,N个map任务以key-value的方式输入和输出--洗牌--map结果输出至本地;reduce,则是负责对map的输出进行聚合。

4.越来越多的企业牵手个性化推荐系统,对用户喜好进行预测,推荐系统用到的主流技术有三大类,内容推荐、协同过滤推荐、聚类推荐三种策略,请谈谈对这三种推荐技术的理解。
答:
1)、内容推荐: CB应该算是最早被使用的推荐方法,它根据用户过去喜欢的产品item,为用户推荐和他过去喜欢的产品相似的产品。
2)、协同过滤:此算法由亚马逊使用并得到越来越多电商公司的大量使用,协同过滤推荐(CF)是在信息过滤和信息系统中正迅速成为一项很受欢迎的技术。与传统的基于内容过滤直接分析内容进行推荐不同,协同过滤分析用户兴趣,在用户群中找到指定用户的相似(兴趣)用户,综合这些相似用户对某一信息的评价,形成系统对该指定用户对此信息的喜好程度预测。
3)、聚类推荐:可根据对客户进行聚类,或是商品、产品进行聚类,进而向客户推荐相似的客户或推荐相似客户所喜好的产品。

5.想象下社交网站的网络图结构错综复杂,包含了上亿个节点和几十亿条边。如何在社交网站的朋友关系网络中搜索?常用的搜索算法有哪些?
答:
最短路径, SN搜索算法

6.分享下试读《大数据:互联网大规模数据挖掘与分布式处理》图书的感想。
看了第一张,主要介绍了数据挖掘的基本概念,包括词频计算方法等;特别期待数据流挖掘及推荐系统这两个章节。

使用道具 举报

回复
论坛徽章:
3
2014年世界杯参赛球队:克罗地亚
日期:2014-06-12 16:53:56海蓝宝石
日期:2014-08-06 14:09:32红宝石
日期:2014-08-28 15:18:18
39#
发表于 2014-8-28 22:59 | 只看该作者
谢谢!
ITPUB great~

使用道具 举报

回复
论坛徽章:
5
复活蛋
日期:2011-07-23 11:36:29灰彻蛋
日期:2011-08-30 22:02:45ITPUB十周年纪念徽章
日期:2011-11-01 16:26:59ITPUB 11周年纪念徽章
日期:2012-10-09 18:16:002013年新春福章
日期:2013-02-25 14:51:24
40#
发表于 2014-11-30 23:38 | 只看该作者
请问中奖了书怎么给我?

使用道具 举报

回复

您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

TOP技术积分榜 社区积分榜 徽章 团队 统计 知识索引树 积分竞拍 文本模式 帮助
  ITPUB首页 | ITPUB论坛 | 数据库技术 | 企业信息化 | 开发技术 | 微软技术 | 软件工程与项目管理 | IBM技术园地 | 行业纵向讨论 | IT招聘 | IT文档
  ChinaUnix | ChinaUnix博客 | ChinaUnix论坛
CopyRight 1999-2011 itpub.net All Right Reserved. 北京盛拓优讯信息技术有限公司版权所有 联系我们 未成年人举报专区 
京ICP备16024965号-8  北京市公安局海淀分局网监中心备案编号:11010802021510 广播电视节目制作经营许可证:编号(京)字第1149号
  
快速回复 返回顶部 返回列表