|
1.《今日头条》的个性化推荐是如何实现的?你用过的推荐引擎或者个性化推荐服务有哪些?
《今日头条》是主打信息挖掘路径。信息收集和推荐都是通过技术手段来实现,用户在微博上发出的言论、地域、转发、与他有直接或间接的好友关系都给这名用户打上了多个标签或者属性来实现。比挖掘SNS信息比重更多的是,挖掘机器不断学习用户在使用《今日头条》时的每一个动作,比如时间、位置等信息,不断增加人的属性,从而实现通过技术对人的定义更加准确。
2.有些人将数据挖掘看成是机器学习的同义词,您认为呢?一些常见的数据挖掘方法有哪些?数据分析、数据挖掘、数据统计之间哪些差异?
把数据挖掘看成是机器学习的同义词,主要是因为一些数据挖掘方法中适当使用了机器学习算法。机器学习的实践者将数据当成训练集来训练某类算法,比如贝叶斯网络、支持向量机、决策树、隐马尔可夫模型等。
数据挖掘的方法主要有:关联分析、聚类分析、预测、时序模式分析和偏差分析等。
数据分析:专注于中小网站分析优化,网站地图、结构优化,SEO。
数据挖掘:主要是面向决策,从海量数据中挖掘不为人知、无法直观得出的结论。
数据统计:专注于建模及统计分析,通过概率、统计、离散等数学知识建立合理模型,充分发掘数据内容。
3.真正能够驾驭这个文件系统是一个高级编程系统的开发环境,Map-Reduce就是其中的核心系统之一。它实现了很多基于大规模数据的最常见计算能够在大规模计算机集群上高效实现,还能够支持计算过程的硬件容错性。Map-Reduce是一种计算模式,包含了Map和Reduce函数,请分析下Map任务和Reduce任务的区别。
map:接受一个键值对(key-value pair),产生一组中间键值对。MapReduce框架会将map函数产生的中间键值对里键相同的值传递给一个reduce函数。 即输入数据,分片、计算中间结果,传给reduce。
reduce:接受一个键,以及相关的一组值,将这组值进行合并产生一组规模更小的值(通常只有一个或零个值)。即接收map处理的结果,归并,输出结果。
4.越来越多的企业牵手个性化推荐系统,对用户喜好进行预测,推荐系统用到的主流技术有三大类,内容推荐、协同过滤推荐、聚类推荐三种策略,请谈谈对这三种推荐技术的理解。
CB(Content-based Recommendations)应该算是最早被使用的推荐方法,它根据用户过去喜欢的产品(item),为用户推荐和他过去喜欢的产品相似的产品。常用的学习算法有:最近邻算法、Rocchio算法等。然而,此策略存在很多问题,如Item的特征一般很难抽取,无法挖掘出用户的潜在兴趣,因此,常辅用在其他策略中。
CF(Collaborative Filtering Recommendations)是目前最流行的推荐方法,它最大限度的利用用户之间,或物品之间的相似相关性,而后基于这些信息的基础上实行推荐。
一般包括三类:
(1)基于用户的推荐(通过共同口味与偏好找相似邻居用户,K-邻居算法,你朋友喜欢,你也可能喜欢),
(2)基于项目的推荐(发现物品之间的相似度,推荐类似的物品,你喜欢物品A,C与A相似,可能也喜欢C),
(3)基于模型的推荐(基于样本的用户喜好信息构造一个推荐模型,然后根据实时的用户喜好信息预测推荐)。
聚类推荐:是将数据分为多个簇 (Cluster),在同一个簇中的对象之间有较高的相似度,而不同簇的对象差别较大。常见的算法有K-Means、Canopy聚类算法等。
5.想象下社交网站的网络图结构错综复杂,包含了上亿个节点和几十亿条边。如何在社交网站的朋友关系网络中搜索?常用的搜索算法有哪些?
常用的搜索算法:一般就是上述的三大类算法:内容推荐、协同过滤推荐、聚类推荐
6.分享下试读《大数据:互联网大规模数据挖掘与分布式处理》图书的感想。
大数据时代,数据挖掘已经发展成为一个热门话题,挖掘算法也越来越多,越来越完善。此书的第一章,主要介绍了数据挖掘领域的基本概念,属于入门吧,看了下书的目录,更期待书中关于三大类推荐算法的分析。
|
|