楼主: pipihappy8888

【有奖话题讨论】大数据:互联网大规模数据挖掘与分布式处理(已公布获奖)

[复制链接]
论坛徽章:
0
11#
发表于 2014-7-30 09:52 | 只看该作者
收藏收藏 订

使用道具 举报

回复
论坛徽章:
399
12#
发表于 2014-7-30 09:57 | 只看该作者
飘过,表示对大数据不太懂

使用道具 举报

回复
论坛徽章:
6
2014年新春福章
日期:2014-02-18 16:49:31马上有钱
日期:2014-02-18 16:49:31itpub13周年纪念徽章
日期:2014-10-08 15:15:25itpub13周年纪念徽章
日期:2014-10-08 15:15:25喜羊羊
日期:2015-03-04 14:54:422015年新春福章
日期:2015-03-06 11:59:47
13#
发表于 2014-7-30 09:59 | 只看该作者
书估计不错,,,可惜要学的东西太多,,,看不完,,,

使用道具 举报

回复
论坛徽章:
7
优秀写手
日期:2013-12-18 09:29:132014年新春福章
日期:2014-02-18 16:50:09马上有车
日期:2014-02-18 16:50:09itpub13周年纪念徽章
日期:2014-10-08 15:15:25itpub13周年纪念徽章
日期:2014-10-08 15:15:252015年新春福章
日期:2015-03-04 14:55:132015年新春福章
日期:2015-03-06 11:59:47
14#
发表于 2014-7-30 11:36 | 只看该作者
飘过,对大数据不太懂

使用道具 举报

回复
论坛徽章:
0
15#
发表于 2014-7-30 11:49 | 只看该作者
支持,目前正在从事这块的工作,求书。

使用道具 举报

回复
论坛徽章:
17
2009架构师大会纪念徽章
日期:2014-08-04 09:33:532016猴年福章
日期:2016-02-18 09:31:302015年中国系统架构师大会纪念徽章
日期:2015-09-21 13:16:54知识
日期:2015-09-21 13:16:54秀才
日期:2015-08-24 09:44:20知识
日期:2015-08-24 09:22:23秀才
日期:2015-07-06 10:34:54秀才
日期:2015-07-06 10:34:54itpub13周年纪念徽章
日期:2014-10-08 15:13:38itpub13周年纪念徽章
日期:2014-09-28 08:59:55
16#
发表于 2014-7-30 12:46 | 只看该作者
关于第二个话题:
个人认为:机器学习是指统计学习方法,或者称为贝叶斯统计学习;但是数据挖掘则更偏向计算机科学中算法,更偏向应用,例如数据库等,这些都是机器学习不考虑的,可以说数据挖掘是对机器学习的应用。
数据挖掘:数据挖掘主要是面向决策,从海量数据中挖掘不为人知、无法直观得出的结论。例如内容推荐、相关度计算等。此工作更注重数据内在联系,数据仓库组建,分析系统开发,挖掘算法设计,甚至很多时候要亲力而为的从ETL开始处理原始数据,因此对计算机水平有较高要求。一般不及数据分析,使用工具除海量数据库如Oracle,分布式计算Hadoop,C++,Java,Python等编程语言外,也有可能会用到第三方挖掘工具如Weka。
数据分析:专注于中小网站分析优化,网站地图、结构优化,SEO。大多使用第三方工具如:开源分析模块(BIRT)、CNZZ、GA,通过对网站属性数据(如pv, uv, 新用户占比,搜索词,跳出率,蹦失率,访问时长,忠诚度等)的分析,对网站结构、内容进行优化。此方向更偏产品一些,极大的依赖分析经验和对数据的敏感度,产品是关键。
数据统计:专注于建模及统计分析,通过概率、统计、离散等数学知识建立合理模型,充分发掘数据内容。例如用回归分析,充分利用网站历史数据,进行评估、预测、反向预测、发掘因素。利用贝叶斯方法建立模型来进行机器学习、聚类、垃圾邮件过滤等。常用工具如:SAS,R,SPSS。个让人认为这个更注重数学,尤其是统计学。
简单的来说:数据挖掘就是从海量数据中找到隐藏的规则,数据分析一般要分析的目标比较明确,数据统计则是单纯的使用样本来推断总体。至于差别:
数据分析的重点是观察数据,数据挖掘的重点是从数据中发现知识规则KDD,数据统计的重点是参数估计和假设检验。数据分析、数据统计得出的结论是人的智力活动结果,数据挖掘得出的结论是机器从学习集(或训练集、样本集)发现的知识规则,注意,但是绝不等于就是机器学习。

使用道具 举报

回复
论坛徽章:
82
2013系统架构师大会纪念章
日期:2015-07-31 17:48:20探花
日期:2015-08-17 14:58:32榜眼
日期:2015-08-17 14:59:28进士
日期:2015-08-17 15:00:55举人
日期:2015-08-17 15:00:55秀才
日期:2015-08-19 09:36:37秀才
日期:2015-08-20 08:50:41嫦娥
日期:2015-08-21 09:11:54秀才
日期:2015-08-24 09:48:07进士
日期:2015-08-17 14:58:18
17#
发表于 2014-7-30 14:09 | 只看该作者
1.《今日头条》的个性化推荐是如何实现的?你用过的推荐引擎或者个性化推荐服务有哪些?
听说是用LDA算法。纯文本的,LDA算法的效果还是很不错的。常用推荐算法,应该是协同过滤吧,基于用户,基于主题的等等

使用道具 举报

回复
论坛徽章:
3
奥运会纪念徽章:棒球
日期:2008-10-24 13:15:35ITPUB十周年纪念徽章
日期:2011-11-01 16:24:512013年新春福章
日期:2013-02-25 14:51:24
18#
发表于 2014-7-30 15:00 | 只看该作者
高大上的样子,门外汉,入门一个

使用道具 举报

回复
论坛徽章:
4
2014年新春福章
日期:2014-02-18 16:49:31马上有钱
日期:2014-02-18 16:49:31优秀写手
日期:2014-06-06 06:00:12双黄蛋
日期:2014-08-07 11:00:12
19#
发表于 2014-7-30 15:16 | 只看该作者
楼主是不是阿里的?上周阿里的人才给我们做了推荐系统的培训,开头就提到了《今日头条》,主要讲的是推荐系统 短时模型识别 标签库 在线重排列 逻辑回归等等

使用道具 举报

回复
论坛徽章:
1056
紫蜘蛛
日期:2015-09-22 15:53:22紫蜘蛛
日期:2015-10-15 13:48:52紫蜘蛛
日期:2015-10-15 14:45:48紫蜘蛛
日期:2015-10-15 14:47:47紫蜘蛛
日期:2015-10-15 14:48:45九尾狐狸
日期:2015-09-22 15:53:22九尾狐狸
日期:2015-10-15 13:50:37九尾狐狸
日期:2015-10-15 14:45:48九尾狐狸
日期:2015-10-15 14:47:47九尾狐狸
日期:2015-10-15 14:48:45
20#
发表于 2014-7-30 15:54 | 只看该作者
看起来这书不错

使用道具 举报

回复

您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

TOP技术积分榜 社区积分榜 徽章 团队 统计 知识索引树 积分竞拍 文本模式 帮助
  ITPUB首页 | ITPUB论坛 | 数据库技术 | 企业信息化 | 开发技术 | 微软技术 | 软件工程与项目管理 | IBM技术园地 | 行业纵向讨论 | IT招聘 | IT文档
  ChinaUnix | ChinaUnix博客 | ChinaUnix论坛
CopyRight 1999-2011 itpub.net All Right Reserved. 北京盛拓优讯信息技术有限公司版权所有 联系我们 未成年人举报专区 
京ICP备16024965号-8  北京市公安局海淀分局网监中心备案编号:11010802021510 广播电视节目制作经营许可证:编号(京)字第1149号
  
快速回复 返回顶部 返回列表