ITPUB论坛-中国最专业的IT技术社区

 找回密码
 注册
查看: 33744|回复: 39

【IT名人堂】专访数据挖掘大师谭磊:大数据掘金 如何让数据会说话?

[复制链接]
认证徽章
论坛徽章:
127
目光如炬
日期:2014-12-01 06:00:04火眼金睛
日期:2015-02-01 06:00:04目光如炬
日期:2015-01-26 06:00:04目光如炬
日期:2015-02-16 06:00:03火眼金睛
日期:2015-03-01 06:00:03目光如炬
日期:2015-03-02 06:00:13慢羊羊
日期:2015-03-04 14:53:33目光如炬
日期:2015-07-26 22:00:00目光如炬
日期:2015-07-26 22:00:002015年新春福章
日期:2015-03-06 11:58:39
发表于 2014-10-23 17:37 | 显示全部楼层 |阅读模式

欢迎大家做客第97期名人堂,我是主持人皮皮。有人把数据比作新的石油,认为大数据将彻底改变人类文明的发展脉络,重塑我们对于世界、对于生活的认知。互联网的对决不再止于速度,深度的较量将越演越烈,而如何挖掘数据这座巨大而未知的宝藏,让数据会说话,成为了时下企业扭转乾坤的关键突破口。


谭磊曾经说过,“数据是最底层的东西,它是0和1,是对事物最原始的记录,数据之上才有信息。”如果说内容为王是媒体行业经久不衰的秘诀,那么数据为王则是互联网企业决战大数据时代的枪支弹药。本期我们很荣幸邀请到了数据分析挖掘专家谭磊(社区ID:SeattleRaymond)做客名人堂,为我们分享大数据的真知灼见。


皮皮(Q1):谭老师,您好!我了解到您在美国微软总部服务了13年,后回国创业,可见您的人生阅历很丰富,能否和我们介绍下自己?在人生的道路上,您有哪些心得体会?能否和我们分享下您的故事?


谭磊(A1):我人生的前28年是非常顺利的,除了考初中和TOEFL、GRE之外,高中和大学是直升的,就连研究生班也是直升的。我在复旦读研一的时候,拿到了美国杜克大学的全额奖学金去读博士,在1995年我也是学校唯一一个通过微软面试去做实习的博士生。进了微软之后,我的仕途也一帆风顺,每年升一个级别,很快就开始带团队做项目了。


不过正因为一开始就特别顺利,在过去的二十年职业生涯中,我犯过非常多的错误。等到哪天我功成名就了,我会写一本《Raymond的99个错误》,希望大家能从我过往的失败中吸取教训。


在这里,我给大家分享一个小故事。小时候盖茨是我的偶像和榜样,当我刚进微软的时候,我就和大家说过,我进微软就是因为Bill Gates。哪一天他离开,也就是我离开的时候。结果在13年之后的2008年,在盖茨向全公司宣布他要离开微软的之前的几个小时,我群发邮件给我微软所有的朋友们,宣布那天是我在微软工作的最后一天,虽然当时我也并没有完全想好打算要做什么。


我一直都喜欢数字的游戏,在美国的时候经常去拉斯维加斯,一边在玩,一边在计算每种不同玩法对应的赌场胜率(odds)以及每笔赌注的投资回报率。和别的去赌场的人心态不同,在去之前我就定好一个数额,比如$5000,这笔钱会花在拉斯维加斯。“What happens in Vegas,Stay in Vegas.”如果输了,那就最多$5000。如果赢了,也在当地花掉,不带回来。这样的话, 赌场就变成了娱乐。你可以这么想,每小时花$30,在这么好的场地,请这么多人陪你一起玩,太合算了。注一下,如果玩每把$50的21点,平均每小时庄家会发60轮牌,按照正常的打法,赌场的胜率在51%,也就是平均每小时赌场会从我身上赚$30。


在美国让我最难以接受的地方就在于节奏太慢了。而反过来看中国,大家的想法很多,机会非常多,而有执行力的人也不少。我有时候在想,应该和唐骏或者熊明华他们一块儿回来的。不过换一种心态来想,一切都很释然了。我们今生在什么时间什么环境会遇上什么样的人,发生了什么事儿,是冥冥之中注定的,过去的一切都是积累。如果没有这些年在微软的沉淀和努力,我对于数据和技术的理解恐怕难以达到这么深的高度。如果之前没有在青岛和北京做过一段时间,我不会下决心杀回国内。如果不是在杭州结识了一群兄弟,我也不会在网络营销上有实际操作的经验。



皮皮(Q2):很多人认为数据是死的,人是活的,数据分析到底是一种艺术还是一门科学?

谭磊(A2):准确地说,数据分析不只是艺术,也不只是科学,而是用来帮我们做决策的一种手段和方法。在现有数据上做数据分析,只要统计学毕业的同学就能胜任了,而随着今天各种工具的出现,具有数据分析和商业运营背景的同学也能做数据分析了。不过,要真正把数据分析做好,其终极目标是要做基于数据的运营。


谈到数据分析,我想举一个司空见惯的例子。一旦你曾经在搜索引擎上搜索过某一件东西,你的互联网世界里都将离不开这个东西的影子,它的广告图片会出现在你浏览的网站上。只因为你之前输入了搜索关键字,这些图片的针对性是很强的,而出现得太多就让人厌烦了。图片的出现是数据分析,而图片出现的频率可能就接近艺术了。


每个公司都有很多自己的数据,极少数公司能够充分用好这些数据,有些公司能够通过这些数据做一些分析,而绝大多数公司的数据都是沉睡在那里的。2014年大连的iTechClub峰会上,我和大家说过这样一个事情:其实每家公司,包括在座的百度、阿里、腾讯、360、乐视和京东等等,其实都需要一个mini-Raymond,把数据真正使用起来。这个意思并不是说我有多强,而是说当你想要使用数据的时候,你需要把技术、商业和运营都考虑在内。数据是基础,商业是土壤,而运营是在这之上,真正让数据产生价值的东西。单纯的数据科学家或者业务专家是不可能成为CDO的。



皮皮(Q3):在大数据的时代里,数据是一个让企业很纠结的话题,数据挖掘的世界既是地雷阵,同时又是金矿,如何在海量的数据里挖掘出有价值的数据为已所用?有没有捷径可走?能否结合一些实际场景为我们分享下数据挖掘的流程?

谭磊(A3):在数据分析和数据挖掘中当然有捷径。我是双子座,捷径是我的专利。 我曾经帮一些朋友的企业做过咨询,教他们如何用好他们自己公司的数据,如何构建自己的数据仓库,采集哪些数据点和做什么样的分析。如果你有合适的人来做企业的数据分析,其实地雷阵的问题是可以避免的。


数据挖掘的基本流程其实是很简单的。虽然我写的两本关于大数据挖掘的书尽量用白话来写,还是有读者向我反馈说还是有难度。我打算过一段时间和朋友合作,写类似于《24小时读懂数据分析》这样的书,希望能让更多的朋友了解为什么数据挖掘是金矿,以及如何从数据中发现价值。


数据挖掘的过程是有一个大概的流程的,例如CRISP-DM就是数据挖掘流程的一个标准。我拿一个朋友的咖啡馆来举例,她要解决咖啡馆的盈利问题,然后就开始收集数据。收集的数据包括每天进什么样的原料、会有哪些客户群体以及每个客户点了哪些东西。做完数据收集之后的下一个步骤是做数据清洗,把其中属于她夫妇二人买单的部分清除掉。之后就是建立数据模型,看每种原料在哪些产品中是被用到的,以及它们的使用情况。然后她就发现鲜牛奶的使用和外部蛋糕的采购是有问题的,这就是数据挖掘的分析阶段。当在日常运营中通过一些规则处理了这两个问题,咖啡馆的盈利状况就有明显的改善,这就是数据在商业中的应用。


数据挖掘和数据分析的本质就在于商业运营上的价值,不以商业逻辑为重点的数据分析师毫无意义的。



皮皮(Q4):很多互联网企业都很看重广告这块市场,比如中国的百度和巨无霸Google,社交网站Facebook,还有广告联盟,它们是如何通过数据来做到精准营销的?

谭磊(A4):从有互联网开始,一直到今天,广告收入一直都是互联网收入的主要来源,在你提到的百度、Google等公司中,广告收入都占到90%以上。我们以Google为例,Google的收入主要来源是AdSense和AdWords,前者是Google网站联盟的广告,而后者是在Google上的搜索排名。只要在浏览器上有Google的cookie存在,当你用Google做搜索的时候,Google后台会记录你的搜索行为,那么当你访问的网站上的广告是由Google提供的时候,Google就能判断你是谁,根据你之前搜索的结果,给你推送相应的广告。所以说跨网站精准营销的基础第一在于海量的网站基数和海量的广告主。比如说当你在Google上搜索“压缩机”,而没有对应的广告主,那么无论你以后去到哪一个网站上,出现“压缩机”图片的可能性几乎为零。而跨网站精准营销的基础之二是在于cookie。大家不妨试一下,当你保持每天清除浏览器cookie的习惯时,那些到处跟随你的网站就不见了。


其实在这个领域上,存在两个问题。第一个问题是隐私的问题,也就是这些公司是否能够用他们收集到的客户的信息来做定向的广告推送,例如当我们能判断一个客户很可能怀孕的时候向她推送怀孕相关产品这件事情是否侵犯了她的隐私?第二个问题是碎片的问题,这是我和1号店CTO韩军同学讨论过的问题。每个人在一个网站上的时间其实不是他们的全部,而只是生命中的一个片段。完全分析出一个人的具体情况是不可能的,只能把顾客分成不同的群组。




皮皮(Q5):电商坐拥互联网行业最丰富的用户数据金矿,能从中挖掘出真金白银的屈指可数。双十一能成为时下IT圈的弄潮儿,离不开阿里利用大数据个性化推荐的法宝,而亚马逊可以领跑美国电子商务,也得益于它们的个性化推荐系统。我相信有很多从事电商行业的朋友们,很辛苦但赚不到钱,这里面到底有哪些窍门,能否支支招?

谭磊(A5):个性化推荐引擎的原理其实非常简单,这里用到的协同过滤和关联分析的法则归根到底就是把商品推荐给“alike“的人。我以前说过,”like是像,like是喜欢“。这是数据挖掘的基础,你要把alike的产品推荐给alike的人。这也是数据挖掘中”物以类聚人以群分“的概念。当你能够充分理解这个概念的时候,你就学会了个性化推荐。


这里的个性化推荐说起来简单,做起来就没那么容易了。通过用户经常访问的页面和曾经购买过的产品我们可以大概收集到客户的年龄、性别、购物地点、购物时段、大致页面停留时间等数据。同时我们可以通过对商品上的数据点做分析,从而找到匹配的客户和商品。 我们举个小的例子来说明个性化推荐是不能盲目执行的。假使说某个客户刚买了一件羽绒服,那么和这件羽绒服最类似的产品是另外一件羽绒服。那么推送这件羽绒服的广告对这个客户有意义吗?显然是完全没有意义的。而话又说回来,如果某个美女购买的是某一款韩版上衣,你完全可以推送另外一款韩版上衣,因为对于女生来讲,衣服是永远不嫌多的。




皮皮(Q6):如果说,2013年是互联网金融元年,那么2014年则很可能会以互联网金融监管元年记入中国商业史。在这股热潮的推动下,我们习惯了用微信、支付宝来买理财。正所谓得屌丝者得天下,怎么用数据来赚钱?能否和我们分享下互联网金融下,怎么用数据来说话?

谭磊(A6):到目前为止,几乎每一个在中国的互联网上成功的产品都是依靠草根成功的,微信、支付宝和360都是。这里可能没有太多数据的概念可言。


而通过数据做互联网金融在美国有一个不错的案例是Zest Finance,使用了大数据技术来评估个人贷款的信贷风险指数,特别是为那些个人信用不良或者不满足传统银行贷款资格的个人提供服务。

Zest Finance是由前Google首席信息官及工程副总裁Douglas Merrill和前Capital One公司主管Shawn Budde一起合作的结果。Capital One可以说是美国的信用卡公司中最会运用数据的公司。他们相信不仅仅是银行的内部数据,一切数据都可以是信用数据,实际上,Zest Finance大量采集用户在社会媒体上留下的数据,从这些数据中对用户的信用进行判断,预测用户拖延还贷的概率。Zest Finance通过这种分析,能够在低于行业平均拖延还贷率的条件下,进行更快更低成本的贷款发放。



谭磊个人简介:浙江省企业信息化促进会互联网分会会长,英特尔公司特邀大数据顾问。资深技术管理、数据分析挖掘专家,在美国微软总部服务13年。 《New Internet-大数据挖掘》、《数据掘金-电商数据运营》、《盛宴背后-互联网金融揭秘》三本书的作者。本期名人堂欢迎大家踊跃发言,截止2014年11月15日,我们将由谭磊老师评选活跃会员3名,赠送技术图书一本。更多嘉宾信息,请关注名人堂栏目:http://www.itpub.net/star/



论坛徽章:
0
发表于 2014-10-24 17:11 | 显示全部楼层
谢谢分享,受益良多 问题是,从事大数据分析需要掌握哪些技能呢?
本人从事过一些BI展示层开发,用过一些工具譬如微策略以及fusion chart 组件,db2数据库建模以及存储过程清洗数据
接下来应该要往etl上提升还是应该学习数据挖掘理论,比较迷茫

使用道具 举报

回复
论坛徽章:
57
SQL极客
日期:2013-12-09 14:13:35秀才
日期:2016-01-21 13:42:39秀才
日期:2016-01-13 12:14:26SQL大赛参与纪念
日期:2016-01-13 10:32:19SQL数据库编程大师
日期:2016-01-13 10:30:43秀才
日期:2015-12-14 14:47:542015年新春福章
日期:2015-03-06 11:58:18懒羊羊
日期:2015-03-04 14:52:11优秀写手
日期:2014-11-08 06:00:14itpub13周年纪念徽章
日期:2014-10-10 08:23:13
发表于 2014-10-25 16:55 | 显示全部楼层
普通it人员如何转行数据分析it人员?

使用道具 举报

回复
认证徽章
论坛徽章:
9
奥运会纪念徽章:体操
日期:2008-10-24 13:08:312009新春纪念徽章
日期:2009-01-04 14:52:28CTO参与奖
日期:2009-02-09 09:47:57祖国60周年纪念徽章
日期:2009-10-09 08:28:00参与WIN7挑战赛纪念
日期:2009-11-06 16:05:252010新春纪念徽章
日期:2010-03-01 11:19:502010广州亚运会纪念徽章:壁球
日期:2010-11-22 15:34:18秀才
日期:2015-08-28 09:13:22金牛座
日期:2015-08-28 09:13:22
发表于 2014-10-27 07:42 | 显示全部楼层
懂技术的不懂业务,懂业务的搞不清技术,这才是数据挖掘的难于铺开的症结。  我个人觉得,能够把工具简单化、实用化,或许可以得到更好的推广,虽然细细思量之后,又会感叹,业务模型不通何以简化工具呢?  纠结。

使用道具 举报

回复
论坛徽章:
0
发表于 2014-10-29 13:27 | 显示全部楼层
SeattleRaymond 发表于 2014-10-28 14:42
在我看来,作为数据分析的同业者,数据挖掘的基本概念是你首先必须要理解的,而不是单纯对于名词的死记硬 ...

谢谢谭老师回答,请问有没有相关书籍可以介绍1,2本?
另外是否有关于从事数据分析职业含金量比较高的培训考证?
据我所知有个CDA,还有个CPDA ,不知道谭老师的看法?

使用道具 举报

回复
论坛徽章:
0
发表于 2014-11-12 13:21 | 显示全部楼层
受益匪浅!昨天刚刚听老师提到有关数据挖掘的内容,今天就能赶上这篇帖子,真好。作为一名在校大学生,我更想知道赶上了大数据时代的我们,应该如何选择了解进入这一行业。相比于各位前辈和老师,我处在一个初学者的状态,连一个正确的方向都把握不好。见识的越多越觉得诚惶诚恐,不知道怎么才能赶上这个潮流。希望能得到指点!谢谢了

使用道具 举报

回复
论坛徽章:
6
2014年新春福章
日期:2014-02-18 16:49:31马上有钱
日期:2014-02-18 16:49:31itpub13周年纪念徽章
日期:2014-10-08 15:15:25itpub13周年纪念徽章
日期:2014-10-08 15:15:25喜羊羊
日期:2015-03-04 14:54:422015年新春福章
日期:2015-03-06 11:59:47
发表于 2014-10-24 10:16 | 显示全部楼层
说的挺好的,目前在内地,很多中小型公司还没有把数据分析用好,数据分析需要的人才比较多,至少包括数据分析软件开发人才和商务运营人才。成本来说还是挺高的。

使用道具 举报

回复
发表于 2014-10-24 10:37 | 显示全部楼层
Data Mining包含哪些主要功能?
Data Mining 运用了哪些理论与技术?  
Data Mining在各领域的应用情形为何?

使用道具 举报

回复
论坛徽章:
1
2009日食纪念
日期:2009-07-22 09:30:00
发表于 2014-10-24 11:02 | 显示全部楼层
数据挖掘和数据分析的本质就在于商业运营上的价值,不以商业逻辑为重点的数据分析师毫无意义的。

使用道具 举报

回复
论坛徽章:
0
发表于 2014-10-24 11:55 | 显示全部楼层
lhyangel2012 发表于 2014-10-24 10:16
说的挺好的,目前在内地,很多中小型公司还没有把数据分析用好,数据分析需要的人才比较多,至少包括数据分 ...

关键还是在人才。能做数据分析的人不少,加上商业的考量就少了。

使用道具 举报

回复
认证徽章
论坛徽章:
2
2012新春纪念徽章
日期:2012-01-04 11:56:442011新春纪念徽章
日期:2011-02-18 11:43:33
发表于 2014-10-24 12:37 | 显示全部楼层
没接触过挖掘,也顶起

使用道具 举报

回复
认证徽章
论坛徽章:
55
秀才
日期:2016-02-18 10:06:46蓝色妖姬
日期:2014-08-28 15:17:252013系统架构师大会纪念章
日期:2014-08-04 09:33:532011系统架构师大会纪念章
日期:2014-08-04 09:33:53马上有车
日期:2014-02-18 16:41:112014年新春福章
日期:2014-02-18 16:41:11技术图书徽章
日期:2014-08-28 15:59:45技术图书徽章
日期:2014-08-28 15:59:45优秀写手
日期:2013-12-18 09:29:112009架构师大会纪念徽章
日期:2014-08-04 09:33:53
发表于 2014-10-24 13:10 | 显示全部楼层
這個東東是重要,但如何呈現。

使用道具 举报

回复
论坛徽章:
6
2014年新春福章
日期:2014-02-18 16:44:08马上有对象
日期:2014-02-18 16:44:08优秀写手
日期:2014-02-27 06:00:02问答徽章
日期:2014-04-13 19:36:532015年新春福章
日期:2015-03-04 14:53:162015年新春福章
日期:2015-03-06 11:58:39
发表于 2014-10-24 13:11 | 显示全部楼层
“数据是基础,商业是土壤,而运营是在这之上,真正让数据产生价值的东西。”

使用道具 举报

回复
发表于 2014-10-24 14:39 | 显示全部楼层
数据挖掘技术哪家强?

使用道具 举报

回复
认证徽章
论坛徽章:
127
目光如炬
日期:2014-12-01 06:00:04火眼金睛
日期:2015-02-01 06:00:04目光如炬
日期:2015-01-26 06:00:04目光如炬
日期:2015-02-16 06:00:03火眼金睛
日期:2015-03-01 06:00:03目光如炬
日期:2015-03-02 06:00:13慢羊羊
日期:2015-03-04 14:53:33目光如炬
日期:2015-07-26 22:00:00目光如炬
日期:2015-07-26 22:00:002015年新春福章
日期:2015-03-06 11:58:39
发表于 2014-10-24 14:53 | 显示全部楼层
谭老师的人生很精彩,给我们屌丝族树立了一个很好的榜样。

使用道具 举报

回复

您需要登录后才可以回帖 登录 | 注册

本版积分规则

TOP技术积分榜 社区积分榜 徽章 电子杂志 团队 统计 虎吧 老博客 知识索引树 读书频道 积分竞拍 文本模式 帮助
  ITPUB首页 | ITPUB论坛 | 数据库技术 | 企业信息化 | 开发技术 | 微软技术 | 软件工程与项目管理 | IBM技术园地 | 行业纵向讨论 | IT招聘 | IT文档 | IT博客
  ChinaUnix | ChinaUnix博客 | ChinaUnix论坛 | SAP ERP系统
CopyRight 1999-2011 itpub.net All Right Reserved. 北京皓辰网域网络信息技术有限公司版权所有 联系我们 网站律师 隐私政策 知识产权声明
京ICP证:060528号 北京市公安局海淀分局网监中心备案编号:1101082001 广播电视节目制作经营许可证:编号(京)字第1149号
  
快速回复 返回顶部 返回列表