楼主: pipihappy8888

【大话IT】大数据究竟有多神奇?谁说得算?

[复制链接]
论坛徽章:
1
懒羊羊
日期:2015-03-18 09:28:52
发表于 2015-2-11 23:52 | 显示全部楼层
正如老师你在上课时讲的,大数据作为数据仓库的进化版,它只是换汤不换药。数据仓库没有取得决定性的成果,最终开始走下坡路,为了维护海量数据的尊严,提出了大数据这个新定义,但是真正在海量数据领域中有没有突破其原有的核心技术就不得而知了。

使用道具 举报

回复
认证徽章
论坛徽章:
11
ITPUB9周年纪念徽章
日期:2010-10-08 09:31:22秀才
日期:2016-01-21 13:42:39知识
日期:2015-06-02 15:04:49懒羊羊
日期:2015-03-18 09:28:52知识
日期:2015-03-10 11:54:022015年新春福章
日期:2015-03-06 11:57:31沸羊羊
日期:2015-03-04 14:43:43技术图书徽章
日期:2014-04-04 15:09:22ITPUB 11周年纪念徽章
日期:2012-10-09 18:05:072010广州亚运会纪念徽章:高尔夫球
日期:2010-11-12 16:47:25
发表于 2015-2-12 13:12 | 显示全部楼层
跟大家汇报两个内容。

第一,行为数据如何发挥比资产数据更大的价值;  第二,内部结构化数据如何在数据科学下重新资产化。

互联网带给我们便捷的方式和手段,使我们的交易成本变得更低,对现有的金融业务实现了更优化的配置,以更低成本的提交,发挥了互联网去媒介化的作用。这里面会形成网银、电子支付、P2P撮合交易等,其中互联网扮演了工具的角色。

我们可以看到今天的市场发生了根本的变化。

传统的金融核心的生产资料还是货币以及资产,把它作为产品化的封装。但今天我们看到数据作为新的生产资料的出现。基于消费者的行为,如在淘宝店的行为痕迹作为获取数据的基础,顾客和生产者不再对立,而这个价值就是数据。

数据搜集了以后,利用大数据技术,可以低成本汇集起来形成生产力。

由流程经验驱动,逐步转向数据驱动。金融的属性更多转向风险和定价,从卖方市场向买方市场转型的,这是一个数据金融产品代替抵押物的过程。

以前的数据量很少,因为它是在已经建立了成熟系统的大型的机构里面才能够沉淀的数据。此外支撑某些业务的时的应用系统,通过交易流量产生的数据作为数据副产品。这些副产品作为数据来源的信息被加工出来。

这一块的数据含金量很高,包括支付的数据,支付的数据体量也很大。这些以前只是被作为审计的需求,现在它有新的价值的发挥,一会儿我们看一个案例。

互联网打开的第二个很大的市场空间,是在行为数据上,facebook、谷歌能够赚取较大的利润,靠的是提炼海量数据的稀释价值数据。

这两天我们召开了大规模的产业互联网,产业互联网和互联网区别是碎片化了入口,不再基于流量平台这一目前主导互联网的核心指标。

这些入口是什么呢?刚才太平洋保险讲了我们怎么计算你的生命周期表、怎么算你的寿命。我们现在跟大型的保险机构探索个性生命周期表。蕴含生命体征的行为数据,在可穿戴设备中出现。

来之前我看了一些金融里面提到的行为数据。这两天大盘反馈了一些比较好的信息,对此百度做了一个量化的算法方式,把互联网的行为、搜索框的行为引入,跟广发合作成立了一个量化指数基金。这是怎么实现的,我来剖析一下。

这是一个交易所,我们首先实现的是让海量的信息机器可读。现在已经变成机器产生数据的时代。以前可能是专业的编辑生产数据,媒体的编辑在生产数据(PGC),后来是用户在产生数据(UGC),现在进入了更海量的时代。

右边的这个部分是机器写的,像小学生一样写中心思想,把你这一段的内容抽出来,形成一个缩略。左边一个是数值,做量化,从下面期货的价格你可以看到他们之间的相关性,这些都是对数亿的碎片的信息实现量化。

量化的另一个应用是情绪判断,以前我们给大型的公司做过品牌价值。我们可以看到字的大小表示它的权重。养老是它最核心的主题,左边这个又区分出正向、负向的情绪。这些内容是做了,传统数据库在金融上无法完成的事情,就可以把品牌价值实现有效的量化。这个量化对板块而言,对投资而言,可以做很多的内容。

对于个体数据而言也是同样的,他们把我社交言论的数据也放上去了。基本上能够反馈出我们的内容,左边的数据比较多,每天都是谈工作的内容。右上角用的是hadoop模型,他刻划的这个蜘蛛图用6万5千个形容词变量五六十个性格特征描述这个人。让机器在二秒内阅读一个人的品行等。

这个话题就牵扯到大数据怎么进入到个体端。我们看到现在的FICO,金融属性本身对个体的模型,只覆盖了3亿人。我们怎么去对这个资本进行刻划呢?我们引入了一些KLOUT的描述。你的成功不取决与你拥有什么,而取决于你认识谁。这里强调的是社会。

我怎么提炼加工社会关系呢? 资本描述一个人的真实的社会资本。可以通过通话的记录,提炼出行为变量。学习互联网,应该看最核心的内容。脸谱的核心竞争力就是评价信息,谷歌的最核心是网页的质量评估体系。我们如何用这样的方式描绘人与人?我们用这样的算法,把一个省的一千四百万的用户,做了一个大排序。无需预先标识出主要人物,由算法模型来实现迭代,评估每一个人个体与群体中的社会资本。

第一个是筛选出来的,是垃圾电话制造者低跟人工标注的完全一样的,说明算法保证了非常精准的提交过程。在数据魔方里面,我们做了很多的内容。

我们看到行为数据,开始取代资产的数据,我们以前关注太多的数据,是关注含金量比较高的交易账户数据,而现在借助大数据可以处理大量的碎片化的行为。

因为我们本身的商业模式是2B的,我们在为大企业服务过程中看到内部的数据更有价值。很多人关注获取外部的数据,比如用社交数据、论坛的数据,我们发现了内部数据是启动大数据最有效的捷径。

比如说电子帐单的数据,我们以前拿到一个帐单,判断一个人是VIP还是核心的用户,看消费的金额,而现在可以基于语义分类他的消费明细,做更细化的刻画。

这是我们团队的一个博士,他自己的描述,我们把他豆瓣阅读抓下来。

在内部的数据里面,在大数据上时代上,有一个很大的变化,就是在全局和个性化两个方向的拓展。以前在小数据的时代,牛顿把苹果扔下来一定要落下来砸到他,这是经典的力学定律驱动的。近一百年都是在非常微观和宏观的世界里面,我们在突破了传统参照系的世界里做探索。大数据把我们的金融视野开阔,我们开始关注到个体,关注到全局。整个企业的资金的流转性,我们有一个全局的企业金融图谱。

我们对中小微企业放贷,也看资产负债表、利润表、现金流量表这三个表的结构,过去只能用个体历史数据与现在的比较,无法在全局的行业横切面上看。中国四千多万的中小型企业,这个过程使我们失去了全局化的度量标准,我们要拥有这种全局的视图。

个体与群众的关系,群体的智慧怎么形成?生物学家通过观察蜜蜂的行为,蜂巢的形状决定蜜巢的智慧。行为本身成为我们描绘整体事物的本身。这个行为是什么呢?我们在全局的评估里面就用复杂网络去做。我们把所有的经济往来和行为,就像蜜蜂的八字舞一样连起来。

把原来点对点的数据,做成大的网格化。这是一些截图,它事实上获得了更大的企业图谱。以前我们看供应链的金融,是在一次的偶发事件,我拿一个定单做评估替代的抵押物。现在是拿6个月的数据,描述整个的企业图谱。每个企业都量化了,这个企业跟上下游的关系链条。它是基于数据发现的。我知道上下游企业是谁。现在我们是用资金链条,发现很多小规模的链条的企业。

每一个节点与节点的关系全部量化了,做了一个大排序。这些数值计算出来做结算成本的指导依据。这个给的是绝对的坐标值,它提供的是什么?我们给餐饮行业放贷,我了解到的企业,通过供应的链条发现流通数值很高的节点,这个节点我不知道它是什么,它是每天批发胡椒、辣椒佐料给上百个火锅店。他的资金利用率是最高的。这个过程怎么量化?传统意义上是靠经验的评估结果。现在有数据的手段,通过数据本身回答,从中也发现很多的风险的问题,这四个企业实现了闭环的操作,从数据中识别出来有关联交易的可能。

数据本身是有价值的,把视野从金融的流程封装,转向金融数据产品封装,在选用数据的过程当中,不仅要考虑那些密度很高的资产性的数据,也投入视野去看行为数据,它能够客观的反映每一个C端个体客户的价值。

当我们看外部大量数据的时候,历史上自己积累的数据本身含金量很高。以前我们关注的是技术本身,信息在今天有了数据科学的改变,在二维数据结构里面,我们可以用多维去做。这样因为云计算的强计算能力以及数据科学,在结构化的数据上产生新的价值。

使用道具 举报

回复
认证徽章
论坛徽章:
40
2014年新春福章
日期:2014-02-18 16:42:02秀才
日期:2015-12-18 09:28:57秀才
日期:2015-12-14 14:51:162015年中国系统架构师大会纪念徽章
日期:2015-09-16 12:54:392014系统架构师大会纪念章
日期:2015-09-16 12:54:392013系统架构师大会纪念章
日期:2015-09-16 12:54:392012系统架构师大会纪念章
日期:2015-09-16 12:54:392011系统架构师大会纪念章
日期:2015-09-16 12:54:392010系统架构师大会纪念
日期:2015-09-16 12:54:39秀才
日期:2015-12-25 15:31:10
发表于 2015-2-12 13:17 | 显示全部楼层
1.美国总统奥巴马治国爱用大数据,白宫更是充分运用“大数据民意”。人们以电子邮件、手机通讯、社交媒体互动创造的海量信息,确实是制定政策难以忽视的因素。到底大数据能否客观反应社会现实?抽样调查会被大数据的全样本分析所取代吗?
只要样本合理,统计算法正确,大数据的确是客观反映社会现实。其实大数据是一直以来都存在的。统计局其实就是做这个的。只是随着信息爆炸,以前的统计方式和途径都落伍了。如果条件具备而且技术成熟是可以达到尽可能采样的。但是全样本我觉得太绝对的了。

2.大数据又将以何种方式创新房地产?某楼盘销售员在接受采访时曾经表示:“完全依靠微信朋友圈,就卖了三四套房子,签约量超过300万元。如果算上依靠微信营销影响力卖掉的房子,今年的签约量至少超过1000万元。”您是否看好开发商利用大数据平台下的精准营销?
不是很看好,这要么是个个例,要么是有水分的。这个主要还是看供需关系。如果大家都没有买的需求,或者有需求但是没有资金。再怎么精准营销都不行。只是大数据起到了辅助作用,在有需求的情况下,帮助推广。但是这个取决于算法和技术。目前很多企业不具备这个能力。大数据的IT模型搭建就是需要很高的成本的。技术人员几乎都在互联网和电商领域。

3.侃侃交通行业的大数据吧!北上广什么时候才不堵?最好的答案是“放假”。大数据分析,春节期间京津冀、长江三角洲,以及广州市周边地区高速路段成为春运堵车的重灾区,您觉得靠谱吗?对您春节的出行是否有帮助?为什么?
这个说句实话,不用大数据,也都知道。这些经济发达的地方都是民工多的地方。春运大军都是和这些有关的。还有学生等。需要帮助的是比如公交过几分钟能到站,以及今天地铁上人多不多。这些事需要大数据来服务的。

4.再来看看监控行业的大数据,以一个部署了1万个摄像头的中等城市为例,假定每个摄像头每秒压缩视频数据量为1Mb(比特),则一天共产生108TB的视频录像,一个月共产生约3PB的视频录像。面对海量的视频监控数据,大数据平台能否实现智能化的信息分析和预测?
这个是海量数据存储。然而这些中真正有用的信息其实很少的。如果对视频做浓缩摘要,将人物提取出来才有价值。比如夜间2个小时可能只有一个人经过5秒。所以将这个人经过的5秒做摘要提取出来进行存储才是有意义的。目前安防行业中有几家单位已经做到了。我所在的单位就是之一。但是这样还是不能进行运算。这些片段需要结构化信息的描述才能存到数据库oracle或者hbase。这样才到了大数据环节。

使用道具 举报

回复
论坛徽章:
3
美羊羊
日期:2015-03-04 14:52:282015年新春福章
日期:2015-03-06 11:58:18秀才
日期:2015-09-14 10:08:30
发表于 2015-2-12 14:21 | 显示全部楼层
WOO, 3~4年不上过论坛,不学习了!小菜来了

使用道具 举报

回复
认证徽章
论坛徽章:
127
茶鸡蛋
日期:2012-01-16 14:24:41鲜花蛋
日期:2012-06-06 14:48:18双黄蛋
日期:2013-01-07 21:07:482013年新春福章
日期:2013-02-25 14:51:24优秀写手
日期:2013-12-18 09:29:082014年新春福章
日期:2014-02-18 16:44:08马上有对象
日期:2014-02-18 16:44:08马上加薪
日期:2014-03-18 09:57:11马上有车
日期:2014-03-20 16:13:24马上有房
日期:2014-03-20 16:14:11
发表于 2015-2-12 16:08 | 显示全部楼层
华孙 发表于 2015-2-12 13:12
跟大家汇报两个内容。

第一,行为数据如何发挥比资产数据更大的价值;  第二,内部结构化数据如何在数据科 ...

哇,吼吼哦,写得好多啊

使用道具 举报

回复
认证徽章
论坛徽章:
111
ITPUB9周年纪念徽章
日期:2010-10-08 09:34:03马上有房
日期:2014-02-18 16:42:02马上有车
日期:2014-03-20 10:09:22马上有钱
日期:2014-03-20 15:53:11马上有车
日期:2014-03-20 16:13:24马上有房
日期:2014-03-20 16:14:11马上有钱
日期:2014-03-20 16:14:11马上有对象
日期:2014-03-20 16:14:11马上加薪
日期:2014-03-20 16:14:11技术图书徽章
日期:2014-03-27 09:30:56
发表于 2015-2-12 19:23 | 显示全部楼层
forgaoqiang 发表于 2015-2-11 14:46
大体唠叨两句:现在大数据带来的隐私问题,随便一个应用都会读取你的通讯录、短信记录等等,太流氓,而且大 ...

楼上说的正解,现在手机号,身份证已经是泛滥了

使用道具 举报

回复
认证徽章
论坛徽章:
111
ITPUB9周年纪念徽章
日期:2010-10-08 09:34:03马上有房
日期:2014-02-18 16:42:02马上有车
日期:2014-03-20 10:09:22马上有钱
日期:2014-03-20 15:53:11马上有车
日期:2014-03-20 16:13:24马上有房
日期:2014-03-20 16:14:11马上有钱
日期:2014-03-20 16:14:11马上有对象
日期:2014-03-20 16:14:11马上加薪
日期:2014-03-20 16:14:11技术图书徽章
日期:2014-03-27 09:30:56
发表于 2015-2-12 19:30 | 显示全部楼层
华孙 发表于 2015-2-12 13:12
跟大家汇报两个内容。

第一,行为数据如何发挥比资产数据更大的价值;  第二,内部结构化数据如何在数据科 ...

写的太专业了,学习了

使用道具 举报

回复
论坛徽章:
4
祖国60周年纪念徽章
日期:2009-10-09 08:28:002010新春纪念徽章
日期:2010-01-04 08:33:082015年新春福章
日期:2015-03-04 14:51:122015年新春福章
日期:2015-03-06 11:57:31
发表于 2015-2-12 22:09 | 显示全部楼层
目前真正有着可用数据的公司有多少?能在这里面抽丝剥茧提取分析数据的又有多少? 真是it公司炒概念了

使用道具 举报

回复
认证徽章
论坛徽章:
35
授权会员
日期:2007-11-28 20:47:35ITPUB元老
日期:2008-05-20 15:05:57
发表于 2015-2-13 09:46 | 显示全部楼层
呵呵,大家都在谈大数据,那么大数据的定义是怎么样的呢?我估计一百个人对有九十种理解。
大数据就是大量数据合在一块么?只是纯粹的数据 拼凑在一块只是大数据的基础,
重点是通过这些数据如何分析提炼出有用的内容,解决了当前的哪些问题,这样才有用。
可是现在大家都在讨论 云计算啊,大数据啊。都被虚化了,没有一点务实的内容。

看到主贴中讨论的几个问题,联想到年初外滩的踩踏事件,上海的监控探头那么多,每天积累的数据应该也不少,
通过路口,地铁的监控,预计出几个小时之后某个地点的人流量应该是可以做的到的。
如果这个指标达到警戒点。就做出预警做好疏导或者限流的应急方案。 我觉得这样才是一个好的例子来证明运用大数据的好处

使用道具 举报

回复
认证徽章
论坛徽章:
172
ITPUB十周年纪念徽章
日期:2011-11-01 16:24:04ITPUB 11周年纪念徽章
日期:2012-09-28 17:34:42ITPUB社区12周年站庆徽章
日期:2013-08-13 16:52:38itpub13周年纪念徽章
日期:2014-10-08 15:21:35ITPUB14周年纪念章
日期:2015-10-26 17:23:44ITPUB15周年纪念
日期:2018-02-09 14:12:58状元
日期:2015-11-19 12:58:23榜眼
日期:2015-11-19 12:58:23探花
日期:2015-11-19 12:58:23进士
日期:2015-11-19 12:59:09
发表于 2015-2-13 11:19 | 显示全部楼层
本帖最后由 hai503 于 2015-2-13 11:20 编辑

开发商利用大数据平台下的精准营 = 个人信息买卖?

使用道具 举报

回复

您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

TOP技术积分榜 社区积分榜 徽章 团队 统计 知识索引树 积分竞拍 文本模式 帮助
  ITPUB首页 | ITPUB论坛 | 数据库技术 | 企业信息化 | 开发技术 | 微软技术 | 软件工程与项目管理 | IBM技术园地 | 行业纵向讨论 | IT招聘 | IT文档
  ChinaUnix | ChinaUnix博客 | ChinaUnix论坛
CopyRight 1999-2011 itpub.net All Right Reserved. 北京盛拓优讯信息技术有限公司版权所有 联系我们 
京ICP备09055130号-4  北京市公安局海淀分局网监中心备案编号:11010802021510 广播电视节目制作经营许可证:编号(京)字第1149号
  
快速回复 返回顶部 返回列表