12
返回列表 发新帖
楼主: xiaoyaosz

如何评价大数据的未来?

[复制链接]
论坛徽章:
0
11#
发表于 2014-1-9 20:54 | 只看该作者
现在大家都谈大数据,但它是什麽却是很模煳。

毫无疑问,妥当地分析和使用数据会创造财富,这也是为什麽统计学、机器学习那麽火红,不过这些东西却不是什麽新知识。可是近数年来,互联网产生大量数据,数据之多使我们无法用Excel做分析,让我们不得不使用这些高端的知识去处理数据。

另外,现在的CPU的速度十分快,而且科学家廿木戈平行运算也掌握得不错,但瓶颈位在于读写数据,这也是Hadoop这一类软体火红的原因。

大数据这个词可能很快便消失,但相关的技术会越来越被广泛应用。


使用道具 举报

回复
论坛徽章:
0
12#
发表于 2014-1-9 21:49 | 只看该作者
持续发展,统筹兼顾


使用道具 举报

回复
论坛徽章:
0
13#
发表于 2014-1-9 22:40 | 只看该作者
做数据方面的工作已经有十年了。几个观点:

第一,数据已经在发挥巨大的价值,只不过外面人不清楚。
第二,数据领域创业存在困难,价值实现的方式、技术瓶颈、人才稀缺是主要原因。
第三,数据的未来更多不是以单独产品的形态在市场出现,而是融入企业的方方面面。


使用道具 举报

回复
论坛徽章:
0
14#
发表于 2014-1-10 18:07 | 只看该作者
随便说一下,纯属瞎想,没有帮助折叠好了:

在数据挖掘,分析,处理能力提升之后的大数据很可怕呀

现在或者不久的将来,大多数家电,甚至更小的,更私人的物品比如牙刷、鞋子、车子,目前的健康主打手环等,都将通过各种传感器将你的私人信息上送到私有或公有服务器。

相信在将来,几乎所有和人相关的物件器具,都会被移动互联采集数据并上送到服务器,范围将扩大至厨卫,起居,等各方面

以后必然会发展起来的近景支付(nfc,维信)的数据也会上传的公有或私有服务器

在数大数据或云里,你个人的几乎所有信息都可以在服务器上拿到:
通过支付信息,获取你收入的最大开销在什么方面,购物倾向通过点餐购买食材,获取你饮食偏好,饮食营养程度通过鞋子及衣服或配饰各种传感器收集运动量,运动类型,健康情况gps定位得到你活动范围,打车,公交,步行,聚会,宅,业余活动都知道了通过电视,电影,书藉购买,获取你关注的信息,文化倾向
家里的空调,厨卫用品,家里的水,空气,温湿度,也都可以拿到数据等。。
扩大一步你最长接触的人,家人朋友的信息,也都可以获取的到的。在数据挖掘,处理,分析的能力得到保障之后,这些数据综合分析,我不敢想了

嗯,自然语言处理能力已经开始展现了。
人工智能再发展一步,造一个和你性格,习惯相差不多的机器人也不是难事吧

这是一个美好的时代


使用道具 举报

回复
论坛徽章:
0
15#
发表于 2014-1-10 18:58 | 只看该作者
谢邀。好久没谈大数据了,这半年也有了一些新的认识。
从题主说到的摩尔定律的失效开始吧。
摩尔定律肯定会有一个时效性的,任何技术也一样。对于数据处理来说,摩尔定律的失效也会逼迫人们向所谓大数据方向发展。我们不能一直把所有的一切都扔给计算机去处理。数据的增多,一方面是指单一种类数据量的上升,另一方面是指数据的维度和种类也在增长。就拿最简单的网店数据来说,从传统行业进入网店,最开始我们看营业额,后来我们要关注转化率,访问量,再后来我们要关注访问量的来源,再后来也许天气的变化都会对你的网店有影响。。。。。。通过计算机只能给你数据,但是上面说的这个变化过程,很遗憾,只能依靠大脑。所以未来是大数据的世界。正如熵在永远增加一样,数据的维度和组合关联方式也是无穷无尽的。
说说学校研究大数据。这关键在于研究者的经验和资历。相当一部分国内高校的老师都是一辈子做学术研究的,没有实际的商业化的思维方式,大数据这种植根于商业且需要以实际效果证实的项目我不认为高校能有什么研究突破,发论文什么的另说。真正我们需要的成果是指:告诉我们哪些数据之前被我们忽略?哪些数据的组合会对我们有新的价值?我们还要的不单单是理论上的推导,还需要实际的验证。


使用道具 举报

回复
论坛徽章:
0
16#
发表于 2014-1-10 19:58 | 只看该作者
关于大数据有太多的讨论,让我们站远一点来看,从历史的角度来看大数据时代。下文摘自《信号与噪声》 ,一本非常值得一看的好书。

 人类最初的信息技术革命并非始于微型芯片的发明,而是以印刷机的诞生为开端的。1440年,约翰内斯-古腾堡发明了印刷机,这项发明使普通民众能方便地了解信息,由此产生的思想洪流带来了前所未有的结果和影响。印刷机的发明点燃了1775年的工业革命之火,也促成了人类文明的迅猛发展——由从前那种科学和经济几乎止步不前的状态迅速跨越到呈指数型增长的状态,还带来了我们今天所熟悉的变化。除此之外,这一发明促成了一些历史事件,这些事件开启了欧洲启蒙运动,也加速了美利坚合众国的建立。

  但是,印刷机发明之初并没有引发上述各种巨变,倒是可能催生了另外的事件,如持续了几百年的“圣战”。当人类开始相信他们可以预知和选择自己的命运时,人类历史上最血腥的时代也就开始了。

  早在古腾堡发明印刷机之前,书籍就已经存在了,但当时书的数量和读书的人都很少,书籍只是贵族阶层的奢侈品。因为抄写员每次只能抄写一份副本,复制一份原稿的费用大约是每5页1弗洛林(一种金币,1弗洛林约合200美元),因此像你现在读的这本书,在当时可能要花费20 000美元才能得到。而且,经过无数次的抄写,书中难免有大量的抄写错误,这些错误代代相传,成倍增加,甚至还会演变成与原意相反的错误。

  这就使得知识的积累变得极其困难。要想阻止以文字记录的知识的不断减少,就需要付出巨大的努力,因为书籍腐烂的速度远远大于其生成的速度。只有几个版本的《圣经》和少量的哲学论述——比如柏拉图和亚里士多德的文章——被保留了下来,其他那些数不清的智慧,由于缺乏记载动机,都遗失在那个年代了。

  过去,也许人们觉得对于知识的追求即使不全是无用功,似乎也没什么实际价值。如今世事瞬息万变,我们总会有一种“世事无常”的感觉,而对于我们的前辈来说,这种“无常的世事”则更受关注。《圣经-传道书》中有一句唯美的诗句:“日光之下无新事”,可事实却并非如此,之所以说“无新事”,并不是因为每件事都已经被发掘出来了,而是因为所有事情都将被遗忘。

  印刷机永久而深刻地改变了这一状况。几乎是一夜之间,一本书的成本就骤降近300倍,书的售价从相当于今天20 000美元的价格剧降至70美元。印刷机迅速在欧洲普及,到1470年,印刷机已从德国传播到罗马、西班牙塞维利亚、法国巴黎和瑞士巴塞尔,随后的10年里,几乎所有的欧洲主要城市里都有了印刷机的影子。印刷机问世的第一个世纪里,书籍的生产规模呈指数型增长,数量增长了近30倍。人类知识旋即进入快速积累期。

  然而,正如万维网建立初期那样,印刷机使用之初的信息质量也是参差不齐的。当时,人们只顾追逐眼前利益,印刷机几乎都用来印制那些质量较高的地图了,异端的宗教文章和一些伪科学文章也很快就占据了畅销书单的主要位置。印刷错误大量出现,那本被叫作《邪恶圣经》的书便是如此,这本书犯了史上最严重的印刷错误——《十诫》中的“不可奸淫”误印成“应当奸淫”。与此同时,人们一下子接触到大量的新思想,这难免会产生诸多混淆。信息的增长速度远远超过了人们处理信息和分辨信息的速度。共享信息的不断增长反而加速了民族和宗教的孤立进程,其速度之快不禁让人瞠目结舌。面对“过量的信息”时,我们会本能地进行筛选,选出喜欢的,忽略其他的,与同道中人为友,与意见相左之人为敌。

  印刷机的早期使用者中,最狂热的要数那些传播福音的人了。马丁-路德的《九十五条论纲》还不是那么激进,而对其中类似情绪的争论已然不绝于耳了。正如《现代欧洲早期印刷革命》一书的作者伊丽莎白-爱森斯坦所写的那样,马丁-路德这些论纲的革命之处就在于,它们“没有一直钉在教堂的门上” 。而是被古腾堡的印刷机复印了30多万次,即使按照今天的标准来看,这个印刷量也可算作巨大的成功了。

  路德的新教改革所导致的教会分裂,很快使欧洲陷入了战争。1524~1648年间,欧洲爆发了德国农民战争、施马尔卡尔登战争、八十年战争、三十年战争、法国宗教战争、爱尔兰南联邦战争、苏格兰内战和英国内战,其中许多战争几乎是同时爆发的。当然,1480年出现的西班牙宗教法庭和1508~1516年出现的康布雷同盟也值得一提,尽管两者与新教思想的传播关系不大。单单一个三十年战争,德国人口就减少了1/3,即使是与20世纪早期的第一次世界大战相比,17世纪也称得上是史上最血腥的时代。

  但就是在这样一个充满战乱的时代,印刷机却悄然推动着科学与文学的进步,所以人们才得以分享伽利略的科学思想,品味莎士比亚的舞台剧。

  莎士比亚舞台剧的主题通常关乎人的命运,这一点与戏剧如出一辙。剧中人物的理想和命运之间的差距增添了这些舞台剧的悲剧色彩。莎士?亚时期,掌控自身命运看似已成为人们思想意识的一部分,但要做到这一点却很难,所以那些挑战命运的人总是遍体鳞伤,直至死去。

  这一主题在莎士比亚的著名悲剧《朱利叶-恺撒》中得到了最生动的诠释。在这部戏的前半部分,恺撒接收到各种各样明显的警示,他称之为预言(比如“留心3月15日”),这些预言预示了他的加冕礼可能会演变为一场屠杀。恺撒当然不会在意那些预言,他始终自信地认为,这些预言只是预示着别人的死亡,否则,他当时就会留意。结果,恺撒遇刺了。

  莎士比亚借西塞罗的话警示我们,“(可是)人们照着自己的意思解释一切事物的原因,实际上却和这些事物本身的目的完全相反” 。这句话对于所有正在对自己新发现的大量信息进行选择的人,都不失为一条好的建议。人们很难从干扰他们的噪声中分辨出有用的信号。数据展示给我们的通常都是我们想要的结果,而且我们通常也能确保这些数据令我们皆大欢喜。

  然而,如果说《朱利叶斯-恺撒》这部戏剧中含有的宿命论、占卜术和迷信思想,是古代预言思想的开端,它同时也介绍了一种较为现代且较为激进的思想:我们可以对这些迹象进行解释,从中获益。在戏中,卡修斯说,“有时,人们可以掌控自己的命运”,他希望能劝服勃鲁托斯参与谋害恺撒的阴谋中。

  于是,“人们可以掌控自己的命运”这一思想便广泛传播开来。“预言”和“预测”这两个词在今天大多数的情况下可以互换使用,然而在莎士比亚时代,它们却有着不同的含义。“预言”是指占卜者告诉你的话,而“预测”则更像是卡修斯的想法。

  “预测”一词源于日耳曼语,而“预言”一词源自拉丁语。“预测”反映的是新教世俗思想,而不是神圣罗马帝国的理想世界。“预测”是指在不确定的条件下进行计划,这一行为需要谨慎、智慧和勤奋,更像我们今天所说的“预见”一词。

  预言思想的神学含义是十分复杂的,但对于凡尘俗世中那些追逐利益的人来说,这些含义就不那么复杂了。预言思想的这些特质与那些新教徒的职业道德是密不可分的,马克斯-韦伯认为,资本主义的诞生和工业革命的开始与预言思想不无关联。“预测”与“进步”两个概念紧密相关。所有相关书籍中的所有信息都应有助于我们规划生活,都应成功地预见整个世界的发展历程。

  几个世纪以来,引领“圣战”的新教徒们都在学习如何用自身积累的知识改变社会。工业革命主要始于新教国家,而且多半发生在那些言论自由的国家,因为在这些国家,宗教思想和科学思想可以自由传播,人们也不必对审查制度心存顾虑。

  工业革命的重大意义难以尽数。纵观人类社会的历史进程,经济增长的速度曾经为年均0.1%,这个增速足以匹配当时人口数量平缓增长的状况,但人均生活水平却没有得到任何显著提高。然后,经济形势突然出现了前所未有的进展,经济增速急剧超越了人口数量增长的速度,尽管偶尔也会出现全球金融危机,但这种高速增长的态势时至今日仍未改变。

  历史证明,印刷机引发的信息大爆炸为我们创造了一个好的世界,因为它仅用了330年的时间就为我们带来了不可尽数的好处,与此同时也有数百万人在欧洲战场上丧命。
显示全部

使用道具 举报

回复
论坛徽章:
0
17#
发表于 2014-1-10 20:55 | 只看该作者
昔日,庞涓和孙膑决战一役,孙膑以“瞒天过海”之术,假造狼狈撤退,庞涓观其旗数不整,所过之地,围灶日渐稀少,信以为孙膑丢盔弃甲而败,遂长驱直追,中了埋伏身亡而败。庞涓看到了敌人的数据,联想到敌人的溃败。而他忘记了,这些现象后面的联系,最终是他学艺不精,败于孙膑之手。数据时代,我们收集的数据能说明一定问题,但更重要的是分析者要懂得这个时代数据之外的更多形式,因势而判,才能数为我用。


使用道具 举报

回复
论坛徽章:
0
18#
发表于 2014-2-21 18:26 | 只看该作者
只说一点:
“在大学校园里开设数据智能实验室研究大数据是否有必要?”
没必要,因为大数据必须有业务场景,没有真正的海量数据,你研究个屁大数据啊?研究算法的话,目前的机器学习已经有充足的科研领域可以施展。真正能从大数据里面挖到金子的,都是真正有业务有数据的公司,而不是象牙塔里面的学究。

我知道有好几个例子,都是学校里做学问做得太久了,出去互联网公司找份工作,去验证一下自己做学问的理论。这也正说明了,真正的大数据技术,绝对不是实验室研究出来的。


使用道具 举报

回复
论坛徽章:
0
19#
发表于 2014-4-13 10:33 | 只看该作者
未来没来,就评价?


使用道具 举报

回复
论坛徽章:
0
20#
发表于 2014-4-13 16:38 | 只看该作者
最主要的是预测啊。预测的价值太大了。

最简单的,一个人来银行贷款,那这个银行可以收集一些他的基本信息。那怎么样利用这些基本信息,来预测他未来的还款能力、以及不还款的概率,以决定贷给他多少钱?那就得用到大量之前贷款的人的基本信息,以及最后的还款信息等。

再比如,做赤潮预测,根据实时监测到的数据,如水温,透明度等等,结合以前的数据(以前的数据,当然在水温、透明度之外,还包含有是否发生赤潮的信息),然后做预判,就可以预先采取很多措施。

还有,比如机械装置,动力设备,电子、电气等等的状态监测与故障诊断。特别是系统复杂到无法建立有效的模型的,只有用输入输出数据来做。


使用道具 举报

回复

您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

TOP技术积分榜 社区积分榜 徽章 团队 统计 知识索引树 积分竞拍 文本模式 帮助
  ITPUB首页 | ITPUB论坛 | 数据库技术 | 企业信息化 | 开发技术 | 微软技术 | 软件工程与项目管理 | IBM技术园地 | 行业纵向讨论 | IT招聘 | IT文档
  ChinaUnix | ChinaUnix博客 | ChinaUnix论坛
CopyRight 1999-2011 itpub.net All Right Reserved. 北京盛拓优讯信息技术有限公司版权所有 联系我们 未成年人举报专区 
京ICP备16024965号-8  北京市公安局海淀分局网监中心备案编号:11010802021510 广播电视节目制作经营许可证:编号(京)字第1149号
  
快速回复 返回顶部 返回列表