【大话IT】无所不在的大数据：你Hold得住吗？

db_master · 发表于 2014-10-21 16:21

这方面一知半解吧，只是说说自己见解。
1.在《黑天鹅》这本书里头，有一句非常好的话“你不知道的事情比你知道的事情更重要。”是不是如果有了海量的大数据就能变得更好？大数据真的能为你所驾驭吗？请举例分享您认为大数据可以带来的价值。
有的话当然可以使用，只是可能刚开始大家不会注意到某些东西，但是慢慢的，所有的数据都会被大家慢慢使用的。
带来的价值的话，当然有好多了，比如商业价值、刑侦方面的价值、科研发现等众多领域。
---------下面是例子
商业价值：商业淘宝上面用户浏览信息的重要性，刚开始淘宝的分析人员相对用户在淘宝浏览信息进行分析，但是这个数据不够，可能有的人只在京东上进行消费或者只在实体店购买东西，这时候就需要各大超市、网上商城的浏览消费信息，对某个用户或者潜在用户的消费习性、购买习惯、位置信息等进行研究，从而退出各类商业模式。著名的啤酒尿布故事不就是这样诞生的吗？各类电信公司业务宣传活动也会基于用户习惯进行产生新的模式，这些最开始都是没有，这些创新无不是以数据分析为基础的。
刑侦方面的价值：警察破案时候就可以根据犯罪分子的生活习惯等全方位数据推测该犯罪分子可能活动的位置，从而准确定位他可能出现的地方，进行破案。

2.海量并行处理（Massively Parallel Processing，MPP）数据库系统已经出现几十年了。它到底是一个怎样的架构？为啥它的威力如此之大？
这个mpp主要分为在线和离线。
在线主要采用传统关系型数据库组成集群，对大量数据进行分析，而且不影响用户体验。
离线的话主要分为海量数据搜集、存储、离线分析等，海量数据搜集可以采用hadoop的chukwa，海量数据存储主要
借鉴google的gfs思想，以分布式的方式将数据分别发送到不同节点进行存储，离线处理主要的使用方法是将一个大
任务分成不同的子任务。
它的威力来说吧，主要是海量数据的处理分析，通过精心去设计数据库等各个模块，做到快速分析处理。

3.目前有很多台独立运行的部门级的 NAS 存储设备、SAN 存储设备，形成一个个“存储孤岛”，面对海量数据，该
如何选择存储架构？基于HDFS的集群存储有哪些优势和劣势？
根据实际数据情况和硬件考虑等全方位考虑。
hdfs具有高容错、高可靠性、高吞吐率等，为超大数据集的应用处理提供了很多便利，具有处理超大文件、流式访
问数据、对硬件要求低等优势；
缺点就是延迟高、无法高效存储大量小文件。

4.现如今各种大数据技术层出不穷，请举例谈谈您所知道的大数据工具。
  Hadoop、HPCC、Storm、Apache DrillRapidMiner、RapidMiner、 Pentaho BI

5.我们现在还处于传统和前沿交替的年代，未来像医疗数据、财务数据等是否会共享？大数据犹如一把双刃剑，如
何在商业价值与用户隐私之间寻求一种平衡？
  我感觉慢慢都会开放这些数据的，因为做这些分析对各个方面，无论是科研还是未来制定更好的策略都是非常有
用的，我们社会在发展，人们的思想也会慢慢改变的。
  当然追求商业价值是在最终隐私的基础，不能损害用户的利益，触及这条底线，相信这个商业价值怎么都无法实
现。当然，我相信以后用户也会自愿公开或者分享自己的一些东西。

flowerfloating · 发表于 2014-10-21 16:53

每个都在被平均着

erp1900 · 发表于 2014-10-21 17:14

大数据意味着我们的隐私暴露无遗

甲骨文思庄 · 发表于 2014-10-22 09:53

强烈的占楼支持

九九乘法表 · 发表于 2014-10-22 12:05

用大数据来解决信息不对称的经济学问题

xkf01 · 发表于 2014-10-22 16:32

1.在《黑天鹅》这本书里头，有一句非常好的话“你不知道的事情比你知道的事情更重要。”是不是如果有了海量的大数据就能变得更好？大数据真的能为你所驾驭吗？请举例分享您认为大数据可以带来的价值。
这种如果就，肯定不可能啊，只能说会把可能性变大，不是必然。大数据的话，说到底可以带来的价值应该是把“羊群效应”的结果放得更清晰，对于固定频率或者固定周期的某些事件，不同类型的群体反应是不一样的，但是，大体每个群体的反应都是趋同，在此基础上，再算上群体的数量，就可以知道这个事件的冲击效果到底有多大。目前明显有实际应用的就是航空公司机票的价格优惠信息。后面对于期货，权证，或者黄金周旅游，黄金周影院电影上映时间点选择优惠信息选择等等比较容易切入吧

xkf01 · 发表于 2014-10-22 16:38

5.我们现在还处于传统和前沿交替的年代，未来像医疗数据、财务数据等是否会共享？大数据犹如一把双刃剑，如何在商业价值与用户隐私之间寻求一种平衡？
就像这个问题为什么提了医疗数据、财务数据作例子提问？就因为里面有价值。有价值的东西，作为任何一个企业乃至个人，都轻易不会放松出去。例如，如果你掌握了一门独门手艺，现在让你无私的把你多年摸爬滚打的这些心得交给其他人，让别人轻易成就，甚至超越你，你愿意么？愿意的人毕竟是少数。就算你愿意，还得考虑有人立刻会了，老板就不需要花这么多钱养你了，找个大学生立马上手，老板happy了，你呢？只能说会把那些不太敏感，甚至比较通用，比较基础的信息，而这些信息对于初入门或者任然在门外徘徊的是很有用，你会愿意赏脸共享。

jake_zh · 发表于 2014-10-23 09:10

...............

E8software · 发表于 2014-10-23 13:57

支持一下。

james_yb · 发表于 2014-10-23 15:07

我认为大数据是一个商业智能范畴的概念，是传统BI的延伸，说白了就是以更大量的数据为输入(各种结构化、非结构化、半结构化)，采用更智能的分析算法，基于更高效的IT基础架构，最终分析出一个决策报告的整个过程和相关技术的集合体。

对于讨论话题：

1.在《黑天鹅》这本书里头，有一句非常好的话“你不知道的事情比你知道的事情更重要。”是不是如果有了海量的大数据就能变得更好？大数据真的能为你所驾驭吗？请举例分享您认为大数据可以带来的价值。
海量大数据不是万能的，其核心是针对实际的业务场景设计出更有的分析算法，指望通过一种算法打遍天下的可能性极小。未来大数据如果发展下去的话极有可能分为三个层次，业务分析、算法设计、IT架构设计，必须将三者融合才能发挥出大数据的价值。将来跨业务和IT技术的架构师将会是成败的关键。至于例子，我没有从事过实际项目，所以就不随便瞎说了。

2.海量并行处理（Massively Parallel Processing，MPP）数据库系统已经出现几十年了。它到底是一个怎样的架构？为啥它的威力如此之大？
我了解的MPP架构就是任务的分布式处理，他的实现架构应该也有很多，但大体思路应该差距不大，都有多个事务处理节点，说他威力大应该都是相对的，其优势无非在于较自由的横向扩展，在性能上我认为没有绝对的胜出者，要看具体应用场景分析是否应该用MPP。如果再细分具体场景，我就无能为力了，也希望有大牛给我讲一下。

3.目前有很多台独立运行的部门级的 NAS 存储设备、SAN 存储设备，形成一个个“存储孤岛”，面对海量数据，该如何选择存储架构？基于HDFS的集群存储有哪些优势和劣势？
DFS的优势在于大量数据存取的速度，但前提是大量数据批量读、写的场景，对于IO较频繁的场景，其性能是受限的，需要在上位配合其他的产品，所以我认为它比较适合处理大量的存量数据的分析、挖掘、统计等场景，尤其针对非结构化数据效果明显。我认为未来数据存储的架构可能是DFS+x86分布式存储（不知道当前有没有专业名称）的形式，x86存储集群不做统一的文件系统，而是把各机器的磁盘存储统一管理分配给外部使用，重点支持结构化数据的存取应用场景（如OLTP），DFS存海量非结构化数据+历史结构化数据（不经常使用的数据）。

4.现如今各种大数据技术层出不穷，请举例谈谈您所知道的大数据工具。
hadoop系列、storm、spark，没有实践过，等大牛指点。

5.我们现在还处于传统和前沿交替的年代，未来像医疗数据、财务数据等是否会共享？大数据犹如一把双刃剑，如何在商业价值与用户隐私之间寻求一种平衡？
在目前看来，这是个不可调和的矛盾，我想未来可能会发展成提供数据服务的模式，前提是数据能够成为商品，国家或行业定义出用户隐私数据范畴，医疗、财务原始数据保有机构和单位使用自有或成熟的第三方运营的大数据分析平台按照数据市场的需求加工出数据商品（不涉密、不涉及隐私的前提），将数据商品已订购或零售方式出售给需要分析结构的单位或机构，数据需求方拿到数据后推进自身运作或商业决策。在现阶段，我认为还是大企业自己在内部玩一下吧，拿来出售的话市场不成体系，无法定价定量，也不具备法律监管，容易出事啊。

以上是个人一点粗浅想法，个人没有过项目实践，可能脱离实际，抛砖引玉吧。