话题讨论：大数据时代的数据处理方案部署（已公布获奖）

Okhotsk · 发表于 2014-5-27 21:38

１、从大数据分析的计算方式来看，部署大数据分析方案，您会看好哪种方式呢？小型机、X86虚拟化、刀片服务器、开源分布式计算方式还是其它方式？
我比较倾向与刀片服务器，开源分布式。

　　２、海量并行处理数据库系统MPP已经存活十多年了，不管是传统数据还是大数据都可以使用MPP架构，那么它到底有哪些威力呢？对企业而言，在处理海量数据时，是选择数据仓库还是一体机？
对于大数据而言，还是使用数据仓库比较好。

　　３、如果你有海量的数据流，那么MapReduce可能成为你的“大救星”了，它可以用来解析文本、扫描网络日志等。作为一种并行的编程架构，MapReduce可以用来处理各种非结构化数据，但是否意味着它可以取代数据库呢？它有哪些优缺点？

　　４、海量并行关系型数据库、云计算、MapReduce这三项技术都能帮助大家驾驭大数据，它们之间如何协同工作呢？未来的大数据仓库可能基于MPP与Hadoop集群混搭的模式，您是否看好？
我认为这三种技术会取其有点继续发展，说不定会产生新的概念数据库。

harkjim · 发表于 2014-6-3 11:49

　　１、从大数据分析的计算方式来看，部署大数据分析方案，您会看好哪种方式呢？小型机、X86虚拟化、刀片服务器、开源分布式计算方式还是其它方式？
答：POC阶段（20个节点内）建议直接采用刀片服务器（例如HP360）部署，我看到Hadoop开源分布式计算；如果节点多了以后，例如需要200或者更多，建议搭建在云设施上，这样部署方便易于管理，至于采用公有云还是私有云，得看企业数据敏感程度了。
　　２、海量并行处理数据库系统MPP已经存活十多年了，不管是传统数据还是大数据都可以使用MPP架构，那么它到底有哪些威力呢？对企业而言，在处理海量数据时，是选择数据仓库还是一体机？
答复：MPP架构可以解决单机上处理能力不能无限制扩展的难题，分布式计算是未来方向；一体机是一个可选的方案，但是我们公司不采用一体机，准备自己玩转Hadoop大数据平台；
　　３、如果你有海量的数据流，那么MapReduce可能成为你的“大救星”了，它可以用来解析文本、扫描网络日志等。作为一种并行的编程架构，MapReduce可以用来处理各种非结构化数据，但是否意味着它可以取代数据库呢？它有哪些优缺点？
   答复：我觉得更多的是融合，不可能是简单的取代，我觉得不要想着一套技术或工具解决任何问题，做他们各自擅长的事情就好；我想大家不会想着用Hadoop去做OLTp的事情；
　　４、海量并行关系型数据库、云计算、MapReduce这三项技术都能帮助大家驾驭大数据，它们之间如何协同工作呢？未来的大数据仓库可能基于MPP与Hadoop集群混搭的模式，您是否看好？
   答复：我看好混搭模式，在我们公司，我正在身体力行去这么玩，我从来没有考虑过完全用Hadoop取代原有的所有数据库业务（计算服务）。

   以上存储个人观点，欢迎大家吐槽。

ws198152 · 发表于 2014-6-3 16:52

从介绍上来看，本书囊括了现在主流的技术架构，由一线架构师根据不同的行业特点分享给大家，重点不在于具体的技术而是提供一种思路，有助于读者选择合适自己的架构以及对架构方面的研究。

lzd_7993 · 发表于 2014-6-4 16:30

关键大数据库能给多少企业带来更好服务这是关键呀

pastime_Wang · 发表于 2014-6-6 13:27

1、大数据分析的计算方式来看，部署大数据分析方案，您会看好哪种方式呢？小型机、X86虚拟化、刀片服务器、开源分布式计算方式还是其它方式？

RE:

传统的数据计算架构：RDBMS + 小型机 + 高端阵列 (就是大家说的IOE)

1.1 对于应用 STREAM流 “实时同步”计算方式上看，还是采用闪存或全闪存阵列的 PCIe 解决方案

1.2 对于应用“历史异步”计算方式上看，由于大部分数据来源于RDBMS 或 FLAT FILE, 采用“横向扩展”存储的分布式架构
会代替传统的“纵向扩展”架构，后者扩展性和成本控制更有优势（如最近讨论过的“去IOE”）

1.3 另外应运而生的“一体机”架构（IBM Netezaa）, 可以作为备选方案，可用性和扩展性相对于传统的计算、存储架构更为优化

　
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~　
2、海量并行处理数据库系统MPP已经存活十多年了，不管是传统数据还是大数据都可以使用MPP架构，那么它到底有哪些威力呢？
对企业而言，在处理海量数据时，是选择数据仓库还是一体机？

RE:

  2.1 由于 MPP “Shared Nothing”架构，优点在于并行处理和线性扩展, 更适合于数据仓库、决策支持和结构化的数据分析

  2.2 MPP 节点间交互（数据重分配）机制复杂，采用软件来进行调度和控制存在瓶颈，而一体机专为大数据的分析处理而设计的软、
  硬件结合的产品，具有良好的稳定性和纵向扩展性。
　　
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

3、如果你有海量的数据流，那么MapReduce可能成为你的“大救星”了，它可以用来解析文本、扫描网络日志等。
作为一种并行的编程架构，MapReduce可以用来处理各种非结构化数据，但是否意味着它可以取代数据库呢？它有哪些优缺点？

RE:
  M?a?p?R?e?d?u?c?e?分?布?式?处?理?框?架?实现更复杂和更大规模的分析，

  优?点：
  1、模型简介，能够简化程序员的开发；
  2、良好的伸缩性和容错性

  缺?点：不适应实时要求（T+1的应用）

  MapReduce 有其自己独有的适用场景，不可能代替现有的传统RDBMS数据库，尤其是目前的运营系统”核心数据库“，
  哪怕去IOE运动搞的再轰轰烈烈，应该相互学习，相互集成

~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
4、海量并行关系型数据库、云计算、MapReduce这三项技术都能帮助大家驾驭大数据，它们之间如何协同工作呢？

未来的大数据仓库可能基于MPP与Hadoop集群混搭的模式，您是否看好？

混搭架的核心是新一代的MPP并行数据库集群+ Hadoop集群（NOSQL\NEWSQL）+ 内存计算、流计算技术等。

新型数据库将逐步与Hadoop生态系统结合混搭使用，

1、用MPP处理PB级别的、高质量的结构化数据，同时为应用提供丰富的SQL和事务支持能力;

2、用Hadoop实现半结构化、非结构化数据处理。这样可同时满足结构化、半结构化和非结构化数据、
复杂的ETL流程、复杂的数据挖掘和计算模型的处理需求；

3、基于列存储+MPP架构的新型数据库

Detaillee · 发表于 2014-6-12 21:30

咋还不公布中奖名单？？