|
1、大数据分析的计算方式来看,部署大数据分析方案,您会看好哪种方式呢?小型机、X86虚拟化、刀片服务器、开源分布式计算方式还是其它方式?
RE:
传统的数据计算架构:RDBMS + 小型机 + 高端阵列 (就是大家说的IOE)
1.1 对于应用 STREAM流 “实时同步”计算方式上看,还是采用闪存或全闪存阵列的 PCIe 解决方案
1.2 对于应用“历史异步”计算方式上看,由于大部分数据来源于RDBMS 或 FLAT FILE, 采用“横向扩展”存储的分布式架构
会代替传统的“纵向扩展”架构,后者扩展性和成本控制更有优势(如最近讨论过的“去IOE”)
1.3 另外应运而生的“一体机”架构(IBM Netezaa), 可以作为备选方案,可用性和扩展性相对于传统的计算、存储架构更为优化
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
2、海量并行处理数据库系统MPP已经存活十多年了,不管是传统数据还是大数据都可以使用MPP架构,那么它到底有哪些威力呢?
对企业而言,在处理海量数据时,是选择数据仓库还是一体机?
RE:
2.1 由于 MPP “Shared Nothing”架构,优点在于并行处理和线性扩展, 更适合于 数据仓库、决策支持和结构化的数据分析
2.2 MPP 节点间交互(数据重分配)机制复杂,采用软件来进行调度和控制存在瓶颈,而一体机专为大数据的分析处理而设计的软、
硬件结合的产品,具有良好的稳定性和纵向扩展性。
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
3、如果你有海量的数据流,那么MapReduce可能成为你的“大救星”了,它可以用来解析文本、扫描网络日志等。
作为一种并行的编程架构,MapReduce可以用来处理各种非结构化数据,但是否意味着它可以取代数据库呢?它有哪些优缺点?
RE:
M?a?p?R?e?d?u?c?e?分?布?式?处?理?框?架?实现更复杂和更大规模的分析,
优?点:
1、模型简介,能够简化程序员的开发;
2、良好的伸缩性和容错性
缺?点:不适应实时要求(T+1的应用)
MapReduce 有其自己独有的适用场景,不可能代替现有的传统RDBMS数据库,尤其是目前的运营系统”核心数据库“,
哪怕去IOE运动搞的再轰轰烈烈,应该相互学习,相互集成
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
4、海量并行关系型数据库、云计算、MapReduce这三项技术都能帮助大家驾驭大数据,它们之间如何协同工作呢?
未来的大数据仓库可能基于MPP与Hadoop集群混搭的模式,您是否看好?
混搭架的核心是新一代的MPP并行数据库集群+ Hadoop集群 (NOSQL\NEWSQL)+ 内存计算、流计算技术等。
新型数据库将逐步与Hadoop生态系统结合混搭使用,
1、用MPP处理PB级别的、高质量的结构化数据,同时为应用提供丰富的SQL和事务支持能力;
2、用Hadoop实现半结构化、非结构化数据处理。这样可同时满足结构化、半结构化和非结构化数据、
复杂的ETL流程、复杂的数据挖掘和计算模型的处理需求;
3、基于列存储+MPP架构的新型数据库 |
|