楼主: hwayw

话题讨论:大数据时代的数据处理方案部署(已公布获奖)

[复制链接]
论坛徽章:
68
林肯
日期:2013-09-12 15:57:33马自达
日期:2013-10-11 13:52:31路虎
日期:2014-01-26 14:35:49现代
日期:2013-08-29 14:39:50三菱
日期:2013-11-25 11:21:19雪佛兰
日期:2013-09-12 15:55:00一汽
日期:2013-11-28 14:15:05技术图书徽章
日期:2013-12-11 10:11:35技术图书徽章
日期:2013-12-11 10:10:51技术图书徽章
日期:2014-01-14 10:54:13
21#
发表于 2014-5-23 08:44 | 只看该作者
本帖最后由 pastime_Wang 于 2014-6-6 11:56 编辑

1、大数据分析的计算方式来看,部署大数据分析方案,您会看好哪种方式呢?小型机、X86虚拟化、刀片服务器、开源分布式计算方式还是其它方式?

RE:

传统的数据计算架构:RDBMS + 小型机 + 高端阵列 (就是大家说的IOE)

1.1 对于应用 STREAM流 “实时同步”计算方式上看,还是采用闪存或全闪存阵列的 PCIe 解决方案

1.2 对于应用“历史异步”计算方式上看,由于大部分数据来源于RDBMS 或 FLAT FILE, 采用“横向扩展”存储的分布式架构
会代替传统的“纵向扩展”架构,后者扩展性和成本控制更有优势(如最近讨论过的“去IOE”)

1.3 另外应运而生的“一体机”架构(IBM Netezaa), 可以作为备选方案,可用性和扩展性相对于传统的计算、存储架构更为优化
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ 
2、海量并行处理数据库系统MPP已经存活十多年了,不管是传统数据还是大数据都可以使用MPP架构,那么它到底有哪些威力呢?
对企业而言,在处理海量数据时,是选择数据仓库还是一体机?

RE:

  2.1 由于 MPP “Shared Nothing”架构,优点在于并行处理和线性扩展, 更适合于 数据仓库、决策支持和结构化的数据分析

  2.2 MPP 节点间交互(数据重分配)机制复杂,采用软件来进行调度和控制存在瓶颈,而一体机专为大数据的分析处理而设计的软、
  硬件结合的产品,具有良好的稳定性和纵向扩展性。  
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

3、如果你有海量的数据流,那么MapReduce可能成为你的“大救星”了,它可以用来解析文本、扫描网络日志等。
作为一种并行的编程架构,MapReduce可以用来处理各种非结构化数据,但是否意味着它可以取代数据库呢?它有哪些优缺点?

RE:
  M​a​p​R​e​d​u​c​e​分​布​式​处​理​框​架​实现更复杂和更大规模的分析,

  优​点:
  1、模型简介,能够简化程序员的开发;
  2、良好的伸缩性和容错性

  缺​点:不适应实时要求(T+1的应用)

  MapReduce 有其自己独有的适用场景,不可能代替现有的传统RDBMS数据库,尤其是目前的运营系统”核心数据库“,
  哪怕去IOE运动搞的再轰轰烈烈,应该相互学习,相互集成

~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
4、海量并行关系型数据库、云计算、MapReduce这三项技术都能帮助大家驾驭大数据,它们之间如何协同工作呢?
未来的大数据仓库可能基于MPP与Hadoop集群混搭的模式,您是否看好?

混搭架的核心是新一代的MPP并行数据库集群+ Hadoop集群 (NOSQL\NEWSQL)+ 内存计算、流计算技术等。

新型数据库将逐步与Hadoop生态系统结合混搭使用,

1、用MPP处理PB级别的、高质量的结构化数据,同时为应用提供丰富的SQL和事务支持能力;

2、用Hadoop实现半结构化、非结构化数据处理。这样可同时满足结构化、半结构化和非结构化数据、
复杂的ETL流程、复杂的数据挖掘和计算模型的处理需求;

3、基于列存储+MPP架构的新型数据库

使用道具 举报

回复
论坛徽章:
249
Jeep
日期:2013-09-04 19:17:57Jeep
日期:2013-10-08 09:46:02Jeep
日期:2013-10-08 16:38:27Jeep
日期:2013-11-22 14:53:46Jeep
日期:2013-11-08 23:59:45Jeep
日期:2013-11-22 17:15:17Jeep
日期:2013-11-22 17:15:17Jeep
日期:2013-11-17 09:59:04季节之章:夏
日期:2015-01-28 14:58:51季节之章:春
日期:2014-12-25 16:20:50
22#
发表于 2014-5-23 08:48 | 只看该作者
支持新活动

使用道具 举报

回复
23#
发表于 2014-5-23 09:48 | 只看该作者
那种部署方案可能要根据自己的实际情况。高富帅有高富帅的豪购,屌丝有屌丝的应对方式。

使用道具 举报

回复
论坛徽章:
6
2014年新春福章
日期:2014-02-18 16:49:31马上有钱
日期:2014-02-18 16:49:31itpub13周年纪念徽章
日期:2014-10-08 15:15:25itpub13周年纪念徽章
日期:2014-10-08 15:15:25喜羊羊
日期:2015-03-04 14:54:422015年新春福章
日期:2015-03-06 11:59:47
24#
发表于 2014-5-23 14:59 | 只看该作者
书有好多了,,,可惜一本都没有看完,,,

使用道具 举报

回复
论坛徽章:
57
SQL极客
日期:2013-12-09 14:13:35秀才
日期:2016-01-21 13:42:39秀才
日期:2016-01-13 12:14:26SQL大赛参与纪念
日期:2016-01-13 10:32:19SQL数据库编程大师
日期:2016-01-13 10:30:43秀才
日期:2015-12-14 14:47:54秀才
日期:2015-10-19 15:50:392015年新春福章
日期:2015-03-06 11:58:18懒羊羊
日期:2015-03-04 14:52:11优秀写手
日期:2014-11-08 06:00:14
25#
发表于 2014-5-24 17:51 | 只看该作者
这本书主要讲什么?能否有个概括?

使用道具 举报

回复
论坛徽章:
57
SQL极客
日期:2013-12-09 14:13:35秀才
日期:2016-01-21 13:42:39秀才
日期:2016-01-13 12:14:26SQL大赛参与纪念
日期:2016-01-13 10:32:19SQL数据库编程大师
日期:2016-01-13 10:30:43秀才
日期:2015-12-14 14:47:54秀才
日期:2015-10-19 15:50:392015年新春福章
日期:2015-03-06 11:58:18懒羊羊
日期:2015-03-04 14:52:11优秀写手
日期:2014-11-08 06:00:14
26#
发表于 2014-5-24 17:52 | 只看该作者
支持国产原创

使用道具 举报

回复
论坛徽章:
7
阿斯顿马丁
日期:2013-11-27 16:58:03问答徽章
日期:2013-12-11 11:36:33日产
日期:2014-01-17 17:59:11技术图书徽章
日期:2014-01-24 10:24:362014年新春福章
日期:2014-02-18 16:42:02马上有房
日期:2014-02-18 16:42:02马上有车
日期:2014-04-16 17:19:00
27#
发表于 2014-5-26 10:23 | 只看该作者
1、从大数据分析的计算方式来看,部署大数据分析方案,您会看好哪种方式呢?
   目前从大数据分析计算方式来看,大公司的部署我比较看好开源分布式部署方式,可以为很多企业带来可观的利润,但是对于一些小公司 目前看x86集群+商业数据库产品还是主流
  2、海量并行处理数据库系统MPP已经存活十多年了,不管是传统数据还是大数据都可以使用MPP架构,那么它到底有哪些威力呢?对企业而言,在处理海量数据时,是选择数据仓库还是一体机?
mpp存在这么多年,他的威力还是并行计算,处理海量数据时 对于企业来说还是建议采购一体机
  3、如果你有海量的数据流,那么MapReduce可能成为你的“大救星”了,它可以用来解析文本、扫描网络日志等。作为一种并行的编程架构,MapReduce可以用来处理各种非结构化数据,但是否意味着它可以取代数据库呢?它有哪些优缺点?
目前是取代不了传统数据库,主要在在线时时事务系统上,在数据分析上能更好的发挥mapreduce的优点
  4、海量并行关系型数据库、云计算、MapReduce这三项技术都能帮助大家驾驭大数据,它们之间如何协同工作呢?未来的大数据仓库可能基于MPP与Hadoop集群混搭的模式,您是否看好?
看好MPP与Hadoop集群混搭的模式
  

使用道具 举报

回复
论坛徽章:
0
28#
发表于 2014-5-26 12:35

论坛徽章:
0
29#
发表于 2014-5-26 20:26 | 只看该作者
本帖最后由 飘雪帝乙 于 2014-5-26 20:27 编辑

对于 MPP、Hadoop、云计算、MapReduce等都不是特别了解,结合所见过的,写一下,请批评指正:

1、从大数据分析的计算方式来看,部署大数据分析方案,您会看好哪种方式呢?小型机、X86虚拟化、刀片服务器、开源分布式计算方式还是其它方式?

      从大数据分析的计算方式来看,部署大数据分析方案,采用X86虚拟化。考虑如下:准备实施大数据并通过数据分析加以应用的企业,一般来说有以下特点:一是企业所应用的系统比较多,不通的系统的数据分散存储;二是多种操作系统并存,如windows系列、linux等;三是应用系统的硬件资源利用率比较低;四是日常运维成本高。采用虚拟化的方案,首先可以使整合硬件资源,降低运维成本;其次提高系统的可用性与连续性。


2、海量并行处理数据库系统MPP已经存活十多年了,不管是传统数据还是大数据都可以使用MPP架构,那么它到底有哪些威力呢?对企业而言,在处理海量数据时,是选择数据仓库还是一体机?

选择数据仓库。
目前,很多企业暂未建立数据中心,或者说在计算机硬件技术迅速发展的过程中,信息系统几经变更,业务流程不断优化,数据结构也随之改变。
建立数据仓库,对历史数据采集加工,摒弃无用数据,集中存储,对以后数据挖掘、商业智能等提供有效地支持。

3、如果你有海量的数据流,那么MapReduce可能成为你的“大救星”了,它可以用来解析文本、扫描网络日志等。作为一种并行的编程架构,MapReduce可以用来处理各种非结构化数据,但是否意味着它可以取代数据库呢?它有哪些优缺点?

取代数据库估计目前不可以。首先,对大多数IT从业来说,接触MapReduce的实际应用的机会还是比较少的;其次,数据库产品及技术已经很成熟,入门、上手比较容易;再者,目前很多企业对结构化的数据还没有充分利用起来,对于非结构化数据的处理与应用,还需要时间;最后,MapReduce技术还是有很广阔的应用前景,特别是对于互联网来说,不通的网站可以用一个账号登陆(如qq、微博、邮箱),间接的数据共享,如果有机会能对这些数据进行归纳分析,估计会得到意想不到的结果吧。

4、海量并行关系型数据库、云计算、MapReduce这三项技术都能帮助大家驾驭大数据,它们之间如何协同工作呢?未来的大数据仓库可能基于MPP与Hadoop集群混搭的模式,您是否看好

云计算的基础之一是虚拟化,通过虚拟化可以提供硬件资源;关系型数据库提供数据源;MapReduce处理非结构化数据,个人感觉三者是缺一不可,共同为大数据的应用提供支持。
最后,对于MPP、Hadoop、云计算、MapReduce希望能有机会更深的了解。

使用道具 举报

回复
论坛徽章:
3
2014年世界杯参赛球队:克罗地亚
日期:2014-06-12 16:53:56海蓝宝石
日期:2014-08-06 14:09:32红宝石
日期:2014-08-28 15:18:18
30#
发表于 2014-5-26 21:53 | 只看该作者
1、从大数据分析的计算方式来看,部署大数据分析方案,您会看好哪种方式呢?小型机、X86虚拟化、刀片服务器、开源分布式计算方式还是其它方式?

当hadoop成为BigData的实施标准时,开源分布式计算+X86服务器成为众多企业部署大数据分析方案的首选!主要考虑因素是:横向扩展能力、成本等因素。

2、海量并行处理数据库系统MPP已经存活十多年了,不管是传统数据还是大数据都可以使用MPP架构,那么它到底有哪些威力呢?对企业而言,在处理海量数据时,是选择数据仓库还是一体机?
以GP为代表的MPP架构解决方案,其强大的并行计算能力得到业界认可。因此,从目前来看还是比较倾向于数据仓库,而非部署高大上的一体机。当然MPP在处理非结构化数据上还是有所欠缺。

3、如果你有海量的数据流,那么MapReduce可能成为你的“大救星”了,它可以用来解析文本、扫描网络日志等。作为一种并行的编程架构,MapReduce可以用来处理各种非结构化数据,但是否意味着它可以取代数据库呢?它有哪些优缺点?

MR取代数据库在我看来本身就是个伪命题。MR主要擅长处理巨量的半结构和结构化数据,主要应用于需要长时间运行的批处理场景。而RDBMS,则是擅长处理结构化、事务型、对响应时间具有较高要求的应用场景。

4、海量并行关系型数据库、云计算、MapReduce这三项技术都能帮助大家驾驭大数据,它们之间如何协同工作呢?未来的大数据仓库可能基于MPP与Hadoop集群混搭的模式,您是否看好?
Cloud提供强大的IAAS层,为上层的MPP和MR计算提供弹性的基础设施。MPP还是可以继续在传统数据仓库领域独领风骚。MR则是大数据时代的重要利器。三者各自在自己擅长的领域发挥重要的作用。
目前很多传统企业就是利用hadoop处理完的数据再传入MPP数据库中,以作进一步的OLAP分析。


以上为本人一点卓见,望批评指教!

使用道具 举报

回复

您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

TOP技术积分榜 社区积分榜 徽章 团队 统计 知识索引树 积分竞拍 文本模式 帮助
  ITPUB首页 | ITPUB论坛 | 数据库技术 | 企业信息化 | 开发技术 | 微软技术 | 软件工程与项目管理 | IBM技术园地 | 行业纵向讨论 | IT招聘 | IT文档
  ChinaUnix | ChinaUnix博客 | ChinaUnix论坛
CopyRight 1999-2011 itpub.net All Right Reserved. 北京盛拓优讯信息技术有限公司版权所有 联系我们 未成年人举报专区 
京ICP备16024965号-8  北京市公安局海淀分局网监中心备案编号:11010802021510 广播电视节目制作经营许可证:编号(京)字第1149号
  
快速回复 返回顶部 返回列表