|
本帖最后由 pastime_Wang 于 2016-5-18 16:18 编辑
1:您第一个使用的分布式引擎是什么?目前还在用吗?为什么?
Re: 不知道 Hive 算不算一个,Hive 实际为使用 Map-Reduce 而在外面封装了一层SQL, 由于使用SQL语言,所以学习成本对于DBA来讲比较低, 容易上手
但缺点是SQL的问题域比实际 Mapduce 要窄很多, 比如一些数据挖掘算法,推荐算法等,用SQL很难表达,不得不编写Map-Reduce完成.
虽然目前还在使用,但仅限于简单的大数据抽取,转换和聚合等等。
---------------------------------------------------------
2:开源数据库厂商,相比传统数据库厂商,拥有那些优势呢?说说你对开源分布式引擎的未来展望。
开源厂商的优势:
1. 可以基于开源数据库进行定制开发,自主可控
2. 成本控制较好,相对传统数据库厂商具有一定的优势
3. 作为开源主要技术主要贡献者,推进开源项目的发展
4. 在某些核心技术或功能上处于先进或主导地位,传统数据库厂商可能受底层架构限制,很难适合新的发展要求
未来展望: 传统关系型数据库系统将逐渐萎缩,可能会出现多种(4~6)完全不同的数据库架构类型,每一类中都会有1~2家成功的厂商
不会再有"万能"的数据库,混用方案将会变得越来越流行,同时我比较看好开源的 postgres, 功能强大, 核心技术成熟
---------------------------------------------------------
3:分析一下大数据与OLAP混合技术架构的优势和特点 ?
1. 极速OLAP引擎, 削减Hadoop环境中处理超过百亿行数据时的查询延迟时间
2. Hadoop上的ANSI SQL接口, 提供ANSI SQL并支持大部分ANSI SQL查询功能
3. 利用MOLAP cube(立方体)对数百亿行数据进行查询
---------------------------------------------------------
4:针对目前的大数据的4V特点,hadoop有哪些优势和弊端?
Hadoop的主要优点:
1. Hadoop集群的横向扩展性,Hadoop可以扩展至数千个节点,对数据持续增长,数据量特别巨大的需求很合适
2. Hadoop是开源项目, 成本是其另一大优势
3. Hadoop生态群活跃,社区成熟度高, 开源项目丰富
Hadoop的不足之处:
1. Hadoop不适合做实时分析系统
2. 缺乏专业的支持服务
3. Hadoop可以支持百亿的数据量,但很难应对秒级响应的需求
|
|