12
返回列表 发新帖
楼主: 440活在梦里

【大话IT】唯快不破!关于大数据查询分析引擎的两三事

[复制链接]
论坛徽章:
68
林肯
日期:2013-09-12 15:57:33马自达
日期:2013-10-11 13:52:31路虎
日期:2014-01-26 14:35:49现代
日期:2013-08-29 14:39:50三菱
日期:2013-11-25 11:21:19雪佛兰
日期:2013-09-12 15:55:00一汽
日期:2013-11-28 14:15:05技术图书徽章
日期:2013-12-11 10:11:35技术图书徽章
日期:2013-12-11 10:10:51技术图书徽章
日期:2014-01-14 10:54:13
11#
发表于 2016-5-17 14:23 | 只看该作者
本帖最后由 pastime_Wang 于 2016-5-18 16:18 编辑

1:您第一个使用的分布式引擎是什么?目前还在用吗?为什么?

Re: 不知道 Hive 算不算一个,Hive 实际为使用 Map-Reduce 而在外面封装了一层SQL, 由于使用SQL语言,所以学习成本对于DBA来讲比较低, 容易上手
但缺点是SQL的问题域比实际 Mapduce 要窄很多, 比如一些数据挖掘算法,推荐算法等,用SQL很难表达,不得不编写Map-Reduce完成.
虽然目前还在使用,但仅限于简单的大数据抽取,转换和聚合等等。

---------------------------------------------------------
2:开源数据库厂商,相比传统数据库厂商,拥有那些优势呢?说说你对开源分布式引擎的未来展望。

开源厂商的优势:

1. 可以基于开源数据库进行定制开发,自主可控
2. 成本控制较好,相对传统数据库厂商具有一定的优势
3. 作为开源主要技术主要贡献者,推进开源项目的发展
4. 在某些核心技术或功能上处于先进或主导地位,传统数据库厂商可能受底层架构限制,很难适合新的发展要求

未来展望: 传统关系型数据库系统将逐渐萎缩,可能会出现多种(4~6)完全不同的数据库架构类型,每一类中都会有1~2家成功的厂商

不会再有"万能"的数据库,混用方案将会变得越来越流行,同时我比较看好开源的 postgres, 功能强大, 核心技术成熟
---------------------------------------------------------
3:分析一下大数据与OLAP混合技术架构的优势和特点 ?

1. 极速OLAP引擎, 削减Hadoop环境中处理超过百亿行数据时的查询延迟时间
2. Hadoop上的ANSI SQL接口, 提供ANSI SQL并支持大部分ANSI SQL查询功能
3. 利用MOLAP cube(立方体)对数百亿行数据进行查询   

---------------------------------------------------------
4:针对目前的大数据的4V特点,hadoop有哪些优势和弊端?

Hadoop的主要优点:

1. Hadoop集群的横向扩展性,Hadoop可以扩展至数千个节点,对数据持续增长,数据量特别巨大的需求很合适
2. Hadoop是开源项目, 成本是其另一大优势        
3. Hadoop生态群活跃,社区成熟度高, 开源项目丰富

Hadoop的不足之处:

1. Hadoop不适合做实时分析系统
2. 缺乏专业的支持服务
3. Hadoop可以支持百亿的数据量,但很难应对秒级响应的需求  

使用道具 举报

回复
论坛徽章:
98
秀才
日期:2016-02-18 10:06:46山治
日期:2017-02-21 16:18:12秀才
日期:2017-02-22 15:14:12秀才
日期:2017-02-22 15:16:26秀才
日期:2017-02-22 15:18:00秀才
日期:2017-03-01 13:53:39秀才
日期:2017-03-20 13:42:20秀才
日期:2017-03-27 17:52:06秀才
日期:2017-03-28 15:11:09秀才
日期:2017-03-28 15:59:38
12#
发表于 2016-6-1 11:41 | 只看该作者
对大数据分析的项目来说,技术往往不是最关键的,关键在于谁的生态系统更强,技术上一时的领先并不足以保证项目的最终成功。
虽然说开源软件因为其强大的成本优势而拥有极其强大的力量,但是传统数据库厂商仍会尝试推出性能、稳定性、维护服务等指标上更加强大的产品与之 进行差异化竞争,并同时参与开源社区、借力开源软件来丰富自己的产品线、提升自己的竞争力,并通过更多的高附加值服务来满足某些消费者需求。毕竟,这些厂 商往往已在并行数据库等传统领域积累了大量的技术和经验,这些底蕴还是非常深厚的。总的来看,未来的大数据分析技术将会变得越来越成熟、越来越便宜、越来 越易用;相应的,用户将会更容易更方便地从自己的大数据中挖掘出有价值的商业信息。

使用道具 举报

回复
论坛徽章:
85
2015年中国系统架构师大会纪念徽章
日期:2015-09-17 11:10:00举人
日期:2015-09-21 16:42:17秀才
日期:2015-10-08 15:07:00秀才
日期:2015-10-08 17:57:58秀才
日期:2015-10-19 15:31:25秀才
日期:2015-10-19 15:36:25秀才
日期:2015-10-19 15:49:55秀才
日期:2015-10-19 15:50:39秀才
日期:2015-10-26 09:24:12举人
日期:2015-09-21 16:42:09
13#
发表于 2016-6-3 22:03 | 只看该作者
1:您第一个使用的分布式引擎是什么?目前还在用吗?为什么?
Hadoop,自学弄过,但是没有产品经验。
2:开源数据库厂商,相比传统数据库厂商,拥有那些优势呢?说说你对开源分布式引擎的未来展望。
开源数据库,有开源社区的支持,技术跟进更快,能够定制出适应特定应用场景的数据库产品。其次,能够自由获得源码,其策略确保了自由性,避免锁定某家公司或平台。
3:分析一下大数据与OLAP混合技术架构的优势和特点 ?
4:针对目前的大数据的4V特点,hadoop有哪些优势和弊端?
Hadoop是一个能够对大数据进行分布式存储和处理的软件框架,它具有高可靠性、高扩展、容错、高效、低成本的特点,
Hadoop的优点:
(1)高可靠性。Hadoop按位存储和处理数据的能力值得人们信赖;
(2)高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。
(3)高效性。Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。
(4)高容错性。Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。
Hadoop的缺点:
(1)不适合低延迟数据访问。
Hadoop设计的目的是大吞吐量,所以并没有针对低延迟数据访问做一些优化。
(2)无法高效存储大量小文件。
由于NameNode把文件的MetaData存储在内存中,所以大量的小文件会产生大量的MetaData。。
(3)不支持多用户写入及任意修改文件。
Hadoop现在还不支持多人写入,任意修改的功能,每次写入都会添加在文件末尾。
现在我个人觉得Spark挺火的。Hadoop是非常耗费计算资源的,与Hadoop相比,Spark真正的优势在于速度,Spark的大部分操作都是在内存中,而Hadoop的MapReduce系统会在每次操作之后将所有数据写回到物理存储介质上。

使用道具 举报

回复
求职 : SAP实施
论坛徽章:
261
土豪章
日期:2018-07-10 16:19:05ITPUB18周年纪念章
日期:2018-09-17 10:09:49ITPUB18周年纪念章
日期:2018-09-17 10:12:57妮可·罗宾
日期:2018-10-28 13:07:10ITPUB18周年纪念章
日期:2018-11-13 15:31:24ITPUB18周年纪念章
日期:2018-11-13 15:40:4519周年集字徽章-庆
日期:2019-09-06 18:30:1219周年集字徽章-19
日期:2021-02-03 16:43:4820周年集字徽章-年	
日期:2023-07-21 18:25:26
14#
发表于 2016-6-28 09:05 | 只看该作者
支持  

使用道具 举报

回复

您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

TOP技术积分榜 社区积分榜 徽章 团队 统计 知识索引树 积分竞拍 文本模式 帮助
  ITPUB首页 | ITPUB论坛 | 数据库技术 | 企业信息化 | 开发技术 | 微软技术 | 软件工程与项目管理 | IBM技术园地 | 行业纵向讨论 | IT招聘 | IT文档
  ChinaUnix | ChinaUnix博客 | ChinaUnix论坛
CopyRight 1999-2011 itpub.net All Right Reserved. 北京盛拓优讯信息技术有限公司版权所有 联系我们 未成年人举报专区 
京ICP备16024965号-8  北京市公安局海淀分局网监中心备案编号:11010802021510 广播电视节目制作经营许可证:编号(京)字第1149号
  
快速回复 返回顶部 返回列表