查看: 25653|回复: 31

【大话IT】数据不再遥远——你对数据库平台架构知多少?

[复制链接]
论坛徽章:
8
2015年新春福章
日期:2015-04-22 09:15:50美羊羊
日期:2015-04-28 08:58:41暖羊羊
日期:2015-05-05 11:13:16慢羊羊
日期:2015-07-03 14:57:08目光如炬
日期:2016-06-05 22:00:002017金鸡报晓
日期:2017-01-10 15:25:58秀才
日期:2017-04-06 18:09:28秀才
日期:2017-05-09 11:37:55
跳转到指定楼层
1#
发表于 2016-8-18 14:20 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
话题背景:
马总说过这是一个DT的时代,一个从IT到DT转变的时代。确实这几年到处都能听到诸如“云计算”、“大数据”、“上云”的谈论,确实随着云计算的兴起,依托于相对低成本、高稳定性的云设施构建平台的成本越来越低,越来越多的公司都在推数据相关的平台、产品。如阿里、京东、百度、腾讯,以及一些打着大数据旗号的创业公司都有出自己的数据平台和产品,用户依托于平台确实大大降低了数据处理、使用的难度,降低了从数据挖掘价值的时间成本。于此同时,平台架构的变迁也成为备受关注的问题。

最近,和社区的同学对数据平台的发展题做了一些沟通,发现各自遇到的问题都类似,架构的变迁也有一定的相似性。所以今天,从数据&架构&应用三个方面聊下数据库平台架构相关的问题。


讨论问题:(以下三个问题,可任选您感兴趣的话题作答)
1.数据方面:如何进行模型分层?一般模型分层计算程序,以哪种语言为主?(请说出此种语言在数据架构方面较于其他语言的优势又哪些?)

2.架构方面:在架构过程中,一般以7点展开,如:a. 存储和计算都基于HIVE;b. GREENPLUM作为HIVE的“cache”存在,供用户做一些小数据的快查询,报表存储;c. 调度:和canaan框架进行整合,支持用户快速新增任务,并自动导入任务依赖;d. 主数据:保存了数据仓库元数据信息,供用户查询和系统内部各个模块交互;e. ACL:构建了数据仓库数据访问权限控制,包括用户权限申请、审批者审批、数据赋权等;f. 传输;g.监控:由于任务数量增长较快(2000+),运维已经是个问题此外,需花了较大精力做了可视化的工作:

您的工作,主要涉及以上哪几点?在架构过程中遇到的难点有哪些?

3.数据应用:数据一般以哪种形式,呈现给用户?技术上是通过哪些策略实现?


活动时间:2016年8月18日-2016年9月18日


活动奖励:

话题结束后,我们将选取5个优质回复,各赠送精选图书一本。

参与用户即可获得秀才徽章一枚!
=====================================================================

更有机会获得SACC 2016大会门票一张哦~

这个秋天,和百位大咖约个会!

作为国内最受欢迎的架构师盛会,一年一度的中国系统架构师大会将于10月27-29日在北京万达索菲特大饭店撼世来袭!
大会以"架构创新之路"为主题,云集了国内外顶尖专家,共同探讨云计算和大数据等技术背景下,如何通过架构创新及各种IT新技术来带动企业转型增效。本届大会共设置两个主场分享时段,24个技术交流专场时段;邀请来自互联网、电子商务、金融、电信、政府、行业协会等20多个领域,150多位技术专家及行业领袖来分享他们的经验;并将吸引4000多名系统运维、架构师、及各种企业的IT决策人士参会,为他们提供最具价值的交流平台。

【大会详情】


官网链接:http://sacc.it168.com/

欢迎扫码关注SACC官方微信,获取最新信息!



论坛徽章:
57
ITPUB15周年纪念
日期:2016-10-13 13:15:342017金鸡报晓
日期:2017-01-10 15:39:052017金鸡报晓
日期:2017-02-08 14:09:13秀才
日期:2017-02-22 15:14:12秀才
日期:2017-02-22 15:16:26秀才
日期:2017-02-22 15:18:00秀才
日期:2017-05-09 11:37:55秀才
日期:2017-07-11 14:19:35ITPUB18周年纪念章
日期:2018-11-13 15:31:24
来自 2#
发表于 2016-8-18 15:24 | 只看该作者
1.数据方面:如何进行模型分层?一般模型分层计算程序,以哪种语言为主?(请说出此种语言在数据架构方面较于其他语言的优势又哪些?)
      这方面主要有两类:一类来源于传统数据仓库进行划分数据各层架构,通过ETL进行各层数据流流转,技术以数据库技术为主;另一类是互联网分布式数据库(hbase,hive),模型划分以业务场景灵活分层,主流程序以Java,Python为主,通过各种开源控件进行各层数据流管控。

2.架构方面:在架构过程中,一般以7点展开,如:a. 存储和计算都基于HIVE;b. GREENPLUM作为HIVE的“cache”存在,供用户做一些小数据的快查询,报表存储;c. 调度:和canaan框架进行整合,支持用户快速新增任务,并自动导入任务依赖;d. 主数据:保存了数据仓库元数据信息,供用户查询和系统内部各个模块交互;e. ACL:构建了数据仓库数据访问权限控制,包括用户权限申请、审批者审批、数据赋权等;f. 传输;g.监控:由于任务数量增长较快(2000+),运维已经是个问题此外,需花了较大精力做了可视化的工作:

您的工作,主要涉及以上哪几点?在架构过程中遇到的难点有哪些?
   现应用到的点有: a, c,d, e,f,g
hive 这块数据更新存在一些困难,hive目前不支持update操作。数据格式转换有时会繁琐些(对各类数据库函数支持不是很好)。调度这块,我暂时用的是azkaban,可视化操作,比较简单,如有其他功能需求,需要自己二次开发。主数据,传输,监控这些,和实际场景联系比较紧密,目前正在完善中。

3.数据应用:数据一般以哪种形式,呈现给用户?技术上是通过哪些策略实现?
数据应用: BI报表,数据api接口,分析报告,开放查询端口等等

1人打赏

使用道具 举报

回复
论坛徽章:
24
授权会员
日期:2006-05-06 22:39:09技术图书徽章
日期:2013-12-11 10:12:13技术图书徽章
日期:2013-12-11 10:12:48路虎
日期:2014-01-26 14:35:49技术图书徽章
日期:2014-07-30 14:36:51海蓝宝石
日期:2014-08-06 14:09:322014年世界杯参赛球队: 俄罗斯
日期:2014-08-22 13:57:242014系统架构师大会纪念章
日期:2014-09-11 13:40:07itpub13周年纪念徽章
日期:2014-09-28 10:55:55优秀写手
日期:2014-09-29 06:00:12
来自 3#
发表于 2016-8-19 10:37 | 只看该作者
1.数据方面:如何进行模型分层?一般模型分层计算程序,以哪种语言为主?(请说出此种语言在数据架构方面较于其他语言的优势又哪些?)
答: 还不是特别理解这题问的意思;
       我们现在还是基于传统的数据仓库,所有业务数据抽取到数据仓库,在进行后续的处理; 主要的语言就是sql(plsql), 相对如java, python这些开发语言入门快点(当然后续提高其实更难),属于比较高阶抽象的语言,代码量比较少,和数据库无缝结合,出bug的量也比较少;

2.架构方面:在架构过程中,一般以7点展开,如:a. 存储和计算都基于HIVE;b. GREENPLUM作为HIVE的“cache”存在,供用户做一些小数据的快查询,报表存储;c. 调度:和canaan框架进行整合,支持用户快速新增任务,并自动导入任务依赖;d. 主数据:保存了数据仓库元数据信息,供用户查询和系统内部各个模块交互;e. ACL:构建了数据仓库数据访问权限控制,包括用户权限申请、审批者审批、数据赋权等;f. 传输;g.监控:由于任务数量增长较快(2000+),运维已经是个问题此外,需花了较大精力做了可视化的工作:

您的工作,主要涉及以上哪几点?在架构过程中遇到的难点有哪些?

答: 我的工作应该属于defg;
最大的难点就是如何引入目前流行的处理方法来改善及解决系统一些原来设计中的缺陷;

3.数据应用:数据一般以哪种形式,呈现给用户?技术上是通过哪些策略实现?

答: 我们前台通过几个系统给予展现, 两个BI系统(BIEE,cognos)针对不同的用户进行不同的处理及展现; 另外还有一个公司的门户,也会从提取数据然后自己处理展现;

使用道具 举报

回复
论坛徽章:
10
秀才
日期:2015-07-14 09:44:30秀才
日期:2015-08-17 13:13:142015年中国系统架构师大会纪念徽章
日期:2015-08-03 13:54:362014系统架构师大会纪念章
日期:2015-08-03 13:54:362013系统架构师大会纪念章
日期:2015-08-03 13:54:362012系统架构师大会纪念章
日期:2015-08-03 13:54:362011系统架构师大会纪念章
日期:2015-08-03 13:54:362010系统架构师大会纪念
日期:2015-08-03 13:54:362009架构师大会纪念徽章
日期:2015-08-03 13:54:36秀才
日期:2015-09-11 10:43:06
来自 4#
发表于 2016-8-29 09:01 | 只看该作者
1.数据方面:如何进行模型分层?一般模型分层计算程序,以哪种语言为主?(请说出此种语言在数据架构方面较于其他语言的优势又哪些?)
                从数据仓库 或 大数据平台 的角度来讲,数据的分层,大体有两种思路:
                a) 基础数据层:主要避免后续数据应用层的大变更。一般面向各业务系统或数据源集,利用业界较为先进的数据模型(如FS-LDM),
                   按数据的特性(即数据驱动)进行数据的整合,以形成相对稳定的基础数据模型层。
                b) 应用数据层:一般是面向各应用需求 或 业务用户,利用业界较为合理的数据模型理念(如星型\维度模型),
                   按需求的要求(即需求驱动)进行数据的分布,以形成统计方便、展示友好、满足需求的应用数据模型层。
               
                在数据流向 或 数据处理的过程中,所使用到的语言或方式可能更多的是以下两大类:
                a) 基于传统数据库:大多采用ETL的方式,进行数据的抽取、清洗、整合;这中间,可能会利用到类似DataStage,Kettle等工具,
                   用得最多的,可能就是各数据库提供的SQL语言了,SQL语言使用简单、方便、学习门槛较低,且易于掌握。
                b) 基于大数据平台:大多采用的开源的工具 或 语言,如Hive, Hbase , Spark,Python等。这里面,可能使用更多的是Hive 与 Python,
                   这两个工具学习简单,易于掌握,并且,进行数据处理时,也更直观、方便。

2.架构方面:在架构过程中,一般以7点展开,如:
a. 存储和计算都基于HIVE;
b. GREENPLUM作为HIVE的“cache”存在,供用户做一些小数据的快查询,报表存储;
c. 调度:和canaan框架进行整合,支持用户快速新增任务,并自动导入任务依赖;
d. 主数据:保存了数据仓库元数据信息,供用户查询和系统内部各个模块交互;
e. ACL:构建了数据仓库数据访问权限控制,包括用户权限申请、审批者审批、数据赋权等;
f. 传输;
g.监控:由于任务数量增长较快(2000+),运维已经是个问题此外,需花了较大精力做了可视化的工作:

您的工作,主要涉及以上哪几点?在架构过程中遇到的难点有哪些?

   架构方面,所列的7点,说实话,有点乱,从楼主的思路来看,可能是想了解以下的四大类:
   a) 大数据的计算处理
   b) 数据治理
   c) 数据安全
   d) 系统监控
   
   首先,我不认为Hive是一个数据库,我认为Hive是一个类似传统数据库的SQL引擎的工具,虽然Hive有自带的元数据存储库,但这个库里面,
   也只是存放了Hive工具为完成用户提交的请求而必须要的Hadoop的元数据信息 及两者的映射关系数据;并没有存放用户的任何数据,用户的
   数据还是存放在Hadoop或Hbase等文件系统或数据库中。
   
   关于作业的调度,可能各家企业,都会跟据自身的需求,自行开发 或 购买成熟的工具,比如:Control-M.
   
   关于数据治理:这是一个很大的话题,主要包括:元数据管理,主数据管理,数据标准,数据质量及检查 等几大主题。
   
   关于数据安全:权限体系依然是核心,审计是必要的手段。
   
   关于系统监控:系统的稳定运行,离不开完善的监控体系,而且监控必须实时、并具有预测性。
   
   其实,在这些工作中,最具难点的是:数据治理 与 系统监控 这两块。
   数据治理涉及面较广,牵涉人员较多(有IT,也有业务人员),沟通较为复杂,责任较难厘清。
   系统监控主要是预测性与实时性较难实现,预测性主要是人员的经验的体现 及 对业务系统的运行情况的掌握。
   而实时性主要是实施系统监控的工具本身可能就不具备实时性的性能及特性,总是只能达到一个准实时。



3.数据应用:数据一般以哪种形式,呈现给用户?技术上是通过哪些策略实现?
         数据应用主要分成两大类:
         a) 面向业务人员:一般是自行研发一个界面美观的WEB应用,调用业界成熟的工具(如MSTR,COGNOS)的API,实现数据展示给终端用户进行查看。
         b) 面向IT专业人员:一般是直接从数据库/文件系统中,借助SQL或其它的开源工具,直接查询、统计、分析、挖掘;这样会更直接、更方便。

---------------------------
以上仅个人观点

使用道具 举报

回复
论坛徽章:
836
状元
日期:2015-11-12 10:18:05榜眼
日期:2015-11-12 10:18:05探花
日期:2015-11-12 10:18:05进士
日期:2015-11-12 10:18:05举人
日期:2015-09-11 13:42:08秀才
日期:2015-09-17 09:11:05至尊黑钻
日期:2015-11-20 18:17:09紫钻
日期:2015-11-20 18:18:06粉钻
日期:2015-11-20 18:17:23绿钻
日期:2015-11-20 18:17:48
5#
发表于 2016-8-18 14:46 | 只看该作者
先顶再看再回答

使用道具 举报

回复
论坛徽章:
651
生肖徽章:鼠
日期:2014-07-24 09:00:11生肖徽章2007版:鼠
日期:2009-03-19 21:39:41股神
日期:2012-09-29 10:14:59红钻
日期:2012-11-30 10:49:33至尊黑钻
日期:2019-01-19 11:43:58季节之章:秋
日期:2012-04-23 12:44:40季节之章:秋
日期:2012-01-05 14:00:54季节之章:冬
日期:2011-07-11 18:30:40季节之章:冬
日期:2012-05-20 13:22:14NBA季后赛大富翁
日期:2018-06-13 16:07:24
6#
发表于 2016-8-18 20:39 | 只看该作者
参与用户即可获得秀才徽章一枚!

使用道具 举报

回复
论坛徽章:
571
NBA季后赛纪念徽章
日期:2012-06-25 12:19:11洛杉矶快船
日期:2014-06-16 11:45:27NBA常规赛纪念章
日期:2013-04-22 11:49:35NBA季后赛纪念徽章
日期:2011-06-13 11:34:51NBA常规赛纪念章
日期:2011-04-15 13:34:11NBA季后赛纪念徽章
日期:2013-06-21 14:52:05NBA常规赛纪念章
日期:2012-04-27 16:07:05生肖徽章:羊
日期:2014-08-15 14:12:01ITPUB9周年纪念徽章
日期:2016-10-28 17:00:11ITPUB9周年纪念徽章
日期:2016-10-28 17:00:11
7#
发表于 2016-8-19 08:19 | 只看该作者
1.数据方面:如何进行模型分层?一般模型分层计算程序,以哪种语言为主?(请说出此种语言在数据架构方面较于其他语言的优势又哪些?)
没有这个经验
2.架构方面:在架构过程中,一般以7点展开,如:a. 存储和计算都基于HIVE;b. GREENPLUM作为HIVE的“cache”存在,供用户做一些小数据的快查询,报表存储;c. 调度:和canaan框架进行整合,支持用户快速新增任务,并自动导入任务依赖;d. 主数据:保存了数据仓库元数据信息,供用户查询和系统内部各个模块交互;e. ACL:构建了数据仓库数据访问权限控制,包括用户权限申请、审批者审批、数据赋权等;f. 传输;g.监控:由于任务数量增长较快(2000+),运维已经是个问题此外,需花了较大精力做了可视化的工作:

您的工作,主要涉及以上哪几点?在架构过程中遇到的难点有哪些?
不是这行

3.数据应用:数据一般以哪种形式,呈现给用户?技术上是通过哪些策略实现?

使用道具 举报

回复
论坛徽章:
220
状元
日期:2015-08-13 09:42:33榜眼
日期:2015-08-03 13:57:54探花
日期:2015-07-31 13:44:02举人
日期:2015-07-01 15:00:51秀才
日期:2015-07-27 09:45:52进士
日期:2015-07-27 11:26:492015年中国系统架构师大会纪念徽章
日期:2015-07-23 09:58:092014系统架构师大会纪念章
日期:2015-07-23 09:58:092013系统架构师大会纪念章
日期:2015-07-23 09:58:092012系统架构师大会纪念章
日期:2015-07-23 09:58:09
8#
发表于 2016-8-19 08:44 | 只看该作者
我们做医疗设备控制软件的,暂时没有使用到大数据,分布式数据。数据量小,使用的还是关系数据库,SqlServer的免费版本。

使用道具 举报

回复
论坛徽章:
98
秀才
日期:2016-02-18 10:06:46山治
日期:2017-02-21 16:18:12秀才
日期:2017-02-22 15:14:12秀才
日期:2017-02-22 15:16:26秀才
日期:2017-02-22 15:18:00秀才
日期:2017-03-01 13:53:39秀才
日期:2017-03-20 13:42:20秀才
日期:2017-03-27 17:52:06秀才
日期:2017-03-28 15:11:09秀才
日期:2017-03-28 15:59:38
9#
发表于 2016-8-19 08:49 | 只看该作者
久违的徽章啊

使用道具 举报

回复
求职 : SAP实施
论坛徽章:
261
土豪章
日期:2018-07-10 16:19:05ITPUB18周年纪念章
日期:2018-09-17 10:09:49ITPUB18周年纪念章
日期:2018-09-17 10:12:57妮可·罗宾
日期:2018-10-28 13:07:10ITPUB18周年纪念章
日期:2018-11-13 15:31:24ITPUB18周年纪念章
日期:2018-11-13 15:40:4519周年集字徽章-庆
日期:2019-09-06 18:30:1219周年集字徽章-19
日期:2021-02-03 16:43:4820周年集字徽章-年	
日期:2023-07-21 18:25:26
10#
发表于 2016-8-19 13:56 | 只看该作者
1.数据方面:如何进行模型分层?一般模型分层计算程序,以哪种语言为主?(请说出此种语言在数据架构方面较于其他语言的优势又哪些?)
没有经验

2.架构方面:在架构过程中,一般以7点展开,如:a. 存储和计算都基于HIVE;b. GREENPLUM作为HIVE的“cache”存在,供用户做一些小数据的快查询,报表存储;c. 调度:和canaan框架进行整合,支持用户快速新增任务,并自动导入任务依赖;d. 主数据:保存了数据仓库元数据信息,供用户查询和系统内部各个模块交互;e. ACL:构建了数据仓库数据访问权限控制,包括用户权限申请、审批者审批、数据赋权等;f. 传输;g.监控:由于任务数量增长较快(2000+),运维已经是个问题此外,需花了较大精力做了可视化的工作:

您的工作,主要涉及以上哪几点?在架构过程中遇到的难点有哪些?
没做过这行

3.数据应用:数据一般以哪种形式,呈现给用户?技术上是通过哪些策略实现?

使用道具 举报

回复
论坛徽章:
176
20周年集字徽章-20	
日期:2020-10-28 14:31:21ITPUB十周年纪念徽章
日期:2011-11-01 16:24:04ITPUB 11周年纪念徽章
日期:2012-09-28 17:34:42ITPUB社区12周年站庆徽章
日期:2013-08-13 16:52:38itpub13周年纪念徽章
日期:2014-10-08 15:21:35ITPUB14周年纪念章
日期:2015-10-26 17:23:44ITPUB15周年纪念
日期:2018-02-09 14:12:58ITPUB18周年纪念章
日期:2018-09-17 10:09:4919周年集字徽章-庆
日期:2019-08-27 15:07:44状元
日期:2015-11-19 12:58:23
11#
发表于 2016-8-19 14:03 | 只看该作者
坐等大神来分享

使用道具 举报

回复

您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

TOP技术积分榜 社区积分榜 徽章 团队 统计 知识索引树 积分竞拍 文本模式 帮助
  ITPUB首页 | ITPUB论坛 | 数据库技术 | 企业信息化 | 开发技术 | 微软技术 | 软件工程与项目管理 | IBM技术园地 | 行业纵向讨论 | IT招聘 | IT文档
  ChinaUnix | ChinaUnix博客 | ChinaUnix论坛
CopyRight 1999-2011 itpub.net All Right Reserved. 北京盛拓优讯信息技术有限公司版权所有 联系我们 未成年人举报专区 
京ICP备16024965号-8  北京市公安局海淀分局网监中心备案编号:11010802021510 广播电视节目制作经营许可证:编号(京)字第1149号
  
快速回复 返回顶部 返回列表