楼主: interstage

[精华] OLAP工具毁了商业智能

[复制链接]
论坛徽章:
181
慢羊羊
日期:2015-03-04 14:19:442015年新春福章
日期:2015-03-06 11:57:31
241#
发表于 2007-5-18 09:25 | 只看该作者
OLAP(联机分析处理)。

什么是联机分析处理(OLAP)

联机分析处理 (OLAP) 的概念最早是由关系数据库之父E.F.Codd于1993年提出的,他同时提出了关于OLAP的12条准则。OLAP的提出引起了很大的反响,OLAP作为一类产品同联机事务处理 (OLTP) 明显区分开来。

当今的数据处理大致可以分成两大类:联机事务处理OLTP(on-line transaction processing)、联机分析处理OLAP(On-Line Analytical Processing)。OLTP是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如银行交易。OLAP是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。下表列出了OLTP与OLAP之间的比较。



OLTPOLAP用户操作人员,低层管理人员决策人员,高级管理人员功能日常操作处理分析决策DB 设计面向应用面向主题数据当前的, 最新的细节的, 二维的分立的历史的, 聚集的, 多维的集成的, 统一的存取读/写数十条记录读上百万条记录工作单位简单的事务复杂的查询用户数上千个上百个DB 大小100MB-GB100GB-TB
OLAP是使分析人员、管理人员或执行人员能够从多角度对信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。OLAP的目标是满足决策支持或者满足在多维环境下特定的查询和报表需求,它的技术核心是"维"这个概念。

“维”是人们观察客观世界的角度,是一种高层次的类型划分。“维”一般包含着层次关系,这种层次关系有时会相当复杂。通过把一个实体的多项重要的属性定义为多个维(dimension),使用户能对不同维上的数据进行比较。因此OLAP也可以说是多维数据分析工具的集合。

OLAP的基本多维分析操作有钻取(roll up和drill down)、切片(slice)和切块(dice)、以及旋转(pivot)、drill across、drill through等。

·钻取是改变维的层次,变换分析的粒度。它包括向上钻取(roll up)和向下钻取(drill down)。roll up是在某一维上将低层次的细节数据概括到高层次的汇总数据,或者减少维数;而drill down则相反,它从汇总数据深入到细节数据进行观察或增加新维。
·切片和切块是在一部分维上选定值后,关心度量数据在剩余维上的分布。如果剩余的维只有两个,则是切片;如果有三个,则是切块。
·旋转是变换维的方向,即在表格中重新安排维的放置(例如行列互换)。
OLAP有多种实现方法,根据存储数据的方式不同可以分为ROLAP、MOLAP、HOLAP。

ROLAP表示基于关系数据库的OLAP实现(Relational OLAP)。以关系数据库为核心,以关系型结构进行多维数据的表示和存储。ROLAP将多维数据库的多维结构划分为两类表:一类是事实表,用来存储数据和维关键字;另一类是维表,即对每个维至少使用一个表来存放维的层次、成员类别等维的描述信息。维表和事实表通过主关键字和外关键字联系在一起,形成了"星型模式"。对于层次复杂的维,为避免冗余数据占用过大的存储空间,可以使用多个表来描述,这种星型模式的扩展称为"雪花模式"。

MOLAP表示基于多维数据组织的OLAP实现(Multidimensional OLAP)。以多维数据组织方式为核心,也就是说,MOLAP使用多维数组存储数据。多维数据在存储中将形成"立方块(Cube)"的结构,在MOLAP 中对"立方块"的"旋转"、"切块"、"切片"是产生多维数据报表的主要技术。

HOLAP表示基于混合数据组织的OLAP实现(Hybrid OLAP)。如低层是关系型的,高层是多维矩阵型的。这种方式具有更好的灵活性。

还有其他的一些实现OLAP的方法,如提供一个专用的SQL Server,对某些存储模式(如星型、雪片型)提供对SQL查询的特殊支持。

OLAP工具是针对特定问题的联机数据访问与分析。它通过多维的方式对数据进行分析、查询和报表。维是人们观察数据的特定角度。例如,一个企业在考虑产品的销售情况时,通常从时间、地区和产品的不同角度来深入观察产品的销售情况。这里的时间、地区和产品就是维。而这些维的不同组合和所考察的度量指标构成的多维数组则是OLAP分析的基础,可形式化表示为(维1,维2,……,维n,度量指标),如(地区、时间、产品、销售额)。多维分析是指对以多维形式组织起来的数据采取切片(Slice)、切块(Dice)、钻取(Drill-down和Roll-up)、旋转(Pivot)等各种分析动作,以求剖析数据,使用户能从多个角度、多侧面地观察数据库中的数据,从而深入理解包含在数据中的信息。

根据综合性数据的组织方式的不同,目前常见的OLAP主要有基于多维数据库的MOLAP及基于关系数据库的ROLAP两种。MOLAP是以多维的方式组织和存储数据,ROLAP则利用现有的关系数据库技术来模拟多维数据。在数据仓库应用中,OLAP应用一般是数据仓库应用的前端工具,同时OLAP 工具还可以同数据挖掘工具、统计分析工具配合使用,增强决策分析功能。

使用道具 举报

回复
论坛徽章:
0
242#
发表于 2007-5-18 09:26 | 只看该作者

大家都上当了

除了 interstage 发的,别人的我都认真看了。

使用道具 举报

回复
论坛徽章:
181
慢羊羊
日期:2015-03-04 14:19:442015年新春福章
日期:2015-03-06 11:57:31
243#
发表于 2007-5-18 09:28 | 只看该作者
ROLAP表示基于关系数据库的OLAP实现(Relational OLAP)。以关系数据库为核心,以关系型结构进行多维数据的表示和存储。ROLAP将多维数据库的多维结构划分为两类表:一类是事实表,用来存储数据和维关键字;另一类是维表,即对每个维至少使用一个表来存放维的层次、成员类别等维的描述信息。维表和事实表通过主关键字和外关键字联系在一起,形成了"星型模式"。对于层次复杂的维,为避免冗余数据占用过大的存储空间,可以使用多个表来描述,这种星型模式的扩展称为"雪花模式"。

使用道具 举报

回复
论坛徽章:
181
慢羊羊
日期:2015-03-04 14:19:442015年新春福章
日期:2015-03-06 11:57:31
244#
发表于 2007-5-18 09:33 | 只看该作者
BO的微CUBE
Business Objects(BO)是集查询、报表和OLAP技术为一身的智能决策支持系统。它使用独特的“语义层”技术和“动态微立方”技术来表示数据库中的多维数据,具有较好的查询和报表功能,提供钻取(Drill)等多维分析技术,支持多种数据库,同时它还支持基于Web浏览器的查询、报表和分析决策。虽然BO 在不断增加新的功能,但从严格意义上说,BO只能算是一个前端工具

使用道具 举报

回复
论坛徽章:
0
245#
发表于 2007-5-18 09:56 | 只看该作者
最初由 interstage 发布
[B]

老大,你还是没理解我的”抛砖引玉“的BI实施方式:
1.抛砖: 咨询专家出业务模型,IT部门+SI用BI实现业务模型,这就是BI的"抛砖"项目结束了.SI拿到项目集成开发费用,专家拿到咨询费.
2,引玉:这块砖开始让业务部门去用,他们会在这块砖应用中,根据企业的本身特点想出很多玉,SI+IT部门支撑想玉过程中的数据模型工作,SI开始收服务支持费用了.

这样的模式,SI会觉得不爽吗,笑死都来不及.目前的BI模式,SI才会死掉, 永远收不到尾款,还老是免费提供一个人在里面.

后面的玉谁在引,只有业务部门,只要这个企业业务部门存在,他们自然会连续的引玉,SI和咨询专家是引不出玉,因为他们不懂业务人员的实际情况. [/B]


你认为目前的国内哪个用户会给你服务费?厂商又有几个懂用户的业务模型的?
你说的也许将来可能实现,但是至少在现在的国内是很难行的通的。

使用道具 举报

回复
论坛徽章:
1
数据库板块每日发贴之星
日期:2007-05-18 01:03:20
246#
 楼主| 发表于 2007-5-18 13:03 | 只看该作者

Re: 大家都上当了

最初由 thrips 发布
[B]除了 interstage 发的,别人的我都认真看了。 [/B]


看来拍砖的人越来越多,欢迎讨论,但不要人身攻击,做人要厚道点,居然出现ITPUB的注册用户无耻盗版我的文章的现象.

我就技术层面对OLAP技术本身(不涉及产品,一涉及到产品,就有推销之嫌疑,做人真累))的趋势做出自己的看法:
.ROLAP,MOLAP,HOLAP就这3个技术来讲,因为HOLAP技术就是低层用ROLAP技术,数据颗粒细化,放入RDB中,这样数据量非常大;而汇总层用MOLAP技术,多维数据明确,算法众多,CUBE运算可以实现. 为什么会出现HOLAP技术,就是做穿透式钻取有问题,当在汇总的CUBE做各角度分析时,如果需要更细化的数据来做分析,就需要做穿透式钻取,这样MOLAP的问题就无法解决,需要ROLAP来实现. 因此我们不过在技术层面讨论HOLAP,只要讨论ROLAP和MOLAP的技术上存在的问题就可以了,MOLAP是以多维的方式组织和存储数据,ROLAP则利用现有的关系数据库技术来模拟多维数据。那在技术上,ROLAP有什么问题吗,主要有2点:
1.ROLAP的数据基础是RDB,RDB经典的"时间与空间"矛盾时刻存在,就是在技术人员眼中的"查询和更新(insert,delete,update)"的矛盾,就是在做select的时候,RDB希望数据颗粒要大(最好一次IO能读64K以上),而做update的时候,RDB又希望数据颗粒要小; 这样的矛盾是不可避免的. 所以从ROLAP来看技术上最大的问题是大数据量即席查询的问题,如果大数据量即席查询的问题能解决,我们就可以把整个DW看成一个大CUBE,这样很多问题会解决.
2,所谓分析,必要需要角度,在技术上就是多维的概念,而ROLAP是利用星型等数据模型逻辑上模拟了多维数据,不如MOLAP直接通过物理上的CUBE来的直接,就一个实际CUBE包含的数据量(一般10G左右)范围内来做查询和运算,MOLAP在这2方面都领先于ROLAP,当然当数据量远远大于CUBE所能承受的范围,MOLAP又不如ROLAP了.

以上的问题,就是在BI项目早期内(一般是BI第1-2期中), 用户更喜欢采用MOLAP,因为CUBE直接了当,多维角度直观明确,每个CUBE都包含着业务模型的价值,所以这就是目前BI市场上对MOLAP产品比较亲赖,导致连BO这样原来没有MOLAP技术的公司,也做了个类CUBE,说自己支持MOLAP技术(不好意思,又谈产品公司).

而看完了ROLAP技术的问题,MOLAP在技术上又有什么问题,其实MOLAP的问题更大,主要体现在2点:
1,CUBE的方式受制于一个主题的业务模型,汇总数据有限,但主题汇总性分析可以,但跨CUBE之间的分析比较痛苦,在汇总性分析(就是现在使用的分析性BI)往下做细节性分析(就是现在特别关注的操作性BI),MOLAP本身无法实现,需要借助于ROLAP.
2,每个CUBE所定义基于主题式的业务模型相对固化,便于做日常统计,限制了分析者(人)极大思维,这样BI项目就变成了日常统计了.让用户感觉上了BI系统的当了.目前BI实施只能以主题式的业务模型是行业最先进的模型来告诉客户,希望客户努力学习这些业务模型中所包含的管理思路(陷入了ERP失败一样的误区).

以上的问题,就是在BI项目后期内(一般是BI第3-4期), 用户对细节分析的要求越来越高,IT部门对物理上管理越来越多的CUBE越的非常厌烦了,所以以DW为思路的ROLAP技术被推崇了,这也是当时为什么HYPERION会收购BRIO的关键,也是MSR只有ROLAP技术却能卖不错的关键(因为它进来中国的时候,MOLAP的市场已经成熟,用户转向ROLAP了)

以上就是在ROLAP和MOLAP技术上最大的问题. 其实INMON在定义DW,已经看到了这些问题,所以提出了MD和CIF的DW模式,数据集市的DW和EDW(相对应MOLAP和ROLAP的技术), 这也是目前BI实施者经验越丰富越希望做CIF的EDW而却轻视MD的DW关键.

看来这些问题了,我们就非常清晰的知道OLAP技术的未来趋势(就是解决这个问题的道路,但最无耻的是厂商们知道这个问题和解决方向,但不直接告诉我们,却以应用方向概念炒作,出现什么新名字,比如IBM有出了一个叫什么动态式的数据仓库,然后配合简单问题复杂化的架构来迷惑用户,让技术人员忙着学他们自定义复杂化的架构,而忽视问题的实质),OLAP技术上的未来趋势就是:
1,改变RDB的行存储方式,单独为查询做列存储的DB,实现即席查询,你连即席查询都很快实现,这些多维角度完全可以以星型,雪花型等逻辑模拟出来,本来这个技术只有SYBASE IQ有(还有就是teradata的专用硬件也可以),但他们由于市场的关系,一直没说出来或者说明白,没被接受,但今年随着ORACLE 列存储技术的出现,以ORACLE 在市场的领导定位,用户开始会接受. 这样就解释了ORACLE收购HYPERION的理由了,他主要不是为了ESSBASE(当然近期还是会给它带来销售额),他是为了基于ESSBASE上的这些模型(由很多成功验证的行业模型),把这些模型放入新的以行存储方式DB后,配合ROLAP技术的BRIO,将是非常可怕的.这种方式,最大的受害者是COGNOS(REPORTNET出来太晚了),接着是MSR,最后才是BO.所以MOLAP的退出成为必然,因为它的出现就是当时RDB"时间和空间"的经典矛盾出来的.
2,用"松偶合"理论把EDW和OLAP前端分解,OLAP的报表展现部分将会趋于MS Excel或者基于浏览器的标准报表工具(就看GOOGLE).而OLAP多维角度和EDW的数据模型的结合以"松偶合"理论配合验证行业业务模型(这就是MOLAP最大的历史贡献),让业务人员和IT部门分开定义多维,这样业务部门分析是依靠IT部门的拐杖将会丢弃,企业共同分析的模式将出现,业务人员用OLAP分析,而市场部门用数据挖掘的时代会到来.
3,解决结构化数据分析(RDB更多的是度量值存放)的同时,将以非结构化数据分析将会应用(主要是BI前端+XML数据库)的方式,配合搜索引擎,结合算法,实现文本分析和文本挖掘.



这就是为了解决技术问题而引出的趋势,但在宣传中,他们不会这样说,会告诉我们什么分析性BI向操作性BI转变,直适应式的数据仓库等等. 其实这些趋势就是技术补丁.

以上就是我去OLAP技术的认知,欢迎拍砖,谢谢!!

使用道具 举报

回复
论坛徽章:
1
数据库板块每日发贴之星
日期:2007-05-18 01:03:20
247#
 楼主| 发表于 2007-5-18 13:13 | 只看该作者
最初由 amzon 发布
[B]

你认为目前的国内哪个用户会给你服务费?厂商又有几个懂用户的业务模型的?
你说的也许将来可能实现,但是至少在现在的国内是很难行的通的。 [/B]


老大,卖东西和做项目是一样,都是告诉用户未来的前景,现在我们先抛砖吧,让业务人员学习学习,搞点什么使用大奖赛,成立一个由业务人员和IT部门组成的数据研究部门等等.

这不是在骗客户,是在帮客户,真实的告诉他们目前的情况.

这个比目前传统的BI实施项目,一开始效果很好,听的人热血起来,实施完后业务人员很不满意,让用户感觉上当要好的多.

你说对吗,现在完全达不到没关系,往这个方向努力就行.

使用道具 举报

回复
论坛徽章:
1
数据库板块每日发贴之星
日期:2007-05-18 01:03:20
248#
 楼主| 发表于 2007-5-18 13:25 | 只看该作者
最初由 bireport 发布
[B]炒做贴,鉴定完毕。
大家的回复都是认真的,除了interstage。
虽然炒做,私下认为对于interstage产品的知名度还是有好处的。 [/B]


有炒做interstage之嫌疑,我没疑义.但是为什么说我不认真.

是不是我谈技术和逻辑的时候,喜欢用文学化的语言来描述,你感觉不符合技术描述语言的严谨和简易,对吗. 如果是这样,我只能说抱歉了,因为,我谈技术就是喜欢用文学语言来描述,但你放心,我对技术治学态度还是严谨的,逻辑上也算严谨,对技术定义的描述时,还是会查GOOGLE来验证一下的.

使用道具 举报

回复
论坛徽章:
0
249#
发表于 2007-5-18 13:25 | 只看该作者
BI=(OLTP)DB+ETL+[ODS]+DW+[DataMart]+[OLAP]+[DM]+[DSS]+REPORT+[EIS]+[...]
方括号里的东东为可选项
BI是个概念,BI是个框架,BI是个解决方案
那种方案适合那种情况,伟大毛主席还说看菜吃饭,量体裁衣
BI一个层面之内有这样工具,那样工具,你可以选
BI一个层面到BI另一个层面你可以选择要不要经过这个层面,或者是选择饶过去
很难说一个工具就毁了整个领域的发展
不过赞同楼主的方法论,虽然说业务人员参与设计有点不现实,指望业务人员能用好就很不容易了...

使用道具 举报

回复
论坛徽章:
1
数据库板块每日发贴之星
日期:2007-05-18 01:03:20
250#
 楼主| 发表于 2007-5-18 13:28 | 只看该作者
我不喜欢在这个贴里面,把什么是OLAP的定义汇总抄一边,就放上来,这个贴不是培训什么是OLAP,而是讨论的贴,希望BIERS把自己想法写出来.

使用道具 举报

回复

您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

TOP技术积分榜 社区积分榜 徽章 团队 统计 知识索引树 积分竞拍 文本模式 帮助
  ITPUB首页 | ITPUB论坛 | 数据库技术 | 企业信息化 | 开发技术 | 微软技术 | 软件工程与项目管理 | IBM技术园地 | 行业纵向讨论 | IT招聘 | IT文档
  ChinaUnix | ChinaUnix博客 | ChinaUnix论坛
CopyRight 1999-2011 itpub.net All Right Reserved. 北京盛拓优讯信息技术有限公司版权所有 联系我们 未成年人举报专区 
京ICP备16024965号-8  北京市公安局海淀分局网监中心备案编号:11010802021510 广播电视节目制作经营许可证:编号(京)字第1149号
  
快速回复 返回顶部 返回列表