ITPUB??ì3
新一届的微软MVP评选已经开始,欢迎各位推荐!
ITPUB论坛 » 数据仓库与数据挖掘 » 可能国内最大海量数据仓库 如何规划 高手请近

标题: [精华] 可能国内最大海量数据仓库 如何规划 高手请近
离线 itpub888
老会员



精华贴数 0
个人空间 0
技术积分 954 (1951)
社区积分 26 (6675)
注册日期 2004-10-12
论坛徽章:2
会员2007贡献徽章ITPUB新首页上线纪念徽章    
      

发表于 2006-9-29 21:50 
这么大的数据量在Dell 的服务器上跑也不行吗?

QUOTE:
最初由 denny 发布
这么大的数据量非要在PC上跑,肯定是要死的,依我看首先要解决速度问题, 按你现在每天最少2000万, 而增量更新一次就要2-3天的话(我估计是联机更新的,即数据库里可能有在处理的事务的情况下), 一个月后, 就最少有15天延迟了, 再一个月就30天多的延迟, 如果非要每天增量的话, 说明报告结果不能拖后太多, 2个月后你提供的结果很可能已经没那么强的时间效应了.
我很关心的是, 这2000万的数据能有2-3g, 但是不知道是否一定要把这些详细数据放到数据库里,除非是类似保险单,话费清单类无法汇总的数据, 否则汇总后会好很多.
另外, 如果时限性很强的话,还是要考虑ORACLE或者TERADATA, 否则早晚要死.
而时限不强, 如果微软能支持超大CUBE的话, 倒也可以, 但是依我看, 这种海量数据的出来并非微软能处理的, 不要强人所难, 除非你们公司和微软是关系单位.
而严格来说, 按你们的数据增长速度,1年1T差不多了, 到1T的时候, 恐怕如果说PC还能处理的话, 微软总裁都要来你们公司参观了.
目前全球最大的数据库,也不过30T左右吧, 2005年最大的才20T, 人家起码也是大型机一台, 你们这个容量,如果不是数据仓库设计问题的话, 弄个小型机不过分吧.





只看该作者    顶部
离线 wangyong23
一般会员



精华贴数 0
个人空间 0
技术积分 76 (20342)
社区积分 2 (28014)
注册日期 2005-10-29
论坛徽章:0
      
      

发表于 2006-9-30 09:05 
设计那么巨大的CUBE,就算有工具可以支持,比如Cognos的TRANSFORMer,Hyperion的ESSBASE等可以支持,那也是在一定硬件平台才可以。另外那么巨大的CUBE,访问它的效率怎么保证?1G的CUBE的访问时间就需要十来分钟,那300G就可想而知需要多少时间了。
提供一些参考意见:一就是减少对分析没有实际用处的维度,二就是拆分这个巨大的CUBE,比如按部门,地区,客户类型等等.三就是做一些什么负载均衡.CUBE的大少最好不要超过10G,超过访问速度慢,还可能出现各种各样的问题.最主要的是你让那些领导去用,领导要等那么久才能看见结果肯定会很不满意.


只看该作者    顶部
离线 liyihongcug
高级会员



精华贴数 1
个人空间 0
技术积分 9579 (124)
社区积分 1043 (931)
注册日期 2004-7-15
论坛徽章:8
会员2007贡献徽章铁扇公主授权会员2008年新春纪念徽章开发板块每日发贴之星数据库板块每日发贴之星
开发板块每日发贴之星ITPUB新首页上线纪念徽章    

发表于 2006-9-30 09:21 
目前是PC IBM 最强配置 2CPU 4G内存  scsi硬盘
基本呢达到pc体系结构极限

如果不是硬件问题,那只能是软件性能(microsoft cube)的问题。

当前前端展现工具不可能选择cognos,以后可以考虑。

关键是当初的(1年前)方案已经定下,现在不可能再改

目前的访问时间还可以接受,前端展现工具不可能选择cognos从我的角度是想要的,但是限于公司财政能力,可能boss不愿意


只看该作者    顶部
离线 itpub888
老会员



精华贴数 0
个人空间 0
技术积分 954 (1951)
社区积分 26 (6675)
注册日期 2004-10-12
论坛徽章:2
会员2007贡献徽章ITPUB新首页上线纪念徽章    
      

发表于 2006-9-30 10:17 
以下配置能满足你的要求吗?

Dell PowerEdge 6850
$10,779
http://configure.dell.com/dellst ... DGE6850_RECO_RELADV

QUOTE:
最初由 liyihongcug 发布
目前是PC IBM 最强配置 2CPU 4G内存  scsi硬盘
基本呢达到pc体系结构极限

如果不是硬件问题,那只能是软件性能(microsoft cube)的问题。

当前前端展现工具不可能选择cognos,以后可以考虑。

关键是当初的(1年前)方案已经定下,现在不可能再改





只看该作者    顶部
离线 wangyong23
一般会员



精华贴数 0
个人空间 0
技术积分 76 (20342)
社区积分 2 (28014)
注册日期 2005-10-29
论坛徽章:0
      
      

发表于 2006-9-30 10:24 
你理解错我的意思了,我个人觉得这个不是什么软件性能(microsoft cube)的问题,而本身设计的问题,100G的CUBE,就当作100G的数据,你在100M的局域网访问要多少时间??所以主要的是想办法让CUBE边小.这样速度才有保证.如果不减少CUBE的数据量,别的什么工具都不可能也解决这个问题,包括COGNOS并且是顶级配置的平台上.


QUOTE]最初由 liyihongcug 发布
目前是PC IBM 最强配置 2CPU 4G内存  scsi硬盘
基本呢达到pc体系结构极限

如果不是硬件问题,那只能是软件性能(microsoft cube)的问题。

当前前端展现工具不可能选择cognos,以后可以考虑。

关键是当初的(1年前)方案已经定下,现在不可能再改
[/QUOTE]


只看该作者    顶部
在线/呼叫 bq_wang
我想飞得更高!


精华贴数 18
个人空间 2403
技术积分 17546 (53)
社区积分 49801 (11)
注册日期 2002-2-7
论坛徽章:15
现任管理团队成员ITPUB元老授权会员生肖徽章2007版:牛ITPUB新首页上线纪念徽章 
      

发表于 2006-9-30 11:00 
硬件配置不能解决所有的问题的,关键还是在于SQLServer 本身的处理性能还有设计问题
两千万的数据不可怕,汇总完了一个月有个两千万就不错了,OLAP的性能估计也受限于SQLServer的性能


__________________
鸿图霸业谈笑中,不胜人生一场醉。厌倦江湖萌退意,不辞长作天涯人。
-------------------------------
MSN:baoqiangwang@hotmail.com
Mail:windboy@vip.sina.com  QQ:326444779
-------------------------------

-------------------------------




只看该作者    顶部
离线 yuhuilin
初级会员



精华贴数 0
个人空间 0
技术积分 2 (204479)
社区积分 0 (1071955)
注册日期 2006-8-14
论坛徽章:0
      
      

发表于 2006-10-1 22:26 
通过查证2005能够支持


只看该作者    顶部
离线 liyihongcug
高级会员



精华贴数 1
个人空间 0
技术积分 9579 (124)
社区积分 1043 (931)
注册日期 2004-7-15
论坛徽章:8
会员2007贡献徽章铁扇公主授权会员2008年新春纪念徽章开发板块每日发贴之星数据库板块每日发贴之星
开发板块每日发贴之星ITPUB新首页上线纪念徽章    

发表于 2006-10-2 19:24 
楼上朋友,可能数据规模是相当大的

1个月是9000万的记录(为方便计算,按1亿)
这样一年是12亿的数据(原始数据表),
经过etl工具整理,清洗之后 大概有7-8亿的数据


目前我整理的前6个月已经好几个亿,巨大的cube(在2000)运行比较慢 基本一次要几天


只看该作者    顶部
在线/呼叫 bq_wang
我想飞得更高!


精华贴数 18
个人空间 2403
技术积分 17546 (53)
社区积分 49801 (11)
注册日期 2002-2-7
论坛徽章:15
现任管理团队成员ITPUB元老授权会员生肖徽章2007版:牛ITPUB新首页上线纪念徽章 
      

发表于 2006-10-2 19:26 
你不会对上亿条记录直接进行cube处理吧


__________________
鸿图霸业谈笑中,不胜人生一场醉。厌倦江湖萌退意,不辞长作天涯人。
-------------------------------
MSN:baoqiangwang@hotmail.com
Mail:windboy@vip.sina.com  QQ:326444779
-------------------------------

-------------------------------




只看该作者    顶部
离线 liyihongcug
高级会员



精华贴数 1
个人空间 0
技术积分 9579 (124)
社区积分 1043 (931)
注册日期 2004-7-15
论坛徽章:8
会员2007贡献徽章铁扇公主授权会员2008年新春纪念徽章开发板块每日发贴之星数据库板块每日发贴之星
开发板块每日发贴之星ITPUB新首页上线纪念徽章    

发表于 2006-10-2 19:52 
事实上就是这样做的,而且还没有分区,目前还没有出现问题,但我(我是搞开发oracle出生的)有预感这样搞会出事的

所以选择3种道路同时施工,确保项目,发现数据仓库目前国内这方面经验还是极为匮乏,缺少书


上次听说好想cube 分区可以加快速度,不知道任何做


现在cube数据已经达到50G


只看该作者    顶部
相关内容


CopyRight 1999-2006 itpub.net All Right Reserved.
北京皓辰广域网络信息技术有限公司. 版权所有
E-mail:Webmaster@itpub.net
京ICP证:010037号 联系我们 法律顾问