请
登录
后使用快捷导航
没有帐号?
注册
登录
注册
快捷导航
首页
论坛
BBS
博客
技术栈
ITPUB学院
名人堂
版主团
搜索
高级搜索
热搜:
oracle
SAP
sap
二维码
dba
Oracle
c++
C++
CRM
银联信息中心
比特币
小额贷款
贷款
crm
ORACLE
项目管理系统
thread
android
python
java
本版
文章
帖子
用户
ITPUB论坛-专业的IT技术社区
»
论坛
›
≡ 大数据与数据库 ≡
›
数据仓库与数据挖掘
›
关于数据维度的思考。。。
1
2
3
4
5
/ 5 页
下一页
返回列表
楼主:
supkim
收藏
|
[精华]
关于数据维度的思考。。。
[复制链接]
chenghy
chenghy
当前离线
积分
101
IP卡
狗仔卡
论坛徽章:
0
11
#
发表于 2002-6-28 14:07
|
只看该作者
我现在就在做主题设计,但也弄不懂具体是怎么确定,
我们根据客户要分析的数据,来设计主题。由于客户提出的分析数据是比较散乱的,所以有我们主要工作就是把他们归类到各个主题中。不知道其他高人是怎么处理主题设计的?
使用道具
举报
回复
显身卡
supkim
supkim
当前离线
积分
101
IP卡
狗仔卡
论坛徽章:
0
12
#
楼主
|
发表于 2002-7-1 10:31
|
只看该作者
这个东西因人而异,因事而异,因数据而异,不过都需要和客户方多沟通,否则很容易走弯路
使用道具
举报
回复
显身卡
justforit
justforit
当前离线
积分
101
IP卡
狗仔卡
论坛徽章:
4
13
#
发表于 2002-7-1 10:54
|
只看该作者
supkim说得不错,针对不同的应用,主题往往是不同的
to chenghy:
CHINABYTE 有一篇文章,我转贴过来了
或许有点启发
NCR数据仓库系统在天津市统计局的应用
2002-05-20 09:27 /(ChinaByte )
--------------------------------------------------------------------------------
天津市统计局数据仓库项目于九九年五月初正式启动,先期规划主要完成两大子系统:企业微观数据仓库系统和人口信息数据仓库系统。
企业微观数据仓库
实现企业微观数据仓库的目的是把天津市统计局掌握的不同专业、不同时期、分散的企业微观数据信息,按照多个主题集中存储和管理在数据仓库中,灵活地、非常方便地实现固定的和随机动态的数据查询处理、综合分析和统计报表。根据统计信息自动化总体规划要求,这些查询、分析和报表功能以及今后统计人员的日常业务处理工作都需在Web上进行。
在实现数据仓库之前,天津市统计局已开发有企业微观数据库系统,受当时技术条件的限制,该系统的设计思路是按工业、建筑业、运输邮电业和批发零售贸易、餐饮业等不同专业分别建模,每个专业都对应独立的一套数据存储表和管理字典,共性数据依照专业被进行分割、分别进行存储,这样做虽然数据管理条理清楚,安全性能好,查询方式易于接受但存在的问题是查询方式不够灵活,不同专业的指标横向比较困难,难以实现产、供、销等企业生产各个阶段数据的一条龙分析研究。同时受软件条件限制,无法实现WEB方式查询且速度较慢。数据仓库是面向主题建模,在进行设计的时候,我们就将企业微观数据仓库设计成面向以下主题:
企业基本情况:各年度、各专业统计调查单位基本情况名录的主要内容及全部标识性内容。
企业财务状况:各年度、各专业企业的资产、经营投入、产出效益等财务经营状况。
企业劳动状况:各年度、各专业企业的就业人数及工资收入情况。
企业消耗状况:各年度、各专业企业生产所需的源材料及能源消耗情况,包括价值量和实物量消耗情况。
企业生产状况:各年度、各专业企业的主营生产情况。由于不同专业的生产方式不同,又下设若干子方面,及工业产品产销存情况,建筑业生产完成情况,公路、水运、港口企业生产完成情况,商业、餐饮业销售经营情况。
这样建模以后,不同年度、不同专业的同类数据被集中进行存储,如此一来,指标无论是横向比较还是纵向比较都非常容易,并且整个系统只需要维护一套数据字典。
数据建模是数据仓库设计中非常重要的一个环节,它包括逻辑建模和物理建模。在企业微观数据仓库系统中是利用ERWIN专业工具来建立模型,并形成相应的数据库结构。企业微观数据仓库的源数据是历年存储到微机上的数据,数据的格式、存储方式不尽相同,在加载到数据仓库之前,这些数据必须经过净化筛选、加工整理以及数据集成。利用NCR提供的FastLoad和其它工具,能方便地将经过处理的数据加载到NCR数据仓库里。目前企业微观数据仓库已存储2年各四个专业的历史数据,其它年度的数据正在整理当中。
应用开发的模式是基于目前流行的三层结构,即:后台是数据仓库,前台是Web服务器,客户端是浏览器。Brio Enterprise商业智能工具提供了很好的基于Web浏览器的查询、联机分析及报表功能,并且具有极高的安全性和严格的权限访问等级。企业微观数据仓库系统的前端应用都是基于Web方式开发,它具有:网上随机查询、网上多维分析、网上数据钻取、网上图形分析、网上表格旋转透视、网上多维报表等功能,并且操作方式都是拖拉方式,今后统计业务人员的月报、年报等数据处理都将可以在网上进行。数据仓库的好处、效益和威力发挥得淋漓尽致。
人口信息数据仓库
人口信息系统最大的特点是数据量大,每年的调查格式不近相同。以天津市人口统计数据为例,许多历年的、大量的人口调查原始资料多以纸介质、软盘、磁带等形式存储在资料库里,这些宝贵的资料,一方面面临外部环境对传统保存方式数据安全性的挑战,另一方面各业务部门和相关单位也有充分利用、进行数据挖掘的迫切需求。而数据仓库的应用,是一种最佳解决之道。
天津市人口约900万,第四次人口普查数据加上近十年的人口调查资料、劳动力情况调查资料和社区情况调查资料,原始数据量约10GB。针对人口系统的特点,在进行数据仓库设计时,面向主题设计了最佳数据模型和数据字典。人口数据的整理需要一定的时间,在本项目的实施过程中数据整理工作和数据加载工作同步进行。第四次人口普查900万条数据和90年至今近十年的抽样调查数据已全部加载到人口数据仓库。
人口信息数据大,对数据仓库引擎和数据加载工具有极高的性能要求。NCR的Teradata数据仓库是完全 并行的数据库,速度非常之快;NCR的FastLoad数据加载工具也是并行的,可以启动多个会话进程,加载900万人口数据仅需15分钟,这对其它数据库来说是不可想象的。
人口系统的应用特点是各年度的绝对调查指标之间缺少可比性,要对原始数据进行加工整理,在原始数据基础之上派生各种相对分析指标,如人口分布、年龄结构、生育结构、家庭结构、婚姻状况等以满足各年度之间的分析研究。考虑到通用性和便于统计业务人员进行分析,我们设计了一个通用的、功能强大的、灵活的派生数据模块,利用后台处理和Teradata快速的特点,能将原始数据生成相对通用的派生数据。派生数据已将指标代码转化成汉字属性,并计算和产生了许多新的属性字段,在派生数据基础之上,利用Brio工具,统计业务人员和人口研究人口可以随机产生各种报表,可以作各种各样的联机分析处理。
截止九九年七月底,在短短的不到三个月时间内,企业微观数据仓库系统和人口信息数据仓库系统已基本完成,并且马上产生了效益。随着数据的增加和进一步开发需要,下一步将使用OLAP服务器和进行数据挖掘处理;对于人口系统正在考虑与地理信息系统进行对接,数据仓库系统及其应用会向更高层次迈进。欲了解天津市统计局数据仓库系统应用具体细节,请参阅《天津市统计局企业微观数据仓库系统介绍》和《天津市统计局人口信息数据仓库系统介绍》。
http://www.chinabyte.com/20020520/1611837.shtml
使用道具
举报
回复
显身卡
cxgtommy
cxgtommy
当前离线
积分
101
IP卡
狗仔卡
论坛徽章:
0
14
#
发表于 2002-7-1 21:32
|
只看该作者
常识性错误,fastloader只能装载空表,不能追加或修改纪录,一般是初始化时候采用。multi loader或tpump可以追加或修改
不过这个项目以前没听说过,看样子主题不是很多,但这种地方的脏数据应该很多,不知道清洗花了多大功夫。
使用道具
举报
回复
显身卡
justforit
justforit
当前离线
积分
101
IP卡
狗仔卡
论坛徽章:
4
15
#
发表于 2002-7-2 08:39
|
只看该作者
不过这个项目以前没听说过,看样子主题不是很多,但这种地方的脏数据应该很多,不知道清洗花了多大功夫。
这个仓库应该是99年的东西,到现在也有一段时间,它说几个月就马上产生效益,比较佩服。不过文章中的主题搭建,至少有一些值得考虑的地方,也许可能更好一些,不知道现在做得如何。不过现在做得很完善的东西看到的不多
NCR的东西我没用过,呵呵,谢谢cxgtommy指出来
使用道具
举报
回复
显身卡
cxgtommy
cxgtommy
当前离线
积分
101
IP卡
狗仔卡
论坛徽章:
0
16
#
发表于 2002-7-2 18:30
|
只看该作者
karson是专家,我只是卖弄下我知道的部分
使用道具
举报
回复
显身卡
frank_fan
frank_fan
当前离线
积分
101
IP卡
狗仔卡
论坛徽章:
1
17
#
发表于 2003-10-15 11:40
|
只看该作者
简单的理解
维度是支持CUBE的N条边
使用道具
举报
回复
显身卡
Luoliu
Luoliu
当前离线
积分
101
IP卡
狗仔卡
论坛徽章:
0
18
#
发表于 2003-10-30 16:51
|
只看该作者
我的看法
我觉得维度就是事实数据的条件,一个CUBE就是一个主题分析,下钻和上卷就是如何来组织维度,比如时间维,可以组织成年、季度、月、旬、天、小时、分钟等,往下就是下钻,往上就是上卷。
另外yorgo朋友谈的只是话务分析分析的维度。
使用道具
举报
回复
显身卡
lvbin1978
lvbin1978
当前离线
积分
101
IP卡
狗仔卡
论坛徽章:
1
19
#
发表于 2003-10-31 10:24
|
只看该作者
(p[n],q[n],r,...)=f(x,y,z,p[n-1],q[n-2]...)
p,q就是用户需要观察的指标量,p[n]就是第n次p的观测结果;x,y,z就是可能影响这些指标的因素。
问题1:如何选择影响因素,去小存大...?
问题2:找出指标量...
问题多多...
使用道具
举报
回复
显身卡
wmcn
wmcn
当前离线
积分
101
IP卡
狗仔卡
论坛徽章:
0
20
#
发表于 2003-12-4 12:46
|
只看该作者
俺觉得建立维还是要建立在完全了解客户的业务的基础上的,既要立足于现有数据,便于处理,又要按照客户的要求,使其将来可以自由的采掘。
使用道具
举报
回复
显身卡
1
2
3
4
5
/ 5 页
下一页
返回列表
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
注册
本版积分规则
发表回复
回帖后跳转到最后一页
浏览过的版块
MySQL及其它开源数据库
Oracle开发
Java入门与认证版
GPU高性能计算
Oracle电子文档
数据中心建设与设备采购
SAP相关文档
网络系统集成 【已迁移到IXPUB】
TOP
技术积分榜
社区积分榜
徽章
团队
统计
知识索引树
积分竞拍
文本模式
帮助
ITPUB首页
|
ITPUB论坛
|
数据库技术
|
企业信息化
|
开发技术
|
微软技术
|
软件工程与项目管理
|
IBM技术园地
|
行业纵向讨论
|
IT招聘
|
IT文档
ChinaUnix
|
ChinaUnix博客
|
ChinaUnix论坛
CopyRight 1999-2011 itpub.net All Right Reserved. 北京盛拓优讯信息技术有限公司版权所有
联系我们
未成年人举报专区
京ICP备16024965号-8
北京市公安局海淀分局网监中心备案编号:11010802021510 广播电视节目制作经营许可证:编号(京)字第1149号
快速回复
返回顶部
返回列表