楼主: buptdream

【话题讨论】如何去应对海量数据下的数据分析

[复制链接]
论坛徽章:
57
SQL极客
日期:2013-12-09 14:13:35秀才
日期:2016-01-21 13:42:39秀才
日期:2016-01-13 12:14:26SQL大赛参与纪念
日期:2016-01-13 10:32:19SQL数据库编程大师
日期:2016-01-13 10:30:43秀才
日期:2015-12-14 14:47:54秀才
日期:2015-10-19 15:50:392015年新春福章
日期:2015-03-06 11:58:18懒羊羊
日期:2015-03-04 14:52:11优秀写手
日期:2014-11-08 06:00:14
21#
发表于 2012-9-21 20:45 | 只看该作者
数据分析业务知识和数据逻辑是关键

使用道具 举报

回复
论坛徽章:
57
SQL极客
日期:2013-12-09 14:13:35秀才
日期:2016-01-21 13:42:39秀才
日期:2016-01-13 12:14:26SQL大赛参与纪念
日期:2016-01-13 10:32:19SQL数据库编程大师
日期:2016-01-13 10:30:43秀才
日期:2015-12-14 14:47:54秀才
日期:2015-10-19 15:50:392015年新春福章
日期:2015-03-06 11:58:18懒羊羊
日期:2015-03-04 14:52:11优秀写手
日期:2014-11-08 06:00:14
22#
发表于 2012-9-21 20:51 | 只看该作者
xgghxkhuang 发表于 2012-9-21 20:45
数据分析业务知识和数据逻辑是关键

目前也是用cognos开发报表

使用道具 举报

回复
论坛徽章:
2
ITPUB 11周年纪念徽章
日期:2012-10-09 18:09:19蜘蛛蛋
日期:2013-01-10 11:08:12
23#
发表于 2012-9-22 00:02 | 只看该作者
up

使用道具 举报

回复
论坛徽章:
57
SQL极客
日期:2013-12-09 14:13:35秀才
日期:2016-01-21 13:42:39秀才
日期:2016-01-13 12:14:26SQL大赛参与纪念
日期:2016-01-13 10:32:19SQL数据库编程大师
日期:2016-01-13 10:30:43秀才
日期:2015-12-14 14:47:54秀才
日期:2015-10-19 15:50:392015年新春福章
日期:2015-03-06 11:58:18懒羊羊
日期:2015-03-04 14:52:11优秀写手
日期:2014-11-08 06:00:14
24#
发表于 2012-9-23 18:20 | 只看该作者
据说淘宝选用的是greenplum数据库

使用道具 举报

回复
论坛徽章:
57
SQL极客
日期:2013-12-09 14:13:35秀才
日期:2016-01-21 13:42:39秀才
日期:2016-01-13 12:14:26SQL大赛参与纪念
日期:2016-01-13 10:32:19SQL数据库编程大师
日期:2016-01-13 10:30:43秀才
日期:2015-12-14 14:47:54秀才
日期:2015-10-19 15:50:392015年新春福章
日期:2015-03-06 11:58:18懒羊羊
日期:2015-03-04 14:52:11优秀写手
日期:2014-11-08 06:00:14
25#
发表于 2012-9-23 18:35 | 只看该作者
lianjie1229 发表于 2012-9-19 22:18
1:作为一名DBA或者架构师,你将如何去管理这些海量数据?普通的关系型数据库很难去满足这种压力,请谈谈自 ...

可以考虑一下mpp的架构,在mpp的情况下如果分布键的字段类型一致,大表join
可以在节点内完成,这样假设两张2亿的表,有40个pc节点,分担到一个节点就是500万的两张表关联,而且都是按照完全一样的分布键关联,由于数据已经按照分布键的hash数值排过序,所以hash join相当快。

使用道具 举报

回复
论坛徽章:
57
SQL极客
日期:2013-12-09 14:13:35秀才
日期:2016-01-21 13:42:39秀才
日期:2016-01-13 12:14:26SQL大赛参与纪念
日期:2016-01-13 10:32:19SQL数据库编程大师
日期:2016-01-13 10:30:43秀才
日期:2015-12-14 14:47:54秀才
日期:2015-10-19 15:50:392015年新春福章
日期:2015-03-06 11:58:18懒羊羊
日期:2015-03-04 14:52:11优秀写手
日期:2014-11-08 06:00:14
26#
发表于 2012-9-23 18:35 | 只看该作者
lianjie1229 发表于 2012-9-19 22:18
1:作为一名DBA或者架构师,你将如何去管理这些海量数据?普通的关系型数据库很难去满足这种压力,请谈谈自 ...

可以考虑一下mpp的架构,在mpp的情况下如果分布键的字段类型一致,大表join
可以在节点内完成,这样假设两张2亿的表,有40个pc节点,分担到一个节点就是500万的两张表关联,而且都是按照完全一样的分布键关联,由于数据已经按照分布键的hash数值排过序,所以hash join相当快。

使用道具 举报

回复
论坛徽章:
57
SQL极客
日期:2013-12-09 14:13:35秀才
日期:2016-01-21 13:42:39秀才
日期:2016-01-13 12:14:26SQL大赛参与纪念
日期:2016-01-13 10:32:19SQL数据库编程大师
日期:2016-01-13 10:30:43秀才
日期:2015-12-14 14:47:54秀才
日期:2015-10-19 15:50:392015年新春福章
日期:2015-03-06 11:58:18懒羊羊
日期:2015-03-04 14:52:11优秀写手
日期:2014-11-08 06:00:14
27#
发表于 2012-9-23 18:42 | 只看该作者
xgghxkhuang 发表于 2012-9-23 18:35
可以考虑一下mpp的架构,在mpp的情况下如果分布键的字段类型一致,大表join
可以在节点内完成,这样假设 ...

如果是oracle的话可以考虑分区智能连接
如果用不上,可以考虑连接字段中有无将数据平均分布的字段,按照它分区后,一对一对的分区关联最后将结果汇总,因为hash join是要将驱动表置于内存中计算hash桶的,所以虽然关联次数多了,但是如果驱动表由于次数分布占用的空间小了完全置于内存中反而会缩短总体时间。

使用道具 举报

回复
论坛徽章:
67
现任管理团队成员
日期:2012-06-02 02:10:00ITPUB元老
日期:2012-09-12 14:06:14ITPUB社区千里马徽章
日期:2013-06-09 10:15:34季节之章:冬
日期:2012-09-04 11:05:30季节之章:春
日期:2012-09-05 09:20:36优秀写手
日期:2013-12-18 09:29:09马上有房
日期:2014-04-10 13:35:362014年新春福章
日期:2014-04-14 09:54:08马上有车
日期:2014-02-28 16:43:13马上加薪
日期:2014-02-19 11:55:14
28#
发表于 2012-9-24 14:37 | 只看该作者
buptdream 也出来说两句呢

使用道具 举报

回复
论坛徽章:
1
奥运会纪念徽章:皮划艇激流回旋
日期:2012-09-24 21:38:26
29#
发表于 2012-9-24 21:35 | 只看该作者
本帖最后由 thy84919 于 2012-9-24 21:42 编辑

1:作为一名DBA或者架构师,你将如何去管理这些海量数据?普通的关系型数据库很难去满足这种压    力,请谈谈自己的想法。
海量数据不一定是常用查询数据,所以放在以空间换取时间的数据仓库中,通过优化硬件,配置等满足不常用的查询。对于常用的查询通常不会使用到大而全的全部数据,所以以查询主题来建立不同需求的数据集市,面对不同的需求和达到一个合理的响应时间,甚至一些工具开始对轻量级的数据进行内存中的管理,其实这些自己感觉是对大数据的细化应用。
2:你看好大数据环境下的数据分析行业吗?谈谈自己对数据分析未来的想法。
看好,但是更加看好对于大环境数据下中的有用数据提取
3:你接触或者使用过哪些数据分析工具?他们在数据分析方面有什么优缺点。
MS,oracle,QV,spotfile, 好坏各有,只是针对不同的人群和需求而已,通常一个工具的优点在不同的需求下会变成缺点,同时一个缺点也可能会变成优点
4:淘宝网每天需要对PB级的数据进行加载分析,这些海量数据在存储方式,访问,分配,数据传输的带宽瓶颈,海量数据的计算都将面临一些困难,请谈谈自己在海量数据加载分析方面相关问题的一些想法。
没有碰到过这么大数据量的项目
是否可以通过分布式存储将数据存在不同的网络服务服务器上。具体想法没有,哈哈!!

使用道具 举报

回复
论坛徽章:
2
ITPUB 11周年纪念徽章
日期:2012-10-09 18:11:48
30#
发表于 2012-9-29 11:07 | 只看该作者
xgghxkhuang 发表于 2012-9-23 18:42
如果是oracle的话可以考虑分区智能连接
如果用不上,可以考虑连接字段中有无将数据平均分布的字段,按照 ...

谢谢你的回答。
已采用HASH 分区后单分区处理,总时间是原来的1/3,方法很好使。

使用道具 举报

回复

您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

TOP技术积分榜 社区积分榜 徽章 团队 统计 知识索引树 积分竞拍 文本模式 帮助
  ITPUB首页 | ITPUB论坛 | 数据库技术 | 企业信息化 | 开发技术 | 微软技术 | 软件工程与项目管理 | IBM技术园地 | 行业纵向讨论 | IT招聘 | IT文档
  ChinaUnix | ChinaUnix博客 | ChinaUnix论坛
CopyRight 1999-2011 itpub.net All Right Reserved. 北京盛拓优讯信息技术有限公司版权所有 联系我们 未成年人举报专区 
京ICP备16024965号-8  北京市公安局海淀分局网监中心备案编号:11010802021510 广播电视节目制作经营许可证:编号(京)字第1149号
  
快速回复 返回顶部 返回列表