【话题讨论】如何去应对海量数据下的数据分析

xgghxkhuang · 发表于 2012-9-21 20:45

数据分析业务知识和数据逻辑是关键

xgghxkhuang · 发表于 2012-9-21 20:51

xgghxkhuang 发表于 2012-9-21 20:45
数据分析业务知识和数据逻辑是关键

目前也是用cognos开发报表

kondruz · 发表于 2012-9-22 00:02

xgghxkhuang · 发表于 2012-9-23 18:20

据说淘宝选用的是greenplum数据库

xgghxkhuang · 发表于 2012-9-23 18:35

lianjie1229 发表于 2012-9-19 22:18
1：作为一名DBA或者架构师，你将如何去管理这些海量数据？普通的关系型数据库很难去满足这种压力，请谈谈自 ...

可以考虑一下mpp的架构，在mpp的情况下如果分布键的字段类型一致，大表join
可以在节点内完成，这样假设两张2亿的表，有40个pc节点，分担到一个节点就是500万的两张表关联，而且都是按照完全一样的分布键关联，由于数据已经按照分布键的hash数值排过序，所以hash join相当快。

xgghxkhuang · 发表于 2012-9-23 18:35

lianjie1229 发表于 2012-9-19 22:18
1：作为一名DBA或者架构师，你将如何去管理这些海量数据？普通的关系型数据库很难去满足这种压力，请谈谈自 ...

可以考虑一下mpp的架构，在mpp的情况下如果分布键的字段类型一致，大表join
可以在节点内完成，这样假设两张2亿的表，有40个pc节点，分担到一个节点就是500万的两张表关联，而且都是按照完全一样的分布键关联，由于数据已经按照分布键的hash数值排过序，所以hash join相当快。

xgghxkhuang · 发表于 2012-9-23 18:42

xgghxkhuang 发表于 2012-9-23 18:35
可以考虑一下mpp的架构，在mpp的情况下如果分布键的字段类型一致，大表join
可以在节点内完成，这样假设 ...

如果是oracle的话可以考虑分区智能连接
如果用不上，可以考虑连接字段中有无将数据平均分布的字段，按照它分区后，一对一对的分区关联最后将结果汇总，因为hash join是要将驱动表置于内存中计算hash桶的，所以虽然关联次数多了，但是如果驱动表由于次数分布占用的空间小了完全置于内存中反而会缩短总体时间。

kelsoncong · 发表于 2012-9-24 14:37

buptdream 也出来说两句呢

thy84919 · 发表于 2012-9-24 21:35

本帖最后由 thy84919 于 2012-9-24 21:42 编辑

1：作为一名DBA或者架构师，你将如何去管理这些海量数据？普通的关系型数据库很难去满足这种压力，请谈谈自己的想法。
海量数据不一定是常用查询数据，所以放在以空间换取时间的数据仓库中，通过优化硬件，配置等满足不常用的查询。对于常用的查询通常不会使用到大而全的全部数据，所以以查询主题来建立不同需求的数据集市，面对不同的需求和达到一个合理的响应时间，甚至一些工具开始对轻量级的数据进行内存中的管理，其实这些自己感觉是对大数据的细化应用。
2：你看好大数据环境下的数据分析行业吗？谈谈自己对数据分析未来的想法。
看好，但是更加看好对于大环境数据下中的有用数据提取
3：你接触或者使用过哪些数据分析工具？他们在数据分析方面有什么优缺点。
MS,oracle,QV，spotfile，好坏各有，只是针对不同的人群和需求而已，通常一个工具的优点在不同的需求下会变成缺点，同时一个缺点也可能会变成优点
4：淘宝网每天需要对PB级的数据进行加载分析，这些海量数据在存储方式，访问，分配，数据传输的带宽瓶颈，海量数据的计算都将面临一些困难，请谈谈自己在海量数据加载分析方面相关问题的一些想法。
没有碰到过这么大数据量的项目
是否可以通过分布式存储将数据存在不同的网络服务服务器上。具体想法没有，哈哈！！

lianjie1229 · 发表于 2012-9-29 11:07

xgghxkhuang 发表于 2012-9-23 18:42
如果是oracle的话可以考虑分区智能连接
如果用不上，可以考虑连接字段中有无将数据平均分布的字段，按照 ...

谢谢你的回答。
已采用HASH 分区后单分区处理，总时间是原来的1/3，方法很好使。

【话题讨论】如何去应对海量数据下的数据分析

浏览过的版块