|
1:作为一名DBA或者架构师,你将如何去管理这些海量数据?普通的关系型数据库很难去满足这种压力,请谈谈自己的想法。
基于海量数据的数据仓库目前大多构建在Hadoop上,开源,免费。
TB级别的数据不管是存储和计算都不是问题,并且对数据安全性有一定的保障。
2:你看好大数据环境下的数据分析行业吗?谈谈自己对数据分析未来的想法。
当然看好,数据越多,能挖的金子就越多。
big data, deep data是趋势,越来越多的公司,特别是互联网,越来越注重数据产生的价值。
最近阿里也成立的专门的数据公司,挖全集团数据中的金子。
3:你接触或者使用过哪些数据分析工具?他们在数据分析方面有什么优缺点。
cognos,biee,mstr等报表展现工具,ms olap等多维分析工具。
优点是展现效果好看,缺点是都要钱。
最喜欢的分析工具是自己写SQL,想要查什么数据就查什么,想怎么查就怎么查。
4:淘宝网每天需要对PB级的数据进行加载分析,这些海量数据在存储方式,访问,分配,数据传输的带宽瓶颈,海量数据的计算都将面临一些困难,请谈谈自己在海量数据加载分析方面相关问题的一些想法。
淘宝目前在数据存储和计算上都使用Hadoop生态圈的一系列东东。
离线分析计算基于Hadoop/Hive
在线实时分析计算基于Hbase,还有其他的如storm
数据采集和传输方面大多是根据需求自主开发,如数据传输用的DataX,实时数据采集用的Timetunnel等,
目前流行的传统etl工具已不能满足海量数据的需求,而且死贵。。 |
|