楼主: buptdream

【话题讨论】如何去应对海量数据下的数据分析

[复制链接]
招聘 : 数据库管理员
论坛徽章:
10
奥运会纪念徽章:花样游泳
日期:2012-08-31 14:52:33马上加薪
日期:2014-02-18 16:48:492014年新春福章
日期:2014-02-18 16:48:49技术图书徽章
日期:2014-01-26 14:10:14技术图书徽章
日期:2014-01-24 10:24:36技术图书徽章
日期:2014-01-24 10:22:00优秀写手
日期:2013-12-18 09:29:09奥运会纪念徽章:击剑
日期:2012-08-17 10:42:57奥运会纪念徽章:击剑
日期:2012-07-27 14:58:55马上有房
日期:2014-03-25 09:38:43
11#
发表于 2012-9-20 12:46 | 只看该作者
也来谈谈数据分析
  先从我的职业说起,一开始做JAVA开发,但是后来越发的对数据感兴趣,就兼职项目上的DBA,做数据优化,学习Oracle了解数据库原理,碰巧又有BI的新需求,有硬顶着头皮给甲方上了套Oracle BI,到底对甲方有没有用先不说,但是项目结项了万岁!
  其实做数据的,核心是在数据分析,  数据源-》数据仓库(集市)-》数据分析-》数据挖掘-》数据展现-》商业决策,这套理论二三十年不会变,但是各个层次的支撑技术发生了翻天覆地的变化。
  现在还有人有ORACLE,DB2,这样的数据库做数据仓库数据分析模??没有了,今后也不会有,时代变化这方便,RDBMS 元气已经,做一两个国有企业的烧钱系统还可以,真正的海量数据已经跟不上了。
这个看看市场扪心自问 有多少的DSS 真正的有商业价值的,倒是同我一样结项的有不少。
  1.海量数据大家都知道hadoop,
并在这个平台上的hbase,pig,hive是用来做数据分析的。

  其中HIVE同DBA应该最靠谱, HIVE是支持SQL92的, DBA用的亲切,但是如果你不知道如何将HIVESQL 映射到MAPREDUCE,也是白搭,就想大家会用SQL,但是不会优化一样,事备工半,所有MAPREDUCE 就是优化的根本了。
  目前部门正在积极的实践HADOOP但是,感觉到这个东西需要投入的东西太多了,
如何在HIVE上构建令数据分析人员满意的BI模型,这些都没有现成的框架可以实现,当然这些在大的互联网公司不是问题,因为有数以百计的HADOOP开发人员做这些事情。
  还有如何在上边同业界的数据分析语言结合,目前我们集成了thrift将来做PYTHOn的接口,但是一些更高级和专业的数据分析语言如R,等等,问题很多,
  总的来说还是不断的模式,数据分析肯定今后数据发展重心上移的必然结果。

使用道具 举报

回复
求职 : 数据库管理员
论坛徽章:
41
喜羊羊
日期:2015-05-08 16:18:362014年新春福章
日期:2014-02-18 16:48:49技术图书徽章
日期:2014-01-26 14:02:05福特
日期:2013-12-27 00:16:54劳斯莱斯
日期:2013-12-20 16:46:55劳斯莱斯
日期:2013-12-02 16:08:54问答徽章
日期:2013-11-12 20:51:23奔驰
日期:2013-10-25 20:19:39ITPUB社区12周年站庆徽章
日期:2013-10-08 15:00:34马上加薪
日期:2014-02-18 16:48:49
12#
发表于 2012-9-20 14:14 | 只看该作者
纯支持

使用道具 举报

回复
论坛徽章:
0
13#
发表于 2012-9-20 16:05
我属于油性肌肤,之前总是爱长痘痘,有的痘痘就是红红的,还有的里面是白色的周围是红色的,看起来蛮恐怖的。找工作和谈朋友都受到了不小的打击。还好身边的朋友给我介绍了【丽塔去痘茶】 我是在乐购时尚网 QQ:876931865http://www.letgogo.com/#r-pcgz买的,

论坛徽章:
57
SQL极客
日期:2013-12-09 14:13:35秀才
日期:2016-01-21 13:42:39秀才
日期:2016-01-13 12:14:26SQL大赛参与纪念
日期:2016-01-13 10:32:19SQL数据库编程大师
日期:2016-01-13 10:30:43秀才
日期:2015-12-14 14:47:54秀才
日期:2015-10-19 15:50:392015年新春福章
日期:2015-03-06 11:58:18懒羊羊
日期:2015-03-04 14:52:11优秀写手
日期:2014-11-08 06:00:14
14#
发表于 2012-9-20 21:33 | 只看该作者
看好数据挖掘,但是现在缺具体的算法和应用结合的人,会使用工具实现业务的人。
接触过sas,spss,cognos,r,觉得开源的更有价格优势,支持r。
需要业务知识,it技术和算法的有机结合,现在是建设的多,能有显著成效的少。

使用道具 举报

回复
论坛徽章:
57
SQL极客
日期:2013-12-09 14:13:35秀才
日期:2016-01-21 13:42:39秀才
日期:2016-01-13 12:14:26SQL大赛参与纪念
日期:2016-01-13 10:32:19SQL数据库编程大师
日期:2016-01-13 10:30:43秀才
日期:2015-12-14 14:47:54秀才
日期:2015-10-19 15:50:392015年新春福章
日期:2015-03-06 11:58:18懒羊羊
日期:2015-03-04 14:52:11优秀写手
日期:2014-11-08 06:00:14
15#
发表于 2012-9-20 21:34 | 只看该作者
推荐r,它是开源的。
数据仓库推荐greenplum,半开源的,费用很低而且开放支持多编程语言和hadoop

使用道具 举报

回复
论坛徽章:
57
SQL极客
日期:2013-12-09 14:13:35秀才
日期:2016-01-21 13:42:39秀才
日期:2016-01-13 12:14:26SQL大赛参与纪念
日期:2016-01-13 10:32:19SQL数据库编程大师
日期:2016-01-13 10:30:43秀才
日期:2015-12-14 14:47:54秀才
日期:2015-10-19 15:50:392015年新春福章
日期:2015-03-06 11:58:18懒羊羊
日期:2015-03-04 14:52:11优秀写手
日期:2014-11-08 06:00:14
16#
发表于 2012-9-20 21:36 | 只看该作者
xgghxkhuang 发表于 2012-9-20 21:34
推荐r,它是开源的。
数据仓库推荐greenplum,半开源的,费用很低而且开放支持多编程语言和hadoop

现在是投入大,希望能看到时效,支持应用和业务。

使用道具 举报

回复
论坛徽章:
32
ITPUB十周年纪念徽章
日期:2011-11-01 16:25:22马上加薪
日期:2014-12-08 22:53:43马上有房
日期:2014-12-09 01:05:19美羊羊
日期:2015-03-04 14:52:282015年新春福章
日期:2015-03-06 11:58:18巨蟹座
日期:2015-11-17 11:02:55双子座
日期:2015-11-17 12:21:47白羊座
日期:2015-12-10 17:27:08狮子座
日期:2016-02-23 10:11:01双子座
日期:2016-02-23 10:17:05
17#
发表于 2012-9-20 23:13 | 只看该作者
hadoop、商务智能。

使用道具 举报

回复
求职 : ERP实施
论坛徽章:
9
奥运会纪念徽章:足球
日期:2012-09-19 13:48:18奥运会纪念徽章:帆船
日期:2012-08-03 14:11:05奥运会纪念徽章:曲棍球
日期:2012-09-18 09:13:02奥运会纪念徽章:手球
日期:2012-10-09 11:27:07ITPUB 11周年纪念徽章
日期:2012-10-09 18:06:202013年新春福章
日期:2013-02-25 14:51:24ITPUB社区千里马徽章
日期:2013-06-09 10:15:342015年新春福章
日期:2015-03-04 14:51:122015年新春福章
日期:2015-03-06 11:57:31
18#
发表于 2012-9-21 09:32 | 只看该作者
1:作为一名DBA或者架构师,你将如何去管理这些海量数据?普通的关系型数据库很难去满足这种压    力,请谈谈自己的想法。

现在BI一般用的都是,数据仓库

2:你看好大数据环境下的数据分析行业吗?谈谈自己对数据分析未来的想法。

数据分析现在越来越时髦,数据分析更多的是从海量数据中如果找到所需要的,涉及到数据挖掘的理论,现在BI建模都是很模式化,数据钻取的方式也是按照客户报表要求来做的,也许将来,在数据分析,建模上,可以更新人性化,不是标准的模式

3:你接触或者使用过哪些数据分析工具?他们在数据分析方面有什么优缺点。

我接触过的数据分析工具,主要是cognos的BI 产品;Cognos独特的钻取(Drill Through),我觉得很好用,特别是在做报表的时候

4:淘宝网每天需要对PB级的数据进行加载分析,这些海量数据在存储方式,访问,分配,数据传输的带宽瓶颈,海量数据的计算都将面临一些困难,请谈谈自己在海量数据加载分析方面相关问题的一些想法。

现在数据分析标准的做法都是从底层数据源,将所需要的数据抽取进数据仓库,随后BI按照直接的数据模型和算法,分离出所需要的数据;
如果是超大数据量的企业,底层一般配置oracle,进行数据收集

使用道具 举报

回复
求职 : 数据库管理员
论坛徽章:
21
ITPUB十周年纪念徽章
日期:2013-06-18 22:48:19马上有房
日期:2014-02-18 16:42:022014年新春福章
日期:2014-02-18 16:42:02优秀写手
日期:2013-12-18 09:29:12林肯
日期:2013-10-31 18:06:48奥迪
日期:2013-09-12 15:57:04ITPUB社区12周年站庆徽章
日期:2013-08-20 11:30:11蛋疼蛋
日期:2013-06-17 14:35:03ITPUB社区千里马徽章
日期:2013-06-09 10:15:342013年新春福章
日期:2013-05-27 10:23:00
19#
发表于 2012-9-21 13:06 | 只看该作者
dba虽然天天对着海量数据,但是总感觉就没有什么时间做数据分析,业务专家的数据分析能力比较强。DBA做性能分析还差不多,而涉及到大数据数据库设计是首要的考虑因素,用最简单的数据支撑最强大的业务,我一直提倡从开始就进行业务分析-》数据分析-》结构设计-》性能优化,虽然做起来很累,但是一切都在掌握之中。

数据分析涉及太多,从ETL-》DATA MINER->DW->BI,要走的路太长了,数据分析理论是基础,工具是实践,成果是检验标准,而真实的需求是老虎,难应付。

使用道具 举报

回复
论坛徽章:
4
奥运会纪念徽章:游泳
日期:2012-07-28 15:39:12ITPUB 11周年纪念徽章
日期:2012-10-10 13:11:142014年新春福章
日期:2014-02-18 16:43:09马上有钱
日期:2014-02-18 16:43:09
20#
发表于 2012-9-21 17:49 | 只看该作者
最近都是大数据,海量数据啊。

使用道具 举报

回复

您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

TOP技术积分榜 社区积分榜 徽章 团队 统计 知识索引树 积分竞拍 文本模式 帮助
  ITPUB首页 | ITPUB论坛 | 数据库技术 | 企业信息化 | 开发技术 | 微软技术 | 软件工程与项目管理 | IBM技术园地 | 行业纵向讨论 | IT招聘 | IT文档
  ChinaUnix | ChinaUnix博客 | ChinaUnix论坛
CopyRight 1999-2011 itpub.net All Right Reserved. 北京盛拓优讯信息技术有限公司版权所有 联系我们 未成年人举报专区 
京ICP备16024965号-8  北京市公安局海淀分局网监中心备案编号:11010802021510 广播电视节目制作经营许可证:编号(京)字第1149号
  
快速回复 返回顶部 返回列表