|
本帖最后由 asword 于 2012-4-20 01:27 编辑
个人抛砖引玉下,还请大家指教!
1、Hadoop是否是大数据处理的福音?
肯定的,普通的oracle rac受限于存储,极限在100T以下,如果一个数据仓库的数据量更大,只能用售价上千万的 oracle exadata 或是 teradata,
而hadoop的话,只要100台以上的 pc server 即可完成同样的工作,软件本身完全是免费的,性价比完全没法比。
2、Hadoop与其他海量数据处理方案相比有什么优劣势?
优点: 免费、开源、易扩展、pc server成本低
缺点: 查询性能慢,分钟级延迟,不适合做即席查询,只能做批量数据处理与计算
开发效率低,Map reduce的开发难度远大于sql开发,目前主流解决方案是在hadoop上安装 hive,使用hive来写sql,hive会自动将sql 转换为 map reduce代码, 但是即使是 hive 也不完全支持sql 92标准的语法, 且hive 没有oracle 的分析函数,所以很多case需要自己开发 udf ,对开发能力还是比 sql 高
存在一些bug,相关配套的商业工具、支持顾问都很少,如非常完善的调度工具、报表工具、性能监控工具,目前只能基于开源社区的代码,
自行开发完善
3、Hadoop给您带来哪些更多的机会?
个人觉得从长远看,开源方案由于免费的最大好处,在国内所有差钱且拥有大数据(100T以上)的行业都会推广起来,除了不差钱的国有大中型企业,
其他都会逐渐开始尝试使用hadoop,所以从现在起,就积累这部分知识,对于未来的职业发展很有好处。
|
|