|
支持下。
1.随着数据规模的增长,如何扩展系统呢?有两种主流的方法,向上扩展与向外扩展。向上扩展的方法是将数据处理任务迁移到更大的服务器或者存储矩阵。而向外扩展的方法并不通过升级系统的硬件来获得更强的处理能力,而是将数据处理任务分发给越来越多的机器。请比较这两种方法的优缺点。
迁移到更大服务器不需要对现有的软件系统进行改动,节省了软件方面的成本。但是硬件的成本却呈几何级递增。迁移到更多的机器则需要对软件架构进行改动甚至重写,对复杂的复合系统不太现实。硬件成本上会很占有优势,但是不可见的软件成本会相对高出不少来。
2.有些开发者会批评Hadoop的一切设计都是以Java为中心,而Hadoop的团队一直在努力解决这个问题。难道一个用Java语言实现的项目不该以Java为中心么?当然我们使用非Java语言也可以操作Hadoop,任何可以读写标准输入和输出的程序都可以用于Streaming,比如像Ruby或Python这样的动态语言编写的程序等。请谈谈Streaming有哪些优势?
Java是业界的无冕之王,语言之争无益。但是Streaming的确很让人期待。我不了解。
3.Hive是建立在Hadoop基础上的数据仓库,它使用MapReduce对存储在HDFS上数据进行分析.它专门定义了一种类SQL的查询语言.而基于Hadoop大规模数据分析平台的另一种工具Pig,也具有相似的功能.请问Hive与Pig之间有什么区别?哪种工具更好?
期待了解。
4. 用户可以把存储在Hadoop中的数据近似看成关系数据库,但它终究没有完全实现SQL的标准.在性能与规模特征方面与传统关系数据库有很大区别.那么如何实现Hadoop集群与关系数据库的协同工作呢?
期待了解。
|
|