|
1.随着数据规模的增长,如何扩展系统呢?有两种主流的方法,向上扩展与向外扩展。向上扩展的方法是将数据处理任务迁移到更大的服务器或者存储矩阵。而向外扩展的方法并不通过升级系统的硬件来获得更强的处理能力,而是将数据处理任务分发给越来越多的机器。请比较这两种方法的优缺点。
肯定支持向外扩展,这样能够降低不少成本。
2.有些开发者会批评Hadoop的一切设计都是以Java为中心,而Hadoop的团队一直在努力解决这个问题。难道一个用Java语言实现的项目不该以Java为中心么?当然我们使用非Java语言也可以操作Hadoop,任何可以读写标准输入和输出的程序都可以用于Streaming,比如像Ruby或Python这样的动态语言编写的程序等。请谈谈Streaming有哪些优势?
3.Hive是建立在Hadoop基础上的数据仓库,它使用MapReduce对存储在HDFS上数据进行分析.它专门定义了一种类SQL的查询语言.而基于Hadoop大规模数据分析平台的另一种工具Pig,也具有相似的功能.请问Hive与Pig之间有什么区别?哪种工具更好?
还是更喜欢pig,感觉简单一些。
4. 用户可以把存储在Hadoop中的数据近似看成关系数据库,但它终究没有完全实现SQL的标准.在性能与规模特征方面与传统关系数据库有很大区别.那么如何实现Hadoop集群与关系数据库的协同工作呢?
HADOOP和关系型数据库不是一回事。Hadoop是分布式,而且也不能算是一个数据库产品。 |
|