|
1.在Hadoop 2.0中,Apache 开始尝试对MapReduce进行升级改造,进而诞生了更加先进的MRv2,而MRv2将资源管理功能抽象成了一个独立的通用系统YARN。请分析下以MapReduce为核心的
软件栈与以YARN为核心的软件栈有哪些不同?
MapReduce为核心的软件栈在扩展上没有YARN为核心的软件栈方便,前者改起来需要修改的地方相对比较多.
MapReduce为核心的软件栈在可用性上没有YARN为核心的软件栈好,后者支持对ApplicationMaster设置检查点的能力。MapReduce ApplicationMaster
能够从失败的状态中恢复,因为它先前已经将自己的状态存到HDFS里。
MapReduce为核心的软件栈在线兼容性上没有YARN为核心的软件栈好,后者使用线兼容模型使不用版本的服务器和客户端能互相通信。在未来的版本,这
个特性能使集群轮替式升级–一个操作上的优势
其它的地方还有创新性,集群方面都不太一样。
2.当前YARN支持内存与CPU两种资源类型的管理和分配,在YARN采用的资源调度模型中,资源分配过程是同步的还是异步的?YARN采用的是Pull-based 通信模型还是Push-based 模型?
当前YARN支持内存与CPU两种资源类型的管理和分配,在YARN采用的资源调度模型中,资源分配过程是异步的.
YARN采用的是Pull-based 通信模型
3.相比于将Storm部署到一个独立的集群中,Storm On YARN可以带来哪些好处?
在资源分配上的好处,Storm与其它应用程序共享整个集群中的资源,这样增加与减少资源非常的容易.
共享存储系统,这样可以节省成本,又可以提高数据读取的速度
4.Spark与Storm两种计算框架均可以运行在YARN上,请从资源分配的粒度与运行应用程序的类型角度,对比分析下Spark On YARN 与Storm On YARN的优缺点。
Spark的资源申请不容易及时释放,而Storm上资源的管理要好一些。 |
|