|
4、每个人都在讲的实时Hadoop是什么,它可以做什么,以及它不能做什么?它的工作原理是什么?
实时hadoop 我觉得应该是实时对大量的数据进行简单的行健查询,快速反馈给用户,比如时下比较流行的
推荐系统。它可以做的事情:比如我再浏览itpub的贴子的时候我会发现旁边有推荐看过该帖子的人还
看过以下的帖子。这就是一个实时的运行过程然后反馈出结果给用户。类似oracle等常规数据库也可以做
但是如果想要得到快速响应的性能可以得建立在昂贵的硬件资源上。但是如果如果使用hadoop中的hbase集群的话
可能代价就很低了。
不能做什么:
不能进行复杂的SQL语句,比如复杂的查询、group by 、order by 等。
工作原理:HBASE里面的数据根据行健有规则的分布在各个Region,当进行行健查询的时候多个节点同时工作可以快速的返回结果
7:阅读样章后,本书的看法,您觉得hadoop过时了吗?
个人感觉现在hadoop分布式集群还是处于高速发展的阶段。且国内大型互联网企业都在研究该技术的源码进行二次开发来适应自己的
业务,甚至传统的金融行业也在使用该技术做一些大数据分析工作,所以按照目前的情况应该近几年内是不会过时。
|
|