【话题讨论】大数据时代如何让自己驾驭Hadoop？

qingduo04 · 发表于 2013-12-11 17:58

2009532140 发表于 2013-12-11 16:40
我是回复别人的....
看一下上下文环境

恩，看到了，呵呵，只是前面几楼大哥们这种推断的，不太合乎逻辑。

qingduo04 · 发表于 2013-12-11 17:59

interstellar 发表于 2013-12-11 16:41
本来想进来学习一下，把楼翻了一遍，没有有料的回复……

hadoop对于小公司来说概念大于实际吧。

主要是中小型企业对于hadoop没有足够的人才去实施。
如果真的玩起hadoop平台，使用X86服务器实现，可能比花大钱买小型机性价比高的多。

qingduo04 · 发表于 2013-12-11 18:13

本帖最后由 qingduo04 于 2013-12-11 18:14 编辑

看了这么多的内容回复，没有针对话题做分析的，我就抛砖引玉一下吧，希望各位大侠多多指点。

1、作为一个Hadoop开发人员,为什么需要掌握Hadoop内部的实现细节和原理呢？

hadoop作为一个开源的平台或者架构，程序是对外免费开放的，相当于这只是一个内核，如果用到现场，可能就需要对程序进行一个编译或者缝缝补补一下，做成适合现场的软件，而这些修改需要对hadoop的技术和程序了如指掌，这样才能运筹帷幄，针对现场环境进行实际的完善或者优化。

2、学习Hadoop，除了搭建环境，还需要做哪些准备工作呢？

hadoop只是一套软件，实现的原理（我当前了解）也是基于X86服务器进行构架，然后通过namenode和datanode进行处理，这种对于处理文本文件是特别有好处的。
对于搭建过程中，需要了解hadoop的具体实现细节，同时需要对硬件和业务进行了解。
比如了解硬件性能和组网：各平台通信绝对是大数据量（除非是场景比较小），需要进行万兆通信或者使用Infiniband等高吞吐。
了解业务场景：哪些数据需要采用hadoop处理，哪些不需要。
调优：hadoop部署上去后，绝对不是部署运行效果特良好，可能根据现网环境进行微调，包含内存占用率等等。

3、如何才能让自己坚持把Hadoop的源代码看完呢？

这个就是个人的能力问题，建议是有环境可以自己部署一下，一边学习，一边测试，可以加深印象。
这样也可以不至于太枯燥。

顺便说一下，当前现场部署了一套厂家封装的hadoop，源代码可以看到，一直忙着和客户打交道，做方案，做维护，如果没有太大的兴趣，估计不怎么看源代码。
并且咱不是java出身。

赤霄剑 · 发表于 2013-12-12 12:32

不错　挺高级的　　

YKN1390 · 发表于 2013-12-12 15:40

有些公司连关系数据库都没整明白就整Hadoop，实在是很困难。还是在现有框架基础之上，进一步整合Hadoop比较靠谱，即可满足业务需要又可实现技术上过度，何乐而不为。

xgghxkhuang · 发表于 2013-12-12 21:31

支持一下，在公司已经搭建了一套环境

xgghxkhuang · 发表于 2013-12-12 21:31

欢迎懂行的指点一下，目前对这块不太了解

tian1982tian · 发表于 2013-12-12 23:19

DBA转做HADOOP也有可能啊，但是你想等着去运维或管理调优，首先暂且不说你懂不懂调优了，根本体现不了你的价值，有什么用呢？要会开发，据业务做相关建模，数据挖掘和BI分析，根本不是你们想的搭一搭环境，监控监控，调调参数那样的，这里不是关系数据库，是几十乃至上百台的集群，没那么简单的。另外，很多人是自己在那里搭一套环境，根本不知道自己要干啥，就跟风觉得现在这玩意很火，说不定能挣大钱，就自己不懂瞎折腾，还是建议公司有这种项目，在项目中操练总结学习，不要盲目的自己在那里搞。

56pal · 发表于 2013-12-13 04:00

谢谢指点

打雷先生 · 发表于 2013-12-13 10:06

不明觉厉

【话题讨论】 大数据时代如何让自己驾驭Hadoop？

【话题讨论】大数据时代如何让自己驾驭Hadoop？