1.大数据的存储有哪些问题。 主要问题涉及, 容量问题:大容量,PB、EB甚至ZB数据如何管理;如何管理文件系统层累积的元数据是一个难题; 延迟问题:实时性问题,未来更多的应用需要支持快速的海量数据收集、分析、分享等,对时效性要求极高; 安全问题:特别如金融行业都有自己的安全标准和保密性需求; 成本问题:大数据4V特性,其中海量的数据总体价值高,但是价值密度低,而保存海量的数据,总体的成本也是高昂的; 持久可用性问题:大数据中部分数据如客户交易数据等可能需要保存20年以上或者更久,数据一致性检测的功能以及其他保证长期高可用的特性; 备份问题:一般采用大数据架构(如Hadoop),数据副本会有多个,这时候数据备份可能不需要按照传统的方法进行备份,需要将数据按照可再生、不可再生进行等分级管理; 迁移问题:未来如果出现升级变迁,需要进行数据迁移,大数据的数据量级对该项工作会带来很大的麻烦; 2. 企业大数据如何加工? 在大数据时代,企业进行数据加工应该基于“全业务、全系统、全信息”指导思想,将数据作为企业核心资产,同时需要采用大数据思维、技术进行挖掘分析,主要的几个加工步骤 如盘后数据采集,可以考虑采用Flume进行非结构化数据收集、采用DataStage、Infomatic、Kettle等进行结构化数据采集;数据清洗工具:MR、Hive、Pig、存储过程、ETL工具等; 数据挖掘可以考虑Mahout、SPss、sass等,算法方面可以考虑如聚类、分类、决策树、统计分析等;另外就是可以考虑专业BI工具(cognos、BO等)、开源工具实现数据可视化; soso。其实也不要让“大数据”搅乱了自己。建议各个企业在实施大数据项目时,立足企业自身的特定情况,量身定做自己的大数据方案,并且适当的考虑扩展性就可以了。比如,加入 你的企业未来10年估计只有10TB的数据量级,那么你可能根本不用太考虑存储的容量问题、成本问题、备份问题等。而在数据加工方面,可能在绝对数据量上和BAT相比是“小数据”, 但是你依旧可以充分利用大数据思维中的全样本、相关性等思想进行数据的加工和分析,面向有价值的针对性应用主题进行资源投入和开采,发挥真正意义上的大数据价值。 3. 说说读完试读章节后您的感想。 看了几个章节,从大数据的基础技术,到系统的设计理论,进行了概括和总结;对于大数据实战的朋友快速投入实战具有比较大的指导意义,对于企业进行数据加工应该基于“全业务、全系统、全信息”指导思想十分赞同,但也深知要真正做到难度很大,目前正在进行大数据实践,希望能获得此书。谢谢。
|