|
《大数据技术全解》读后思考
本帖最后由 sunny1889 于 2014-6-29 21:00 编辑
1.大数据的存储有哪些问题?
(1)成本问题:对于那些正在使用大数据环境的企业来说,成本控制是关键的问题。对成本控制影响最大的因素是那些商业化的硬件设备。想控制成本,就意味着我们要让每一台设备都实现更高的“效率”,同时还要减少那些昂贵的部件。目前,像重复数据删除等技术已经进入到主存储市场,而且现在还可以处理更多的数据类型,这都为大数据存储应用带来更多的价值,提升存储效率。在数据量不断增长的环境中,通过减少后端存储的消耗,哪怕只是降低几个百分点,都能够获得明显的投资回报。此外,自动精简配置、快照和克隆技术的使用也可以提升存储的效率。
(2)效率问题:大数据的应用目前还存在着效率问题,其工作不能实时完成,存在延迟,特别是涉及到与网上交易或者金融类相关的应用。举例来说,网络成衣销售行业的在线广告推广服务需要实时的对客户的 浏览记录进行分析,并准确的进行广告投放。这就要求存储系统在必须能够支持上述特性同时保持较高的响应速度,因为响应延迟的结果是系统会推送“过期”的广 告内容给客户。这种场景下,Scale-out架构的存储系统就可以发挥出优势,因为它的每一个节点都具有处理和互联组件,在增加容量的同时处理能力也可 以同步增长。而基于对象的存储系统则能够支持并发的数据流,从而进一步提高数据吞吐量。
(3)技术问题:大数据已经衍生出了自己独特的架构,也直接推动了存储、网络以及计算技术的发展。硬件的发展最终还是由软件需求推动的,就此而言,很明显的看到大数据分析应用需求正在影响着数据存储基础设施的发展。随着结构化数据和非结构化数据量的持续增长,以及分析数据来源的多样化,此前存储系统的设计已经无法满足大数据应用的需要。存储厂商已经意识到这一点,他们开始修改基于块和文件的存储系统的架构设计以适应这些新的要求。 (4)安全问题:某些特殊行业的应用,比如金融数据、医疗信息以及政府情报等都有自己的安全标准和保密性需求。虽然对于IT管理者来说这些并没有什么不同,而且都是必须遵从的,但是,大数据分析往往需要多类数据相互参考,而在过去并不会有这种数据混合访问的情况,因此大数据应用也催生出一些新的、需要考虑的安全性问题。
2. 企业大数据如何加工?
- 对于企业而言,如何处理好这些数据,从中获得有意义的结论和帮助,能让企业准确把握市场动向,快速改进服务,降低成本,节约时间,提高盈利。
- 首先,整理出已有的数据,再看你想要获得什么样的数据。这需要你动用几乎所有服务性软件(比如Salesforce一类的CRM系统)、Excel表格、合伙人相关信息、销售单据,以及其他任何可用来收集信息的设备与设备上的内容。
- 然后,将这些数据联系整合到一起。这样有利于做出更及时、更有说服力的决定。做这项工作最简单的方法是从一个具体问题开始。比如你想在每周二开展促销活动,设立这个目标后,你就要收集所有数据来策划这个项目。一旦你理清并且整合好这些数据——包括线上销售额、社交媒体上的宣传数量等,你的业务反应周期就能很快缩短。
- 举个例子来说,比如一个独立咖啡店老板整合了各种资源和线下数据,包括用户的饮品习惯、地理定位、信用卡消费记录等。这些数据就能帮助咖啡厅提升自身的个性化定制市场,增加促销机会。如那些送小孩上学后经常来咖啡厅喝一杯的母亲,就可以在课外时间享受到免费获得一杯儿童装热巧克力的优惠。
3. 说说读完试读章节后您的感想。
1.《大数据技术全解》试读第9章主要讲大数据系统设计的相关背景、概念、技术及目标,包括hadoop系统架构的ZooKeeper、Pig、Hive等的系统功能。第10章主要描述了一个企业大数据系统的逻辑架构、物理架构、数据架构、运行架构、集成架构、开发架构等内容,很全面专业、很高大上。
2.随着智慧城市、智慧企业、物联网、下一代互联网、云计算、大数据等新的理念、新的信息服务方式正成为时下社会热点,面对这一切变化,我们得重新审视并及时调整企业的商业模式,抓住机遇,在变化中顺势前行。大数据是新一代信息技术中最具颠覆性的变革力量。在智慧经济时代中,只有那些积极拥包变化并提前做好准备的企业才能屹立于潮头成为新时代的弄潮儿。
3.Google用“分布式文件系统GFS、Map/Reduce编程模式、分布式数据库BigTable”这三把利剑征服了世界,改变了IT领域的格局,让许多传统的IT巨头低下了昂贵的头颅,不得不重新审视自身对技术的认知。Google在全球部署了约200多万台服务器,每天处理数以亿计的搜索请求,同时每天也存储24PB用户生成的数据,这些数据还在不断迅速增长。
4.大数据系统的开发人员要会利用开源的MapReduce、HDFS、Hbase、Zookeeper、Pig、Hive、Chukwa搭建企业大数据库系统,同时也需要关注Spark、Dpark、Mahout等开源项目的兴起与利用。
5.《大数据技术全解》不愧是国内首本讲清大数据系统研发全流程图书,相信该书能够为大家打开大数据这领域的大门,从基础技术,到系统的设计理论,进行全面的概括和总结而不是浅尝辄止。若能获书耐心读完,必能收获很多!
|
|