楼主: hwayw

《大数据技术全解》有奖试读活动(已公布获奖)

[复制链接]
论坛徽章:
4
ITPUB9周年纪念徽章
日期:2010-10-08 09:32:26数据库板块每日发贴之星
日期:2011-02-27 01:01:02SQL大赛参与纪念
日期:2011-04-13 12:08:17ITPUB社区OCM联盟徽章
日期:2013-12-25 09:21:56
31#
发表于 2014-6-21 21:58 | 只看该作者
读到第9页就崩溃,连续多次。没法读呀

使用道具 举报

回复
求职 : 数据分析/ETL
论坛徽章:
1
2014年世界杯参赛球队: 葡萄牙
日期:2014-07-24 11:03:54
32#
发表于 2014-6-22 13:17 | 只看该作者

《大数据技术全解》读后思考

本帖最后由 sunny1889 于 2014-6-29 21:00 编辑

1.大数据的存储有哪些问题?
(1)成本问题:对于那些正在使用大数据环境的企业来说,成本控制是关键的问题。对成本控制影响最大的因素是那些商业化的硬件设备。想控制成本,就意味着我们要让每一台设备都实现更高的“效率”,同时还要减少那些昂贵的部件。目前,像重复数据删除等技术已经进入到主存储市场,而且现在还可以处理更多的数据类型,这都为大数据存储应用带来更多的价值,提升存储效率。在数据量不断增长的环境中,通过减少后端存储的消耗,哪怕只是降低几个百分点,都能够获得明显的投资回报。此外,自动精简配置、快照和克隆技术的使用也可以提升存储的效率。

(2)效率问题:大数据的应用目前还存在着效率问题,其工作不能实时完成,存在延迟,特别是涉及到与网上交易或者金融类相关的应用。举例来说,网络成衣销售行业的在线广告推广服务需要实时的对客户的 浏览记录进行分析,并准确的进行广告投放。这就要求存储系统在必须能够支持上述特性同时保持较高的响应速度,因为响应延迟的结果是系统会推送“过期”的广 告内容给客户。这种场景下,Scale-out架构的存储系统就可以发挥出优势,因为它的每一个节点都具有处理和互联组件,在增加容量的同时处理能力也可 以同步增长。而基于对象的存储系统则能够支持并发的数据流,从而进一步提高数据吞吐量。

(3)技术问题:大数据已经衍生出了自己独特的架构,也直接推动了存储、网络以及计算技术的发展。硬件的发展最终还是由软件需求推动的,就此而言,很明显的看到大数据分析应用需求正在影响着数据存储基础设施的发展。随着结构化数据和非结构化数据量的持续增长,以及分析数据来源的多样化,此前存储系统的设计已经无法满足大数据应用的需要。存储厂商已经意识到这一点,他们开始修改基于块和文件的存储系统的架构设计以适应这些新的要求。
(4)安全问题:某些特殊行业的应用,比如金融数据、医疗信息以及政府情报等都有自己的安全标准和保密性需求。虽然对于IT管理者来说这些并没有什么不同,而且都是必须遵从的,但是,大数据分析往往需要多类数据相互参考,而在过去并不会有这种数据混合访问的情况,因此大数据应用也催生出一些新的、需要考虑的安全性问题。

2. 企业大数据如何加工?
  • 对于企业而言,如何处理好这些数据,从中获得有意义的结论和帮助,能让企业准确把握市场动向,快速改进服务,降低成本,节约时间,提高盈利。
  • 首先,整理出已有的数据,再看你想要获得什么样的数据。这需要你动用几乎所有服务性软件(比如Salesforce一类的CRM系统)、Excel表格、合伙人相关信息、销售单据,以及其他任何可用来收集信息的设备与设备上的内容。
  • 然后,将这些数据联系整合到一起。这样有利于做出更及时、更有说服力的决定。做这项工作最简单的方法是从一个具体问题开始。比如你想在每周二开展促销活动,设立这个目标后,你就要收集所有数据来策划这个项目。一旦你理清并且整合好这些数据——包括线上销售额、社交媒体上的宣传数量等,你的业务反应周期就能很快缩短。
  • 举个例子来说,比如一个独立咖啡店老板整合了各种资源和线下数据,包括用户的饮品习惯、地理定位、信用卡消费记录等。这些数据就能帮助咖啡厅提升自身的个性化定制市场,增加促销机会。如那些送小孩上学后经常来咖啡厅喝一杯的母亲,就可以在课外时间享受到免费获得一杯儿童装热巧克力的优惠。

3. 说说读完试读章节后您的感想。
1.《大数据技术全解》试读第9章主要讲大数据系统设计的相关背景、概念、技术及目标,包括hadoop系统架构的ZooKeeper、Pig、Hive等的系统功能。第10章主要描述了一个企业大数据系统的逻辑架构、物理架构、数据架构、运行架构、集成架构、开发架构等内容,很全面专业、很高大上。
2.随着智慧城市、智慧企业、物联网、下一代互联网、云计算、大数据等新的理念、新的信息服务方式正成为时下社会热点,面对这一切变化,我们得重新审视并及时调整企业的商业模式,抓住机遇,在变化中顺势前行。大数据是新一代信息技术中最具颠覆性的变革力量。在智慧经济时代中,只有那些积极拥包变化并提前做好准备的企业才能屹立于潮头成为新时代的弄潮儿。
3.Google用“分布式文件系统GFS、Map/Reduce编程模式、分布式数据库BigTable”这三把利剑征服了世界,改变了IT领域的格局,让许多传统的IT巨头低下了昂贵的头颅,不得不重新审视自身对技术的认知。Google在全球部署了约200多万台服务器,每天处理数以亿计的搜索请求,同时每天也存储24PB用户生成的数据,这些数据还在不断迅速增长。
4.大数据系统的开发人员要会利用开源的MapReduce、HDFS、Hbase、Zookeeper、Pig、Hive、Chukwa搭建企业大数据库系统,同时也需要关注Spark、Dpark、Mahout等开源项目的兴起与利用。
5.《大数据技术全解》不愧是国内首本讲清大数据系统研发全流程图书,相信该书能够为大家打开大数据这领域的大门,从基础技术,到系统的设计理论,进行全面的概括和总结而不是浅尝辄止。若能获书耐心读完,必能收获很多!

使用道具 举报

回复
论坛徽章:
4
2014年世界杯参赛球队:喀麦隆
日期:2014-06-13 11:17:08优秀写手
日期:2014-11-18 06:00:142015年新春福章
日期:2015-03-04 14:53:162015年新春福章
日期:2015-03-06 11:58:39
33#
发表于 2014-6-22 15:16 | 只看该作者
支持 看看

使用道具 举报

回复
论坛徽章:
57
SQL极客
日期:2013-12-09 14:13:35秀才
日期:2016-01-21 13:42:39秀才
日期:2016-01-13 12:14:26SQL大赛参与纪念
日期:2016-01-13 10:32:19SQL数据库编程大师
日期:2016-01-13 10:30:43秀才
日期:2015-12-14 14:47:54秀才
日期:2015-10-19 15:50:392015年新春福章
日期:2015-03-06 11:58:18懒羊羊
日期:2015-03-04 14:52:11优秀写手
日期:2014-11-08 06:00:14
34#
发表于 2014-6-22 21:09 | 只看该作者
占位。   

使用道具 举报

回复
论坛徽章:
10
授权会员
日期:2006-11-08 14:05:47BLOG每日发帖之星
日期:2009-04-03 01:01:06BLOG每日发帖之星
日期:2008-11-08 01:01:04数据库板块每日发贴之星
日期:2008-11-06 01:01:02生肖徽章2007版:鼠
日期:2008-01-02 17:35:53会员2007贡献徽章
日期:2007-09-26 18:42:10参与2007年甲骨文全球大会(中国上海)纪念
日期:2007-08-06 15:19:02ITPUB元老
日期:2007-07-25 09:58:55数据库板块每日发贴之星
日期:2007-06-22 01:02:452010新春纪念徽章
日期:2010-03-01 11:08:33
35#
发表于 2014-6-23 11:15 | 只看该作者
学习下。

使用道具 举报

回复
论坛徽章:
10
2014年世界杯参赛球队:巴西
日期:2014-06-12 16:34:36喜羊羊
日期:2015-03-18 09:30:06美羊羊
日期:2015-03-18 09:30:06懒羊羊
日期:2015-03-18 09:30:06沸羊羊
日期:2015-03-18 09:30:06慢羊羊
日期:2015-03-18 09:30:062015年新春福章
日期:2015-03-06 11:59:472015年新春福章
日期:2015-03-04 14:55:132014年世界杯参赛球队: 法国
日期:2014-06-13 11:24:50暖羊羊
日期:2015-03-18 09:30:06
36#
发表于 2014-6-23 14:33 | 只看该作者
--------------------------------------------------------------------------------------
    大数据是当今最火的话题,记得当时听过 罗辑思维 将大数据 说的很好,大数据不单单是说 数据量大 而是将的数据量比较全,交叉检测,现在银行办理信用卡,只需要填写 姓名 手机号 身份证号 住址 就可以办理了,但是这几个信息可以抽样出很多其他的信息,比如 你的年龄, 你住的地方 房子的价位多少,根据房价初步判定的工资多少等等等。。。 这个事情对于我们来说是一个好事情,也是坏事情,好在 我们方便了很多,不需要那么麻烦的做一些事情, 坏在其他的很多程序应用把我们的隐私都串联在了一起,比如手机上下载的程序 每次安装的时候都提示 读取你的电话本,你的相册,你的地理位置,如果你不同意 软件不让安装,这些信息就已经把人们的隐私给记录了下来,形成了大数据。。。。

使用道具 举报

回复
论坛徽章:
57
SQL极客
日期:2013-12-09 14:13:35秀才
日期:2016-01-21 13:42:39秀才
日期:2016-01-13 12:14:26SQL大赛参与纪念
日期:2016-01-13 10:32:19SQL数据库编程大师
日期:2016-01-13 10:30:43秀才
日期:2015-12-14 14:47:54秀才
日期:2015-10-19 15:50:392015年新春福章
日期:2015-03-06 11:58:18懒羊羊
日期:2015-03-04 14:52:11优秀写手
日期:2014-11-08 06:00:14
37#
发表于 2014-6-23 21:21 | 只看该作者
大数据对于预测很有好处

使用道具 举报

回复
论坛徽章:
63
2010广州亚运会纪念徽章:台球
日期:2010-10-18 12:43:48茶鸡蛋
日期:2013-01-09 10:59:002013年新春福章
日期:2013-02-25 14:51:24奥运会纪念徽章:帆船
日期:2013-04-02 17:07:052013年新春福章
日期:2013-04-08 17:42:48奥运纪念徽章
日期:2013-07-18 13:55:12优秀写手
日期:2013-12-18 09:29:10马上有车
日期:2014-03-20 16:13:24马上有房
日期:2014-03-20 16:14:11马上有钱
日期:2014-03-20 16:14:11
38#
发表于 2014-6-24 22:54 | 只看该作者
1. 大数据的存储有哪些问题?
企业在面临大数据存储的需求时,通常会遇到以下的问题:
1)数据如何统一存储的问题
企业面临的数据有关系型数据库的数据、文本文件、二进制文件、图片文件、音视频媒体文件、各种文档格式的文件、非结构化数据存储的数据、压缩文件等等。这些内容可能散布于企业的各种管理系统中,如何将之统一管理、统一存储,是一大棘手的难题。
2)如何长期保存数据
存储介质可能会失效,服务器、磁盘阵列都有可能机械损坏,在海量数据的背景下,如何做数据备份,备份的策略又是什么,也是企业需要考虑的问题。
3)如何做数据检索
数据访问是数据存储的基本需求之一,在大数据背景下,实现高效的数据检索也是一大难题。
4)如何实现高效存储
大数据必然带来大量的冗余数据,如何做到大数据存储的高效、精简,也是一大难题。

2. 企业大数据如何加工?
企业大数据的加工过程一般来说脱离不了数据挖掘的过程。
1)第一步是数据采集:又称数据获取,是利用一种装置,从系统外部采集数据并输入到系统内部的一个接口。
2)接着是数据预处理:现实世界中数据大体上都是不完整,不一致的脏数据,无法直接进行数据挖掘,或挖掘结果差强人意。为了提高数据挖掘的质量产生了数据预处理技术。数据预处理有多种方法:数据清理,数据集成,数据变换,数据归约等。这些数据处理技术在数据挖掘之前使用,大大提高了数据挖掘模式的质量,降低实际挖掘所需要的时间。
3)接着是建立模型和假设
4)接着是正式的数据处理、数据分析和数据挖掘
5)接着是测试和验证数据分析和挖掘的结果
6)最后是对结果数据进行应用

3. 说说读完试读章节后您的感想
试读章节提供了第八章的内容,讲述了企业大数据系统设计背景和目标。对很多企业而言,大数据系统的建设,很有难度,选用商业方案,收费很贵,而采用开源的Hadoop技术,难度也很大,不知道如何着手。本书可以帮助企业解决这些问题,为企业提供了一个指导思想,故值得一读。

使用道具 举报

回复
论坛徽章:
57
SQL极客
日期:2013-12-09 14:13:35秀才
日期:2016-01-21 13:42:39秀才
日期:2016-01-13 12:14:26SQL大赛参与纪念
日期:2016-01-13 10:32:19SQL数据库编程大师
日期:2016-01-13 10:30:43秀才
日期:2015-12-14 14:47:54秀才
日期:2015-10-19 15:50:392015年新春福章
日期:2015-03-06 11:58:18懒羊羊
日期:2015-03-04 14:52:11优秀写手
日期:2014-11-08 06:00:14
39#
发表于 2014-6-27 20:57 | 只看该作者
大数据处理,性能也是问题

使用道具 举报

回复
论坛徽章:
40
2014年新春福章
日期:2014-02-18 16:42:02秀才
日期:2015-12-18 09:28:57秀才
日期:2015-12-14 14:51:162015年中国系统架构师大会纪念徽章
日期:2015-09-16 12:54:392014系统架构师大会纪念章
日期:2015-09-16 12:54:392013系统架构师大会纪念章
日期:2015-09-16 12:54:392012系统架构师大会纪念章
日期:2015-09-16 12:54:392011系统架构师大会纪念章
日期:2015-09-16 12:54:392010系统架构师大会纪念
日期:2015-09-16 12:54:39秀才
日期:2015-12-25 15:31:10
40#
发表于 2014-6-30 14:37 | 只看该作者
大数据的存储有哪些问题?
首先带来的是存储空间压力,现在都是EB、PB这种量级的。成本会上去的。
其次是热数据和冷数据的矛盾问题。存储了很多,有用的不多。95%的应用在5%里面。为了5%的应用,必须准备95%的存储。
还有存储的物理空间问题,存储也是要占用机柜和机房的。这些空间是有限的。
存储也是要供电的,巨大的供电压力也是成本。
存储数据也要备份的,是全备份,增量备份还是热数据备份,都是需要空间的。全备份时候1比1的空间要求,即使是压缩备份也是要一定比例的空间的。

使用道具 举报

回复

您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

TOP技术积分榜 社区积分榜 徽章 团队 统计 知识索引树 积分竞拍 文本模式 帮助
  ITPUB首页 | ITPUB论坛 | 数据库技术 | 企业信息化 | 开发技术 | 微软技术 | 软件工程与项目管理 | IBM技术园地 | 行业纵向讨论 | IT招聘 | IT文档
  ChinaUnix | ChinaUnix博客 | ChinaUnix论坛
CopyRight 1999-2011 itpub.net All Right Reserved. 北京盛拓优讯信息技术有限公司版权所有 联系我们 未成年人举报专区 
京ICP备16024965号-8  北京市公安局海淀分局网监中心备案编号:11010802021510 广播电视节目制作经营许可证:编号(京)字第1149号
  
快速回复 返回顶部 返回列表