楼主: hwayw

如何做到敏捷数据分析:用Hadoop创建数据分析应用

[复制链接]
论坛徽章:
0
11#
发表于 2014-7-22 21:57 | 只看该作者
支持下线。。

使用道具 举报

回复
论坛徽章:
3
2014年世界杯参赛球队:克罗地亚
日期:2014-06-12 16:53:56海蓝宝石
日期:2014-08-06 14:09:32红宝石
日期:2014-08-28 15:18:18
12#
发表于 2014-7-23 14:02 | 只看该作者
很巧,我所在的大数据团队正在实施敏捷,因此本主题很切合实际!

1. 为什么需要敏捷数据分析?
在数据分析或是进行大数据分析相关项目时引入敏捷思想,主要目的是在最短的时间内、利用最少的资源如期完成项目建设。
结合正在实施的大数据敏捷实践,相比传统的瀑布式开发主要有如下优势:
》每天5分钟以内的站立会,让团队成员阐述昨日工作、今日计划以及碰到的问题等;
》协作开发,在协作中达成共识,使团队成员目标一致
》每两周的sprintbacklog、加上每天的工作燃尽图,使项目成员动态了解项目的进度,项目进度把控较为到位
》另,大数据分析本身有很大的试验性性质,因此采用敏捷的思维指导项目开发,使团队每个成员身临其境,目标一致的挑战各种未知任务。

2. 如何做到敏捷数据分析?
》敏捷团队一般成员人数控制在5~8人以内,不宜过多
》每2~3周设定阶段性成果及产出物
》持续迭代地分享工作成果,敏捷的一个重要思想是:“没有不能发布的状态”,数据分析项目也不例外
》每天站立会,时间不超过10min
》技术层面:具体以实施大数据平台为例,借助相关工具技术如hadoop、hive、mr、yarn、impala等生态体系工具,搭建高可扩展、高可用、高可维护性的基础平台。
》团队成员熟悉数据采集、数据存储、数据分析、数据应用以及web开发等技术


3. 说说您读完试读样章后的启发
本书正是类似我们这种敏捷数据团队所需要的,很期待能第一时间阅读到相关章节。很欣赏文中提到的:
“通才高于专才,通才更有价值”、“小团队高于团队”、“持续迭代地分享工作成果”、“协作中打成共识”。

让我们一起共同攀登数据-价值金字塔

使用道具 举报

回复
论坛徽章:
6
ITPUB十周年纪念徽章
日期:2011-11-01 16:26:29咸鸭蛋
日期:2011-11-09 14:50:32咸鸭蛋
日期:2012-06-13 05:10:53三菱
日期:2013-09-17 09:52:46优秀写手
日期:2013-12-18 09:29:13马上加薪
日期:2014-10-15 18:26:41
13#
发表于 2014-7-23 18:49 | 只看该作者
想要这本书!

使用道具 举报

回复
论坛徽章:
0
14#
发表于 2014-7-24 09:04 | 只看该作者
本帖最后由 hadoop555 于 2014-7-28 11:50 编辑

支持  我很想要这本书
一  为什么需要敏捷数据分析
随着数据量的越来越大,我们发现从人们的数据分析中可以提出有用的数据价值,
比如电商网站的实时推荐系统,敏捷数据分析可以帮我们分析用户的实时行为,
预判用户的购物倾向,从而带来经济利润。
我们执行数据分析来从运行系统中所获得的多个数据源头抽取信息,以便使这些不受欢迎的行为初始的触发原因得以被发现。对于已经建立,拥有固定需求集的产品,分析工具可以被编写为对多重数据来源进行关联,以使系统的健康状况得以被监控。但在敏捷开发中,由于代码基(codebase)要不断响应来自功能性需求或用户接口的变更,所以正在被开发的程序或系统在一次又一次的构建过程里也可能会发生动态的变更。这些用于解析所有数据来源的工具集同样需要变得敏捷。

二  如何做到敏捷数据分析
随着数据量的不断增大,做到数据敏捷分析越来越难,人们通过不断的探索,发现分布式计算可以提高数据的分析速度
我们没有银河处理器那样的超大计算机,但是我们可以通过把数据量分布到不同的机器上
通过不同的机器并行处理来达到快速处理数据的目的,于是hadoop这个分布式运算的工具产生了。
我们可以通过hadoop这个框架来很方便的做到数据分析。

三 说说您读完试读样章后的启发
这本书通过一些案列讲解了hadoop在大数据方面的案例应用,由于我们平时工作所处的行业的约束,
对用hadoop处理大数据经验不足,作者通过案例给了我们很好的项目经验。我们可以通过学习
运用的自己的实际项目中,它山之石 可以攻玉

使用道具 举报

回复
论坛徽章:
0
15#
发表于 2014-7-24 16:17 | 只看该作者
本帖最后由 jmj168 于 2014-7-28 11:18 编辑

1. 为什么需要敏捷数据分析?
如果数据分析采用敏捷或者传统模式,它将是什么样的结果呢?
由于项目初期,数据分析的需求并不明确,并不清晰,需要借助项目团队通过多次的增量迭代,不断试错,小步快跑,从而更接近企业和客户的需要,激励团队,不断挖掘出数据分析的价值。
如果采用传统瀑布方式,将会遇到很多盲点与迷茫。敏捷团队做的开发工作和传统团队或许比较类似,但做事方式却很不一样。
笔者认为,敏捷开发和瀑布开发之间差别在于:瀑布开发必须先完成当前步骤之后才能头也不回地迈向下一步骤,反观敏捷团队,先做一点点需求收集、一点点设计、编码和测试,最后交付一点点价值给客户。接着团队再重复此过程,周而复始,工作推进过程中不断改善、调整流程,一直到项目完成为止。
敏捷数据分析,能够保证不仅仅是正确的做事,而且更重要的是保证做正确的事。

2. 如何做到敏捷数据分析?
首先项目团队需要在思想上理解与接受敏捷的价值观:个体和互动高于流程和工具,可工作的软件高于详尽的文档,客户合作高于合同谈判,响应变化高于遵循计划。
对这点的认识,不能停止在字面上。
第二,遵循并导入一种敏捷开发框架。
本人目前担任大数据敏捷团队的教练,正引入Scrum+XP编程。
根据团队和项目的情况,确定Sprint的长度,并确定团队各个人员的角色。
目前确定的Sprint长度为2周。
在Sprint计划会议上讨论并确定本次Sprint的用户故事,并通过计划扑克的方式进行估算每项目任务的时间。由于每项目任务是通过团队的集体智慧确定的,保证团队每个成员的意见均受到尊重与重视,提高团队的凝聚力,同时也提升计划的可靠性与可执行性。
每次Sprint计划会后,将Sprint Backlog和Product Backlog,以及相关风险识别、应对策略、上个Sprint的经验教训,等邮件周知给相关干系人。
通过每日的站立会与白板墙,同步团队的工作状态,激发团队的激情,及时解决团队存在的问题。
通过每个Sprint的回顾会,反思团队存在的问题,挖掘团队的亮点,不断优化,成为真正意义上的自组织大数据敏捷团队。
第三, 车马未动,粮草先行。
开源架构的前期研究,借助hadoop、hive、mr、yarn、impala等生态体系工具,搭建高可扩展、高可用、高可维护性的基础平台。

3. 说说您读完试读样章后的启发。
目前本人正担任大数据敏捷团队的教练,经历了不少成功与失败的敏捷转型团队,也看了大量敏捷方面的书。
但目前是第一次看到将敏捷与大数据分析进行完美融合,针对性非常强的一本书。有种相见恨晚的感觉。
书中提到的,“产品是由团队构建出来的,而敏捷方法重视人本身多于过程,因此敏捷大数据从搭建团队做起。敏捷产品开发的目标是辨识出产品最根本的特性,将这个特性先实现了,然后再添加其他特性。这将敏捷带到了项目里,让项目更有可能满足产品进化过程中最真实、最根本的需求。”正是本人所在团队敏捷转型的初衷与方式。
而本书也点出敏捷的精华与大数据挖掘等非常实用的建议,很值得从事大数据工作或尝试敏捷转型的朋友读读。

使用道具 举报

回复
论坛徽章:
3
马上有对象
日期:2014-06-12 16:32:07蓝色妖姬
日期:2014-08-28 15:17:25秀才
日期:2015-10-08 17:57:58
16#
发表于 2014-7-25 23:41 | 只看该作者
1. 为什么需要敏捷数据分析?
    如果大数据必须购买企业级的产品,那么就意味着大数据会花大本钱。但这并非绝对,通过使用大数据敏捷技术,各种规模的企业都可以控制成本,从大数据中获益。至关重要的是尽可能降低成本并最大化的了解大数据集,一旦数据被转化为可用便具有对业务的洞察力,然后以各种方式将问题汇总,并发挥企业技术的优势解决问题。
    首先让我们来看看BI世界里发生了什么。企业级BI设计的意图是为了满足大型企业中许多信息孤岛的要求。典型场景如下:信息孤岛中的数据通过ETL的过程被清洗和规范化,进入到数据仓库中,成为一个可用的版本。然后,通过报表和分析技术,数据被切片、切块,并交付给成千上万的人。企业级BI是一个复杂的过程,它通过多种应用程序的协同工作,以满足企业中成千上万人的需求。企业级BI的问题是它的配置需要花费很长时间,所有大型的复杂系统都十分难以配置和改动。
   敏捷BI可以解决企业BI所面对的诸多问题。敏捷BI可以以高度互动的方式为最终用户排序、筛选和统计数据,而不需要BI专家的指导。企业采用敏捷BI技术,可以更广泛的享受数据所体现的价值。     
2. 如何做到敏捷数据分析?
   目前我们在公司的大数据项目已经尝试采用敏捷开发管理模式,目前我们一般2周为一个sprint周期,在该模式下,有如下好处:
       Sprint目标明确、每个子任务责任到人,职责分明
       通过每日站立会、看板,对每个成员的每天工作进行回顾与监督,增强项目可控性与可视化
       通过Sprint计划会与每日站立会,使计划沟通更充分
   个人认为,成功实施敏捷数据分析和有效的数据项目管理,以下几点很重要:   
   1)尽早且尽可能多的将用户引入项目(Involve Users Early and Often),也就是做好项目干系人管理
      最终用户应该在一开始就加入项目流程,并保持每天或每周都能有沟通交流。
      这能保障最终用户以他们想要的方式获得他们想要的功能。
   2)先明商业目标,再谈数据
      一些BI实施可能先从企业中搜集、归并、清理不同的数据源开始。
      以敏捷开发的方式,用户要求的特性和功能应该最先被定义,接着才是制定获取正确数据的策略来满足这些功能。
   3)基于应用价值来设定sprint优先级排序
     当与最终用户一起制定他们需要的功能时,敏捷方法也要求你将功能分割为小的可在短期交付的模块。
     这就要求用户来将他们真正需要的特性设定优先级。     
   4)测试自动化
     使用自动化测试工具,是在短期迭代中交付功能的关键。没有这些工具,手工测试将会耗费大量时间。
   5)鼓励协作
    项目中不同角色的开发人员,如数据建模工程师,数据库管理员,BI开发者,他们之间的协作至关重要。当团队中的所有人拧成一股绳,而不是散乱的线时,已经成功一半了。
   6)迅速启动
   团队中的每个人,包括终端用户和开发人员,都要立刻着手于自己的工作。短期的交付压力,会让团队在长远受益。
3. 说说您读完试读样章后的启发
   认真看了样章,其中一些观点很是认同,目前个人管理的大数据项目也正在尝试敏捷开发,从数据收集到产生价值来讲,基础准备工作其实在初期占用很大的篇章,因此一套高效、稳定、可扩展的技术架构非常重要,也就是只需要一次搭建,保持长久的生命力,Hadoop架构应该是未来很长一段时间在大数据分析方面的主流;其次,任何一个项目都需要项目管理,对于数据研究和分析领域,有很多的不可预见性,敏捷开发的理念告诉你,其次任何的任务都是可以细分的,也就是逐渐明细的过程,这样有助于在大方向正确的前提下,坚定有序的向拟定的数据分析的大目标靠近,从而实现数据的商业价值。

使用道具 举报

回复
论坛徽章:
8
2012新春纪念徽章
日期:2012-01-04 11:54:46迷宫蛋
日期:2012-02-13 10:02:57紫蛋头
日期:2012-02-23 16:44:58咸鸭蛋
日期:2012-03-19 17:26:40迷宫蛋
日期:2012-04-16 11:09:06ITPUB 11周年纪念徽章
日期:2012-10-09 18:11:482013年新春福章
日期:2013-02-25 14:51:24茶鸡蛋
日期:2013-05-16 11:00:55
17#
发表于 2014-7-26 11:45 | 只看该作者
好书,学习

使用道具 举报

回复
论坛徽章:
78
ITPUB15周年纪念
日期:2020-08-28 17:23:53双鱼座
日期:2016-03-19 19:38:31秀才
日期:2016-02-18 09:31:52秀才
日期:2016-01-25 15:02:04双子座
日期:2016-01-19 20:35:54秀才
日期:2016-01-13 12:14:26秀才
日期:2015-12-25 15:31:10秀才
日期:2015-12-18 09:28:57秀才
日期:2015-12-14 14:56:09秀才
日期:2015-12-14 14:51:16
18#
发表于 2014-7-26 13:48 | 只看该作者
这不是扯淡么,就hadoop那个那么高的开发门槛,还敏捷数据分析。
这年头IT和时尚界一德性了

使用道具 举报

回复
论坛徽章:
57
SQL极客
日期:2013-12-09 14:13:35秀才
日期:2016-01-21 13:42:39秀才
日期:2016-01-13 12:14:26SQL大赛参与纪念
日期:2016-01-13 10:32:19SQL数据库编程大师
日期:2016-01-13 10:30:43秀才
日期:2015-12-14 14:47:54秀才
日期:2015-10-19 15:50:392015年新春福章
日期:2015-03-06 11:58:18懒羊羊
日期:2015-03-04 14:52:11优秀写手
日期:2014-11-08 06:00:14
19#
发表于 2014-7-26 17:43 | 只看该作者
wolfop 发表于 2014-7-26 13:48
这不是扯淡么,就hadoop那个那么高的开发门槛,还敏捷数据分析。
这年头IT和时尚界一德性了

我也觉得不靠谱,数据整合处理,哪一样不消耗时间,一个模型做出来起码有一个月的时间,数据探索就很花时间。

使用道具 举报

回复
论坛徽章:
57
SQL极客
日期:2013-12-09 14:13:35秀才
日期:2016-01-21 13:42:39秀才
日期:2016-01-13 12:14:26SQL大赛参与纪念
日期:2016-01-13 10:32:19SQL数据库编程大师
日期:2016-01-13 10:30:43秀才
日期:2015-12-14 14:47:54秀才
日期:2015-10-19 15:50:392015年新春福章
日期:2015-03-06 11:58:18懒羊羊
日期:2015-03-04 14:52:11优秀写手
日期:2014-11-08 06:00:14
20#
发表于 2014-7-26 17:45 | 只看该作者
但是,书还是值得看看,真有办法提高产出速度,对业务来说是大好事。

使用道具 举报

回复

您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

TOP技术积分榜 社区积分榜 徽章 团队 统计 知识索引树 积分竞拍 文本模式 帮助
  ITPUB首页 | ITPUB论坛 | 数据库技术 | 企业信息化 | 开发技术 | 微软技术 | 软件工程与项目管理 | IBM技术园地 | 行业纵向讨论 | IT招聘 | IT文档
  ChinaUnix | ChinaUnix博客 | ChinaUnix论坛
CopyRight 1999-2011 itpub.net All Right Reserved. 北京盛拓优讯信息技术有限公司版权所有 联系我们 未成年人举报专区 
京ICP备16024965号-8  北京市公安局海淀分局网监中心备案编号:11010802021510 广播电视节目制作经营许可证:编号(京)字第1149号
  
快速回复 返回顶部 返回列表