查看: 32266|回复: 34

大数据时代,R 语言是否是数据分析最理想技术

[复制链接]
认证徽章
论坛徽章:
49
现任管理团队成员
日期:2012-10-18 17:10:46妮可·罗宾
日期:2018-04-03 13:57:49
发表于 2014-9-1 13:45 | 显示全部楼层 |阅读模式
大数据时代,R 语言是否是数据分析最理想技术

R 是一款优秀的开源统计应用语言,它直观、易用、低成本,而且还有庞大的社区支持,随着数据挖掘技术的兴起,R 语言得到了广泛的应用。如果你打算用R进行统计计算和数据可视化,《R语言核心技术手册(第2版)》就是关于使用开源R语言(软件环境)快速解决上述问题的实用指导教程。通过本书,你将学会如何编写R函数以及借助R包进行数据预处理、可视化以及数据分析。作者用取自制医学、商业和体育领域的丰富案例对上述问题进行了讲解。

本期讨论话题:
1. R 可以完成哪些事?
2. 数据分析的前期准备有哪些?
3. 说说您读完试读样章后的启发?

活动时间:2014年9月1日~9月15日

活动规则: 阅读我们提供的图书试读章节来参加活动,写试读心得或根据提供的话题参与讨论!

本期奖品:《R语言核心技术手册(第2版)》图书一本    5名
无标题.jpg
本书样章下载: http://wenku.it168.com/d_001527919.shtml
获奖公布:
oracle_cj
bfmo
sunny1889
lidrema
tantebird


认证徽章
论坛徽章:
55
秀才
日期:2016-02-18 10:06:46技术图书徽章
日期:2014-08-28 15:59:45技术图书徽章
日期:2014-08-28 15:59:45蓝色妖姬
日期:2014-08-28 15:17:25技术图书徽章
日期:2014-08-22 13:56:58海蓝宝石
日期:2014-08-06 14:09:322014系统架构师大会纪念章
日期:2014-08-04 09:33:532013系统架构师大会纪念章
日期:2014-08-04 09:33:532012系统架构师大会纪念章
日期:2014-08-04 09:33:532011系统架构师大会纪念章
日期:2014-08-04 09:33:53
发表于 2014-9-1 14:24 | 显示全部楼层
关注下,这语言还没了解。

使用道具 举报

回复
论坛徽章:
737
季节之章:春
日期:2015-07-31 17:16:29ITPUB季度 技术新星
日期:2014-07-17 14:37:00季节之章:秋
日期:2015-07-31 17:16:14季节之章:夏
日期:2015-07-31 17:16:29股神
日期:2014-10-15 09:23:31衰神
日期:2014-10-20 22:47:12季节之章:冬
日期:2015-07-31 17:16:14红钻
日期:2014-12-16 17:51:41洛杉矶湖人
日期:2016-09-23 08:18:15布鲁克林篮网
日期:2016-09-23 08:17:18
发表于 2014-9-1 14:25 来自手机 | 显示全部楼层
本帖最后由 oracle_cj 于 2014-9-1 21:02 编辑

1. R 可以完成哪些事?

R是统计分析、绘图的语言和操作环境。R是属于GNU系统的一个自由、免费、源代码开放的软件,它是一个用于统计计算和统计制图的优秀工具。
R语言是主要用于统计分析、绘图的语言和操作环境。R本来是由来自新西兰奥克兰大学的Ross Ihaka和Robert Gentleman 开发(也因此称为R),现在由“R开发核心团队”负责开发。 R是基于S语言的一个GNU项目,所以也可以当作S语言的一种实现,通常用S语言编写的代码都可以不作修改的在R环境下运行。 R的语法是来自Scheme。
R是一套完整的数据处理、计算和制图软件系统。其功能包括:数据存储和处理系统;数组运算工具(其向量、矩阵运算方面功能尤其强大);完整连贯的统计分析工具;优秀的统计制图功能;简便而强大的编程语言:可操纵数据的输入和输出,可实现分支、循环,用户可自定义功能

与其说R是一种统计软件,还不如说R是一种数学计算的环境,因为R并不是仅仅提供若干统计程序、使用者只需指定数据库和若干参数便可进行一个统计分析。R的思想是:它可以提供一些集成的统计工具,但更大量的是它提供各种数学计算、统计计算的函数,从而使使用者能灵活机动的进行数据分析,甚至创造出符合需要的新的统计计算方法。
该语言的语法表面上类似 C,但在语义上是函数设计语言的(functional programming language)的变种并且和Lisp以及APL有很强的兼容性。特别的是,它允许在“语言上计算”(computing on the language)。这使得它可以把表达式作为函数的输入参数,而这种做法对统计模拟和绘图非常有用。
R是一个免费的自由软件,它有UNIX、LINUX、MacOS和WINDOWS版本,都是可以免费下载和使用的。在那儿可以下载到R的安装程序、各种外挂程序和文档。在R的安装程序中只包含了8个基础模块,其他外在模块可以通过CRAN获得。


2. 数据分析的前期准备有哪些?----识别信息需求
识别信息需求是确保数据分析过程有效性的首要条件,可以为收集数据、分析数据提供清晰的目标。识别信息需求是管理者的职责管理者应根据决策和过程控制的需求,提出对信息的需求。就过程控制而言,管理者应识别需求要利用那些信息支持评审过程输入、过程输出、资源配置的合理性、过程活动的优化方案和过程异常变异的发现。
----收集数据
有目的的收集数据,是确保数据分析过程有效的基础。组织需要对收集数据的内容、渠道、方法进行策划。策划时应考虑:

(1)与外界进行交互

读写各种各样的文件格式和数据库。

(2)准备

对数据进行清理、修整、整合、规范化、重塑、切片切块、变形等处理以便进行分析。

(3)转换

对数据集做一些数学和统计运算以产生新的数据集。比如说,根据分组变量对一个大表进行聚合。

(4)建模和计算

将数据跟统计模型、机器学习算法或其他计算工具联系起来。

(5)展示

创建交互式的或静态的图片或文字摘要。

ref:tt p://  baike.baidu.com/view/942569.htm

使用道具 举报

回复
认证徽章
论坛徽章:
17
生肖徽章2007版:猴
日期:2015-07-24 10:50:33紫水晶
日期:2015-09-14 19:29:07萤石
日期:2015-09-14 19:24:48萤石
日期:2015-09-13 14:30:02萤石
日期:2015-09-11 23:05:02红宝石
日期:2015-09-11 23:04:43萤石
日期:2015-09-11 23:04:27生肖徽章2007版:兔
日期:2015-07-31 16:43:10生肖徽章2007版:龙
日期:2015-07-24 10:51:00生肖徽章2007版:龙
日期:2015-07-24 10:50:51
发表于 2014-9-1 14:58 | 显示全部楼层
支持啊

使用道具 举报

回复
论坛徽章:
57
ITPUB15周年纪念
日期:2016-10-13 13:15:342017金鸡报晓
日期:2017-01-10 15:39:052017金鸡报晓
日期:2017-02-08 14:09:13秀才
日期:2017-02-22 15:14:12秀才
日期:2017-02-22 15:16:26秀才
日期:2017-02-22 15:18:00秀才
日期:2017-05-09 11:37:55秀才
日期:2017-07-11 14:19:35ITPUB18周年纪念章
日期:2018-11-13 15:31:24
发表于 2014-9-1 16:01 | 显示全部楼层
1. R 可以完成哪些事?
R是一套完整的数据处理、计算和制图软件系统。其功能包括:数据存储和处理系统;数组运算工具(其向量、矩阵运算方面功能尤其强大);完整连贯的统计分析工具;优秀的统计制图功能;简便而强大的编程语言:可操纵数据的输入和输出,可实现分支、循环,用户可自定义功能
R的思想是:它可以提供一些集成的统计工具,但更大量的是它提供各种数学计算、统计计算的函数,从而使使用者能灵活机动的进行数据分析,甚至创造出符合需要的新的统计计算方法。

2. 数据分析的前期准备有哪些?
  数据分析过程的主要有:识别信息需求、收集数据、分析数据、评价并改进数据分析的有效性。
大体流程如下:
一、识别信息需求
识别信息需求是确保数据分析过程有效性的首要条件,可以为收集数据、分析数据提供清晰的目标。识别信息需求是管理者的职责管理者应根据决策和过程控制的需求,提出对信息的需求。就过程控制而言,管理者应识别需求要利用那些信息支持评审过程输入、过程输出、资源配置的合理性、过程活动的优化方案和过程异常变异的发现。
二、收集数据
有目的的收集数据,是确保数据分析过程有效的基础。组织需要对收集数据的内容、渠道、方法进行策划。策划时应考虑:
①将识别的需求转化为具体的要求,如评价供方时,需要收集的数据可能包括其过程能力、测量系统不确定度等相关数据;
②明确由谁在何时何处,通过何种渠道和方法收集数据;
③记录表应便于使用;
④采取有效措施,防止数据丢失和虚假数据对系统的干扰。
三、分析数据
分析数据是将收集的数据通过加工、整理和分析、使其转化为信息,通常用方法有:
老七种工具,即排列图、因果图、分层法、调查表、散步图、直方图、控制图;
新七种工具,即关联图、系统图、矩阵图、KJ法、计划评审技术、PDPC法、矩阵数据图;
四、数据分析过程的改进
数据分析是质量管理体系的基础。组织的管理者应在适当时,通过对以下问题的分析,评估其有效性:
①提供决策的信息是否充分、可信,是否存在因信息不足、失准、滞后而导致决策失误的问题;
②信息对持续改进质量管理体系、过程、产品所发挥的作用是否与期望值一致,是否在产品实现过程中有效运用数据分析;
③收集数据的目的是否明确,收集的数据是否真实和充分,信息渠道是否畅通;
④数据分析方法是否合理,是否将风险控制在可接受的范围;
⑤数据分析所需资源是否得到保障。

3. 说说您读完试读样章后的启发?
R语言进行数据分析,灵活机动,函数非常多,也可根据需求进行自主开发。另外,本书涉及内容比较基础,涵盖了日常工作中的各类操作,很不错的工具书。

使用道具 举报

回复
认证徽章
论坛徽章:
171
ITPUB十周年纪念徽章
日期:2011-11-01 16:24:04ITPUB 11周年纪念徽章
日期:2012-09-28 17:34:42ITPUB社区12周年站庆徽章
日期:2013-08-13 16:52:38itpub13周年纪念徽章
日期:2014-10-08 15:21:35ITPUB14周年纪念章
日期:2015-10-26 17:23:44ITPUB15周年纪念
日期:2018-02-09 14:12:58状元
日期:2015-11-19 12:58:23榜眼
日期:2015-11-19 12:58:23探花
日期:2015-11-19 12:58:23进士
日期:2015-11-19 12:59:09
发表于 2014-9-1 16:59 | 显示全部楼层
R语言的绘图功能个人觉得最抢眼,是个好语言、好工具。
样章?O'REILLY的图书都是一线工程师写的,好得没话说。

使用道具 举报

回复
求职 : 数据分析/ETL
认证徽章
论坛徽章:
1
2014年世界杯参赛球队: 葡萄牙
日期:2014-07-24 11:03:54
发表于 2014-9-1 17:55 | 显示全部楼层
本帖最后由 sunny1889 于 2014-9-6 17:07 编辑

1. R 可以完成哪些事?

R语言是主要用于统计分析、绘图功能的语言和操作环境,是属于GNU系统的一个自由、免费、源代码开放的软件,是一个用于统计计算和统计制图的优秀工具。能完成数据处理、计算和图形展示等功能。具体包括:
(1)R是统计分析、绘图功能的自由开源软件,拥有完整体系的数据分析和挖掘工具,能够有效的数据存储和处理;
(2)R语言向量化运算功能强大,R语言使用apply函数系列取代传统的for循环做运算节约内存和时间。
(3)R有丰富的数据挖掘工具包(Packages)方便使用。拥有完整体系的数据统计和分析工具,为数据分析和显示提供的强大图形功能;
(4)R是一种面向对象的编程语言,和其它编程语言及平台、数据库之间有很好的接口。它是一套完善、简便而有效的编程语言(源自S语言),可操纵数据的输入和输出,可实现条件、分支、循环及自定义函数。


2. 数据分析的前期准备有哪些?

(1)数据清理:数据清理是数据准备过程中最花费时间、最乏味,但也是最重要的步骤。该步骤可以有效减少学习过程中可能出现相互矛盾情况的问题。初始获得的数据主要有以下几种情况需要处理:含噪声数据、错误数据、缺失数据、冗余数据。
(2)数据集成:数据集成是一种将多个数据源中的数据(数据库、数据立方体或一般文件)结合起来存放到一个一致的数据存储(如数据仓库)中的一种技术和过程。由于不同学科方面的数据集成涉及到不同的理论依据和规则,因此,数据集成可以说是数据预处理中比较困难的一个步骤。目前通常采用联邦式、基于中间件模型和数据仓库等方法来构造集成的系统,这些技术在不同的着重点和应用上解决数据共享和为企业提供决策支持。
(3)数据转换:数据变换是采用线性或非线性的数学变换方法将多维数据压缩成较少维数的数据,消除它们在空间、属性、时间及精度等特征表现的差异。这类方法虽然对原始数据通常都是有损的,但其结果往往具有更大的实用性。数据转换的方法有数据平滑、数据聚集、数据概化、数据规范化、属性构造等。
(4)数据归约:数据经过去噪处理后,需根据相关要求对数据的属性进行相应处理。数据规约就是在减少数据存储空间的同时尽可能保证数据的完整性,获得比原始数据小得多的数据,并将数据以合乎要求的方式表示。数据归约方法主要有:数据立方体聚集、维规约、数据压缩、数值压缩、离散化和概念分层。


3. 说说您读完试读样章后的启发?

之前看到统计之都在微博上征求大家意见,《R in a Nutshell》的中文书名该怎么翻译,最终还是选择了《R语言核心技术手册》,这本书翻译的很快,而且译者都是R语言国内的活跃者、支持者和发起者们,他们组织统计之都和这么多届的R语言大会,实属贡献之大。
再看本书试读部分,第3章简短的示例让你立刻发现R语言的简单优雅和功能强大,语法简便不输给matlab和python。
第4章R包(package)表现了R作为一种开源软件,有着无数的贡献者在加入包,可用的数据分析工具包由最初的几个增长到目前的4200多个,而且这个数目还在不断地增长。R的包覆盖了统计计算的所有领域,从传统的回归分析到前沿的金融时间序列分析都有。
第10章面向对象编程指出R语言是一种相当完善、简洁和高效的面向对象的程序设计语言,它包括条件语句、循环语句、用户自定义的递归函数以及输入输出接口。它也是彻底面向对象的统计编程语言,和其它编程语言、数据库之间有很好的接口。
第11章数据的存储和编辑介绍了R中读取各种格式的数据和保存、编辑、导出R中的数据对象,也讲了R通过扩展包RODBC和DBI直接连接数据库进行操作,包括常用的MySQL、Oracle、SQL Server、DB2等等,这表现了R可以进行大数据挖掘。
总之这是一本比较详细全面讲解R语言的著作,适合R语言和数据分析使用者。

使用道具 举报

回复
论坛徽章:
63
2010广州亚运会纪念徽章:台球
日期:2010-10-18 12:43:48茶鸡蛋
日期:2013-01-09 10:59:002013年新春福章
日期:2013-02-25 14:51:24奥运会纪念徽章:帆船
日期:2013-04-02 17:07:052013年新春福章
日期:2013-04-08 17:42:48奥运纪念徽章
日期:2013-07-18 13:55:12优秀写手
日期:2013-12-18 09:29:10马上有车
日期:2014-03-20 16:13:24马上有房
日期:2014-03-20 16:14:11马上有钱
日期:2014-03-20 16:14:11
发表于 2014-9-1 23:24 | 显示全部楼层
本帖最后由 chszs 于 2014-9-1 23:25 编辑

1. R可以完成哪些事?
R是一个有着统计分析功能及强大作图功能的软件系统,是由Ross Ihaka和Robert Gentleman1共同创立。
R语言可以看作是由AT&T贝尔实验室所创的S语言发展出的一种方言。因此,R即是一种软件也可以说是一种语言。
R是用于统计分析、绘图的语言和操作环境。R是属于GNU系统的一个自由、免费、源代码开放的软件,它是一个用于统计计算和统计制图的优秀工具。
R可以完成的事主要是通过它的各种包实现的,到目前为止,有4000多个包可供使用。这些包涵盖了各个方面,使得R可以完成:
1)实现多种机器学习算法
2)完成多元统计
3)空间数据分析
4)新陈代谢动力学数据分析
5)用于计量经济学
6)各种2D和3D绘图
等等。

2. 数据分析的前期准备有哪些?
数据分析的前期准备分为:
1)数据的分组
将调查可得的数据资料进行分组。即可以采用统计分组方法,将大量调查资料,按一定的特征标志分成不同的部分,以正确区分现象和事物的不同性质与特征。
可分别采用按数量、质量、时序和地区等进行统计分组的方法。
2)数据的概括归纳
将分组后的数据进行汇总合并,并与其他样本数据进行分析对比。
有频数分布、中值、计算离散趋势三种方法。
3)开始数据分析
分析方法按照变量的多少可分为单变量分析、双变量分析和多变量分析。
在单变量分析中有:估计方法和显著性检验方法。
在双变量分析中最常用的方法有交叉分析、相关分析、回归及方差分析。
多变量分析有一个因变量分析、几个因变量分析等方法。

3. 说说您读完试读样章后的启发?
样章提供了第三章简短的示例、第四章R包、第十章面向对象编程、第十一章数据的存取和编辑等内容,共计87页,在试读的书籍中算是篇幅偏多的书。从提供的这四章来看,内容适合R语言的初学者或爱好者,内容简单明了,最佳的学习方式是在自己的电脑上安装R和RStudio工具后,一边拿着书,一边敲代码,很快就能上手。
《R语言核心技术手册(第2版)》这本书很优秀,因为内容深入浅出,没有晦涩的理论讲解,都是实战的内容。不足的地方也有,我觉得页边空白过多,每页可阅读的文字量偏小,有点浪费纸张。总之,瑕不掩瑜!

使用道具 举报

回复
论坛徽章:
5
ITPUB十周年纪念徽章
日期:2011-11-01 16:24:04懒羊羊
日期:2015-03-04 14:52:112015年新春福章
日期:2015-03-06 11:58:18秀才
日期:2015-10-19 15:49:55秀才
日期:2015-10-19 15:50:39
发表于 2014-9-2 12:23 | 显示全部楼层
1. R可以完成哪些事?
从使用角度,R是一个有着统计分析功能及强大作图功能的软件,在GNU协议General Public Licence4下免费发行。
从编程角度,R语言是面向对象的统计编程语言,是由AT&T贝尔实验室所创的S语言发展出的一种方言。
从计算角度,R 是一种为统计计算和图形显示而设计的语言及环境。
从开发角度,R 是一组开源的数据操作,计算和图形显示工具的整合包有各种方式可以进行编程调用。
从架构角度,R 是为统计计算和图形展示而设计的一个系统。它包括一种编程语言,高级别图形展示函数,和其它语言的接口以及调试工具。
如果一定要找到一个与R类似的软件,那就是商业软件Matlab。R和Matlab都是基于编程进行数据分析的工具,Matlab适用的领域更广,而R更擅长统计分析领域。
R的一大特点是免费的,而且功能可以方便的通过“包”进行扩展。
R常用于金融和统计领域。大多数人使用R就是因为它的统计功能,R的内部实现了很多经典的or时髦的统计技术。

2. 数据分析的前期准备有哪些?
识别需求
识别信息需求是确保数据分析过程有效性的首要条件,可以为收集数据、分析数据提供清晰的目标。

数据收集
有目的的收集数据,是确保数据分析过程有效的基础。

数据清理
现实世界的数据一般是脏的、不完整和不一致的。数据清理试图填充遗漏的值,识别局外者、消除噪音,并纠正数据的不一致。

数据集成和变换
数据分析经常需要数据集成--由多个数据存储合并数据。数据可能还需要转换成适用于数据分析的形式。

数据规约
针对非常大的数据集,数据规约技术可以用来得到数据集的规约表示,它小得多,但仍接近保持原数据的完整性。这样,在规约后的数据集上作数据分析更有效,并产生几乎相同的分析结果。

3. 说说您读完试读样章后的启发?
本书对R语言的特性深入浅出的讲解,内容也非常丰富,实战案例也比较完善,是很值得在旁边放一本,随时参阅的综合性工具书。

使用道具 举报

回复
认证徽章
论坛徽章:
2
马上有对象
日期:2014-07-30 16:25:01优秀写手
日期:2014-08-12 06:00:13
发表于 2014-9-3 08:37 | 显示全部楼层
oracle有没有类似于R语言的闭源的语言工具

使用道具 举报

回复

您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

SACC2019中国系统架构师大会

【数字转型 架构演进】SACC2019中国系统架构师大会,7折限时优惠重磅来袭!
2019年10月31日~11月2日第11届中国系统架构师大会(SACC2019)将在北京隆重召开。四大主线并行的演讲模式,1个主会场、20个技术专场、超千人参与的会议规模,100+来自互联网、金融、制造业、电商等领域的嘉宾阵容,将为广大参会者提供一场最具价值的技术交流盛会。

限时七折期:2019年8月31日前


----------------------------------------

大会官网>>
TOP技术积分榜 社区积分榜 徽章 团队 统计 知识索引树 积分竞拍 文本模式 帮助
  ITPUB首页 | ITPUB论坛 | 数据库技术 | 企业信息化 | 开发技术 | 微软技术 | 软件工程与项目管理 | IBM技术园地 | 行业纵向讨论 | IT招聘 | IT文档
  ChinaUnix | ChinaUnix博客 | ChinaUnix论坛
CopyRight 1999-2011 itpub.net All Right Reserved. 北京盛拓优讯信息技术有限公司版权所有 联系我们 
京ICP备09055130号-4  北京市公安局海淀分局网监中心备案编号:11010802021510 广播电视节目制作经营许可证:编号(京)字第1149号
  
快速回复 返回顶部 返回列表