大数据和「数据挖掘」是何关系？

abaobaobaobao · 发表于 2014-3-23 21:09

先说说我对大数据的理解。我以为大数据有2层意思：首先是万物皆可数据化。数据化不等于数字化，数据化指的是将对象量化成可分析的数据，可以是结构化的，也可以是非结构化的。援引来自2013年4月19号《东方早报》的文章《比你更了解你——大数据时代的汽车生活》中的一段：
再来说一个例子，你可能永远也想不到你开车时的坐姿可以防止汽车被盗，这听起来简直不可思议，但这就是现实存在的事，日本某工业研究所通过在汽车座椅下安装360个压力传感器来测量人对座椅各部分施加压力的方式，并且通过0-256个数值范围进行量化，这样，每个乘坐者都将产生一份专属的数据资料，这个系统可以根据人对座位的压力差异识别出乘坐者的身份，准确率高达98%，这项技术作为汽车防盗系统装在车上时，汽车就会知道驾驶者是不是车主，如果不是，汽车就会自动熄火，另外也可以根据坐姿数据来判断司机是否正处于疲劳驾驶，系统可以通过自动减速或刹车来控制可能带来的危险。我举这个例子是想说明借助今天的技术和数学统计知识，以前不能量化描述的东西今天已经可以在计算机上分析和表达，即数据化。
第二层意思是大数据的“样本即总体”。这个观点来自于舍恩伯格的《大数据时代》。以前的定量调查和分析的数据，受限于技术、资金等条件，总是从整体中抽取一部分样本，针对这些样本进行调查。但是大数据不一样，大数据分析的数据是整体。
总之，大数据是一种思维方式。
然而回到数据挖掘这个关键词上来。之前的回答已经很清楚地解释了数据挖掘，以及与大数据之间的不同。我想强调的一点是：大数据的独特魅力在于新颖而又具有实际意义的数据挖掘，如经典的”啤酒与尿布“的案例。

364364 · 发表于 2014-3-23 22:02

以山西开矿的煤老板为例：

开矿的前提是有矿，包括煤矿的储藏量，储藏深度，煤的成色。

之后是挖矿，要把这些埋在地下的矿挖出来，需要挖矿工，挖矿机，运输机。

之后是加工，洗煤，炼丹，等等。

最后才是转化为银子。

数据行业十分类似：

挖掘数据的前提是有数据，包括数据的储藏量，储藏深度，数据的成色。

之后是数据挖掘，要把这些埋藏的数据挖掘出来。

之后是数据分析输出，要把这些数据可视化输出，指导分析、商业实践。

直到这一步，才创造了价值。

所谓的大数据，大约就是说现在有座正在形成的巨型矿山，快去抢占成为煤老板吧，下一个盖茨兴许将在这里诞生。

784747889 · 发表于 2014-3-23 22:57

大数据是概念，是个广域词，如“智能家居”，“物联网”等都只是一种概念词，表现几种行业组合而来形成的另一种代名词！数据挖掘是技术，是大数据实现（可能用得到会更贴切）方式方法，如“嵌入式”同属技术一样！但要说大数据和数据挖掘有什么关系，我觉得是这种关系：一个男子同他妻子生了一个孩子，又同他岳母生了一个！大数据和数据挖掘关系就如这两个孩子间的关系！（个人观点欢迎指正

sbear4765 · 发表于 2014-3-23 23:52

   我的观点，大数据可以分为两种，一种行业数据，比如天气预报，飞机模型数据等等，一种是互联网数据，现在像微博，微信，每秒钟都有很多数据。
   不管对什么数据，我们都希望用数据可以预测一些东西，比如天气预报，微博的舆情分析等等，这是预测，我们可以还希望做一些监控，数据的一些归类等等，这些也就是数据挖掘中所说的分类，聚类以及异常点监测等等。
   大数据是我们现代生活的一种呈现，也就是因为现在互联网的发达，计算机的普及，这是大数据产生的源泉，我们要做的是通过数据挖掘、机器学习这样的一些工具来分析解决这些大数据。
另外大数据的可视化也是一个很好的研究方向。通过数据挖掘等方法分析得到的数据如何更好的呈现。

woaiwan123000-p · 发表于 2014-3-24 00:44

新手一枚，简单述说一下我的观点，大数据和数据挖掘的关系
1.首先，数据挖掘是一种工具，并且由来已久，不是什么新鲜东西；而大数据是新近几年才出现的概念，主要强调了全景数据，全量数据，其中大部分是非结构化数据或半结构化数据（我们一般说的数据基本上都是结构化数据）
2.其次，数据挖掘属于数据分析的一个工具，而数据分析是探索大数据规律的方法，由此可知，某种程度上可以说数据挖掘是大数据分析的一个工具。

并且从维基百科上我们可以发现
数据挖掘有以下这些不同的定义：
            “从数据中提取出隐含的过去未知的有价值的潜在信息”
            “一门从大量数据或者数据库中提取有用信息的科学。”
说到数据挖掘，应该说说知识发现（KDD），数据挖掘与KDD的关系是：KDD是从数据中辨别有效的、新颖的、潜在有用的、最终可理解的模式的过程；而数据挖掘是KDD通过特定的算法在可接受的计算效率限制内生成特定模式的一个步骤。如今的各种文献资料中，这两个术语经常不加区分的使用，数据挖掘（DM）=知识发现（KDD），并且商业领域一般说数据挖掘，而学术领域就说KDD。  大数据指的是所涉及的数据量规模巨大到无法通过人工，在合理时间内达到截取、管理、处理、并整理成为人类所能解读的信息，数据挖掘（data mining）则是在探讨用以解析大数据的方法。3.举例说明，Google 流感趋势我们发现，某些搜索字词非常有助于了解流感疫情。Google 流感趋势会根据汇总的 Google 搜索数据，近乎实时地对全球当前的流感疫情进行估测。【全球每星期会有数以百万计的用户在网上搜索健康信息。正如您所预料的那样，在流感季节，与流感有关的搜索会明显增多；到了过敏季节，与过敏有关的搜索会显著上升；而到了夏季，与晒伤有关的搜索又会大幅增加。所有这些现象均可通过 Google 搜索解析进行研究。但是，搜索查询趋势能否为实际现象建立一个准确可靠的模式而提供依据呢？我们发现，搜索流感相关主题的人数与实际患有流感症状的人数之间存在着密切的关系。当然，并非每个搜索“流感”的人都真的患有流感，但当我们将与流感有关的搜索查询汇总到一起时，便可以找到一种模式。我们将自己统计的查询数量与传统流感监测系统的数据进行了对比，结果发现许多搜索查询在流感季节确实会明显增多。通过对这些搜索查询的出现次数进行统计，我们便可以估测出世界上不同国家和地区的流感传播情况。】本文已经发表在美国《自然》杂志上http://static.googleusercontent.com/media/research.google.com/zh-CN//archive/papers/detecting-influenza-epidemics.pdf
（1）这个简单的例子说明，谷歌利用计算机数据挖掘相关工具挖掘搜索引擎的记录（全部流感记录），找出数据背后的规律，即流感趋势，这里流感记录就是全量数据，不是随机抽样的，这是区别于之前（2010年之前）的数据分析的最大区别。（2）理想中大数据主要是非结构化或半结构化数据，而这里谷歌的记录数据仍然是结构化数据，因此大数据是一个处在不断发展、更新的概念，当然数据挖掘工具也处在不断升级完善中，理想中的数据挖掘工具应该可以处理全量数据、即时数据、多类型数据、·····总之，大数据和数据挖掘都在不断变化发展中，我们常人都是根据历史数据来理解大数据和数据挖掘，当然有一个万变不离其宗的东西就是基于应用统计学的分析方法。以上就是鄙人的愚见，希望大家可以多加讨论，集思广益来理解大数据和数据挖掘
显示全部

yuyixin · 发表于 2014-3-24 01:42

谈谈个人见解：
数据挖掘基于数据库理论，机器学习，人工智能，现代统计学的迅速发展的交叉学科，在很多领域中都有应用。涉及到很多的算法，源于机器学习的神经网络，决策树，也有基于统计学习理论的支持向量机，分类回归树，和关联分析的诸多算法。数据挖掘的定义是从海量数据中找到有意义的模式或知识。

大数据是今年提出来，也是媒体忽悠的一个概念。有三个重要的特征：数据量大，结构复杂，数据更新速度很快。由于Web技术的发展，web用户产生的数据自动保存、传感器也在不断收集数据，以及移动互联网的发展，数据自动收集、存储的速度在加快，全世界的数据量在不断膨胀，数据的存储和计算超出了单个计算机(小型机和大型机)的能力，这给数据挖掘技术的实施提出了挑战（一般而言，数据挖掘的实施基于一台小型机或大型机，也可以进行并行计算）。Google提出了分布式存储文件系统，发展出后来的云存储和云计算的概念。
大数据需要映射为小的单元进行计算，再对所有的结果进行整合，就是所谓的map-reduce算法框架。在单个计算机上进行的计算仍然需要采用一些数据挖掘技术，区别是原先的一些数据挖掘技术不一定能方便地嵌入到 map-reduce 框架中，有些算法需要调整。
此外，大数据处理能力的提升也对统计学提出了新的挑战。统计学理论往往建立在样本上，而在大数据时代，可能得到的是总体，而不再是总体的不放回抽样。

lushi1234 · 发表于 2014-3-24 02:33

大数据是IBM生造出来的奇葩词汇，字面意思就是“海量数据”。那为什么不直接叫做海量数据，而是另外发明新词？我大约总结了两点原因。
一是大数据这个词比较酷炫，一般人乍听会有点迷糊，适合忽悠；二来用这个词，也是要和传统数据库的“海量数据”概念做出区分。那么到底多大的数据算是“大数据”呢？这个目前没有统一标准，全凭各家自说自话，我就见过某所谓大数据公司，把超过100万行的数据表定义为大数据的。当然，IBM是给出了量级上的描述的——从TB到PB。这大概也是要和传统数据库厂商做出差异来，像ORACLE, TERADATA之类的数据库，在TB级应用上已经比较成熟了，所以大数据就要升华到PB级。但是目前又很少有PB级应用出现过，因此在实际使用这个词的时候，量级是被淡化的，而大数据的真正标志是另外一个特征——非传统数据库。你起码是列存储吧，要么搞MPP架构啊，搞Hadoop啊，云计算啊，等等。总之你不能用传统数据库。有了这个特征，你就可以给自己扣上大数据的帽子了。值得一提的是，大数据可以基于非结构化数据，但是目前的主流仍然是结构化数据，不要以为谷歌关键字预测流感趋势这样的案例已经到处都是了，这真的很个别。至于数据挖掘，这个跟大数据没有什么必然联系。你可以理解为，大数据就是大海，而数据挖掘是从水中钓鱼的过程。大海里当然可以钓鱼，而且鱼的种类和数量都不少。但是想吃鱼未必需要造海啊，小池塘里也未必钓不到鱼。

Raintown86 · 发表于 2014-3-24 03:27

看了不少评论说只是忽悠，就好像到现在还有很多人认为云计算是虚拟化的同义词，也是忽悠一样，其实是自己还没真正了解其内涵；
就好像云计算是因为虚拟化技术发展的量变导致质变；大数据也是同样的道理是旧技术发展到一定程度导致的新产物；
很多人还停留在大数据就是海量数据的概念，网上很多所谓的大数据例子，也体现不出目前大数据的明显特征，和之前的数据挖掘显示不出差别，更加让部分人以为大数据就是数据挖掘的别名；

我个人的理解，有若干区别：
1，数据挖掘还是基于用户假设了因果，然后进行验证；而大数据则重点在找出关联关系，A的变化会影响到B的变化幅度；
2，传统的方法只是从内部数据库数据提取，分析数据；大数据则从更多途径，采用更多非结构化的数据；
3，处理时间上，传统的对时间要求不高；大数据强调的是实时性，数据在线即用；
4，传统的方式，重点还是从数据中挖掘出残值；而大数据则是从数据中找出新的内容，创新的价值；
...

最大的区别，还是思维的不同，思考方式的不同，导致后面的方法论，工具有很大的区别；

398199783 · 发表于 2014-3-24 04:21

简单来说，数据挖掘应该比大数据出现得早。人们在进行生产（商业也算哦）的过程中会发现有一些数据，这些数据伴随着生产过程产生，必然包含着一些规律，人们就想用一些方法把枯燥数据里的秘密挖掘出来，于是动用统计啊计算啊机器学习之类的方法（方法不重要，能挖出秘密重要），把这个过程叫做数据挖掘；而大数据，只是泛泛而谈罢了，大致指的是海量数据，是个大概念，不具体。

hnxymjf · 发表于 2014-3-24 05:12

我认为计算机工业需要下一个增长点，所以炮制出了大数据这个概念，本质上还是数据挖掘