[转载]数据挖掘技术的由来

jlandzpa · 发表于 2001-11-30 21:15

11.1 Web数据挖掘的难点
Web上有海量的数据信息，怎样对这些数据进行复杂的应用成了现今数据库技术的研究热点。数据挖掘就是从大量的数据中发现隐含的规律性的内容，解决数据的应用质量问题。充分利用有用的数据，废弃虚伪无用的数据，是数据挖掘技术的最重要的应用。相对于Web的数据而言，传统的数据库中的数据结构性很强，即其中的数据为完全结构化的数据，而Web上的数据最大特点就是半结构化。所谓半结构化是相对于完全结构化的传统数据库的数据而言。显然，面向Web的数据挖掘比面向单个数据仓库的数据挖掘要复杂得多。

1.异构数据库环境

　　从数据库研究的角度出发，Web网站上的信息也可以看作一个数据库，一个更大、更复杂的数据库。Web上的每一个站点就是一个数据源，每个数据源都是异构的，因而每一站点之间的信息和组织都不一样，这就构成了一个巨大的异构数据库环境。如果想要利用这些数据进行数据挖掘，首先，必须要研究站点之间异构数据的集成问题，只有将这些站点的数据都集成起来，提供给用户一个统一的视图，才有可能从巨大的数据资源中获取所需的东西。其次，还要解决Web上的数据查询问题，因为如果所需的数据不能很有效地得到，对这些数据进行分析、集成、处理就无从谈起。

2.半结构化的数据结构

　　Web上的数据与传统的数据库中的数据不同，传统的数据库都有一定的数据模型，可以根据模型来具体描述特定的数据。而Web上的数据非常复杂，没有特定的模型描述，每一站点的数据都各自独立设计，并且数据本身具有自述性和动态可变性。因而，Web上的数据具有一定的结构性，但因自述层次的存在，从而是一种非完全结构化的数据，这也被称之为半结构化数据。半结构化是Web上数据的最大特点。

3.解决半结构化的数据源问题

　　Web数据挖掘技术首要解决半结构化数据源模型和半结构化数据模型的查询与集成问题。解决Web上的异构数据的集成与查询问题，就必须要有一个模型来清晰地描述Web上的数据。针对Web上的数据半结构化的特点，寻找一个半结构化的数据模型是解决问题的关键所在。除了要定义一个半结构化数据模型外，还需要一种半结构化模型抽取技术，即自动地从现有数据中抽取半结构化模型的技术。面向Web的数据挖掘必须以半结构化模型和半结构化数据模型抽取技术为前提。

11.2 XML与Web数据挖掘技术
　　以XML为基础的新一代WWW环境是直接面对Web数据的，不仅可以很好地兼容原有的Web应用，而且可以更好地实现Web中的信息共享与交换。XML可看作一种半结构化的数据模型，可以很容易地将XML的文档描述与关系数据库中的属性一对应起来，实施精确地查询与模型抽取。

1.XML的产生与发展

　　XML(extensible Markup Language)是由万维网协会(W3C)设计，特别为Web应用服务的SGML(Standard General Markup Language)的一个重要分支。总的来说，XML是一种中介标示语言(Meta-markup Language)，可提供描述结构化资料的格式，详细来说，XML是一种类似于HTML，被设计用来描述数据的语言。XML提供了一种独立的运行程序的方法来共享数据，它是用来自动描述信息的一种新的标准语言，它能使计算机通信把Internet的功能由信息传递扩大到人类其他多种多样的活动中去。XML由若干规则组成，这些规则可用于创建标记语言，并能用一种被称作分析程序的简明程序处理所有新创建的标记语言，正如HTML为第一个计算机用户阅读Internet文档提供一种显示方式一样，XML也创建了一种任何人都能读出和写入的世界语。XML解决了HTML不能解决的两个Web问题，即Internet发展速度快而接入速度慢的问题，以及可利用的信息多，但难以找到自己需要的那部分信息的问题。XML能增加结构和语义信息，可使计算机和服务器即时处理多种形式的信息。因此，运用XML的扩展功能不仅能从Web服务器下载大量的信息，还能大大减少网络业务量。

　　XML中的标志(TAG)是没有预先定义的，使用者必须要自定义需要的标志，XML是能够进行自解释(Self Describing)的语言。XML使用DTD(Document Type Definition文档类型定义)来显示这些数据，XSL(eXtensible Style Sheet Language)是一种来描述这些文档如何显示的机制，它是XML的样式表描述语言。XSL的历史比HTML用的CSS(层叠式样式表Cascading Style Sheets)还要悠久，XSL包括两部分：一个用来转换XML文档的方法；一个用来格式化XML文档的方法。XLL(eXtensible Link Language)是XML连接语言，它提供XML中的连接，与HTML中的类似，但功能更强大。使用XLL，可以多方向连接，且连接可以存在于对象层级，而不仅仅是页面层级。由于XML能够标记更多的信息，所以它就能使用户很轻松地找到他们需要的信息。利用XML，Web设计人员不仅能创建文字和图形，而且还能构建文档类型定义的多层次、相互依存的系统、数据树、元数据、超链接结构和样式表。

2.XML的主要特点

　　正是XML的特点决定了其卓越的性能表现。XML作为一种标记语言，有许多特点：

　　(1)简单。XML经过精心设计，整个规范简单明了，它由若干规则组成，这些规则可用于创建标记语言，并能用一种常常称作分析程序的简明程序处理所有新创建的标记语言。XML能创建一种任何人都能读出和写入的世界语，这种创建世界语的功能叫做统一性功能。如XML创建的标记总是成对出现，以及依靠称作统一代码的新的编码标准。

　　(2)开放。XML是SGML在市场上有许多成熟的软件可用来帮助编写、管理等,开放式标准XML的基础是经过验证的标准技术，并针对网络做最佳化。众多业界顶尖公司，与W3C的工作群组并肩合作，协助确保交互作业性，支持各式系统和浏览器上的开发人员、作者和使用者，以及改进XML标准。XML解释器可以使用编程的方法来载入一个XML的文档，当这个文档被载入以后,用户就可以通过XML文件对象模型来获取和操纵整个文档的信息，加快了网络运行速度。

　　(3)高效且可扩充。支持复用文档片断，使用者可以发明和使用自己的标签，也可与他人共享，可延伸性大，在XML中，可以定义无限量的一组标注。XML提供了一个标示结构化资料的架构。一个XML组件可以宣告与其相关的资料为零售价、营业税、书名、数量或其它任何数据元素。随着世界范围内的许多机构逐渐采用XML标准，将会有更多的相关功能出现：一旦锁定资料，便可以使用任何方式透过电缆线传递，并在浏览器中呈现，或者转交到其他应用程序做进一步的处理。XML提供了一个独立的运用程序的方法来共享数据，使用DTD，不同的组中的人就能够使用共同的DTD来交换数据。你的应用程序可以使用这个标准的DTD来验证你接受到的数据是否有效，你也可以使用一个DTD来验证你自己的数据。

　　(4)国际化。标准国际化，且支持世界上大多数文字。这源于依靠它的统一代码的新的编码标准，这种编码标准支持世界上所有以主要语言编写的混合文本。在HTML中，就大多数字处理而言，一个文档一般是用一种特殊语言写成的，不管是英语，还是日语或阿拉伯语，如果用户的软件不能阅读特殊语言的字符，那么他就不能使用该文档。但是能阅读XML语言的软件就能顺利处理这些不同语言字符的任意组合。因此，XML不仅能在不同的计算机系统之间交换信息，而且能跨国界和超越不同文化疆界交换信息。

jlandzpa · 发表于 2001-11-30 21:15

3.XML在Web数据挖掘中的应用

　　XML已经成为正式的规范，开发人员能够用XML的格式标记和交换数据。XML在三层架构上为数据处理提供了很好的方法。使用可升级的三层模型，XML可以从存在的数据中产生出来，使用XML结构化的数据可以从商业规范和表现形式中分离出来。

　　促进XML应用的是那些用标准的HTML无法完成的Web应用。这些应用从大的方面讲可以被分成以下四类：需要Web客户端在两个或更多异质数据库之间进行通信的应用；试图将大部分处理负载从Web服务器转到Web客户端的应用；需要Web客户端将同样的数据以不同的浏览形式提供给不同的用户的应用；需要智能Web代理根据个人用户的需要裁减信息内容的应用。显而易见，这些应用和Web的数据挖掘技术有着重要的联系，基于Web的数据挖掘必须依靠它们来实现。

　　XML给基于Web的应用软件赋予了强大的功能和灵活性，因此它给开发者和用户带来了许多好处。比如进行更有意义的搜索，并且Web数据可被XML唯一地标识。没有XML，搜索软件必须了解每个数据库是如何构建的，但这实际上是不可能的，因为每个数据库描述数据的格式几乎都是不同的。由于不同来源数据的集成问题的存在，现在搜索多样的不兼容的数据库实际上是不可能的。XML能够使不同来源的结构化的数据很容易地结合在一起。软件代理商可以在中间层的服务器上对从后端数据库和其它应用处来的数据进行集成。然后，数据就能被发送到客户或其他服务器做进一步的集合、处理和分发。XML的扩展性和灵活性允许它描述不同种类应用软件中的数据，从描述搜集的Web页到数据记录，从而通过多种应用得到数据。同时，由于基于XML的数据是自我描述的，数据不需要有内部描述就能被交换和处理。利用XML，用户可以方便地进行本地计算和处理，XML格式的数据发送给客户后，客户可以用应用软件解析数据并对数据进行编辑和处理。使用者可以用不同的方法处理数据，而不仅仅是显示它。XML文档对象模式(DOM)允许用脚本或其他编程语言处理数据，数据计算不需要回到服务器就能进行。XML可以被利用来分离使用者观看数据的界面，使用简单灵活开放的格式，可以给Web创建功能强大的应用软件，而原来这些软件只能建立在高端数据库上。另外，数据发到桌面后，能够用多种方式显示。

　　XML还可以通过以简单开放扩展的方式描述结构化的数据，XML补充了HTML，被广泛地用来描述使用者界面。HTML描述数据的外观，而XML描述数据本身。由于数据显示与内容分开，XML定义的数据允许指定不同的显示方式，使数据更合理地表现出来。本地的数据能够以客户配置、使用者选择或其他标准决定的方式动态地表现出来。CSS和XSL为数据的显示提供了公布的机制。通过XML，数据可以粒状地更新。每当一部分数据变化后，不需要重发整个结构化的数据。变化的元素必须从服务器发送给客户，变化的数据不需要刷新整个使用者的界面就能够显示出来。但在目前，只要一条数据变化了，整一页都必须重建。这严重限制了服务器的升级性能。XML也允许加进其他数据，比如预测的温度。加入的信息能够进入存在的页面，不需要浏览器重新发一个新的页面。XML应用于客户需要与不同的数据源进行交互时，数据可能来自不同的数据库，它们都有各自不同的复杂格式。但客户与这些数据库间只通过一种标准语言进行交互，那就是XML。由于XML的自定义性及可扩展性，它足以表达各种类型的数据。客户收到数据后可以进行处理，也可以在不同数据库间进行传递。总之，在这类应用中，XML解决了数据的统一接口问题。但是，与其他的数据传递标准不同的是，XML并没有定义数据文件中数据出现的具体规范，而是在数据中附加TAG来表达数据的逻辑结构和含义。这使XML成为一种程序能自动理解的规范。

　　XML应用于将大量运算负荷分布在客户端，即客户可根据自己的需求选择和制作不同的应用程序以处理数据，而服务器只须发出同一个XML文件。如按传统的“Client/Server”工作方式，客户向服务器发出不同的请求，服务器分别予以响应，这不仅加重服务器本身的负荷，而且网络管理者还须事先调查各种不同的用户需求以做出相应不同的程序，但假如用户的需求繁杂而多变，则仍然将所有业务逻辑集中在服务器端是不合适的，因为服务器端的编程人员可能来不及满足众多的应用需求，也来不及跟上需求的变化，双方都很被动。应用XML则将处理数据的主动权交给了客户，服务器所作的只是尽可能完善、准确地将数据封装进XML文件中，正是各取所需、各司其职。XML的自解释性使客户端在收到数据的同时也理解数据的逻辑结构与含义，从而使广泛、通用的分布式计算成为可能。

　　XML还被应用于网络代理，以便对所取得的信息进行编辑、增减以适应个人用户的需要。有些客户取得数据并不是为了直接使用而是为了根据需要组织自己的数据库。比方说，教育部门要建立一个庞大的题库，考试时将题库中的题目取出若干组成试卷，再将试卷封装进XML文件，接下来在各个学校让其通过一个过滤器，滤掉所有的答案，再发送到各个考生面前，未经过滤的内容则可直接送到老师手中，当然考试过后还可以再传送一份答案汇编。此外，XML文件中还可以包含进诸如难度系数、往年错误率等其他相关信息，这样只需几个小程序，同一个XML文件便可变成多个文件传送到不同的用户手中。

　　面向Web的数据挖掘是一项复杂的技术，由于Web数据挖掘比单个数据仓库的挖掘要复杂的多，因而面向Web的数据挖掘成了一个难以解决的问题。而XML的出现为解决Web数据挖掘的难题带来了机会。由于XML能够使不同来源的结构化的数据很容易地结合在一起，因而使搜索多样的不兼容的数据库能够成为可能，从而为解决Web数据挖掘难题带来了希望。XML的扩展性和灵活性允许XML描述不同种类应用软件中的数据，从而能描述搜集的Web页中的数据记录。同时，由于基于XML的数据是自我描述的，数据不需要有内部描述就能被交换和处理。作为表示结构化数据的一个工业标准，XML为组织、软件开发者、Web站点和终端使用者提供了许多有利条件。相信在以后，随着XML作为在Web上交换数据的一种标准方式的出现，面向Web的数据挖掘将会变得非常轻松。

jlandzpa · 发表于 2001-11-30 21:16

12. 1 数据挖掘解决的典型商业问题
需要强调的是，数据挖掘技术从一开始就是面向应用的。目前，在很多领域，数据挖掘(data mining)都是一个很时髦的词，尤其是在如银行、电信、保险、交通、零售（如超级市场）等商业领域。数据挖掘所能解决的典型商业问题包括：数据库营销（Database Marketing）、客户群体划分（Customer Segmentation & Classification）、背景分析（Profile Analysis）、交叉销售（Cross-selling）等市场分析行为，以及客户流失性分析(Churn Analysis)、客户信用记分(Credit Scoring)、欺诈发现(Fraud Detection)等等。

12. 2 数据挖掘在市场营销的应用
数据挖掘技术在企业市场营销中得到了比较普遍的应用，它是以市场营销学的市场细分原理为基础，其基本假定是“消费者过去的行为是其今后消费倾向的最好说明”。
　　通过收集、加工和处理涉及消费者消费行为的大量信息，确定特定消费群体或个体的兴趣、消费习惯、消费倾向和消费需求，进而推断出相应消费群体或个体下一步的消费行为，然后以此为基础，对所识别出来的消费群体进行特定内容的定向营销，这与传统的不区分消费者对象特征的大规模营销手段相比，大大节省了营销成本，提高了营销效果，从而为企业带来更多的利润。

商业消费信息来自市场中的各种渠道。例如，每当我们用信用卡消费时，商业企业就可以在信用卡结算过程收集商业消费信息，记录下我们进行消费的时间、地点、感兴趣的商品或服务、愿意接收的价格水平和支付能力等数据；当我们在申办信用卡、办理汽车驾驶执照、填写商品保修单等其他需要填写表格的场合时，我们的个人信息就存入了相应的业务数据库；企业除了自行收集相关业务信息之外，甚至可以从其他公司或机构购买此类信息为自己所用。
　　这些来自各种渠道的数据信息被组合，应用超级计算机、并行处理、神经元网络、模型化算法和其他信息处理技术手段进行处理，从中得到商家用于向特定消费群体或个体进行定向营销的决策信息。这种数据信息是如何应用的呢？举一个简单的例子，当银行通过对业务数据进行挖掘后，发现一个银行帐户持有者突然要求申请双人联合帐户时，并且确认该消费者是第一次申请联合帐户，银行会推断该用户可能要结婚了，它就会向该用户定向推销用于购买房屋、支付子女学费等长期投资业务，银行甚至可能将该信息卖给专营婚庆商品和服务的公司。数据挖掘构筑竞争优势。
　　在市场经济比较发达的国家和地区，许多公司都开始在原有信息系统的基础上通过数据挖掘对业务信息进行深加工，以构筑自己的竞争优势，扩大自己的营业额。美国运通公司(American Express)有一个用于记录信用卡业务的数据库，数据量达到54亿字符，并仍在随着业务进展不断更新。运通公司通过对这些数据进行挖掘，制定了“关联结算(Relation ship Billing)优惠”的促销策略，即如果一个顾客在一个商店用运通卡购买一套时装，那么在同一个商店再买一双鞋，就可以得到比较大的折扣，这样既可以增加商店的销售量，也可以增加运通卡在该商店的使用率。再如，居住在伦敦的持卡消费者如果最近刚刚乘英国航空公司的航班去过巴黎，那么他可能会得到一个周末前往纽约的机票打折优惠卡。

基于数据挖掘的营销，常常可以向消费者发出与其以前的消费行为相关的推销材料。卡夫(Kraft)食品公司建立了一个拥有3000万客户资料的数据库，数据库是通过收集对公司发出的优惠券等其他促销手段作出积极反应的客户和销售记录而建立起来的，卡夫公司通过数据挖掘了解特定客户的兴趣和口味，并以此为基础向他们发送特定产品的优惠券，并为他们推荐符合客户口味和健康状况的卡夫产品食谱。美国的读者文摘(Reader's Digest)出版公司运行着一个积累了40年的业务数据库，其中容纳有遍布全球的一亿多个订户的资料，数据库每天24小时连续运行，保证数据不断得到实时的更新，正是基于对客户资料数据库进行数据挖掘的优势，使读者文摘出版公司能够从通俗杂志扩展到专业杂志、书刊和声像制品的出版和发行业务，极大地扩展了自己的业务。

基于数据挖掘的营销对我国当前的市场竞争中也很具有启发意义，我们经常可以看到繁华商业街上一些厂商对来往行人不分对象地散发大量商品宣传广告，其结果是不需要的人随手丢弃资料，而需要的人并不一定能够得到。如果搞家电维修服务的公司向在商店中刚刚购买家电的消费者邮寄维修服务广告，卖特效药品的厂商向医院特定门诊就医的病人邮寄广告，肯定会比漫无目的的营销效果要好得多。

jlandzpa · 发表于 2001-11-30 21:16

1 电话收费和管理办法

加拿大BC省电话公司要求加拿大Simon Fraser大学KDD研究组根据其拥有的十多年的客户数据，总结、分析并提出新的电话收费和管理办法，制定既有利于公司又有利于客户的优惠政策。

2 竞技运动中的数据挖掘

美国著名的国家篮球队NBA的教练，利用IBM公司提供的数据挖掘工具临场决定替换队员。想象你是NBA的教练，你靠什么带领你的球队取得胜利呢？当然，最容易想到的是全场紧逼、交叉扯动和快速抢断等具体的战术和技术。但是今天，NBA的教练又有了他们的新式武器：数据挖掘。大约20个NBA球队使用了IBM公司开发的数据挖掘应用软件Advanced Scout系统来优化他们的战术组合。例如Scout就因为研究了魔术队队员不同的布阵安排，在与迈阿密热队的比赛中找到了获胜的机会。

----系统分析显示魔术队先发阵容中的两个后卫安佛尼.哈德卫(Anfernee Hardaway)和伯兰.绍(Brian Shaw)在前两场中被评为－17分,这意味着他俩在场上，本队输掉的分数比得到的分数多17分。然而，当哈德卫与替补后卫达利尔.阿姆斯创(Darrell Armstrong)组合时，魔术队得分为正14分。

----在下一场中，魔术队增加了阿姆斯创的上场时间。此着果然见效：阿姆斯创得了21分，哈德卫得了42分，魔术队以88比79获胜。魔术队在第四场让阿姆斯创进入先发阵容，再一次打败了热队。在第五场比赛中，这个靠数据挖掘支持的阵容没能拖住热队，但Advanced Scout毕竟帮助了魔术队赢得了打满5场，直到最后才决出胜负的机会。

----Advanced Scout是一个数据分析工具，教练可以用便携式电脑在家里或在路上挖掘存储在NBA中心的服务器上的数据。每一场比赛的事件都被统计分类，按得分、助攻、失误等等。时间标记让教练非常容易地通过搜索NBA比赛的录像来理解统计发现的含义。例如：教练通过Advanced Scout发现本队的球员在与对方一个球星对抗时有犯规纪录，他可以在对方球星与这个队员“头碰头”的瞬间分解双方接触的动作，进而设计合理的防守策略。

----Advanced Scout的开发人，因德帕尔.布罕德瑞，开发该应用时他正在IBM的ThomasJ.Watson研究中心当研究员，他演示了一个技术新手应该如何使用数据挖掘。布罕德瑞说：“教练们可以完全没有统计学的培训，但他们可以利用数据挖掘制定策略”。与此同时，另一个正式的体育联盟，国家曲棍球联盟，正在开发自己的数据挖掘应用NHL－ICE，联盟与IBM建立了一个技术型的合资公司，去年11月推出一个电子实时的比赛计分和统计系统。在原理上是一个与Advanced Scout相似的数据挖掘应用，可以让教练、广播员、新闻记者及球迷挖掘NHL的统计。当他们访问NHL的Web站点时，球迷能够使用该系统循环看联盟的比赛，同时广播员和新闻记者可以挖掘统计数据，找花边新闻为他们的实况评述添油加醋。

----当然，所有系统都有其局限性。所以不要期望这样的数据挖掘可以帮助一支球队找到赢得足球世界杯的策略。

jlandzpa · 发表于 2001-11-30 21:17

3 数据挖掘技术在商业银行中的应用

　　金融事务需要搜集和处理大量的数据，由于银行在金融领域的地位、工作性质、业务特点以及激烈的市场竞争决定了它对信息化、电子化比其它领域有更迫切的要求。利用数据挖掘技术可以帮助银行产品开发部门描述客户以往的需求趋势，并预测未来。美国商业银行是发达国家商业银行的典范，许多地方值得我国学习和借鉴。

数据挖掘技术在美国银行金融领域应用广泛。金融事务需要搜集和处理大量数据，对这些数据进行分析，发现其数据模式及特征，然后可能发现某个客户、消费群体或组织的金融和商业兴趣，并可观察金融市场的变化趋势。商业银行业务的利润和风险是共存的。为了保证最大的利润和最小的风险，必须对帐户进行科学的分析和归类，并进行信用评估。Mellon银行使用Intelligent Agent数据挖掘软件提高销售和定价金融产品的精确度，如家庭普通贷款。零售信贷客户主要有两类，一类很少使用信贷限额（低循环者），另一类能够保持较高的未清余额（高循环者）。每一类都代表着销售的挑战。低循环者代表缺省和支出注销费用的危险性较低，但会带来极少的净收入或负收入，因为他们的服务费用几乎与高循环者的相同。银行常常为他们提供项目，鼓励他们更多地使用信贷限额或找到交叉销售高利润产品的机会。高循环者由高和中等危险元件构成。高危险分段具有支付缺省和注销费用的潜力。对于中等危险分段，销售项目的重点是留住可获利的客户并争取能带来相同利润的新客户。但根据新观点，用户的行为会随时间而变化。分析客户整个生命周期的费用和收入就可以看出谁是最具创利潜能的。Mellon银行认为“根据市场的某一部分进行定制”能够发现最终用户并将市场定位于这些用户。但是，要这么做就必须了解关于最终用户特点的信息。数据挖掘工具为Mellon银行提供了获取此类信息的途径。Mellon银行销售部在先期数据挖掘项目上使用Intelligence Agent寻找信息，主要目的是确定现有Mellon用户购买特定附加产品：家庭普通信贷限额的倾向，利用该工具可生成用于检测的模型。据银行官员称：Intelligence Agent可帮助用户增强其商业智能，如交往、分类或回归分析，依赖这些能力，可对那些有较高倾向购买银行产品、服务产品和服务的客户进行有目的的推销。该官员认为，该软件可反馈用于分析和决策的高质量信息，然后将信息输入产品的算法。Intelligence Agent还有可定制能力。

　　美国Firstar银行使用Marksman数据挖掘工具，根据客户的消费模式预测何时为客户提供何种产品。Firstar银行市场调查和数据库营销部经理发现：公共数据库中存储着关于每位消费者的大量信息，关键是要透彻分析消费者投入到新产品中的原因，在数据库中找到一种模式，从而能够为每种新产品找到最合适的消费者。Marksman能读取800到1000个变量并且给它们赋值，根据消费者是否有家庭财产贷款、赊帐卡、存款证或其它储蓄、投资产品，将它们分成若干组，然后使用数据挖掘工具预测何时向每位消费者提供哪种产品。预测准客户的需要是美国商业银行的竞争优势。

4 因特网筛选

最近，还有不少DMKD产品用来筛选因特网上的新闻，保护用户不受无聊电子邮件和商业推销的干扰，很受欢迎。

jlandzpa · 发表于 2001-11-30 21:17

谈到数据挖掘应从以下三方面加以考虑，一是用数据挖掘解决什么样的商业问题，二是为进行数据挖掘所做的数据准备，三是数据挖掘的各种分析算法。

数据挖掘的分析算法主要来自于以下两个方面：统计分析和人工智能（机器学习、模式识别等）。数据挖掘研究人员和数据挖掘软件供应商，在这一方面所做的主要工作是优化现有的一些算法，以适应大数据量。另外需要强调的是，任何一种数据挖掘的算法，不管是统计分析方法、神经元网络、各种树分析方法，还是遗传算法，没有一种算法是万能的。不同的商业问题，需要用不同的方法去解决。即使对于同一个商业问题，可能有多种算法，这个时候，也需要评估对于这一特定问题和特定数据哪一种算法表现好。

做数据挖掘研究的人，往往把主要的精力用于改进现有算法和研究新算法上。人们都知道数据准备是必不可少的一步，但很少有人去真正花时间和精力去研究。其实数据挖掘最后成功与失败，是否有经济效益，数据准备起到了至关重要的作用。数据准备包含很多方面：一是从多种数据源去综合数据挖掘所需要的数据，保证数据的综合性、易用性、数据的质量和数据的时效性，这有可能要用到数据仓库的思想和技术；另一方面就是如何从现有数据中衍生出所需要的指标，这主要取决于数据挖掘者的分析经验和工具的方便性。

众所周知，SQL是广泛用于数据库查询的语言，有很多数据挖掘软件提供商利用SQL来为数据挖掘做数据准备，但就笔者多年来的分析经验和同其他专家探讨感觉到，SQL在很多时候有些力不从心，因为数据挖掘和分析的一些算法通常要求数据具有一定的格式和规范性。

还需要强调的一点是，人们通常把数据挖掘工具看得过份神秘，认为只要有了一个数据挖掘工具，就能自动挖掘出所需要的信息，就能更好地进行企业运作，这是认识上的一个误区。其实要想真正做好数据挖掘，数据挖掘工具只是其中的一个方面，同时还需要对企业业务的深入了解和数据分析经验。一个企业要想在未来的市场中具有竞争力，必须有一些数据挖掘方面的专家，专门从事数据分析和数据挖掘工作。再同其他部门协调，把挖掘出来的信息供管理者决策参考，最后把挖掘出的知识物化。在国内的企业中，还很少有决策人员认识到这一点。如果管理者没有这方面的意识，数据挖掘和数据分析就很难发挥应有的作用，很容易走向两个极端，一是认为数据挖掘没有用处，二是开始认为数据挖掘是万能的。如此得到的结果往往与初始期望相去太远。

jlandzpa · 发表于 2001-11-30 21:18

1. 超大规模数据库和高维数据问题；

2. 数据丢失问题；

3. 变化的数据和知识问题；

4. 模式的易懂性问题；

5. 非标准格式的数据、多媒体数据、面向对象数据处理问题；

6. 与其他系统的集成问题；

7. 网络与分布式环境下的KDD问题。

8. 个人隐私问题

当然数据挖掘也会带来一些社会问题，其中最敏感的要属个人隐私问题。当消费者感觉到他们的个人信息被非授权使用、滥用甚至出卖时，他们会感到他们的个人隐私受到了严重侵害。例如，在西方有的警察为了防止来自罪犯的报复，往往要注意保守自己家庭地址和电话号码不被泄露，但当他的新生婴儿在医院出生后，医院可能会将相应的信息出卖给专营新生儿用品或服务的公司，使他全然失去安全感。也许当你用信用卡为你妻子的妇科诊疗付费后，你会回家后收到来自保险公司的妇科保险征订单、来自厂商的妇科保健用品广告等，你会如何感受？正是由于这种状况，在有些发达国家，许多人认为政府和商业机构对他们个人的事知道得太多了，为此，他们宁可放弃使用信用卡消费。