查看: 27228|回复: 1

【数据挖掘-机器学习】聚类算法研究(一)

[复制链接]
论坛徽章:
9
蜘蛛蛋
日期:2012-05-15 22:04:44比亚迪
日期:2013-11-27 11:47:28日产
日期:2013-12-17 15:51:03优秀写手
日期:2013-12-18 09:29:082014年新春福章
日期:2014-02-18 16:44:08马上有对象
日期:2014-02-18 16:44:08马上有车
日期:2014-03-01 23:04:212015年新春福章
日期:2015-03-04 14:53:162015年新春福章
日期:2015-03-06 11:58:39
发表于 2013-10-24 21:22 | 显示全部楼层 |阅读模式
本帖最后由 南北思静 于 2013-11-2 15:03 编辑

前面说到了分类中的有监督学习,今天讨论另外一种无监督学习的分类-----聚类。
中国有句古话,“物以类聚,人以群分”,如果你想知道一个人的品质,可以看看他周围的人或朋友即猜其十之八九。这就是典型的聚类。
这里我们主要演示k-means,k-medoids,分层聚类,和基于密度的分类。下面一一道来。

  • k-Means
仍然以iris为数据集。为了验证聚类的效果,首先我们移除iris数据集中的species类别字段,然后我们我们使用kmeans()来对其进行聚类。
> iris2 <- iris
> iris2$Species <- NULL
> (kmeans.result <-kmeans(iris2, 3))
K-means clustering with 3clusters of sizes 38, 50, 62
Cluster means:
  Sepal.Length Sepal.Width Petal.LengthPetal.Width
1     6.850000   3.073684     5.742105    2.071053
2     5.006000   3.428000     1.462000    0.246000
3     5.901613   2.748387     4.393548    1.433871
Clustering vector:
  [1] 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 22 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 3 3 1 3 3 3 3 3 3 3 33 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 1 3 3 3
[82] 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 1 31 1 1 1 3 1 1 1 1 1 1 3 3 1 1 1 1 3 1 3 1 3 1 1 3 3 1 1 1 1 1 3 1 1 1 1 3 1 1 13 1 1 1 3 1 1 3
Within cluster sum of squaresby cluster:
[1] 23.87947 15.15100 39.82097
(between_SS / total_SS =  88.4 %)
Available components:
[1] "cluster"      "centers"      "totss"        "withinss"     "tot.withinss""betweenss"   "size"        
> table(iris$Species,kmeans.result$cluster)
            
              1 2  3
  setosa     0 50  0
  versicolor 2  0 48
  virginica 36  0 14

从上面的结果可以看到 setosa类别的样本可以很轻松的与其他两类区别开来,而versicolor  和virginica  有一定的重合。
下面,将聚类的结果plot出来。注意,数据中有4个维度,我们仅仅选择其前两个维度来作图。
>plot(iris2[c("Sepal.Length", "Sepal.Width")], col =kmeans.result$cluster)
> points(kmeans.result$centers[,c("Sepal.Length","Sepal.Width")], col = 1:3,pch = 8, cex=2)
kmeans.jpg
(转载请注明来源)
论坛徽章:
27
2014年新春福章
日期:2014-02-18 16:50:09秀才
日期:2015-06-25 15:39:28秀才
日期:2015-06-29 15:26:52秀才
日期:2015-07-03 17:00:53秀才
日期:2015-07-14 09:44:30金牛座
日期:2015-07-21 14:01:36秀才
日期:2015-09-14 10:08:30秀才
日期:2016-02-18 09:24:18秀才
日期:2016-02-18 10:08:02举人
日期:2016-02-24 17:33:17
发表于 2013-11-6 17:44 | 显示全部楼层
顶一个

使用道具 举报

回复

您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

DTCC2020中国数据库技术大会 限时9.5折

【架构革新 高效可控】2020年8月17日~19日第十一届中国数据库技术大会将在北京隆重召开。

大会设置2大主会场,20+技术专场,将邀请超百位行业专家,重点围绕数据架构、AI与大数据、传统企业数据库实践和国产开源数据库等内容展开分享和探讨,为广大数据领域从业人士提供一场年度盛会和交流平台。

http://dtcc.it168.com


大会官网>>
TOP技术积分榜 社区积分榜 徽章 团队 统计 知识索引树 积分竞拍 文本模式 帮助
  ITPUB首页 | ITPUB论坛 | 数据库技术 | 企业信息化 | 开发技术 | 微软技术 | 软件工程与项目管理 | IBM技术园地 | 行业纵向讨论 | IT招聘 | IT文档
  ChinaUnix | ChinaUnix博客 | ChinaUnix论坛
CopyRight 1999-2011 itpub.net All Right Reserved. 北京盛拓优讯信息技术有限公司版权所有 联系我们 
京ICP备09055130号-4  北京市公安局海淀分局网监中心备案编号:11010802021510 广播电视节目制作经营许可证:编号(京)字第1149号
  
快速回复 返回顶部 返回列表