基于凝聚层次聚类的co—location模式挖掘
来源:易妖游戏网
第29卷第2期 广西师范大学学报:自然科学版 Vo1.29 No.2 2011年6月 Journal of Guangxi Normal University:Natural Science Edition Jun.2011 基于凝聚层次聚类的 CO—location模式挖掘 高世健,王丽珍,冯岭,陈红梅 (云南大学信息学院,云南昆明650091) 摘要:空间的CO—location模式代表一组空间对象的子集,它们的实例在空间中频繁地关联,它是空间数据 挖掘的重要研究方向。本文首先介绍CO—location模式挖掘的基本算法,然后提出一种新的挖掘算法,算法先 对空间数据进行凝聚层次聚类,在聚类结果上挖掘CO—location模式,最后对这种新的算法作实验评估。 关键词:空间数据挖掘;c0一location模式;凝聚层次聚类;参与度 中图分类号:TP392 文献标识码:A 文章编号:1001 6600(2011)02—0167—07 0 引言 随着空间数据应用越来越广泛,空间数据挖掘也引起了很多学者的关注。空间数据挖掘是从空间数据 库中发现潜在的、有用的知识过程。空间CO—location模式是代表着一组空间对象的子集,它们的实例在空 间中频繁地关联。挖掘CO—location模式就是在空间数据库中挖掘空间对象之间的空间关联关系[1]。在现 实世界中,也存在着很多空间CO—location模式,例如,生态学家发现尼罗河鳄鱼和埃及珩鸟的生活空间相 互重叠;植物学家根据共生植被的分布,发现“半湿润常绿阔叶林”生长的地方8O 有“兰类”植物生长。移 动运营商可以根据不同客户需求的分布,把相关的套餐搭配在一起以达到增加收入的目的。其他方面还包 括地球科学、公共卫生、公共交通等[2引。 在挖掘空间CO—location模式方面,S.Shekhar和Y.Huang在文献[6]中提出最小参与率概念的join— based算法,该算法具有类Apriori性质。文献[7]则提出了基于部分连接的算法。可是当数据量较大时,连 接运算的时间开销非常大,于是文献[8]进一步提出基于无连接的算法。M.Celik等人提出了研究区域CO— location模式挖掘的思路[9]。而Y.Huang等人在文献[-10]中首次提及了聚类与空间CO—location模式之间 的内在联系,阐述基于聚类技术挖掘空间CO—location模式的思想。文献[-11]讨论一种类似于多分辨剪枝 思想的基于密度的挖掘方法。文献[12]提出了一种基于order—clique的挖掘思想,而后在总结和分析一些 典型挖掘算法的基础上提出了基于前缀树结构的挖掘算法[1引。 本文受文献[10]的启发,把凝聚层次聚类算法引入到空间CO—location模式挖掘中来。与文献[6]中的 方法不同,在空间数据集中,先用凝聚层次聚类算法对所有属性分别进行聚类,然后计算各属性所有簇之 间的粗邻近关系,在具有粗邻近关系的簇中求出其二阶频繁模式,在此基础上再计算更高阶的CO—location 模式。 1 相关定义 定义一组空间属性的集合F,这些属性的实例集合 ,定义在S之上的空间关系R。其中R可以是空 间拓扑关系、距离关系或混合关系等。如果一对空间实例满足空间关系尺,那么用实线把这一对空间实例 连接起来,如图1所示。图1包含3个空间对象A、B、C,每一个点代表了一个空间对象的唯一的实 收稿日期:2011—05—07 基金项目:国家自然科学基金资助项目(61063008);云南省教育厅研究基金资助项目(09Y0048);云南大学科学研究基 金资助项目(2009F29Q) 通讯联系人:王丽珍(1962一),女,云南丽江人,云南大学教授,博士。E—mail:lzhwang2005@126.corn 168 广西师范大学学报:自然科学版 第29卷 例。如A.1代表空间对象 的第1个实例。两个实例满足R当且仅当它们的欧几里德距离小于等于d, 即可以表示为: R(A.1,B.1)㈢(distance( .1,B.1)≤ )。 设有空间集J={i ,i ,…, ),如果有{R(i ,ik)I 1≤ ≤z,1≤忌≤z},则称j是一个团。…一个空间CO—lo— cation模式是一组空间对象的集合C,其中c F。 如图1中{A,B,c)就是一个CO—location模式。一个CO—location模式C的长度称为CO—location模式的 阶,即CO—location模式里空间对象的个数,记作size(c)===lfl。如果团 包含了CO—location模式c中的所有 属性,并且 没有任何一个子集可以包含c中的所有属性,那么 是CO—location模式c的一个行实例(称 为CO—location实例)。Co—location模式f的所有行实例的集合称为表实例。 在空间数据中衡量CO—location模式的有趣程度所使用的支持度标准称为参与度PI(participation in— dex),它是所有空间属性参与率PR(participation ration)值中的最小值。设 是某个空间属性, 在k阶 CO—location模式('一{f ..,^)中的参与率表示为PR(f,fi),它是 的实例在空间CO—location模式C的 所有实例中不重复出现的个数与 中总实例个数的比率,公式如下: PR(f,/ )=== 其中7r是投影操作。那么,参与度PI(c)就可以用PI(c)一min {PR(c,fi))计算了。 例l在图1中,对象A有4个实例,对象B有5个实例,对象c有3个实例,对象D有2个实例。CO— location模式f={A,B,C}的表实例有{{A.2,B.4,c.2},{A.3,B.3,C.1}}。因为在A的4个实例中只有 A.2和A.3出现在表实例中,所以PR(c,A)一2/4。类似地,PR(c,B)一2/5,PR(c,c):2/3。最终PI(c)一 min(PR(c, ),PR(f,B),PR(c,c))一2/5===0.4。若设rain—prey是用户给定的最小参与度阈值,那么当 PI(f)≥rain—prev时,称CO—location模式f是频繁的。参与率和参与度随着CO—location模式阶的增大而 单调递减_6j。 图1 空间属性及空间实例示例 Fig.1 Spatial attribute and spatial instances 图2空间数据分布示例图 Fig.2 Example chart of spatial data distribution 2基于凝聚层次聚类的挖掘算法 本节先阐述一下凝聚层次聚类算法,然后提出基于该聚类的CO—location模式挖掘算法,最后给出这 个算法的时间复杂度分析。 2.1凝聚层次聚类算法 常见的聚类方法有k均值算法、凝聚层次聚类算法、DBSCAN算法等。本文采用凝聚层次聚类算法作 为挖掘空间CO—location模式的一个数据预处理手段。因为k均值算法需要用户指定聚类生成k个簇,针对 不同的数据分布,k值大小的选取很难。而DBSCAN算法对于高维数据,它的密度定义很困难。凝聚层次 聚类算法只需要用户指定一个距离阈值,算法就可以根据不同的数据分布自动生成聚类。尽管它的时间复 第2期 高世健等:基于凝聚层次聚类的co—location模式挖掘 169 杂度比k均值要高,但是相对k均值算法来说,噪声和离群数据对凝聚层次聚类算法的影响比较小。 凝聚层次聚类算法的核心思想是:从个体点作为簇开始,相继合并两个最接近的簇,直至只剩下一个 簇。算法的关键操作是计算两个簇之间的邻近度。常见的簇的邻近度的定义有单链、全链、组平均、Ward 方法和质心方法。我们采用质心方法来衡量两个簇的邻近度。即如果两个簇的质心的距离小于用户指定 的距离阈值,并且这个距离又是所有簇对之间的最小值,那么这两个簇就合并成一个簇。相对于其他方法, 质心方法时间耗费相对较少。比如,有两个簇的成员个数分别是 和n,求两个质心的距离的时间复杂度 为o( + ),而单链、全链和组平均等方法都需要计算两个簇所有成员两两之间距离才能确定下来,它们 的时间复杂度都是O(nm),而且在本文中聚类只是一个数据预处理的手段,并不需要太精确的聚类结果, 所以采用质心方法相对合理。 2.2基于凝聚层次聚类的挖掘算法 如图2所示,空间属性 有5个实例,属性B有7个实例,属性C有5个实例。分别对这3个空间属 性进行聚类,然后把聚类结果按各个簇的成员个数降序排列。结果如图3箭头1所示。在各个簇中求出簇 内所有成员离质心距离最远的点,把这个距离称为簇的半径r。再以簇的质心为圆心,以r为半径画圆,如 果两圆圆心距离减去两圆半径之和小于等于用户指定的距离阈值d,称这两个簇满足粗邻近关系。即 R(ci, )∞(distance(ci,ci)一r 一 )≤ 。 (1) 式(1)中距离邻近关系采用欧几里德距离来衡量。从几何上看,Idistance( cp— —r l就是两个圆的最 小距离,如果连最小距离都大于阈值d,两个圆内的任意两个实例的距离肯定也大于d。换言之,当式(1) 成立时,两个簇内有可能存在着距离小于d的两个实例,但式(1)不成立时,两个簇不可能存在距离小于d 的实例。另外,Idistance( Cj)一 一 I的值有以下几种情况:①大于0,说明两个圆不相交;②等于0,说明 两个圆相切,那么式(1)一定成立;③小于0,说明两个圆有重叠部分,式(1)也一定成立。我们把满足粗邻 近关系的簇称为粗实例。在连接满足粗邻近关系的簇之后,计算每个属性的参与率上界。对于每一个空间 属性,如果它在某个模式中的参与率上界小于最小参与度阈值,就可以把这个候选模式剪枝,理由如引理 1和引理2所示。 引理1粗实例的参与度大于等于实际参与度。 证明 假设有两个属性厂1和厂2,它们有若干个簇对的距离小于等于距离阈值d,那么它们的参与率 上界是所有簇成员总数与实例总数的比率,参与度是两个参与率上界的较小值。又假设对于任意的两个实 例厂 和厂2f,如果R(f f2 )≤ ,那么这两个实例必定属于若干个簇对中的其中一个。而厂1粗实例的参与 度是考虑了所有簇的成员都有厂2的实例到它的距离小于等于d,这些簇的成员必定包含了 ;同理,厂2 空间属性及其实例 聚类及按簇成员个数降序排列结果 口 C C 墓鐾薹 空 间 属 性 之 『HJ 的 实 例 l 1 连 属性之间满足粗邻近关系 接 4/7 l 图3基于聚类结果的CO—location模式挖掘过程 Fig.3 Process of mining CO—location patterns based on clustering result 170 广西师范大学学报:自然科学版 第29卷 亦然。所以粗实例的参与度一定大于等于实际参与度。证毕。 引理2候选模式中只要有一个属性的参与率上界小于最小参与度阈值,整个模式都被剪枝。 证明 假设有某候选模式{ ,厂 ), 的参与率上界小于最小参与度阈值,又有 的参与率上界小于 厂f的参与率上界,由参与度的定义可知,模式{ ,厂 的参与度等于 的参与率上界,所以模式{ ,,,)被 剪枝;又假设 的参与率上界大于 的参与率上界,模式{ , }的参与度就等于厂,的参与率上界,根据 不等式传递律,厂 的参与率上界必定小于最小参与度阚值,模式被剪枝,引理得证。 如图3所示,对于{ ,B),满足粗邻近关系的属性A的簇有簇l和簇3,这两个簇的成员总和为3,A 的实例总数有5个,假设这两个簇所有成员与属性B都满足空间邻近关系R,那么属性A的参与率上界 为3/5。类似地,属性B的参与率上界为5/7。假设用户指定的最小参与度阈值为5O 9/5,两个属性的参与率 上界皆大于阈值,下一步将进行实例连接。通过连接属性A的一号簇与属性B的一号簇,求出二阶CO一1o— cation候选模式{A,B)有实例{A.1,B.1)和{A.1,B.2}。这时属性 和属性B的参与率上界分别为2/5 和3/7,这两个值都小于阈值5O%,这时就可以对候选实例{ ,引 进行剪枝,没有必要再继续做下面的连 接计算。这也反映了在聚类完成后按簇的成员个数降序排列的作用,把成员多的簇较早进行连接计算,就 可以使得它的参与率上界下降得比较快,如果降到最小参与度阈值以下,就有可能在实例连接的早期把整 个候选模式剪枝。至此,候选模式{A,引-计算完毕,继续计算模式{A,C),只有属性A的三号簇与属性c 的三号簇满足粗邻近关系,它们的参与率上界分别是1/5和1/5,二者皆小于5O ,候选模式{ ,C}就被 剪枝。最后计算候选模式{B,C},它们的参与率上界都是1,进行实例连接,如上面所述,每连接完一个簇 对,都要分别计算两个属性的参与率上界,只有二者皆大于参与度阈值才能继续往下计算,否则模式被剪 枝。连接过程不再赘述,候选模式{B,C}在完成所有的簇对连接后它们的参与率上界分别为4/7和1,取其 中较小值4/7,它大于阈值5O ,所以候选模式{B,C)是频繁CO—location模式。因为模式{ ,引 和{A,C} 都被剪枝了,所以模式{A,B,C}肯定不是频繁CO—location模式。 . 假设最小参与度阈值很低,只有10 9/5,那么在此例子中,{A,B)、{A,C)和{B,C}都是频繁的CO—loca— tion模式。紧接着计算三阶候选实例。类似地,首先找出三个属性之间两两满足粗邻近关系的簇,通过查找 得到属性A的三号簇、属性B的三号簇和属性C的三号簇两两满足粗邻近关系。它们的参与率上界分别 为1/5、1/7和1/5,均大于阈值。再通过连接得到实例{A.3,B.7,C.5},它由模式{A.3,B.7}、{A.3,C.5) 和{B.7,C.5)通过两个前1阶的相同的2阶模式连接生成。它的参与度为1/7,所以候选模式{A.3,B.7, C.5)是一个频繁的CO—location模式。 2.3算法的完整描述 prev:最小参与度阈值。 输出:频繁CO—location模式。 变量:C^:k阶CO—location候选集;P^:k阶CO—location频繁集。prev:参与率上界。 步骤: 输入:d :簇合并距离阈值;F:空间属性的集合;S:空间实例的集合;d。:邻近关系距离阈值;min~ ①指定d ; ②repeat (i)合并最近的两个簇; (ii)更新邻近性矩阵,以反映新的簇与原来的簇之间的邻近关系; until最近的两个簇的距离大于d ; ③求各属性之间满足粗邻近关系的簇; ④计算各属性的参与率上界prey,对于任意一个属性,如果有prev ̄min—prev的候选模式剪枝; ⑤对满足实例间的距离≤ 的实例存入二阶CO—location模式的候选集C。,每连接完一个簇对就计算 两个属性的参与率上界,并计算候选模式参与度,对参与度<m —prey的候选模式剪枝; ⑥对于每个c∈C2,计算P2(f),如果P2(c)≥min—prev,把f放入P2中; ⑦利用两两邻近的簇组重复步骤⑥和步骤⑦,求出P。; 第2期 高世健等:基于凝聚层次聚类的CO—location模式挖掘 ⑧反复迭代直至最高阶或某一阶的频繁集为空; ⑨return UP』。 2.4算法的复杂度分析 聚类前要建立一个反映各实例邻近度的矩阵,假设空间属性的数目为 ,其中m为 个空间属性的最 大实例数,那它建立邻近度矩阵需要O(m。)时间。如果邻近度矩阵采用线性搜索,则对于第i次迭代,上述 算法中的步骤②(i)需要0(( — +1)。)时间,步骤②(ii)仅仅需要0( 一 +1)的时间,所以聚类的时间 复杂度就是O(m。)。那么所有的空间属性聚类所耗费的总时间不超过O(nm。)。 在聚类完成后,生成是阶CO—location频繁候选模式的时间主要花费在模式剪枝和实例生成上。假设, Ⅳ是志一1阶频繁模式的总数目。候选模式生成之后需要计算各模式的参与度上界prev,并把小于最小参 与度阈值的模式剪枝,假设愚阶候选的数目为 ,G是第i个候选模式簇组的数目。 是第i个候选模式 M q . 第 个簇的成员个数,那么它所需要的时间是O(k×∑∑c )。接下来生成k阶实例,需要时间O(k× l一1 J一1 M ∑Ⅱ )。 算法总时间可以分为聚类时间和生成CO—location的时间,表示如下: M q M O(nm。)+()(足×∑∑ ,』・一 _一 )+0( ×∑Ⅱ 。-一儿 。 3实验分析 实验在模拟数据上进行,算法用c++实现,程序在Windows XP SP3系统,Visual C++6.0环境 下编译。计算机配置如下,CPU:Intel Core2 Duo E7400@2.80 GHz,内存2 GB。 数据在二维空间E0,lO0-]×Eo,lOO-]中随机产生。实验参数如下:空间属性数10,空间实例数8 000,簇 合并距离阈值20,最小参与度阈值min—prev一3o ,实例连接距离阈值5(不指明被改变时)。 图4显示的是空间实例数对算法执行时间的影响。在其他参数不变的情况下,空间实例数变大,时间 也将随着逐渐增大,假如我们用join—based来代表执行join—based算法所需要时间,用AHC—based来代表 执行基于凝聚层次聚类挖掘空间CO—location模式算法所需要的时间,那么从图中可以看出AHC—based算 法表现出更好的性能。 空间实例数 实例连接距离阈值 图4空间实例数对算法的影响 Fig.4 Scalability with instances over two algorithms 图5实例连接距离阈值对算法的影响 Fig.5 Scalability with distance threshold over two algorithms 图5考察的是实例连接的距离阈值d。对算法的影响,在其他参数不变时,d。值越大,CO—location实例 数越来越多,算法复杂性也越高。但是从图5中可以看出,AHC—based算法所耗费的时间明显低于join— based算法。 图6考察的是最小参与度阈值rain—prev对算法的影响,在其他参数不变的情况下,rain—prey值越 172 广西师范大学学报:自然科学版 第29卷 大,则频繁CO—location模式数越少,算法所耗费的时间也就越少。从图6中可以知道,min—prey值越小的 时候,AHC—based算法的优势越明显。 800 160 600 120 400 80 200 40 0 0.1 O.2 0.3 0.4 0 lO 2O 3O 40 最小参与度闽值minprev _簇合并阈值d 图6最小参与度阈值min—prev对算法的影响 Fig.6 Scalability with prevalence threshold minover two algorithms —图7簇合并阈值d 对算法的影响 Fig.7 Scalability with distance threshold of merger clusters over two algorithms prev 还有一个参数聚类距离阈值d 需要注意。从理论上分析,如果d 值越小,则聚类算法终止越快,但是 生成的簇就越多,后面的连接计算则要耗费多点时间。反过来,d 值越大,则聚类算法耗费时间比较多,连 接计算所需的时间则有可能少一点。图7所示的是当空间实例数为8 000,最小参与度阈值min—prey为 30 时,实例连接距离阈值设为5时,簇合并距离阈值d 对算法执行时间的影响。从图中可以看出随着d 的增大,聚类时间略微增长,但是并不明显,而AHC—based算法耗费总时间总体趋于稳定。 4结语 本文在介绍挖掘co—location模式基本算法的基础上,提出一种新的基于凝聚层次聚类的co—location 模式挖掘算法。新算法在生成的结果簇中搜索生成co—location模式。未来将把此思想用于挖掘不确定数 据集中的co—location模式。 参考文献: Eli 包玉珍,王丽珍,周丽华.空间CO—location模式挖掘算法介绍及应用EJ3.郑州大学学报:理学版,2007,39(3):84—88. A—zhen,BA0 Yu—zhen,LU Joan,et a1.A web—based visual spatial CO—location patterns’mining prototype sys— E2] WANG Item(SCPMiner)[c]//Proceeding of the 2008 IEEE International Conference on CyberWorlds.Piscataway,NJ:IEEE Computer Society Press,2008:675—681. MOTO Y.Mining frequent neighboring class sets in spatial databases[C]//Proceeding of the Seventh ACM [3] MORISIGKDD International Conference on Knowledge Discovery and Data Mining.New York:ACM Press,2001:353—358. [4] HAN Jia—wei,KAMBER M.Data mining:concepts and techniques[M].2nd ed.Beijing:China Machine Press,2006. 等.数据仓库与数据挖掘原理及应用EM].北京:科学出版社,2009:218—226. E5] 王丽珍,周丽华,陈红梅,scovering co-location patterns from spatial data sets.a general approach [6] HUANG Yan,SHEKHAR S,XIONG Hui.Di[J].IEEE Transactions on Knowledge and Data Engineering,2004,16(12):1472—1485. S,SHEKHAR S,SMITH J,et a1.A partial join approach for mining co-location patternsEc]//Proceeding of [7] YO0 Jthe 12th Annual ACM International Workshop and Geographic Information Systems.New York:ACM Press,2004: 241-249. J S,SHEKHAR S,CELIK M.A join—less approach for CO—location pattern mining:a summary of resultsEc]// E83 YO0 Proceeding of the 5th IEEE International Conference on Data Mining(ICDM 2005).Piscataway,NJ:IEEE Computer Society Press,2005:813—816. IK M,KANG J M,SHEKHAR S.Zonal CO—location pattern discovery with dynamic parameters[C]//Proceeding [9] CEI第2期 高世健等:基于凝聚层次聚类的CO—location模式挖掘 173 of the 7th IEEE International Conference on Data Mining(ICDM 2007).Piscataway,NJ:IEEE Press,2007:433-438. [1O3 HUANG Yan,ZHANG Pu—sheng.On the relationships between clustering and spatial CO—location pattern mining [C]//Proceeding of the 1 8th IEEE International Conference on Tools with Artificial Intelligence(ICTA1 06).Pis— cataway,NJ:IEEE Computer Society Press,2006:513—522. [11]XIAO Xiang—ye,XIE Xing,LUO Qiong,et a1.Density based CO—location pattern discovery[C]//Proceeding of the 16th ACM International Conference on Advances in Geographic Information Systems(GIS’08).Irvine,CA:ACM Press,2008:1l一2O. [123 WANG Li—zhen,ZHOU Li—hua,LU Joan.An order—clique—based approach for mining maximal CO—location[J].Infor— mation Sciences,2009,179(19):3370—3382. [13]王丽珍,陆叶,陈红梅,等.基于前缀树结构的空间CO—location模式挖掘算法研究[J].计算机研究与发展,2010,47 (S1):370—377. Co—location Patterns Mining Based on Agglomerative Hierarchical Clustering GAO Shi—jian,WANG Li—zhen,FENG Ling,CHEN Hong-mei (School of Information Science and Engineering,Yunnan University,Kunming Yunnan 650091,China) Abstract:Spatial CO—location patterns represent the subsets of features whose instances are frequently lo— cated together in geographic space.It is an important research in the spatial data mining.Firstly,this pa— per introduces the basic algorithms of CO—location mining.Secondly,a new algorithm is proposed,which clusters the spatial data by the agglomerative hierarchical clustering algorithm,and mines CO—location patterns based on the clustering result.Finally,the experimental evaluations of the new algorithm are presented. Key words:spatial data mining;CO—location patterns;agglomerative hierarchical clustering;participation index (责任编辑黄勇)