易妖游戏网
您的当前位置:首页基于覆盖树的可扩展邻近搜索方法

基于覆盖树的可扩展邻近搜索方法

来源:易妖游戏网
第36卷 第2O期 计算机工程 2010年lO月 Vo1.36 No.2D Computer Engineering October 2010 ・软件技术与数据库・ 文章编号:1o0 _3428(20lo)2o—lo8每一I2 文献标识码:A 中图分类号:TP311 基于覆盖树的可扩展邻近搜索方法 王石,王意洁 (国防科技大学计算机学院并行与分布处理国家重点实验室, 长沙410073) 摘要:针对邻近搜索技术受限于网络协议的支持以及存在空间嵌入误差的问题,提出一种基于覆盖树的可扩展邻近搜索方法CPS,包括 覆盖树构建与维护协议和k近邻搜索算法两部分。节点自主计算自身所处层次,构造一棵层次化树。邻居维护协议负责维护覆盖树结构, 确保其适应动态的网络环境。k近邻搜索算法通过对覆盖树剪枝,构造各层候选节点集合,提高搜索效率。实验结果表明,CPS的搜索精 度优于典型的邻近搜索方法Tiers。 关健词:分布式应用;邻近搜索;网络坐标;网络探测 Scalable Proximity Searching Method Based on Cover Tree WANGShi,WANGYi-jie (National Key Laboratory for Parallel and Distributed Processing.School of Computer, National University of Defense Technology,Changsha 4 10073,ChinaJ [Abstract]Aiming at the problem of constraint on network protocols or incurring embedding error in the existing methods,a scalable proximity se ̄ch method based on cover tree CPS is raised.It is comprised of two parts:cover tree constructing protocol and maintaining protocol,and k nearest neighbors searching algorithm.Attending nodes compute the layers of themselves,SO as to construct a layered tree.The neighbor maintaining protocol is responsible for maintaining the structure of cover tree,ensuring the adaptability in the network environment.k nearest neighbors searching algorithm constructs candidate nodes for every level by pruning the cover tree in order to improve the searching efficiency Simulation results indicate that the accuracy of CPS is better than Tiers. [Key words]distributed application;proximity search;network coordinate:network probing 1概述 预测误差,提高搜索精度。 随着计算机技术和网络技术的迅猛发展,大规模、动态 2基于覆盖树的可扩展邻近搜索方法——cPs 的分布式应用不断涌现,如文件共享、分布式镜像、内容分 CPS的基本模型由两部分组成:分布式覆盖树构建与维 发网络和流媒体服务等基于网络位置信息选择服务节点成为 护协议和k近邻搜索算法。CPS根据节点之问的距离约束关 亟待解决的共性问题。邻近搜索技术旨在为节点在动态的网 系赋予节点不同的层次,从而构造一棵层次化的树;维护协 络环境中寻找邻近的节点,且已成为这些分布式应用的基本 议负责维护覆盖树结构,确保其能适应动态的刚络环境; 组成部分。 k近邻搜索算法沿着覆盖树自顶向下搜索,追踪覆盖树各层 根据技术实现所依赖的网络协议类型,邻近搜索技术大 候选节点集合,直至搜索完毕。 致可以分为基于网络层协助的方法和基于应用层协助的方 2.1分布式覆盖树构建与维护协议 法 。基于网络层协助的方法侧重于寻求网络层协议的支持, CPS通过节点自主计算自己所处的层次,构造一棵层次 搜索策略一般比较简单,如扩展环组播、Global Internet 化的覆盖树i4J。各层编号沿着从树根到叶子的方向递减,而 Anycast(GIA)。由于安全与管理上的原因,绝大多数Internet 且每层节点都是其下层的子集。此外,位于第i一1层(Level i一1) 服务提供商都没有在路由器上开放IP组播功能。此外,GIA 的节点与其上层父亲节点之间的距离不超过/J ( 1);任何 协议标准化进度影响了这种模式的全局部署。 2个位于第i层的不同节点之间至少相距 。 基于应用层协助的方法可以进一步划分为基于网络坐标 覆盖树具有隐式和显式2种表示形式。隐式覆盖树直接 的邻近搜索方法和基于直接网络探测的邻近搜索方法。基于 反映了相邻层次之问的包含关系,且附带一些冗佘信息。显 网络坐标的邻近搜索方法(如PIC )通过将网络中的节点映 式覆盖树则将那些为自己独生子的节点合并。如图1所示, 射到一定的几何空间,使得任意2个节点之间的距离可以用 它们对应的网络坐标的函数来近似。然而,空间嵌入不可避 基金项目:国家自然科学基金资助项目(608732l5,60621003); 免会引入距离预测误差。典型的基于直接网络探测的邻近搜 国家“973”计划基金资助项目(2005CB321801);高等学校博士 索方法包括Tiers…、Meridian13]等。Tiers基于分簇思想构造 学科点专项科研基金资助项目(200899980003);高等学校全国优 一棵分布式的树用于邻近感知,自顶向下进行搜索,其局限 秀博士学位论文作者专项基金资金项目(200141) 性在于分簇方式以及簇中心的选举。 作者简介:王石(1983一),男,硕士研究生,主研方向:邻近 本文提出一种基于覆盖树的可扩展邻近搜索方法CPS, 搜索技术,网络计算;王意沽,教授、博士生导师 它不依赖特定网络协议的支持,并且通过网络探测降低距离 收稿日期:2010—04一l0 E-mail:al7gogo@gmail.corn 网络中a、b、c、d 4自主机被映射为覆盖树上对应的节点。 虽然a、b、d在隐式覆盖树中多次出现,但是它们在显式覆 盖树中均只出现一次。 图1 覆盖树中节点的层次化部署 CPS引入自举节点(Boot Strap Host,BSH),其作用在于 感知覆盖树树根。 覆盖树的构建过程从新节点加入开始。新节点P加入 CPS的关键是寻找合适的父亲节点。加入算法Join从覆盖树 根节点开始,不断探测各层候选节点集合 ,并通过追溯其 孩子节点更新候选节点集合,直至找到合适的父亲节点。父 亲节点距离P不超过 ,而且它的所有孩子节点与P之间的 距离均超过∥,见图2。 一 一一 …;一 图2实际网络拓扑至豆式覆盖树的演化过程 =2) 当节点P退出CPS时,一方面需要为其孩子节点寻找新 的父亲节点;另一方面需要消除P在覆盖树中的存在。退出 算法Leave先从覆盖树根节点开始,不断探测各层候选节点 集合Q ,并通过追溯其孩子 点得到其下层候选节点集合; 然后从P在覆盖树中所处的最高层次开始,为其孩子节点在 各层候选节点集合之中向上寻找合适的父亲节点。父亲节点 距离P不超过,i ,而且它的所有孩子节点与P之间的距离均 超过 ~。 2.2 k近邻搜索算法 k近邻搜索算法Find—kNN的核心是追踪覆盖树第i层候 选节点集合Q 并采用迭代方法构造Q :p首先接触Q 中 所有节点,而Q 中节点将自己的孩子节点集合发送给p(假设 返回的所有孩子节点构成集合Q);然后,p探测至这些孩子 节点的网络延迟,进而筛选出离自己不超过d(p,Q) + / 一1) 的节点以构成新的候选集合Q卜1。其中,d(p,QJ 表示节点p 与节点集合Q中第k最近邻之问的距离。当Q 不再包含显式 节点时,迭代终止。 3性能分析 实验测试中使用的Internet延迟数据集为Meridian数据 集 ,其中包含2 500个节点之问的测量延迟。通过消除一些 不完全的信息,得到2 250个节点的完全测量矩阵。 文献【51认为网络延迟空间符合增长约束度量的特性,膨 胀率s是其重要参数。图3显示,除了少数节点的膨胀率较 大外,大部分节点的膨胀率不超过500。膨胀率的累积分布 (图4)进一步证实了上述观点,并且表征约90%的节点的膨胀 率不超过86。由图3还可知,膨胀率的最大值为2 144,这 说明Meridian数据集的KR维数约为1】。因此,将增长约束 度量作为网络延迟空间理论模型具有一定的合理性。 图3各节点对应的膨胀事 , C e e 5 4 3 一 图4膨胀率的累积分布 在模拟实验中,随机选取2 000个节点作为覆盖网节点, 其余250个节点作为查询节点。查询节点分别采用CPS与 Tiers…2种方法搜索最近邻。对于Ti一 ers方法,影响搜索精度 的关键参数是簇的大小c,簇中心选举采用集中式策略。实 验选用适当的C值(c=5,20和100),从相对误差的角度对 2种方法进行搜索精度对比。 实验结果(图5)显示,随着簇大小C的增加,Tiers的搜 索精度也在增加。当然,这其中忽略了分布式的簇中心选举 策略带来的负面影响。当/j为2.0时,若C取5和20,CPS 的搜索精度优于Tiers;若C取100,Tiers的搜索精度略优于 CPS。但是,当∥为1.5时,CPS的搜索精度得到明显提高。 实验结果进一步说明,CPS的搜索精度与参数∥密切相关, 较高的搜索精度可以由较小的 得到。当然,较小的∥意味 着更多的存储开销。因此,参数/j的选择需要权衡搜索精度 与存储开销等方面的凶素。 图5相对误差的累积分布 (下转第98页) 87一 实验中在0时刻启动200个FTP连接,在80 s时100个 FTP连接退出;在100 s时加入1个新的UDP流,在140 s 时结束,每个UDP分组的大小为1 KB,发送速率为3 Mb/s; 在150 s时加入200个新的FTP流,在180 s时结束。仿真 表明,模糊Smith主动队列管理算法和RLFS—AQM在网络状态 时间/s 发生变化时,由于使用了模糊逻辑动态调节PID控制器的参 数,使得Smith补偿器对控制器参数不再敏感,在网络状态 发生变化时表现出较好的适应能力,但在干扰到来时, RLFS—AQM由于加入了速率控制项,因此能更快地使队列长 (a)模糊Smith主动队列管理算法队列长度 度收敛于期望值,体现了良好的抗干扰能力和网络变化适应 能力。 7结束语 本文针对网络大时滞和网络动态变化对AQM算法的不 利影响,提出一种基于速率和队长的大时滞网络AQM算法, (b)RLFS—AQM队列长度 该算法提高了在大时滞网络环境中的自适应能力、抗干扰能 力和响应速度。利用NS2网络仿真平台在网络大时滞和网络 图3实验1仿真结果 (2)网络环境参数变化对算法的影响 参数动态变化条件下进行了仿真实验,验证了算法性能,在 大时滞的网络环境中取得了较好的控制效果。 本实验考查AQM算法在较重负载情况下以及在动态的 网络环境中的性能,仿真时问为200 s。仿真结果如图4所示。 参考文献 脚 [1】任丰原,林闯,任勇,等.大时滞网络中的拥塞控制算法『J1. 攀,等.一种时滞网络自适应主动队列管 软件学报,2003,l4(3):503—5 1 1. 基 [2]孙雁飞,张顺颐,王理算法研究IJ1.电子与信息学报,2006,28(1O):1940—1945. [3]张鹤颖,刘宝宏,窦文华.一种基于速率和队列长度的主动队列 管理机制….电子学报,2003,31(11):1743—1746. (a)模糊Smith主动队列管理算法队列长度 800 600 [4]边立秀,赵日晖.Fuzzy自整定PID参数的Smith预估主汽温控制 系统….计算机仿真,2004,21(1):102—1o4. [5】Misra V,Gong Weibo,Towsley D.Fluid—based Analysis of a 40o Network of AQM Routers Supposing TCP Flows with an Application to REDfC]//Proc.of ACM/SIGCOMM’00.Stockholm, Sweden:[s.n.],2000:151-160 200 0 50 100 时问,s 1 50 200 [6】Holot C,Misra V,Towsley D.A Control Theoretic Analysis of ED[RCI//Pr0cof IEEE INFOCOM,O1.Anchorage,USA:IEEE .(b)RLFS—AQM队列长度Press2001:1510—1519. .图4实验2仿真结果 (上接第87页) 编辑任吉慧 4结束语 基于网络位置信息选择服务节点是许多分布式应用亟待 解决的共性问题,已有的邻近搜索技术受网络协议的, Coordinates for Distance Estimation[C]//Proc of the 24th IEEE International Conference on Distributed Computing Systems.Tokyo Japan:IEEE Press,2004. 搜索精度不高。本文提出一种基于覆盖树的可扩展邻近搜索 方法CPS。每个节点只需要维护少量其他节点信息,即可构 成层次化组织形式。通过对比实验发现,CPS的搜索精度较 高。邻近搜索服务的实际部署将是下一步的工作。 【3]Wong B,Slivkins A,Sirer E G Meridian:A Lightweight Network Location Service Without Virtual Coordinates[C】HProc. of SIGCOMM’05.Philadelphia,USA:IEEE Press,2005. .[4】Beygelzimer A,Kakade S,Langford J.Cover Trees for Nearest Neighbour[C]//Proc.of the 23rd International Conference on Machine Learning.Pittsburgh,USA:IEEE Press,2006. 参考文献 [1】Baneqee S,Kommareddy C,Bhatmcharjee B.Scalable Peer Finding on the Intemet[C]//Proc.of Global Internet Symposium.Taipei, Tai.wan,China:Is.n.],2002. [5]Karger D R,Ruhl M.Finding Nearest Neighbors in Growth— restircted Metrics[C]//Proc.of the 34th Annual ACM Symposium on Theory of Computing.Montreal,Canada:ACM Press,2002. [21 Costa M,Castro M,Rowstron A,et a1.PIC:Practical Intemet 编辑张正兴 

因篇幅问题不能全部显示,请点此查看更多更全内容