降维技术与方法综述
来源:易妖游戏网
第31卷 第10期 四川兵工学报 2010年10月 【特稿】 降维技术与方法综述 张煜东 ,霍元铠 ,吴乐南 ,董正超 (1.哥仑比亚大学精神病学系脑成像实验室,纽约纽约州2.东南大学信息科学与工程学院,南京210096) 10032; 摘要:为了更好地对数据实现降维,讨论了特征选择与特征变换两种技术。对于特征选择,按照特征子集的形成 方法可分为穷举法、启发式方法、随机方法、智能优化方法等;按照评价函数的类别可分为筛选式、封装式、嵌人 式。对于特征变换,传统的方法采用线性降维方法,主要有非负矩阵分解、因子分析、主成份分析、奇异值分解、 成分分析等;目前的方法是非线性降维方法,以流形学习为代表。对各种不同方法详细探讨其原理与流程, 并进行了性能比较。 关键词:特征选择;特征变换;嵌入式特征选择;流形学习 中图分类号:TP18 文献标识码:A 文章编号:1006—0707(2010)1O一0001—07 随着技术的发展,人们在各个领域都会面对高维数 据。高维数据不仅会造成“维数诅咒”问题,而且对可视 化、数据分析、数据建模都会带来困难。因此,有必要讨论 目前常见的降维方法 。 本文详细讨论了特征选择与特征变换两类。特征选 择为从给定的特征中直接选择若干重要特征,特征变换为 通过某种变换将原始输入空间数据映射到一个新空问中。 一般特征选择的结果更有物理意义,便于用户理解;而特 征变换的结果效率更高,能够提取原始数据中隐含的 信息。 图1特征选择算法框架 1 特征选择 特征提取算法 特征选择是一种从相关特征集中挑选出一个重要子 集的技术,也称为变量选择、特征压缩、属性选择、变量子 集选择等。特征变换通过移除原特征集中的相关性与冗 余性,可以减轻维数诅咒,增强模型泛化能力,加速模型学 习速度,改善模型可读性。特征选择的算法框架一般如图 1,当然有些算法并不全部具有以上4个方面,例如对特征 排序后选择前m个特征的Ranking方法只涉及评价和停止 两方面 。 1.1子集产生 遍 历 所 l穷举法 启发式I I随机方法I l智能优 向 向 组 基 前 后 合 于 选 选 选 实 择 侈0择 择 模 柱 完 概 遗 拟 蚁 子 全 蛊 传 退 群 群 随 随 算 火 算 机 机 法 算 算 法 法 法 有 按照特征子集的形成方法,获取特征可以分为穷举 法、启发式方法、随机方法、智能优化方法等,如图2所示。 图2按子集产生方法分类 穷举法(exhaustive)是一种最直接的优化策略,对大小 收稿日期:2010—08—25 基金项目:国家自然科学基金(60872075);国家高技术发展计划(2008AA01Z227) 作者简介:张煜东(1985一),男,博士后,主要从事数据挖掘研究; 吴乐南(1952一),男,教授,博导,主要从事多媒体信息处理和通信信号处理研究; 董正超,男,哥伦比亚大学教授,主要从事脑图像处理研究。 2 四川兵工学报 得分,一般可采用基于该子集的后续学习器(根据实际需 为n的特征集,搜索2n种可能的子集。因此,尽管穷举法 能确保寻找到最优子集,但是计算开销过大、不实用 。 启发式(heuristic)方法不一定产生最优子集,结果一 般是一个较优子集,它与确定式方法存在下述区别:确定 式方法能够证明自身的收敛时间或收敛结果,但是启发式 要,例如拟合器、分类器、聚类器等)的性能作为模型 。 优点是得到的特征子集更符合后续学习器的需要,缺点是 计算耗时过长、且易发生过拟合。 方法抛弃了这两种目标:它在某次寻优中可能收敛很快, 但不能保证始终如此;它在某次寻优中可能找到足够好的 子集,但不能证明下一次寻优得到的子集更优 J。当然, 启发式算法的优点在于计算复杂度低,实现过程比较简单 且快速,在实际中应用非常广泛。如向前(向后)选择 、 决策树 J、Relief法川等。 随机方法(random)可分为完全随机方法与概率随机 方法。前者是指纯随机产生子集,后者是指子集的产生依 图3 3种不同的子集评价函数 照给定的概率进行 。 智能(intelligent)方法相对较新,一般通过模拟自然界 中生物的进化原理、或者集群生活方法,来实现优化问题 嵌入式是近几年刚刚提出的一种结合学习器评价特 征子集的特征选择模型 ,具有封装式特征选择模型的精 的搜索。可分为遗传算法 、蚁群算法 …、粒子群算 法 、模拟退火算法 等。 综上,上述4类算法中只有穷举法能够保证最优,但计 算复杂度高。随机方法性能较差,因为其完全随机。启发 度,同时具有筛选式特征选择模式的效率。筛选式、封装 式、嵌入式三者的示意图可参见图4,运行方法与结果的区 别可参见表1。 式方法运用拇指规则,一般能够得到较好的子集。智能优 化算法具有跳出局部最小的能力,实际中常能得到最 优解。 1.2子集评价 (a)筛选式 子集评价即为通过一个函数,来计算选择子集的得 分,以此衡量不同子集的优劣。不同的评价函数产生不同 的结果,评价函数可分为筛选式(filters)、封装式(wrap- pers)、嵌入式(embedded)3类,如图3所示。 筛选式不计算模型,而是直接计算特征子集的某种度 量 。这种度量方式包括如下4种:基于距离的(欧式距 \ f 囊 (b)封装式 离、马氏距离、Bhattacharyya距离、chemoff概率距离、Mahal— anobis距离等)、基于信息的(Shanon熵、条件熵、信息增 益、互信息等)、基于性的(相关性、相似性)和基于一 致性的。 (c 嵌入式 图4 筛选式、封装式、嵌入式三者示意图 封装式通过建立在子集上的一个模型来计算子集的 表1 筛选式、封装式、嵌入式方法与结果的区别 张煜东,等 降维技术与方法综述 1.3嵌入式简介 由于嵌入式目前国内仅有2篇相关文章 ,国外 传统特征变换 3 也是刚刚起步 ,这里再对其详细介绍。首先假设维数为 n,原始特征集为 ={ 。, ,…, },原始输出为 ;用or ∈{0,1}n表征对应特征选取与否,其中1表示选取,0表 示不选取;用 表征模型参数;则后续学习器的模型可记 为 Ol,0"9C),模型误差记为L(f, ),样本密度记为P( , 萎I I霎I f羹J l萎f J萎 图5传统特征变换方法 Y)。则任务在于寻找最优的 与or,使得整体误差 (Ot, )最小 minR(d,ro) (1) n.O- R( ,ro)=I [,(Ot, ),Y]dP(x,Y) (2) 式(2)有时会加上正则化项,可用下述方法(与EM算法类 似)求解: Step 1设or=(1,1,…,1); Step 2计算 ,使得Ot =argmin R(oe, ); Step 3计算 ,使得or =argmin R(O/ ,or); Step 4令or= ,若满足终止条件则推出,否则转 Step 2。 为了简化计算,将 的取值范围从{0,1} 放宽到连 续空间[0,1] ,则上述Step 3可以采用梯度下降的思想计 算,新的算法可设置为: Step 1设 =(1,1,…,1); Step 2计算 ,使得 =argmin R(Ot, ); Step 3计算 =or—A R(O/ ,Or);(此处用梯度 下降算法代替) Step 4令 =Or ,若满足终止条件则推出,否则转 Step 2。 可见,采用梯度下降思想后,算法的计算速度大幅度 提高,无需计算一个优化问题即可直接得到or 。这种通 过使用学习器的结构来计算梯度,从而迅速搜索or 的思 想,就是“嵌入式”名称的由来。因此,现有的封装式算法 可通过这种or连续化思想,转化为嵌入式算法。这将是今 后进一步的研究方向。 2特征变换 与特征选择的不同之处在于,特征变换产生一组新的 特征。缺点在于当原始特征集具有明显的物理意义时,新 特征可能会失去意义。优点在于这些新特征压缩效率 更高 。 2.1传统方法 传统的特征变换方法一般采用线性降维方法,如图5 所示。 2.1.1非负矩阵分解 非负矩阵分解(non—negative matrix factorization,NMF) 是一种基于原始特征空间的低秩近似(1ow—rank approxima— tion)II9]。NMF的一个优点在于,降维后的所有特征都是 非负的,可以提供一个非负物理量的可加模型(additive mode1)。 假设原始非负特征集 是一个m×n矩阵,m表示样 本数,/-t表示特征维数,k是制定的特征压缩之后的维数, 则NMF产生矩阵 与 ,使得下式最小 毋c IX—WH I I(3) 式中, 是m×k矩阵,Ⅳ是k×n矩阵。由于k一般远远小 于 的秩,所以WH是 的一个良好的低秩近似。该方法 的一个缺点在于,式存在许多局部极小点,算法可能会陷 入局部最优。因此,若算法得到的 与H的秩甚至远小于 k,则表明结果次优。 2.1.2因子分析 因子分析(factor analysis)能够去除原始特征集中的相 关性 ]。例如原始特征集是十项全能运动员的成绩(10 维),容易想到,这10维数据可视作运动员的“速度”、“力 量”、“耐力”这3维潜因子(1atent factor)的体现。由于这 些潜因子一般会影响原始特征集的若干特征,所以也称为 公共因子(common factor),原始特征假设为公共因子的线 性组合,这些组合系数称为载荷(1oadings),每个原始因子 还包含一个对应随机变化的量,称为特定方差(speeif- ic varinace)。因子分析的模型为 =/x+/ +e (4) 式中 是观察量, 是常向量表示均值,以为载荷矩阵 是 且归一化的公共因子,e是特定方差。我们的目的在 于从观察量 中估计公共因子厂。 2.1.3主成份分析 主成分分析(PCA) 的关键思想来源于K—L变换, 产生一组新变量称为主成分(principal component),每个主 成分可视作原始向量的线性组合,所有主成分互相, 其间不存在冗余。显然,主成分构成了数据空间的一组正 交基。 第一个主成分是空间中的一个轴,其方向是使得数据 4 四川兵工学报 由少数变量的共同作用在观测空间张成一个流形,如 果能有效展开观测空间卷曲的流形,则可以对该数据集进 行降维。 流形学习的目标是发现嵌入在高维特征空间中的低 在该轴的映射具有最大方差。第二个主成分是空间中的 另一个轴且必须垂直于第一个主成分,其方向是使得数据 在其上的投影必须具有最大方差。如此依次生成所有的 主成分。显然,PCA可视作一种坐标变换技术,最终得到 的新坐标空间维数和原始空间维数一样多,但是新坐标下 数据方差集中在前面若干维。因此通过设置方差权重的 维流形结构,并给出一个有效的低维表示。其形式化定义 为:给定高维数据集 cR ,定义映射 ( (D>d)。 流形学习的目标是根据 恢复,与低维数据集Y,使得 = 阈值,可以仅保留最前面若干个主成分来达到降维的目 的。图6给出了PCA的几何解释,这里原始特征以 , 为坐标,新特征以主成分 、 为坐标,可见新坐标下数 ,(y)。可以想象如下过程:一张纸本身可视作二维空间数 据,然而将其揉成一团后,上面的点就分布在三维空间中。 据集中在第一维。 一, 、 、 ~ 、 / \ , 图6 PCA的几何解释 2.1.4奇异值分解 当维数过大时,PCA效率急剧下降。例如对图像而 言,每个像素视作一维,则一幅100×100小图像的维数是 10 ,PCA中协方差矩阵是维数的平方,即10 ,这会对存储 与计算造成诸多不便。奇异值分解(Singular Value Decom— position,SVD)L22 J可以有效解决上述问题。 例如对m xn数据矩阵 ,通过SVD可转换为 Xm =U…A~ (5) 式中 、 是正交阵,满足 u= =,。A是奇异值矩 阵,一般按照降序排序。降维时直接根据奇异值的贡献 率,将最小的若干个奇异值设为零,即可实现降维。 2.1.5成分分析 成分分析(ICA)是PCA的一种推广 J。PCA仅 仅利用了训练样本的二阶统计信息,忽视了高阶统计信 息,ICA除了能够分离PCA中的二阶矩,而且能够分离输 入数据的高阶矩,从而使数据的二阶和高阶统计都得到有 效利用。另外,PCA中的基仅仅是互相正交的,而ICA假 设基是互相的[24]。 ICA通过最大化估计成分的统计性来寻找潜变 量。如何定义性?目前有两种较好的方法:一是最小 化互信息,一是最大化非高斯性。前者采用Kullback— Leibler收敛与最大熵等测度,后者根据中心极限定理采用 峰度(kurtosis)与负熵(negentropy)等测度。目前较好的 ICA算法包括informax、FastICA,JADE等。 2.2非线性降维技术 传统的线性降维方法存在不少局限,主要体现在不能 保持局部信息和没有显式考虑数据所在的流形结构。因 此,一般采用非线性降维技术(NLDR),其中流形学习 (manifold learning)是当前研究热点。流形学习是一种新 的机器学习方法,基本思想为 ]:高维观测空间中的点是 流形学习寻找到这种“揉”的信息,然后将三维空间的点还 原为二维空间。 图7给出了流形学习的另一个示例,降维前图7(a)中 的每个样本是一幅32×32的字幕“A”的图像,区别在于图 像中的“A”缩放比例与旋转角度不同。如果直观看,每幅 图像是一个1024维向量,每个标量可以取值0或1;考虑 到图像中的A均一样,不提供额外信息,因此内在变量实 际只有2个:缩放比例与旋转角度。流形学习可以很好地 将样本之间相同的信息(字母A)丢弃,仅仅保留样本之间 不同的信息,图7(b)显示了降维后的结果,这里流形学习 很好地提取了不同样本之间的缩放与旋转信息。我们将 目前提出的l7种流形学习算法示于图8,再逐一阐述。 (a)降维前(32×32=1024维) (b)降维后(2维) 图7另一个流形学习示例 流形学习 主 核 高 曲 多 等 局 拉 扩 海 局 最 流 局 自 近 曲 主 斯 线 维 距 部 普 散 森 吾B 大 形 部 动 似 线 成 处 口 距 缩 映 线 拉 映 局 切 万 雕 多 编 矩 流 份 理 0 离 短 射 性 新 射 部 空 差 塑 维 码 形 分 潜 映 阵 分 嵌 本 线 间 展 缩 器 方 析 变 射 析 入 征 性 排 开 放 法 量 映 嵌 列 模 射 入 型 图8流形学习方法综述 2.2.1 主曲线流形 主曲线流形(principal curves and manifolds)提供了非 线性降维的一种自然几何框架,它通过构建一个嵌入式流 形、采用标准几何映射流形编码,扩展了PCA的几何框架。 如何定义流形的简单性是当前流形算法的一个难题,主曲 线流形采用内在变量(intrinsic variable)的维数与流形的光 张煜东,等:降维技术与方法综述 滑度来定义,获得了较好的结果。 2.2.2核主成分分析 5 另外,Isomap不产生一个内在模型,因此只有训练数据被 降维,而当其它类似数据需要降维时,必须重新训练。 2.2.8局部线性嵌入 核主成分分析(kernel PCA)是PCA技术的扩展 ,当 在数据空间中面临线性不可分时,可以采用核方法将数据 首先映射到更高维度,然后再在映射后的数据空间中执行 PCA算法。PCA首先计算样本的协方差矩阵 C= 局部线性嵌入(Locally—linear embedding,LLE)与Iso— map同时期提出,但在许多问题上明显优于Isomap,主要原 因在于采用了稀疏矩阵算法来实现更快的优化 。LLE 首先寻找每个点的邻近点,然后给每个点计算一组权重, 这样当前点可以用邻近点的权重组合来表示。最后,采用 基于本征向量优化的技术来寻找数据的低维嵌入,以保持 然后投影到前k个特征向量。而核主成分分析计算的是样 本变换到更高维度之后的协方差矩阵,即 C= ∑ ( ) ( ) 该算法的缺点是核函数 无法有效选择。 2.2.3 高斯处理潜变量模型 高斯处理潜变量模型(Gaussian process latent variable mode1)可视作概率非线性PCA方法。与核主成分分析类 似,GPLVM也采用一个核函数来实现映射。不同之处在 于,核主成分分析是从高维空间到低维空间,而GPLVM是 从低维空间到高维空间。 2.2.4 Kohenen映射 Kohenen映射(也称自组织神经网络,SOM)与其改进 版本——生成型拓扑映射(GTM)在嵌入空间中采用点表 示法来形成一个潜变量模型。 2.2.5曲线距离分析 曲线距离分析(CDA)训练Kohenen映射,使其拟合流 形且保存两点之间的测地线距离。CDA与曲线成分分析 (CCA)类似,不同只是CDA采用测地线(geodesic)距离,即 两点之间在流形上的最短距离。 2.2.6缩放 缩放(multi—dimensional scaling,MDS) 具有明 显的几何意义,其思想在于:将特征x映射到低维空间l,, 使得每个观察点(observation)间的距离D近似保持不变。 因此,缩放技术首先计算给定高维数据集 中任意两 点的距离 ,然后计算数据在低维空间的映射y,使得低 维空间y中数据点问的距离D 与高维空间中对应点的距 离 近似相同。缩放的优点在于:1)有明确的几何 意义;2)针对距离矩阵进行计算,因此可以对任意距离函 数进行计算;3)可以表明映射后的相似程度。 2.2.7等距映射 等距映射(Isomap)可视作CDA与MDS的结合 。 与CDA类似,Isomap首先寻找每个点的最近邻点集,在此 基础上利用Dijkstras算法寻找近邻点之间的最短测地路 径,来建立点集之间的测地线距离。只是CDA采用SOM 网络训练,而Isomap采用MDS训练。 尽管Isomap的结果略弱于CDA,但能够显著提高运算 速度且易于实现。Isomap的缺点在于:由于估计测地线距 离的不精确性,在未采样的空间可能会得到较差的结果。 每个点的权重不变。 LLE的缺点在于:对非均匀数据区域表现较差,因为 数据密度变化会造成权重变化。另外,LLE也不产生内部 模型。 2.2.9拉普拉斯本征映射 拉普拉斯本征映射(1aplacian Eigenmap)利用谱技术来 实现降维。拉普拉斯本征图在某种意义上保持了点与点 之间的局部距离,惩罚函数保证了在原始空间中离得很近 的点,在低维空间中的像也相距很近。 2.2.10扩散映射 扩散映射(Difusion Maps)采用了随机游走技术,然后 在流形中与热扩散效应比较。该算法与一个马尔可夫转 移矩阵(定义在图上的函数与定义在流形上的扩散算子) 类似。 2.2.11 海森局部线性嵌入 海森局部线性嵌入(Hessian LLE)与LIJE类似,都基于 稀疏矩阵技术。优点是,海森局部线性嵌入得到的结果更 佳,但计算异常复杂。因此,对于样本点密集的流形不适 用。另外,它也没有内在模型。 2.2.12局部切空间排列 局部切空间排列(Local Tangent Space Alignment,LT- sA)基于下列思想 :当一个流形展开时,其上所有的切 平面将逐步对齐。LTSA首先计算每个点的k近邻点;然后 通过计算每个点邻域的前d个主成份,获得每个点的切平 面;最后求解一个优化函数来寻找最优嵌入函数,使所有 切平面对齐。 2.2.13最大方差展开 最大方差展开(Maximum Variance Unfolding,MVU)的 前身是半定嵌入(semidefinite embedding),基于下列思想: 当一个流形正确展开时,数据点上的方差最大。MUV首先 寻找每个点的k个最近邻点;然后在保持所有邻近点距离 的基础上,最大化所有非邻近点的距离。MUV的特别之处 在于,将一个优化问题变换到一个半定编程问题,缺点则 在于半定编程需要极高的计算代价。另外,它也没有内在 模型。 地标最大方差展开(1andmark MVU)是一种改进算法, 采用地标来提速,但精度有所下降。 2.2.14流形雕塑 流形雕塑采用标度优化(graduated optimization)算法 6 四川兵工学报 个圆,由图10可见,可见,ISOMAP、Hessian LLE、Laplaeian、 来寻找最优流形。首先计算k近邻,然后寻找一个可以保 存局部邻域关系的流形。流形雕塑算法逐步从高维中标 度方差,同时相应地调整低维流形中的点。如果标度速率 设置较小,则可以寻找到非常精细的流形。一般地,流形 LSTA可很好展开。事实上,每种算法擅长处理的流形结 构各不相同,在实际处理中必须根据特殊情况特殊对待。 雕塑可以寻找到较其它算法更好的结果,同时也能够对其 它算法的结果进一步优化。然而对某些复杂的流形,必须 墨 。 将标度速率设置得非常小。流形雕塑算法也不提供内在 模型。 2.2.15局部缩放 局部缩放(Local Multidimensional Scaling,LMDS) 在局部区域执行MDS算法,然后采用凸优化方法来拟合所 有的片段。 2.2.16 自动编码器 自动编码器(autoencoder)的机理与上述方法完全不 同,它是一种特殊类型的前向神经网络。尽管思想古老, 但是在约束玻尔兹曼机提出后才变得流行起来。一种类 似的方法是神经刻度算法(neuroscale algorithm),采用基于 MDS与s眦堋on映射的压力函数,来学习从高维空间到低 维空问的映射。神经刻度算法中的映射是基于径向基网 络函数的。另一种类似的方法是直接采用带隐层的神经 网络,利用隐层神经元作为新提取的特征。 2.2.17近似矩阵方法 基于近似矩阵(proxiO miO ty mat0 rix)的方法有如下共同之 处:数据表示为相似度矩阵或相异度矩阵(距离矩阵)的形 式。这些方法都可以归结为度量缩放(me2} } 2tr~ic MDS)方 法,不同之处在于如何定义近似矩阵。特别地,一种称为 Procrustes距离可以只衡量形状的差异。 例如正常人不会因为某个字符的仿射变换(例如缩 放、平移、旋转、镜像)而认不出该字符,即希望衡量字符相 异度时能够对仿射变换不敏感。在人脸识别中,同样希望 两幅人脸的距离仅与形状有关。Procrustes距离能够保证 定义的相异度矩阵对仿射变换不敏感,假设高维空间中两 个形状分别为 与l,,每个形状包含n个点,每个点属于P 维空间,则Procrustes距离定义为 P Procrustes( ,y)=min∑∑(l l J 1 ~ ) (8) 式中Z=bY'/'4-c。这里b为缩放因子, 为旋转与镜像因 子,c是平移因子。因此Procrustes的真正意义在于通过选 择合适的b,T,C,使得z与 最接近,此时对应的距离即为 Procrustes距离o 2.2.18算法比较 以瑞士卷(Swiss rol1)、螺旋管环线(toroidal helix)作为 测试数据,分别采用MDS、PCA、ISOMAP、LLE、Hessian LLE、Laplacian、Difusion Map、LTSA算法,比较其降维结果 与运行时间,示于图9与图1O。 对于瑞士卷,希望能将它展开为一个平面,由图9可 见,仅LLE可很好展开。对于螺旋管环线,希望展开为一 :i 耋 曼 : 篷 .1。Q O 2 2 。 ,0 1 0 龄 1 0 舢1 sl :竺!!-. 旬O5 0 O05 .1 0 ’ 2 薹Q勺O5 0 005 IKNN:8 Alpha:, SJ口ma=l口 图l0螺旋管环线流形学习比较 3结束语 随着工程处理中数据量、数据维数的增加,特征选择 与特征变换作为两种主要的降维技术正得到越来越广泛 的应用。 特征选择侧重于从若干个特征中直接选择特征,优点 是可以直接保留具有物理意义的重要特征,缺点是得到的 特征不能最好地反映系统信息。按照特征子集的形成方 法,获取特征可以分为穷举法、启发式方法、随机方法、智 能优化方法等。按照评价函数的类别,可分为筛选式、封 装式、嵌入式。 特征变换侧重于通过变换得到更加集中的新特征,优 点是新特征更能反映系统意义,缺点是新特征并不具有物 理意义。传统的特征变换方法一般采用线性降维方法,主 要有非负矩阵分解、因子分析、主成份分析、奇异值分解、 成分分析等。目前的特征变换方法集中在非线性降 维方法,以流形学习为代表。 张煜东,等:降维技术与方法综述 7 参考文献: [1] KUFLIK T,BOGER Z,SHOVAL P.Filteirng search re— sults using an optimal set of terms identified by an artiif— cial neural network『J].Information Processing&Man— agement,2006,42(2):469—83. [2] 卜化龙,夏静,韩俊波.特征选择算法综述及进展研 究[J].巢湖学院学报,2008,10(6):1—4. [3]LIN S—W,CHEN S-C.PSOLDA:A particle swarm opti— mization approach for enhancing classification accuracy rate of linear discriminant analysis『J].Applied Soft Computing,2009,9(3):1008—15. [4] YUSTA S C.Different metaheuristic strategies to solve the feature selection problem f J 1.Pattern Recognition Letters,20o9,30(5):525—34. [5] NAKARIYAKuL S,CASASENT D P.An improvement on floating search algorithms for feature subset selection [J].Pattern Recognition,2009,42(9):1932—40. [6] SAMANTA B,BIRD G L,KUUPERS M,et a1.Predic— tion of periventricular leukomalacia.Part II:Selection of hemodynamic features using computational intelligence [J].Artiifcila Intelligence in Medicine,2009,46(3): 217—31. [7] AMJADY N,KEYNIA F.Day—ahead price forecasting of electricity markets by a new feature selection algorithm and caseaded neural network technique f J].Energy Con— version and Management,2009,50(12):2976—82. [8]TSYMBAL A,PUURONEN S,PATH ̄RSON D W.En— semble feature selection with the simple Bayesian elsasiif— cation[J].Ifnormation Fusion,2003,4(2):87—100. [9] VERMA B,ZHANG P.A novel neural・genetic lagorithm to find the most singificant combination of features in dig- ital mammograms[J].Applied Soft Computing,2007,7 (2):612—25. [10]sIVAGAMINATHAN R K,RAMAKRIsHNAN s.A hy— brid approach for feature subset selection using neural networks and ant colony optimization[J].Expert Sys— terns with Applications,2007,33(1):49—60. [11]PEDRYCZ W,PARK B J,PIZZI N J.Identifying core sets of discriminatory features using particle swami opti— mization[J].Expert Systems with Applications,2009, 36(3,Part 1):4610—6. 『12]GHEYAS I A.SMITH L S.Feature subset selection in lrage dimensionality domains[J].Pattern Recognition, 2010,43(1):5—13. 113 I PENG Y,wU z,JIANG J.A novel feature selection ap— proach ofr biomedical data clsasiifcation[J].Journal of Biomedical Informaties,2010,43(1):15—23. [14]MALDONADO S,WEBER R.A wrapper method for fea— ture selection using Support Vector Machines[J].Infor— marion Sciences,2009,179(13):2208—17. [15]葛雷,李国正,尤鸣宇.多标记学习的嵌入式特征选 择[J].南京大学学报(自然科学),2009,45(5): 67】一6. [16]闫鹏,郑雪峰,朱建勇,eta1.一种基于嵌入式特征选 择的垃圾邮件过滤模型[J].小型微型计算机系统, 2009,30(8):1616—20. [17]LAVINE B K,DAVIDSON C E.Multivariate Approa— ches to Clsasiifcation using Genetic Algorithms I M l// STEPHEN D B,ROM,X00E,et a1.Comprehensive Ch— emometrics.0xford:Elsevier.20o9:619—46. 『18]HSING T,LIU L—Y,MARCEL B,et a1.The coemcient of intirnsic dependence(feature selection using el CID) [J].Pattern Recongition,2005,38(5):623—36. [19]QINGHUA W,YOUYUN Z,LEI C,et a1.Fault diagno— sis for diesel valve trains based on non—negative matrix factorization and neural network ensemble l J 1.Mechani— cal Systems and Signal Processing,2009,23(5):1683 —95. 『201 BEHRENS T,ZHU A X,SCHMIDT K,et a1.Multi— scale di西tal terrain analysis and feature selection for dig— itla soil nmpping[J].Geoderma,2010,155(3—4): 175—85. [21]CAMACHO J,PIC J,FERRER A.Data understnading with PCA:Structural and Variance Information plots [J].Chemometrics and Intelligent Laboratory Systems, 2010,1oo(1):48—56. 『22]LIPOVETSKY S.PCA and SVD with nonnegative load— ings[J].Pattern Recongition,2009,42(1):68—76. 『23]RADULOVIC J,RANKOVIC V.Feedforward neural net— work and adaptive network—based fuzzy inference system in study of power lines[J].Expert Systems with Appli— cations,2010,37(1):165—70. 『24] KH0SRAVI A,NAHAVANDI S,CREIGHT0N D. A prediction interval—based approach to determine optimal sturctures of neural network metamodels l J 1.Expert Sys— tems with Applications,2010,37(3):2377—87. [25]王自强,钱旭.基于流形学习和SVM的Web文档分 类算法[J].计算机工程,2009,15):38—4o. 『26]L PEZ M M,RAM REZ J,G RRIZ J M,et a1.SVM— based CAD system for early detection of the Alzheimer"s disease using kernel PCA and LDA{J 1.Neuroseienee Letters,2009,464(3):233—8. [27]肖传乐,曹槐.基于流形学习的基因表达谱数据可视 化[J].生物信息学,2009,01):47—51. {28 I RONG J,U G,CHEN Y—P P.Acoustic feature selection ofr automatic emotion recognition from speech[J].Infor- marion Processing&Management,2009,45(3):315 —28. [29]RODR GUEZ—RAJO F J,ASTRAY G,FERREIRO— LAGE J A,et a1.Evaluation of atmospheric Poaceae pol— len concentration using a neural network applied to a coastal Atlantic climate region l J i.Neural Networks, 2010,23(3):419—25. f3O]HOU C,ZHANG C,wU Y,et a1.Stable local dimen. sionality reduction approaches[J].Pattern Recognition, 20o9,42(9):2054—66. (责任编辑周江川)