盲专网 - 一种基于Laplacian算子的特征选择方法

专利申请流程有哪些步骤？

申请

申请号：指国家知识产权局受理一件专利申请时给予该专利申请的一个标示号码。唯一性原则。

申请日：提出专利申请之日。

2014-11-28

申请公布

申请公布指发明专利申请经初步审查合格后，自申请日（或优先权日）起18个月期满时的公布或根据申请人的请求提前进行的公布。

申请公布号：专利申请过程中，在尚未取得专利授权之前，国家专利局《专利公报》公开专利时的编号。

申请公布日：申请公开的日期，即在专利公报上予以公开的日期。

2015-04-08

授权

授权指对发明专利申请经实质审查没有发现驳回理由，授予发明专利权；或对实用新型或外观设计专利申请经初步审查没有发现驳回理由，授予实用新型专利权或外观设计专利权。

2018-05-04

预估到期

发明专利权的期限为二十年，实用新型专利权期限为十年，外观设计专利权期限为十五年，均自申请日起计算。专利届满后法律终止保护。

2034-11-28

基本信息

有效性	有效专利	专利类型	发明专利
申请号	CN201410713386.0	申请日	2014-11-28
公开/公告号	CN104408480B	公开/公告日	2018-05-04
授权日	2018-05-04	预估到期日	2034-11-28
申请年	2014年	公开/公告年	2018年
缴费截止日
分类号	G06K9/66 、G06K9/46	主分类号	G06K9/66
是否联合申请	独立申请	文献类型号	B
独权数量	1	从权数量	4
权利要求数量	5	非专利引证数量	0
引用专利数量	4	被引证专利数量	0
非专利引证
引用专利	CN101127078A、CN101196564A、CN101840516A、CN102289661A	被引证专利
专利权维持	3	专利申请国编码	CN
专利事件		事务标签	公开、实质审查、授权

申请人信息

申请人	安徽师范大学	第一申请人	安徽师范大学
专利权人	安徽师范大学	当前专利权人	安徽师范大学
发明人	接标、左开中、王涛春、丁新涛、胡桂银、罗永龙	第一发明人	接标
地址	安徽省芜湖市九华南路189号	邮编	241002
申请人数量	1	发明人数量	6
申请人所在省	安徽省	申请人所在市	安徽省芜湖市

代理人信息

代理机构

专利代理机构是经省专利管理局审核，国家知识产权局批准设立，可以接受委托人的委托，在委托权限范围内以委托人的名义办理专利申请或其他专利事务的服务机构。

南京钟山专利代理有限公司

代理人

专利代理师是代理他人进行专利申请和办理其他专利事务，取得一定资格的人。

戴朝荣

摘要

本发明公开了一种基于Laplacian算子的特征选择方法，所述方法既考虑到了样本和类标签之间的关联又保留了样本和样本之间的相互依赖关系。具体来说，提出的Lap‑Lasso方法包含了两个正则化项，第一项是稀疏化正则化项，保证只有少数量的特征能被选择。另外，引入了一个新的基于Laplacian的正则化项，用于保留同类样本之间的局部相邻结构信息。进一步，使用APG即Accelerated Proximal Gradient算法来优化所提出的模型。在UCI数据集的实验结果验证了Lap‑lasso方法的有效性。

摘要附图
说明书附图：图1

法律状态

序号	法律状态公告日	法律状态	法律状态信息
1	2018-05-04	授权
2	2015-04-08	实质审查的生效	IPC(主分类): G06K 9/66 专利申请号: 201410713386.0 申请日: 2014.11.28
3	2015-03-11	公开

权利要求

权利要求书是申请文件最核心的部分，是申请人向国家申请保护他的发明创造及划定保护范围的文件。

1.一种基于Laplacian算子的特征选择方法，应用于寻找疾病的生物标志和脑疾病的分类，其特征在于，具体步骤如下：
步骤一、建立Lasso特征选择方法优化的目标函数：
其中，X表示给定训练样本集：X＝[x1，x2，...，xN]T∈RN×d，xi表示第i个样本的特征向量，N表示训练样本个数，d表示特征维数；Y表示样本所对应的相应向量：Y＝[y1，y2，...，yN]∈N
R，yi表示样本的类标签，且yi∈{+1，-1}；w表示特征向量的回归系数；λ＞0表示一个正则化参数，用于平衡模型复杂度和数据拟合程度；
步骤二、在步骤一的Lasso目标函数中引入一个正则化项：
其中，S＝[Sij]表示一个相似矩阵，定义了两个样本之间相似性；xi和xj分别表示两个样本；L＝D-S表示Laplacian矩阵，D表示对角矩阵，且
根据所引入的正则化项，采用基于Laplacian算子的特征选择方法，构建Lap-Lasso目标函数模型，其表达如下：
其中，λ和β是两个大于0的常数；
步骤三、求解上述Lap-Lasso目标函数模型，其中，Lasso稀疏化项使得少量的特征能被选择，而Laplacian正则化项保留同类标签样本的局部相邻结构信息，实现帮助诱导出更有判别力的特征。

2.如权利要求1所述的一种基于Laplacian算子的特征选择方法，其特征在于，采用APG算法优化Lap-Lasso目标函数模型：
201、将Lap-Lasso目标函数模型划分成两部分，分别是：
平滑部分：
非平滑部分：g(w)＝λ||w||1
202、构建函数用以近似表示f(w)+g(w)：
其中，表示第k次迭代点wk的梯度，l表示步长；
203、对APG算法进行更新：
其中，

3.如权利要求2所述的一种基于Laplacian算子的特征选择方法，其特征在于，步骤203中，所述对APG算法更新计算的方法是：将更新计算问题分解成d个独立的子问题，所述子问题的解析解为：

4.如权利要求1或3所述的一种基于Laplacian算子的特征选择方法，其特征在于：步骤二中，参数λ和β的值的计算方法是：将训练数据通过交叉验证来确定。

5.如权利要求4所述的一种基于Laplacian算子的特征选择方法，其特征在于：所述相似矩阵S用以保存映射时同类样本的局部相邻结构信息。

说明书

技术领域

[0001] 本发明公开了一种基于Laplacian算子的特征选择方法，涉及机器学习算法技术领域。

背景技术

[0002] 在机器学习中传统算法经常遇到众所周知的维数灾难的问题。在这种情形下，通过降低数据的维数有利于提高数据分析的效率和精确度。特征选择是从一组特征中选出一组最相关的特征的子集以降低特征空间维数的过程，从而达到改善学习模型性能的目标。

[0003] 研究人员已提出各种特征选择方法。这些方法大致分为两类：(1)特征排名方法；(2)特征子集搜索方法。特征排名方法通常单独考虑每个特征的重要性，并对其排名，从而从中选择一组最重要的特征；而特征子集方法则根据一些准则(如一致性和相关性等)来判断可能的候选特征子集的重要性，并从中选择最优的一个。相比较前者，后者通常能够获得更好的性能和对结果的解释性。因此，文章主要关注对后者的研究。

[0004] 目前，研究人员已经提出许多著名的特征子集搜索方法，如顺序飘动向前搜索方法(sequential floating forward selection，SFFS)，稀疏化的方法(如Lasso)等。其中，Lasso方法由于能够同时进行回归和特征选择，并且选择出的特征与类标签非常相关，因此得到了广泛研究和应用。但是，在基于Lasso的方法中，一个主要缺点是只考虑了样本和类标签之间的关联，而忽略了样本与样本之间的相互依赖，如同类样本的局部相邻结构信息，而这些信息能够帮助诱导出更有判别力的特征，从而完成更好的分类。

[0005] 在各种特征选择方法中，基于Lasso的方法取得了广泛的研究和应用。然而，这类方法的一个主要缺点是只考虑了样本和类标签之间的相关性，却忽略了样本自身的内在关联信息，而这些信息有助于诱导出更具有判别力的特征。

[0006] 基于Lasso的特征选择方法介绍如下：

[0007] 给定训练样本集X＝[x1，x2，…，xN]T∈RN×d，其中xi表示第i个样本的特征向量，N表示训练样本个数，d表示特征维数。假定Y＝[y1，y2，…，yN]∈RN表示这些样本所对应的相应向量。对于监督分类问题，yi表示样本的类标签。不失一般性，本发明只考虑两类分类问题，即yi∈{+1，-1}。则Lasso特征选择方法优化的目标函数是：

[0008]

[0009] 其中w表示特征向量的回归系数。正则化项‖w‖1采用L1-范式将在特征空间中产生一个稀疏解，即不相关的和多余的特征所对应的系数将被置为0，而非0系数所对应的特征将被保留下来用于随后的分类。λ>0是一个正则化参数，用于平衡模型复杂度和数据的拟合程度。

[0010] 与传统的特征选择方法相比，Lasso方法通过最小化一个目标函数来完成特征选择，而且经验数据已经表明当有大量的不相关特征而只有少量的样本时，Lasso方法非常有效。因此，Lasso方法已经被应用到许多问题当中，如：寻找疾病的生物标志和脑疾病的分类。在Lasso方法中存在的一个限制是：当特征维数d大于样本个数N时，Lasso最多只能选择N个特征。针对这一不足，Zou等人通过增加了一个L2-范式正则化项，提出了一种称之为elastic net的特征选择方法。考虑一些数据的特征具有平滑性特点(即相邻的特征应该具有相同或相似的权重系数)，Tibshirani等人在Lasso基础上通过增加一个新的L1-范式，提出了一种Fused Lasso的方法，Ye等人给出了对Fused Lasso进行快速优化的方法。最近，Yamada等人基于核的方法将Lasso从线性情况推广到非线性情况。

[0011] 另一方面，针对几组特征需要联合地进行特征选择的情况，Yun等人提出了group Lasso方法。而一些研究人员将group Lasso思想应用到多任务学习当中，取得了很好的效果。另外，研究人员也提出了sparse group Lasso的方法来联合地选择具有共性的特征和个性的特征。最近，研究人员通过增加正则化项方法进一步推广group Lasso方法，如：Gong等人提出了一种鲁棒的group Lasso来处理数据中包含噪声的情况；而Kim等人针对数据特征中存在分层结构情况，提出一种tree-guided group Lasso的方法。

[0012] 在这些基于Lasso的方法中，存在的一个主要的不足是只考虑到样本和预测值(即标签)之间的依赖关系，而忽略了样本与样本之间的相互依赖的关系，如同类样本的局部相邻结构，这些信息的丢失可能会影响到选择特征的判别性，从而影响到分类器最终的分类性能。为了解决这一问题，并受最近一些工作的启发，提出了一种新的基于Laplacian的特征选择方法Lap-Lasso。

发明内容

[0013] 本发明所要解决的技术问题是：针对现有技术的缺陷，提供一种基于Laplacian算子的特征选择方法，既考虑到了样本和类标签之间的关联又保留了样本和样本之间的局部相邻结构信息。具体来说，提出的Lap-Lasso方法包含了两个正则化项，第一项是稀疏化正则化项，保证只有少数量的特征能被选择。另外，引入了一个新的基于Laplacian的正则化项，用于保留同类样本之间的局部相邻结构信息。进一步，使用APG(Accelerated Proximal Gradient)算法来优化所提出的模型。

[0014] 本发明为解决上述技术问题采用以下技术方案：

[0015] 在Lasso及其扩展的特征选择模型中，线性映射函数(即f(x)＝xTw＝wTx)把数据从原始的高维空间变换到一维空间，其明显的不足是只考虑了样本数据和类标签之间的关联，而忽略了样本数据之间内在联系，如同类样本，经过投影也许会产生比较大的偏差，而直觉上，它们应该靠的更近。为了解决这个问题，本发明引入了一个新的正则化项：

[0016]

[0017] 其中S＝[Sij]表示一个相似矩阵，定义了两个样本之间相似性。L＝D-S是Laplacian矩阵，D是对角矩阵，其中相似矩阵S定义为：

[0018]

[0019] 此项能被解释如下：如果两个样本越相似(即样本xi和xj来自同一个类)，则f(xi)与f(xj)之间的距离就越小，反之亦然。容易看出公式(2)旨在保存映射时同类样本的局部相邻结构信息。基于公式(2)，提出了一种基于Laplacian的特征选择方法，称为Lap-Lasso，其目标函数如下：

[0020]

[0021] 其中λ和β是两个大于0的常数，它们的值可以在训练数据通过交叉验证来确定。

[0022] 在Lap-Lasso模型中，Lasso稀疏化项保证只有少量的特征能被选择，而Laplacian正则化项保留同类标签样本的局部相邻结构信息，从而帮助诱导出更具有判别力的特征。

[0023] 本发明进一步采用APG(Accelerated Proximal Gradient)算法来优化公式(4)。具体而言，公式(4)首先被划分为两部分：平滑部分

[0024]

[0025] 和非平滑部分

[0026] g(w)＝λ‖w‖1 (6)

[0027] 其次，构建如下函数来近似f(w)+g(w)：

[0028]

[0029] 其中表示第k次迭代的wk点梯度，l表示步长。

[0030] APG的更新步骤定义如下：

[0031]

[0032] 其中

[0033] 因此，根据公式(8)，要优化的问题可以转化为分解成d个独立的子问题。APG算法的关键是如何有效求解公式(8)，研究表明这些子问题的解析解非常容易获得，即：

[0034]

[0035] 本发明采用以上技术方案与现有技术相比，具有以下技术效果：本发明提出了一种新的特征选择方法Lap-lasso。通过Laplacian正则化项保留同类样本的局部相邻结构信息，克服传统基于Lasso方法只考虑到样本与类标签之间的关联，而忽略样本之间的内在联系的不足，并利用APG算法优化提出的Lap-lasso模型。在UCI数据集上的实验表明了Lap-lasso方法的有效性。

实施方案

[0037] 下面详细描述本发明的实施方式，所述实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

[0038] 下面结合实施例对本发明的技术方案做进一步的详细说明：

[0039] 本发明的一个具体实施例，列举了在8个UCI数据集上评价提出方法的有效性。表1为出这些数据集的特性。

[0040] 表1 实验中使用的数据集

[0041]

[0042] 首先比较Lasso的特征选择方法，并比较了经典的基于排名特征选择方法，包括Laplacian Score(LS)和FisherScore(FS)的方法。在实验中，基于RBF核的支持向量机(Support Vector Machine,SVM)被用于分类，在分类过程中，采用10轴交叉验证来评价分类的性能，并且这个过程被独立的重复10次，目的是为了减少在交叉验证过程中因随机划分样本而造成对分类结果的影响。最后，平均分类精度作为最终的分类结果。

[0043] 表2给出了各方法在8个数据集上的分类结果。注意：在表2中Baseline表示没有进行特征选择直接进行分类的结果，而括号中的数值表示分类误差。从表2中可以看出，Lap-Lasso方法在所有数据集中都好于Lasso的方法，表明增加Laplacian正则化项能够诱导出更具有判别力的特征，从而完成更好的分类。另外，在大部分数据集中，提出的Lap-Lasso方法要好于比较的方法，特别在colon_cancer数据集上，提出的方法至少提高了2.4％的分类精度。这些结果都表明了Lap-Lasso方法的有效性。

[0044] 表2 不同特征选择方法的平均分类精度(±标准差)(％)

[0045]数据集 Lap-Lasso Lasso FS LS Baseline
heart_statlog 85.0(±0.31) 84.5(±0.52) 83.2(±1.13) 84.2(±0.63) 85.0(±0.31)hepatitis 83.3(±0.59) 81.8(±1.03) 84.5(±0.25) 83.4(±0.90) 83.1(±0.80)labor 92.4(±1.88) 91.4(±1.70) 92.0(±2.89) 90.0(±2.82) 89.2(±1.50)ionosphere 90.3(±0.37) 89.1(±0.76) 88.9(±0.41) 88.1(±0.78) 89.4(±0.51)credit 85.6(±0.37) 85.2(±0.34) 85.7(±0.32) 65.8(±0.93) 85.1(±0.28)colic 84.1(±0.55) 83.0(±0.71) 83.8(±0.76) 75.4(±0.57) 83.7(±0.68)colon_cancer 88.3(±2.15) 85.8(±1.85) 85.9(±0.86) 67.5(±1.67) 71.0(±1.66)c 66.1(±1.89) 62.5(±0.32) 63.8(±2.70) 62.1(±0.21) 62.0(±0.00)

[0046] 图1是本发明所述方法中，分类精度结果随不同正则化参数β值的变化曲线，如图1所示，在一个具体实施例中为了评估引入的Laplacian正则化参数对分类结果的影响，通过固定λ的值而变化β的值来统计分类结果。图1画出了在8个数据集上随不同β值Lap-Lasso方法分类精度的变化曲线。注意：当β等于0，提出的Lap-Lasso方法则退化为Lasso方法。从图1中可以看出，在绝大部分情况下，提出方法随不同β的值所取得的分类结果都要好于β等于0时的结果，进一步表明增加Laplacian正则化项能够改进分类结果。同时，绝大部分的曲线也是非常的平滑，表示Lap-lasso方法对参数β非常鲁棒。

[0047] 上面结合附图对本发明的实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下做出各种变化。以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，虽然本发明已以较佳实施例揭露如上，然而并非用以限定本发明，任何熟悉本专业的技术人员，在不脱离本发明技术方案范围内，当可利用上述揭示的技术内容做出些许更动或修饰为等同变化的等效实施例，但凡是未脱离本发明技术方案内容，依据本发明的技术实质，在本发明的精神和原则之内，对以上实施例所作的任何简单的修改、等同替换与改进等，均仍属于本发明技术方案的保护范围之内。

附图说明

[0036] 图1是本发明所述方法中，分类精度结果随不同正则化参数β值的变化曲线。

首页 > 专利 > 安徽师范大学 > 一种基于Laplacian算子的特征选择方法专利详情

一种基于Laplacian算子的特征选择方法 0 0

技术领域

背景技术

发明内容

实施方案

附图说明