首页 > 专利 > 湖南农业大学 > 基于窗口竞争性自适应重加权采样策略的近红外特征光谱变量选择方法专利详情

基于窗口竞争性自适应重加权采样策略的近红外特征光谱变量选择方法 0 0

有效专利查看PDF

申请进展

基本信息

申请人信息

代理人信息

摘要

法律状态

权利要求

说明书

专利申请流程有哪些步骤？

申请

申请号：指国家知识产权局受理一件专利申请时给予该专利申请的一个标示号码。唯一性原则。

申请日：提出专利申请之日。

2018-08-31

申请公布

申请公布指发明专利申请经初步审查合格后，自申请日（或优先权日）起18个月期满时的公布或根据申请人的请求提前进行的公布。

申请公布号：专利申请过程中，在尚未取得专利授权之前，国家专利局《专利公报》公开专利时的编号。

申请公布日：申请公开的日期，即在专利公报上予以公开的日期。

2019-01-15

授权

授权指对发明专利申请经实质审查没有发现驳回理由，授予发明专利权；或对实用新型或外观设计专利申请经初步审查没有发现驳回理由，授予实用新型专利权或外观设计专利权。

2021-03-02

预估到期

发明专利权的期限为二十年，实用新型专利权期限为十年，外观设计专利权期限为十五年，均自申请日起计算。专利届满后法律终止保护。

2038-08-31

基本信息

有效性	有效专利	专利类型	发明专利
申请号	CN201811009661.5	申请日	2018-08-31
公开/公告号	CN109060716B	公开/公告日	2021-03-02
授权日	2021-03-02	预估到期日	2038-08-31
申请年	2018年	公开/公告年	2021年
缴费截止日
分类号	G01N21/359 、G06F17/18	主分类号	G01N21/359
是否联合申请	独立申请	文献类型号	B
独权数量	1	从权数量	6
权利要求数量	7	非专利引证数量	1
引用专利数量	1	被引证专利数量	0
非专利引证	1、2017.07.27JP 2009151760 A,2009.07.09杨晓丽等.CARSiPLS用于烟煤中水分与挥发分的近红外光谱测定《.理化检验(化学分册)》.2017,第53卷(第06期),成飙等.基于移动窗口-迭代遗传算法的近红外光谱波长选择方法《.分析化学》.2006,第34卷;
引用专利	US2017213127A	被引证专利
专利权维持	4	专利申请国编码	CN
专利事件		事务标签	实质审查、授权

申请人信息

申请人	湖南农业大学	第一申请人	湖南农业大学
专利权人	湖南农业大学	当前专利权人	湖南农业大学
发明人	李跑、杜国荣、郑郁、李尚科、杨清华	第一发明人	李跑
地址	湖南省长沙市芙蓉区农大路1号	邮编	410128
申请人数量	1	发明人数量	5
申请人所在省	湖南省	申请人所在市	湖南省长沙市

代理人信息

代理机构

专利代理机构是经省专利管理局审核，国家知识产权局批准设立，可以接受委托人的委托，在委托权限范围内以委托人的名义办理专利申请或其他专利事务的服务机构。

长沙正奇专利事务所有限责任公司

代理人

专利代理师是代理他人进行专利申请和办理其他专利事务，取得一定资格的人。

何为、李宇

摘要

一种基于窗口竞争性自适应重加权采样策略的近红外特征光谱变量选择方法，其将m个样品在n个近红外波长下采集的近红外光谱数据X建立m×n的矩阵，矩阵的每一列代表了m个样品在一波长下的光谱变量；沿着波长方向将n个光谱变量均等分为N个窗口。随机选取m×80％样品的光谱变量和对应的样品目标组分数据y建立PLS模型，得到回归系数，统计每个窗口内的回归系数，使用其绝对值的均值作为是否保留该窗口的依据指标。依次删除回归系数绝对值均值最小窗口的光谱变量，直到保留窗口数为停止。使用剩余光谱变量和样品目标组分数据y建立PLS模型并计算交互验证均方根误差RMSECV。将RMSECV最小值对应的光谱变量作为近红外特征光谱变量建立最终模型和分析。

摘要附图
说明书附图：图1
说明书附图：图2
说明书附图：图3
说明书附图：图4

法律状态

序号	法律状态公告日	法律状态	法律状态信息
1	2021-03-02	授权
2	2019-01-15	实质审查的生效	IPC(主分类): G01N 21/359 专利申请号: 201811009661.5 申请日: 2018.08.31

权利要求

权利要求书是申请文件最核心的部分，是申请人向国家申请保护他的发明创造及划定保护范围的文件。

1.一种基于窗口竞争性自适应重加权采样策略的近红外特征光谱变量选择方法，其特征在于包括下列步骤：
步骤l：利用m个样品在n个近红外波长下采集的近红外光谱数据X建立m×n的矩阵，其中，矩阵的每一列代表了m个样品在一波长下的光谱变量，即近红外光谱数据X具有n个光谱变量，沿着波长方向将近红外光谱数据X的n个光谱变量均等分为N个窗口，样品目标组分数据用y表示，迭代次数设置为T，初始化i＝0，i≤T，T取100和N两者之间的最小值，计算剔除窗口速率r＝N/T，窗口宽度为n/N；
步骤2：i＝i+1；
步骤3：随机选取经步骤l划分窗口后的m×80％个样品的近红外光谱数据，使用选取样品的保留窗口中的光谱变量和对应的样品目标组分数据y建立PLS模型，得到多个回归系数，回归系数的个数和保留窗口中的光谱变量数目相同，按照保留窗口中光谱变量的窗口位置将多个回归系数也分成相同窗口；
步骤4：统计步骤3划分得到的窗口内回归系数绝对值的均值；
步骤5：依次剔除步骤3划分得到的窗口内回归系数绝对值均值最小的窗口，直到保留窗口数为停止，其中为向下取整数符号；
步骤6：基于m个样品，使用K折交叉验证，检验保留窗口内的光谱变量，计算使用保留窗口的光谱变量和对应的样品目标组分数据重新建立的PLS模型的RMSECVi；
步骤7：如果i步骤8：基于m个样品，使用RMSECVi最小值对应的光谱变量与对应的样品目标组分数据y建立PLS模型；
步骤9：使用步骤8建立好的PLS模型用于未知样品分析，即将未知样品的近红外光谱数据代入步骤8的PLS模型，得到其目标组分数据的预测值。

2.根据权利要求1所述的基于窗口竞争性自适应重加权采样策略的近红外特征光谱变量选择方法，其特征在于，所述窗口数N为100。

3.根据权利要求1所述的基于窗口竞争性自适应重加权采样策略的近红外特征光谱变量选择方法，其特征在于，所述步骤1的窗口划分方法为，用n表示m个样品的光谱变量数目，计算1至n+1之间的N+1个等分点，若出现小数，则向下取整，使用I1,I2,I3,…,IN+1表示取整后的等分点，则I1＝1，IN+1＝n+1，第i个窗口选取变量范围为Ii～Ii+1-1。

4.根据权利要求1所述的基于窗口竞争性自适应重加权采样策略的近红外特征光谱变量选择方法，其特征在于，所述K折交叉验证为10折交叉验证或5折交叉验证。

5.根据权利要求1所述的基于窗口竞争性自适应重加权采样策略的近红外特征光谱变量选择方法，其特征在于，所述窗口数N使用交叉验证优化，即设定窗口数N为10,20,30,…,
500，并计算每个窗口数N对应的最小RMSECVN，取RMSECVN最小对应的N为后续计算的窗口数。

6.根据权利要求1所述的基于窗口竞争性自适应重加权采样策略的近红外特征光谱变量选择方法，其特征在于，在计算之前使用蒙特卡洛交叉验证确定PLS模型因子数。

7.根据权利要求1所述的基于窗口竞争性自适应重加权采样策略的近红外特征光谱变量选择方法，其特征在于，PLS模型计算前，使用中心化处理样品光谱变量和建模目标组分数据，即使用建模光谱数据减去其平均值，建模目标组分数据减去其平均值。

说明书

技术领域

[0001] 本发明涉及分析化学领域的无损分析，特别涉及一种用于近红外特征光谱变量选择的窗口竞争性自适应重加权采样策略方法(window competitive adaptive reweighted sampling, WCARS)。

背景技术

[0002] 随着近红外仪器和化学计量学方法的飞速发展，近红外光谱技术得到了广泛应用。近红外光谱反映的是物质吸收的倍频与合频信息，包含了绝大多数类型有机物组成和分子结构的丰富信息。与传统方法相比，近红外光谱具有穿透力强，无需复杂前处理操作，不破坏样品，可通过光纤进行远距离在线检测等优点，因此被广泛用于食品、医药、烟草和环境等多个领域复杂样品的快速分析。由于近红外光谱谱峰较宽，实际样品中各种成分的吸收峰重叠严重，近红外光谱定性和定量分析必须通过建立多元校正模型来实现。

[0003] 样品光谱中通常包含具有大量冗余信息的冗余光谱变量，且光谱变量之间存在较为严重的共线性关系，如果直接采用全谱建立模型，不仅会增大计算量，且冗余光谱变量会降低模型的准确性。因此需要通过消除光谱中的冗余光谱变量，挑选出代表样品性质特征的光谱变量代替全谱去建立定量模型，以提高近红外光谱分析的准确性。基于进化论中适者生存原理的竞争性自适应重加权采样(competitive adaptive reweighted sampling，CARS)算法因具有计算速度快、筛选得到的特征光谱变量少等优点，在近红外特征光谱变量筛选领域得到了广泛的应用。然而该方法在计算过程中容易出现校正集和预测集结果不一致情况。这是因为CARS算法过于依赖校正集交叉验证结果，并未考虑相邻变量之间的协同作用。

发明内容

[0004] 本发明针对CARS算法难以实现相邻光谱变量的选择，提供一种基于窗口竞争性自适应重加权采样策略的近红外特征光谱变量选择方法(window competitive adaptive reweighted sampling,WCARS)，其考虑相邻光谱变量之间的协同作用，通过结合“窗口”以及CARS算法的优势，选择样品近红外光谱数据中的特征光谱变量，用于和目标组分数据建立PLS模型，然后使用该模型用于未知样品分析。

[0005] 为达上述目的，本发明基于窗口竞争性自适应重加权采样策略的近红外特征光谱变量选择方法(window competitive adaptive reweighted sampling,WCARS)包括以下步骤：

[0006] 步骤l：利用m个样品在n个近红外波长下采集的近红外光谱数据X建立m×n的矩阵，其中，矩阵的每一列代表了m个样品在一波长下的光谱变量，即近红外光谱数据X具有n个光谱变量，沿着波长方向将近红外光谱数据X的n个光谱变量均等分为N个窗口，样品目标组分数据用y表示，迭代次数设置为T，初始化i＝0，i≤T，T取100和N两者之间的最小值，计算剔除窗口速率r＝N/T，窗口宽度为n/N；

[0007] 步骤2：i＝i+1；

[0008] 步骤3：随机选取经步骤l划分窗口后的m×80％个样品的近红外光谱数据，使用选取样品的保留窗口中的光谱变量和对应的样品目标组分数据y建立PLS模型，得到多个回归系数，回归系数的个数和保留窗口中的光谱变量数目相同，按照保留窗口中光谱变量的窗口位置将多个回归系数也分成相同窗口；

[0009] 步骤4：统计步骤3划分得到的窗口内回归系数绝对值的均值；

[0010] 步骤5：依次删除步骤3划分得到的窗口内回归系数绝对值均值最小的窗口的光谱变量，直到保留窗口数为停止，其中为向下取整数符号；

[0011] 步骤6：检验保留窗口内的光谱变量，计算使用保留窗口的光谱变量和对应的样品目标组分数据重新建立的PLS模型的RMSECVi；

[0012] 步骤7：如果i

[0013] 步骤8：基于m个样品，使用RMSECVi最小值对应的光谱变量与对应的样品目标组分数据 y建立PLS模型。

[0014] 步骤9：使用步骤8建立好的PLS模型用于未知样品分析，即将未知样品的近红外光谱数据带入步骤8的PLS模型，得到其目标组分数据的预测值。

[0015] 上述方法中，所述窗口数N为100。

[0016] 上述方法中，所述步骤1的窗口划分方法为，用n表示m个样品的光谱变量数目，计算 1至n+1之间的N+1个等分点，若出现小数，则向下取整，使用I1,I2,I3,…,IN+1表示取整后的等分点，则I1＝1，IN+1＝n+1，第i个窗口选取变量范围为Ii～Ii+1-1。

[0017] 上述方法中，i是一个迭代记号，即第i次迭代，比如i＝0表示初始化，i＝1表示第1次迭代，i＝2表示第2次迭代，依此类推，且i≤T，即最多进行T次迭代。假设N个窗口的话，每次扣除个窗口，需要分别计算i＝1……T，分别扣除0，个窗口，剩余窗口变量的表现情况。假设第i次迭代，那么步骤3计算的是保留窗口数为时，光谱变量建模的效果。比如，100个窗口的话，每次扣除一个，需要分别计算i＝1……100，分别扣除0，1，2，……，99个窗口，剩余窗口变量的表现情况，每次扣除一个。假设第i次迭代，那么保留的窗口数就是100-i+1。

[0018] 上述方法中，所述K折交叉验证为10折交叉验证或5折交叉验证。

[0019] 上述方法中，所述窗口数N使用交叉验证优化，即设定窗口数N为10,20,30,…,500，并计算每个窗口数N对应的最小RMSECVN，取RMSECVN最小对应的N为后续计算的窗口数。

[0020] 上述方法中，在计算之前使用蒙特卡洛交叉验证确定PLS模型因子数。

[0021] 上述方法中，PLS模型计算前，使用中心化处理样品光谱变量和建模目标组分数据，也就是使用建模光谱数据减去其平均值，建模目标组分数据减去其平均值。

[0022] 符号和术语说明：本发明中样品目标组分数据可以是样品所含有的，具有近红外活性的物质的含量，比如玉米中蛋白质含量、玉米中水分含量、烟叶样品中总植物碱的含量。

[0023] 本发明使用X表示获取的近红外光谱数据，该数据包含了m个样品在n个近红外波长下采集的光谱，为m×n的矩阵，其中，矩阵的每一列代表了m个样品在一波长下的光谱变量，并将X沿着波长方向均等分为多个“窗口”，每个窗口内含有一定数目的光谱变量，将窗口内光谱变量作为一个整体进行选择或剔除。对m×80％样品的近红外光谱数据和样品目标组分数据y进行偏最小二乘(partial least squares,PLS)计算，统计每个“窗口”内的回归系数，使用其绝对值的均值作为是否保留该窗口光谱变量的依据指标。依次剔除绝对值均值最小窗口的光谱变量，直到保留窗口数为停止。使用剩余光谱变量和y建立PLS模型并计算交互验证均方根误差(root mean squared error of cross validation,RMSECV)，用于评价剩余变量所建立的模型。将最小RMSECV值对应的光谱变量作为近红外特征光谱变量用于建立最终模型和分析。

[0024] 本发明方法的交互验证均方根误差(root mean squared error of cross validation, RMSECV)和预测均方根误差(root mean squared error of prediction,RMSEP)都较原CARS 方法小，因而其预测效果好；且RMSECV和RMSEP更接近，因而其具有减少过拟合的优势。

实施方案

[0029] 以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

[0030] 实施例1：

[0031] 本实施例是应用近红外光谱定量分析，对玉米样本中的水分含量值进行建模分析。图1 显示了本发明方法的流程图。具体的步骤如下：

[0032] 本实施例中采用化学计量学算法验证公开的一组数据，具体为一组玉米样品的数据，其可下载自http://software.eigenvector.com/Data/Corn/index.html，该组数据包含了80 个玉米样品的近红外光谱和水分浓度。光谱测量仪器为M5，样本的近红外光谱波长范围为 1100-2498nm，采样间隔为2nm，包括700个波长点，样品光谱图见图2中的A。本实施例使用常用的数据分组方法Kennard-Stone算法将80个玉米样品分为建模集、预测集，其中 53个样本用作建模集，27个样本用作预测集。建模集用于建立模型，预测集用于测试模型优劣。计算之前使用蒙特卡洛交叉验证确定PLS建模因子数为10。

[0033] 步骤1：初始化，建模集样品光谱数据X为53×700的矩阵，含有53个样品，700个光谱变量。建模集样品目标组分为玉米水分含量，使用y表示，为53×1的向量，设定窗口数N为100，迭代次数T为N和100之间的最小值，所以T＝100，剔除窗口速率为r＝N/T ＝100/100＝
1，将建模集样品的光谱数据X的700个光谱变量分成100个窗口，每个窗口宽度为700/100＝
7。具体的窗口划分方法为，计算1至700+1的100+1个等分点(可使用matlab 命令linspace或者R语言的seq命令获取)，结果为1,8,15,…,701，第1个窗口为1～ 8-1，第二个窗口为8～15-1，……，第100个窗口为694～701-1，划分的窗口见图2中的A，从图看出，样品光谱变量被划分为连续等宽度的窗口；

[0034] 步骤2：升级i，i＝i+1；

[0035] 步骤3：随机选取建模集样品的80％用于计算，即53×80％≈42个样品。使用选取样品保留窗口中的光谱变量(i＝1时为所有光谱变量)和选取样品的玉米水分含量y建立PLS 模型，得到一组模型回归系数。具体的，PLS模型回归系数数目与保留窗口中的光谱变量数目相同，按照保留窗口中光谱变量划分窗口的位置将回归系数也分成相同窗口；样品光谱变量图和窗口划分位置见图2中A。图2中的B为i＝1时，根据全部光谱变量计算的回归系数，其窗口划分位置与图2中的A相同；

[0036] 步骤4：统计每个窗口内回归系数绝对值的均值，图2中的C显示了i＝1时，每个窗口内回归系数绝对值的均值的分布；

[0037] 步骤5：依次剔除回归系数绝对值均值最小对应窗口内的光谱变量，直到剩余的窗口数为停止。

[0038] 步骤6：基于建模集样品，使用10折交叉验证，检验剩余的光谱变量，计算模型的RMSECVi；

[0039] 步骤7：如果i小于T(T＝100)，返回步骤2，重复步骤2-7，否则执行下一步；

[0040] 步骤8：基于建模集样品，使用RMSECVi最小值对应的光谱变量建立PLS模型，具体的图 3显示了RMSECV随保留窗口数变化图，结果显示保留2个窗口RMSECV最小，模型最优；

[0041] 步骤9：使用步骤8建立好的PLS模型用于未知样品分析。具体地是将目标组分未知的样品的光谱数据带入PLS模型，计算得到其目标组分的预测值。

[0042] 本发明方法使用预测集样品光谱变量，代入模型，得到预测集样品的预测值，然后计算预测集的预测均方根误差(root mean squared error of prediction,RMSEP)，用于评价模型。RMSEP越小，表明样品的预测误差越小，模型的预测结果越好。表1列出了500次运算 CARS、WCARS，建模集的RMSECV、预测集的RMSEP及模型使用光谱变量数的平均值，括号中列出了标准偏差。从表中看出，WCARS方法的RMSECV和RMSEP都较原CARS方法小，说明其预测效果好；RMSECV和RMSEP更接近，说明其具有一定的减少过拟合的优势。WCARS保留光谱变量数为14，14/7＝2，说明该方法保留了2个窗口的光谱变量，CARS平均使用3个光谱变量用于建模。括号中标准偏差显示了500次计算WCARS选择的光谱变量是相同的，结果没有波动，所以为0，而CARS结果变动幅度比较大，也说明了WCARS的优势。

[0043] 本发明推荐使用窗口数100，也可以根据具体情况优化窗口数目，图4为RMSECV与窗口数的关系图，图中误差棒显示了不同窗口数下统计的500次运算结果的均值和标准偏差大小。图中可以看出，RMSECV先随着窗口数的增加而快速降低，窗口数约为90后保持缓慢波动，在150以后有缓慢上升趋势，窗口数为90时RMSECV最低，且500次运算变动最小。表1也列出了窗口数为90时的结果，对比可知该参数优于100。

[0044] 表1 500次运算CARS、WCARS结果统计表

[0045]

[0046] *括号中值为500次计算结果的标准偏差。

附图说明

[0025] 图1为本发明窗口竞争性自适应重加权采样策略流程图。

[0026] 图2为光谱变量和回归系数及窗口评价值分布图。

[0027] 图3为交叉验证均方根误差与保留窗口数的关系图。

[0028] 图4为交叉验证均方根误差与窗口数的关系图。

1基于窗口竞争性自适应重加权采样策略的近红外特征光谱变量选择方法