[0051] 以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
[0052] 本发明的目的是针对现有技术的缺陷,提供了一种用于IMDD短距离光通信系统改进的Lightgbm均衡系统及方法。
[0053] 基于特征工程,分别得到并预处理将训练序列和有效数据的特征向量。在特征空间中,采用了直方图(Histogram)算法,它的基本思想是先把连续的浮点特征值离散化成k个整数,同时构造一个宽度为k的直方图。遍历数据时,根据离散化后的值作为索引在直方图中累积统计量,当遍历一次数据后,直方图累积了需要的统计量,然后根据直方图的离散值,遍历寻找最优的分割点。通过分割点将数据分为左右子树,通过迭代不断地添加树,不断地进行特征分裂来生长一棵树,每次添加一个树,去拟合上次预测的残差。训练完成得到k 棵树,来预测一个样本的分数,样本的特征,在每棵树中落到对应的一个叶子节点,每个叶子节点对应一个分数。
[0054] 实施例一
[0055] 本实施例一提供一种用于IMDD短距离光通信系统改进的Lightgbm均衡系统,如图1‑3所示,包括:光发射模块11、光接收模块12、梯度下降树均衡模块13、数据输出模块14;
[0056] 光发射模块11通过光纤将包含数据集的高速光信号发送至光接收模块12;光接收模块12将接收到的光信号转换为与光信号相对应的电信号,光接收模块 12对所述电信号进行采样得到训练序列和有效数据的特征向量,并将所述得到的训练序列和有效数据的特征向量输入梯度下降树均衡模块13;梯度下降树均衡模块13将接收到的训练序列和有效数据的特征向量的数据样本通过学习器得到数据样本的预测值,得到均衡后的信息数据;将均衡后的信息数据通过数据输出模块14输出,实现用户数据的接收。
[0057] 在本实施例中,光发射模块11包括数字信号模块、训练序列插入模块、高速率调制模块、低带宽调制模块;
[0058] 数字信号模块,用于获取由训练序列发生器产生的训练序列;
[0059] 训练序列插入模块,与数字信号模块连接,用于插入所述产生的训练序列,并将所述训练序列输出到高速率调制模块中;
[0060] 高速率调制模块,与训练序列插入模块连接,用于根据所述训练序列产生需要传输的高速率电信号;
[0061] 低带宽调制模块,与高速率调制模块连接,用于将所述电信号转换为光信号。
[0062] 在本实施例中,训练序列插入模块包括:
[0063] 预处理模块,用于将包含训练序列的每个数据通过预处理,构建向量并进行特征处理,得到训练序列的特征向量;
[0064] 构建模块,用于将训练序列发生器重新产生的训练序列作为与所述训练序列特征向量相对应的标签,并将所述训练序列的特征向量及所述标签构成训练集。
[0065] 在本实施例中,光接收模块12包括低带宽光电探测模块、实时示波模块;
[0066] 低带宽光电探测模块,用于接收光信号,并将所述光信号传输至实时示波模块;
[0067] 实时示波模块,与低带宽光电探测模块连接,用于对接收到的光信号进行采样,并发送至实时示波模块的输出端,得到训练序列和有效数据的特征向量。
[0068] 在本实施例中,梯度下降树均衡模块13包括基于Lightgbm框架的GBDT 均衡模块、解调制模块;
[0069] 基于Lightgbm框架的GBDT均衡模块,用于接收训练序列和有效数据的特征向量,并将所述接收到的训练序列和有效数据的特征向量的数据样本通过学习器得到所述数据样本的预测值,得到均衡后的信息数据;
[0070] 解调制模块,与基于Lightgbm框架的GBDT均衡模块连接,用于将所述均衡后的信息数据进行调制和解调处理。
[0071] 在本实施例中,基于Lightgbm框架的GBDT均衡模块包括:
[0072] 选取模块,用于选取学习器的框架;
[0073] 调整模块,用于根据所述选取的框架调整训练集的参数,得到有效数据;
[0074] 输入模块,用于将所述有效数据进行构建向量并进行特征处理,得到有效数据的特征向量;将所述训练集和有效数据的特征向量作为GBDT分类器的输入;
[0075] 输出模块,用于在特征空间中,每个有效数据输入所得的最终学习器,得到相应的分数,将所述GBDT分类的结果作为均衡输出。
[0076] 本实施例具体为:
[0077] 1、光接收模块的数据经过实时示波模块(在本实施例中实时示波模块为示波器)采样后进入相应的同步模块后,进入梯度下降树均衡模块。其中,在梯度下降树均衡模块中,先将训练序列中每组数据进行数据预处理,构建向量以及特征组合;同时,训练序列发生器产生训练序列,作为对应的每组数据的标签,构成训练集;训练集的数据进入梯度下降树梯度下降树均衡模块;
[0078] 具体为,特征构建包括:
[0079] 1)构建方法为:抽头延时器得到的当前数据、若干个前后数据进行采样所得的值作为每组数据的特征值,以此构建特征,其长度取决于信道码间串扰的长度;
[0080] 构建的向量Xn可以描述为:
[0081] Xn=[xn‑(L‑1)/2,…,xn‑1,c×xn,xn+1,…,xn+(L‑1)/2]
[0082] 其中,Xn表示当前码元,xn‑(L‑1)/2,…,xn‑1表示先前码元,xn+1,…,xn+(L‑1)/2表示后续码元,c当前码元的权重,可以取1~1.5之间的固定值。
[0083] 2)处理方法为:赋予中心抽头特征值权重,增加其影响度。权重在1~1.5之间均有效果。
[0084] 2、垂直划分训练集数据,即不同的学习器拥有不同的特征集;
[0085] 具体为,训练序列中每组数据标签,由光接收模块的训练序列发生器得到,且是伪随机序列,可重复生成。组合1中构建的数据及其对应的标签,构成测试数据集。
[0086] 在本实施例中,训练集由特征向量和标签组成,可以描述为:
[0087] {(X1,l1),(X2,l2),…,(XN,lN)}
[0088] 3、估计使损失函数最小的常数值来构建一个只有单根结点的树;其中,单根节点的树为一棵CART树桩;
[0089] 4、在本地,将生成的数据集输入到树中,从当前所有特征的各个分割点中,找到使数据分裂增益最大的一个点作为最佳划分点,然后根据这个最佳特征及其阈值划分数据集,计算损失函数的负梯度在当前模型的值,将它视为残差的估计;其中,损失函数为多类别交叉熵损失函数;
[0090] 在本实施例中,所计算的残差指对每个样本i=1,2,……t,计算负梯度;
[0091]
[0092] 其中L(yi,f(xi)为损失函数,参数为当前样本的标签yi和回归树得到的预测值f(xi),并且当前函数f(x)为迭代至t‑1个样本时所得到的回归树。
[0093] 5、根据线性搜索估计叶节点区域的值,将数据输入到学习器中,得到相应的损失函数,且使得损失函数最小化。得到相应的数据划分结果。其他线程对接收到的数据进行进一步划分。当所有数据划分完毕且树不再分类,得到当前迭代轮数的基学习器;
[0094] 具体为,采用直方图(Histogram)算法,把连续的浮点特征值离散化成k 个整数,同时构造一个宽度为k的直方图。遍历数据时,根据离散化后的值作为索引在直方图中累积统计量,遍历一次数据后,直方图累积了需要的统计量,然后根据直方图的离散值,遍历寻找最优的分割点。通过分割点将数据分为左右子树,通过递归不断地进行特征分裂来生长一棵树,每次添加一个树,去拟合上次预测的残差。迭代生成若干树后得到k棵树,来预测一个样本的分数,样本的特征,在每棵树中落到对应的一个叶子节点,每个叶子节点对应一个分数,将每棵树对应的分数加起来得到该样本的预测值。
[0095] 针对每一个叶子节点里的样本,求出使损失函数最小,也就是拟合叶子节点最好的输出值ctj如下:
[0096]
[0097] 其中c为叶子节点的输出值。
[0098] 得到了本轮的决策树拟合函数如下:
[0099]
[0100] 其中I(x)表示指示函数,Rtj为对应的叶节点区域,x∈Rtj表示输入的实例为 Rtj。
[0101] 6、重复4、5的方案迭代生成新的基学习器来学习上一轮迭代学习器产生的残差从而更新学习器。
[0102] 迭代学习器更新算法如下:
[0103]
[0104] 7、完成基学习器的生成迭代,得到终学习器模型即拟合的回归树。
[0105] 更新完成后,得到最终学习器,用于后续有效数据的均衡,其分类函数可以描述为:
[0106]
[0107] 上式j为叶子节点的个数。ft‑1(xi)为迭代至t‑1个样本得到的回归树,T为迭代次数。f0(x)为初始化弱学习器,其可以描述为:
[0108]
[0109] 8、将训练数据输入到学习器中,得到各个样本的预测值。
[0110] 本实施例验证GBDT算法参数为:训练序列长度为8000,滤波器抽头数为 7。采用NRZ‑OOK调制信号,有效数据以及训练序列总长为250000。DFE和 FFE所采用的自适应算法为梯度最小二乘(RLS),训练长度为3000,滤波器抽头数为11。DNN采用的训练长度是8000,训练参数是输入层7个神经元,第一层设有64个神经元,第二层设有32个神经元,输出层4个神经元,隐层的传播函数为rulu,输出层且激活函数为softmax。
[0111] 图3为高速光传输系统分别在背对背和经过20km光纤传输后,基于不同均衡器下的BER性能对比图,图中:横轴为接收端的光功率,单位是dBm,纵轴是BER表示误码率大小,取1×10^‑3下的BER作为接收机灵敏度,GBDT为本发明算法的一个实例,DFE和FFE是两种经典的基于数字信号处理的均衡算法。可以看到本发明的算法在更少抽头数的条件下取得了比传统DFE和FFE更优的性能。
[0112] 本实施例的均衡算法,充分考虑了GBDT分类器模型、滤波器模型以及ISI 信道模型的特点,结合GBDT与滤波器,基于GBDT算法实现了高阶PAM调制的均衡任务,在避免过大的计算开销时,大大提高性能。
[0113] 采用本实施例改进的Lightgbm均衡算法,可以更有效得补偿器件带宽限制以及光纤累计所造成的信号失真。相比于DFE和FFE算法所需要的滤波器抽头数更少,且均衡效果更优。同时GBDT的原理简单,容易实现。因此,本发明的算法,能比较好的应用于高速短距离光系统的需求。
[0114] 本实施例用于IMDD短距离光通信系统的改进的Lightgbm均衡系统,包括:基于特征构建,分别得到并预处理训练序列和有效数据的特征向量。在样本空间中,通过递归生成CART树,迭代生成用于学习上一CART树相对于目标函数残差的新CART树,构建GBDT分类器,GBDT分类的结果即为均衡器的输出。本发明解决了用低成本带宽器件传输高速率信号时由于带宽限制以及光纤累计色散,所引入的信号失真、码间串扰等造成系统传输性能下降的问题。同时,相比于传统DFE、FFE均衡器以及最近的DNN算法可以得到更好均衡效果,在避免过大的计算开销时,大大提高性能,因而适用于下一代高速短距离光系统。
[0115] 在本实施例中,GBDT模型是一个集成模型,基分类器采用CART回归树,集成方式为Gradient Boosting。GBDT算法最大的优点是其原理十分直观,易理解,并且可获得强大的分类性能。同时,它的非线性变换比较多,表达能力强,在完成对多类别信号如PAM‑4/PAM‑8的均衡时,不需要像支持向量机等二分类器构建多个二分类器来完成任务。同时,在对比其他机器学习算法,如DNN算法,GBDT可以在相同训练长度得到远高于DNN的分类性能。另外,利用特征工程可以帮助分类器达到其性能上限。因此,本实施例考虑采用用于IMDD短距离光通信系统的改进的Lightgbm梯度下降树均衡算法。
[0116] LightGBM是一个梯度Boosting框架,使用基于决策树的学习算法。
[0117] GBDT(Gradient Boosting Decision Tree)梯度提升决策树。GBDT是 Boosting算法的一种。
[0118] 与现有技术相比,本实施例具有如下的有益效果:
[0119] 1.训练参数较少:DNN包含多个激活函数,需要预先构建模型结构。此外,它只使用最后一层的监督信息,并通过BP算法返回损失梯度来训练前面的所有层。因此涉及的参数较多,参数调整工作量较大。本实施例的算法模型利用各层的监督信息,逐步生成新层,同时固定旧层。用较少的参数更容易训练,模型更容易收敛。
[0120] 2.良好的可扩展性:DNN算法需要对学习模型进行再训练,以便在不同的基于dc的通信场景中准确地均衡受损信号。相反,本实施例的算法由于具有良好的可伸缩性,因此不需要在各种场景中对模型进行再训练。
[0121] 3.复杂度不会随着特征数量的增加而增加,对于DNN来说,特征的数量越大,复杂度越高。然而,本实施例采用的算法在特征粒度上是一种并行学习算法。当分割节点时,并行计算每个特征下的最大增益,最后选择增益最大的特征进行分割。
[0122] 4.本实施例的算法通过提取使分类性能最佳的参数当作滤波器的抽头系数,进一步降低了计算复杂度提升了分类的性能。
[0123] 实施例二
[0124] 一种用于IMDD短距离光通信系统改进的Lightgbm均衡方法,包括步骤:
[0125] S1.光发射模块将包含数据集的高速光信号发送至光接收模块;
[0126] S2.所述光接收模块将接收到的光信号转换为与所述光信号相对应的电信号,所述光接收模块对所述电信号进行采样得到训练序列和有效数据的特征向量,并将所述得到的训练序列和有效数据的特征向量输入梯度下降树均衡模块;
[0127] S3.所述梯度下降树均衡模块将接收到的训练序列和有效数据的特征向量的数据样本通过学习器得到所述数据样本的预测值,得到均衡后的信息数据;将所述均衡后的信息数据发送至数据输出模块;
[0128] S4.所述均衡后的信息数据通过数据输出模块输出,实现用户数据的接收。
[0129] 进一步的,所述步骤S1包括:
[0130] S11.获取由训练序列发生器产生的训练序列;
[0131] S12.插入所述产生的训练序列,并将所述训练序列输出到高速率调制模块中;
[0132] S13.根据所述训练序列产生需要传输的高速率电信号;
[0133] S14.将所述电信号转换为光信号。
[0134] 进一步的,所述步骤S2包括:
[0135] S21.接收光信号,并将所述光信号传输至实时示波模块;
[0136] S22.对接收到的光信号进行采样,并发送至实时示波模块的输出端,得到训练序列和有效数据的特征向量。
[0137] 进一步的,所述步骤S3包括:
[0138] S31.接收训练序列和有效数据的特征向量,并将所述接收到的训练序列和有效数据的特征向量的数据样本通过学习器得到所述数据样本的预测值,得到均衡后的信息数据;
[0139] S32.将所述均衡后的信息数据进行调制和解调处理。
[0140] 需要说明的是,本实施例提供的一种用于IMDD短距离光通信系统改进的 Lightgbm均衡方法与实施例一类似,在此不所做赘述。
[0141] 与现有技术相比,本发明具有如下的有益效果:
[0142] 1.训练参数较少:DNN包含多个激活函数,需要预先构建模型结构。此外,它只使用最后一层的监督信息,并通过BP算法返回损失梯度来训练前面的所有层。因此涉及的参数较多,参数调整工作量较大。本实施例的算法模型利用各层的监督信息,逐步生成新层,同时固定旧层。用较少的参数更容易训练,模型更容易收敛。
[0143] 2.良好的可扩展性:DNN算法需要对学习模型进行再训练,以便在不同的基于dc的通信场景中准确地均衡受损信号。相反,本实施例的算法由于具有良好的可伸缩性,因此不需要在各种场景中对模型进行再训练。
[0144] 3.复杂度不会随着特征数量的增加而增加,对于DNN来说,特征的数量越大,复杂度越高。然而,本实施例采用的算法在特征粒度上是一种并行学习算法。当分割节点时,并行计算每个特征下的最大增益,最后选择增益最大的特征进行分割。
[0145] 4.本实施例的算法通过提取使分类性能最佳的参数当作滤波器的抽头系数,进一步降低了计算复杂度提升了分类的性能。
[0146] 本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。