首页 > 专利 > 柳州市雄邦电脑网络有限公司 > 用于大数据清洗的人工智能处理方法及大数据清洗系统专利详情

用于大数据清洗的人工智能处理方法及大数据清洗系统 0 0

实质审查查看PDF

申请进展

基本信息

申请人信息

代理人信息

摘要

法律状态

权利要求

说明书

专利申请流程有哪些步骤？

申请

申请号：指国家知识产权局受理一件专利申请时给予该专利申请的一个标示号码。唯一性原则。

申请日：提出专利申请之日。

2022-07-06

申请公布

申请公布指发明专利申请经初步审查合格后，自申请日（或优先权日）起18个月期满时的公布或根据申请人的请求提前进行的公布。

申请公布号：专利申请过程中，在尚未取得专利授权之前，国家专利局《专利公报》公开专利时的编号。

申请公布日：申请公开的日期，即在专利公报上予以公开的日期。

2022-09-30

授权

授权指对发明专利申请经实质审查没有发现驳回理由，授予发明专利权；或对实用新型或外观设计专利申请经初步审查没有发现驳回理由，授予实用新型专利权或外观设计专利权。

预估到期

发明专利权的期限为二十年，实用新型专利权期限为十年，外观设计专利权期限为十五年，均自申请日起计算。专利届满后法律终止保护。

2042-07-06

基本信息

有效性	实质审查	专利类型	发明专利
申请号	CN202210786166.5	申请日	2022-07-06
公开/公告号	CN115048370A	公开/公告日	2022-09-13
授权日		预估到期日	2042-07-06
申请年	2022年	公开/公告年	2022年
缴费截止日
分类号	G06F16/215 、G06K9/62 、G06N3/04 、G06N3/08	主分类号	G06F16/215
是否联合申请	独立申请	文献类型号	A
独权数量	1	从权数量	9
权利要求数量	10	非专利引证数量	0
引用专利数量	0	被引证专利数量	0
非专利引证
引用专利		被引证专利
专利权维持	99	专利申请国编码	CN
专利事件		事务标签	公开、实质审查

申请人信息

申请人	柳州市雄邦电脑网络有限公司	第一申请人	柳州市雄邦电脑网络有限公司
专利权人	柳州市雄邦电脑网络有限公司	当前专利权人	柳州市雄邦电脑网络有限公司
发明人	宋刚	第一发明人	宋刚
地址	广西壮族自治区柳州市三中路大东数码国际广场1栋7层9号	邮编	545000
申请人数量	1	发明人数量	1
申请人所在省	广西壮族自治区	申请人所在市	广西壮族自治区柳州市

代理人信息

代理机构

专利代理机构是经省专利管理局审核，国家知识产权局批准设立，可以接受委托人的委托，在委托权限范围内以委托人的名义办理专利申请或其他专利事务的服务机构。

代理人

专利代理师是代理他人进行专利申请和办理其他专利事务，取得一定资格的人。

摘要

本申请实施例提供一种用于大数据清洗的人工智能处理方法及大数据清洗系统，通过对大数据清洗任务所关联的业务指标预测训练事件进行干扰特征数据挖掘获得的当前干扰特征数据进行干扰采集关系网络分析，输出多个干扰采集关系网络，结合多个所述干扰采集关系网络进行噪声特征分析所述大数据清洗任务当前所关联的业务指标预测训练事件的噪声特征路径，并结合所述噪声特征路径对所述大数据清洗任务进行任务路径优化，这样基于干扰采集关系网络可以反映干扰采集元素关系的特性进行噪声特征分析，由此提高噪声特征分析的全面性，进而提高大数据清洗的精准度。

摘要附图
说明书附图：图1

法律状态

序号	法律状态公告日	法律状态	法律状态信息
1	2022-09-30	实质审查的生效	IPC(主分类): G06F 16/215 专利申请号: 202210786166.5 申请日: 2022.07.06
2	2022-09-13	公开

权利要求

权利要求书是申请文件最核心的部分，是申请人向国家申请保护他的发明创造及划定保护范围的文件。

1.一种用于大数据清洗的人工智能处理方法，其特征在于，应用于大数据清洗系统，所述方法包括：
获取针对大数据清洗任务所关联的业务指标预测训练事件的可信预测误差跟踪数据进行干扰特征数据挖掘获得的当前干扰特征数据，其中，所述干扰特征数据包括类别干扰特征变量、属性值干扰特征变量、数据关系干扰特征变量中的至少一种；
对所述当前干扰特征数据进行干扰采集关系网络分析，输出多个干扰采集关系网络，所述干扰采集关系网络被配置于反映多个干扰采集元素之间的干扰采集关系；
结合多个所述干扰采集关系网络进行噪声特征分析所述大数据清洗任务当前所关联的业务指标预测训练事件的噪声特征路径，并结合所述噪声特征路径对所述大数据清洗任务进行任务路径优化；
所述结合多个所述干扰采集关系网络进行噪声特征分析所述大数据清洗任务当前所关联的业务指标预测训练事件的噪声特征路径，通过以下步骤实现：
结合符合模型上线要求的噪声路径分析模型对多个所述干扰采集关系网络进行噪声特征路径提取，输出所述大数据清洗任务当前所关联的业务指标预测训练事件的噪声特征路径；
其中，所述噪声路径分析模型的具体模型开发步骤包括：
将响应噪声学习指示进行噪声学习数据提取的多个干扰采集关系模板数据拆分成至少两个干扰采集关系模板数据集，将其中至少一个干扰采集关系模板数据集作为参考干扰采集关系模板数据集，各所述干扰采集关系模板数据包括至少两种干扰采集字段描述，所述干扰采集关系模板数据包括表征该干扰采集关系模板数据对应的目标噪声特征路径的可信噪声特征路径信息；
对于所述参考干扰采集关系模板数据集中的各干扰采集关系模板数据，获取该干扰采集关系模板数据的可信噪声特征路径信息，并获得该可信噪声特征路径信息与多个预设可信噪声特征路径信息中的各预设可信噪声特征路径信息的重合率，输出重合率低于指定重合率的至少一个目标可信噪声特征路径信息；
将所述干扰采集关系模板数据的可信噪声特征路径信息变更为任意一个所述目标可信噪声特征路径信息，当所述参考干扰采集关系模板数据集中的各干扰采集关系模板数据的可信噪声特征路径信息变更完成后，将该参考干扰采集关系模板数据集作为负干扰采集关系模板数据集，将其它干扰采集关系模板数据集作为正干扰采集关系模板数据集，输出目标噪声训练数据集；
结合所述目标噪声训练数据集对预设的第一噪声训练神经网络进行模型配置权重开发，输出所述噪声路径分析模型。

2.根据权利要求1所述的用于大数据清洗的人工智能处理方法，其特征在于，结合所述目标噪声训练数据集对预设的第一噪声训练神经网络进行模型配置权重开发的每次模型配置权重开发阶段，通过以下步骤实现：
逐个调取正干扰采集关系模板数据集，将所述正干扰采集关系模板数据集中的各干扰采集关系模板数据传递到所述第一噪声训练神经网络进行噪声特征路径分析；
结合对于所述正干扰采集关系模板数据集中的各干扰采集关系模板数据的噪声特征路径分析数据与该干扰采集关系模板数据对应的可信噪声特征路径信息的第一特征区别信息，输出针对该正干扰采集关系模板数据集的第一训练评价系数；
逐个调取负干扰采集关系模板数据集，将所述负干扰采集关系模板数据集中的各干扰采集关系模板数据传递到所述第一噪声训练神经网络进行噪声特征路径分析；
结合对于所述负干扰采集关系模板数据集中的各干扰采集关系模板数据的噪声特征路径分析数据与该干扰采集关系模板数据对应的可信噪声特征路径信息的第二特征区别信息，输出针对该负干扰采集关系模板数据集的第二训练评价系数；
结合所述第一训练评价系数以及所述第二训练评价系数对所述第一噪声训练神经网络进行模型配置权重开发；
分析当前模型配置权重开发阶段是否符合模型上线部署规则，当符合模型上线部署规则时，将当前模型配置权重开发后的所述第一噪声训练神经网络作为所述噪声路径分析模型；
若不符合模型上线部署规则，则跳转至下一模型配置权重开发阶段。

3.根据权利要求1所述的用于大数据清洗的人工智能处理方法，其特征在于，所述对所述当前干扰特征数据进行干扰采集关系网络分析，输出多个干扰采集关系网络，通过以下步骤实现：
结合干扰采集关系决策模型对所述当前干扰特征数据进行干扰采集关系网络分析，输出多个所述干扰采集关系网络；
所述方法还包括对预设的第二噪声训练神经网络进行模型配置权重开发而获得所述干扰采集关系决策模型的步骤，所述步骤包括：
获取多个模板干扰特征数据集，结合多个所述模板干扰特征数据集，输出多个待调度干扰特征库；
多个所述待调度干扰特征库中的每种待调度干扰特征库包括一种相关的干扰采集关系网络对应的第一模板干扰特征数据、第二模板干扰特征数据和第三模板干扰特征数据；
各种所述待调度干扰特征库中的第一模板干扰特征数据、第二模板干扰特征数据和第三模板干扰特征数据形成的待调度干扰特征库是结合多个所述模板干扰特征数据集确定的；多个所述模板干扰特征数据集中的每种模板干扰特征数据集包括一种干扰采集关系网络对应的第一成员干扰特征数据和第二成员干扰特征数据，所述第一模板干扰特征数据和所述第二模板干扰特征数据分别携带不同的可信干扰采集关系网络，所述第三模板干扰特征数据为未携带可信干扰采集关系网络的模板干扰特征数据；
结合多个所述待调度干扰特征库，对所述预设的第二噪声训练神经网络进行模型配置权重开发，以实现初始干扰采集关系决策模型的模型配置权重开发，输出所述干扰采集关系决策模型。

4.根据权利要求3所述的用于大数据清洗的人工智能处理方法，其特征在于，所述结合多个所述模板干扰特征数据集，输出多个所述待调度干扰特征库，通过以下步骤实现：
将多个所述模板干扰特征数据集中的目标干扰识别标签的第一成员干扰特征数据，确定为目标干扰识别标签的第一模板干扰特征数据；
从多个所述模板干扰特征数据集的第二成员干扰特征数据中，输出目标干扰识别标签的第三模板干扰特征数据；
从多个所述模板干扰特征数据集中，将所述目标干扰识别标签的第一模板干扰特征数据和所述目标干扰识别标签的第三模板干扰特征数据之外的其它干扰特征数据，确定为目标干扰识别标签的第二模板干扰特征数据；
将所述目标干扰识别标签的第一模板干扰特征数据、所述目标干扰识别标签的第二模板干扰特征数据和所述目标干扰识别标签的第三模板干扰特征数据汇聚确定为所述目标干扰识别标签的待调度干扰特征库，从而确定多个所述待调度干扰特征库。

5.根据权利要求4所述的用于大数据清洗的人工智能处理方法，其特征在于，所述从多个所述模板干扰特征数据集的第二成员干扰特征数据中，输出目标干扰识别标签的第三模板干扰特征数据，通过以下步骤实现：
从多个所述第二成员干扰特征数据中，将目标干扰识别标签的第二成员干扰特征数据以外的其它第二成员干扰特征数据确定为所述目标干扰识别标签的第三模板干扰特征数据；或者
结合目标干扰识别标签的干扰采集关系网络在多个所述模板干扰特征数据集中的影响权重系数，从多个所述第二成员干扰特征数据中，输出所述目标干扰识别标签的第三模板干扰特征数据，具体包括：
响应于多个所述干扰采集关系网络中的目标干扰识别标签的干扰采集关系网络在多个所述模板干扰特征数据集中的影响权重系数超过预设影响权重系数，则将所述第二成员干扰特征数据中所述目标干扰识别标签的第二成员干扰特征数据以外的其它第二成员干扰特征数据，确定为所述目标干扰识别标签的第三模板干扰特征数据；
响应于所述目标干扰识别标签的干扰采集关系网络在多个所述模板干扰特征数据集中的影响权重系数不超过所述预设影响权重系数，则将所述目标干扰识别标签的干扰采集关系网络对应的第二成员干扰特征数据确定为所述目标干扰识别标签的第三模板干扰特征数据，其它的第二成员干扰特征数据确定为所述第二模板干扰特征数据。

6.根据权利要求5所述的用于大数据清洗的人工智能处理方法，其特征在于，所述干扰采集关系决策模型包括字段描述层和多个干扰采集关系网络分析层，所述字段描述层用于对所述当前干扰特征数据进行字段描述，输出所述当前干扰特征数据中包括的至少两种干扰采集字段描述；多个所述干扰采集关系网络分析层中的各种干扰采集关系网络分析层用于结合所述字段描述层得到的至少两种干扰采集字段描述进行干扰采集关系网络分析，从而确定多个干扰采集关系网络；
所述结合多个所述待调度干扰特征库，对所述预设的第二噪声训练神经网络进行模型配置权重开发，以实现所述初始干扰采集关系决策模型的模型配置权重开发，输出所述干扰采集关系决策模型，通过以下步骤实现：
将多个所述待调度干扰特征库中的模板干扰特征数据拆分成多组模板干扰特征数据；
结合多个所述待调度干扰特征库中的s组模板干扰特征数据，在当前模型配置进程中，对所述第二噪声训练神经网络执行s次模型配置权重开发，输出s次模型配置权重开发确定的多个Loss值中的各种Loss值和当前模型配置进程中模型配置权重开发后的第二噪声训练神经网络；多个所述Loss值分别与多个所述干扰采集关系网络分析层一一对应；
结合所述s次模型配置权重开发确定的多个Loss值中的各种Loss值，输出当前模型配置进程中的目标Loss值；
结合所述当前模型配置进程中的目标Loss值以及模型配置权重开发的次数分析是否符合模型部署规则；
当符合模型部署规则时，将所述当前模型配置进程中模型配置权重开发后的第二噪声训练神经网络作为所述干扰采集关系决策模型；
当不符合模型部署规则时，执行下一次模型配置权重开发阶段，输出下一次模型配置权重开发阶段中的目标Loss值和下一次模型配置权重开发阶段中模型配置权重开发后的第二噪声训练神经网络。

7.根据权利要求6所述的用于大数据清洗的人工智能处理方法，其特征在于，所述结合多个所述待调度干扰特征库中的s组模板干扰特征数据，在当前模型配置进程中，对所述第二噪声训练神经网络执行s次模型配置权重开发，输出s次模型配置权重开发确定的多个Loss值中的各种Loss值和当前模型配置进程中模型配置权重开发后的第二噪声训练神经网络，通过以下步骤实现：
在当前模型配置进程中，结合所述s次模型配置权重开发中而获得第d‑1次模型配置权重开发阶段确定的第二噪声训练神经网络中的字段描述层，获取多个所述模板干扰特征数据集中s组模板干扰特征数据中的第d组模板干扰特征数据的干扰采集关系网络，输出第d干扰采集关系网络，d不超过s；
结合所述第d‑1次模型配置权重开发阶段确定的第二噪声训练神经网络中的各种干扰采集关系网络分析层，并结合所述s组模板干扰特征数据中与所述第d组模板干扰特征数据对应的第d组模板干扰特征数据，输出所述第d干扰采集关系网络的各种Loss值，输出第d次模型配置权重开发对应的Loss值；
结合所述第d次模型配置权重开发对应的Loss值，对所述第d‑1次模型配置权重开发阶段确定的第二噪声训练神经网络进行网络配置开发，输出第d次网络配置开发后的第二噪声训练神经网络；
迭代遍历以上阶段，输出s次模型配置权重开发确定的多个Loss值中的各种Loss值和当前模型配置进程中模型配置权重开发后的第二噪声训练神经网络，确定为所述干扰采集关系决策模型；
其中，所述模型部署规则包括：所述当前模型配置进程中的目标Loss值低于设定Loss值；或者所述模型配置权重开发的迭代次数超过指定阈值。

8.根据权利要求1‑7中任意一项所述的用于大数据清洗的人工智能处理方法，其特征在于，所述方法还包括：
基于任务路径优化后的所述大数据清洗任务对所述业务指标预测训练事件所对应的第一大数据采集数据实时进行大数据清洗操作，获得对应的第二大数据采集数据；
基于所述业务指标预测训练事件所指示的训练数据规则从所述第二大数据采集数据中提取对应的业务指标预测训练数据。

9.一种大数据清洗系统，其特征在于，所述大数据清洗系统包括至少一个存储介质和至少一个处理器，所述至少一个存储介质用于存储计算机指令；所述至少一个处理器用于执行所述计算机指令以执行权利要求1‑8中任意一项的用于大数据清洗的人工智能处理方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储计算机指令，所述计算机指令被计算机执行时以实现权利要求1‑8中任意一项的用于大数据清洗的人工智能处理方法。

说明书

技术领域

[0001] 本申请涉及大数据技术领域，具体而言，涉及一种用于大数据清洗的人工智能处理方法及大数据清洗系统。

背景技术

[0002] 人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。例如，大量的互联网在线服务商通过部署人工智能到业务指标预测训练事件中，需要搜集大量的业务指标预测训练数据作为业务指标预测学习的依据，例如以业务指标预测为用户兴趣点预测为例，需要搜集大量的用户浏览和操作行为数据作为训练数据，并标注对应的用户兴趣点作为训练标签进行用户兴趣点预测训练。

[0003] 由此，在业务指标预测训练事件中，业务指标预测训练数据的可靠性关系到后续业务指标预测训练效果，因此需要在大数据采集阶段进行噪声特征分析从而进行大数据清洗，然而相关技术中噪声特征分析的全面性不足，影响大数据清洗的精准度。

发明内容

[0004] 第一方面，本申请提供一种用于大数据清洗的人工智能处理方法，应用于大数据清洗系统，所述大数据清洗系统与多个AI云计算训练节点通信连接，所述方法包括：获取针对大数据清洗任务所关联的业务指标预测训练事件的可信预测误差跟踪数据进行干扰特征数据挖掘获得的当前干扰特征数据，其中，所述干扰特征数据包括类别干扰特征变量、属性值干扰特征变量、数据关系干扰特征变量中的至少一种；
对所述当前干扰特征数据进行干扰采集关系网络分析，输出多个干扰采集关系网络，所述干扰采集关系网络被配置于反映多个干扰采集元素之间的干扰采集关系；
结合多个所述干扰采集关系网络进行噪声特征分析所述大数据清洗任务当前所关联的业务指标预测训练事件的噪声特征路径，并结合所述噪声特征路径对所述大数据清洗任务进行任务路径优化；
所述结合多个所述干扰采集关系网络进行噪声特征分析所述大数据清洗任务当前所关联的业务指标预测训练事件的噪声特征路径，通过以下步骤实现：
结合符合模型上线要求的噪声路径分析模型对多个所述干扰采集关系网络进行噪声特征路径提取，输出所述大数据清洗任务当前所关联的业务指标预测训练事件的噪声特征路径；
其中，所述噪声路径分析模型的具体模型开发步骤包括：
将响应噪声学习指示进行噪声学习数据提取的多个干扰采集关系模板数据拆分成至少两个干扰采集关系模板数据集，将其中至少一个干扰采集关系模板数据集作为参考干扰采集关系模板数据集，各所述干扰采集关系模板数据包括至少两种干扰采集字段描述，所述干扰采集关系模板数据包括表征该干扰采集关系模板数据对应的目标噪声特征路径的可信噪声特征路径信息；
对于所述参考干扰采集关系模板数据集中的各干扰采集关系模板数据，获取该干扰采集关系模板数据的可信噪声特征路径信息，并获得该可信噪声特征路径信息与多个预设可信噪声特征路径信息中的各预设可信噪声特征路径信息的重合率，输出重合率低于指定重合率的至少一个目标可信噪声特征路径信息；
将所述干扰采集关系模板数据的可信噪声特征路径信息变更为任意一个所述目标可信噪声特征路径信息，当所述参考干扰采集关系模板数据集中的各干扰采集关系模板数据的可信噪声特征路径信息变更完成后，将该参考干扰采集关系模板数据集作为负干扰采集关系模板数据集，将其它干扰采集关系模板数据集作为正干扰采集关系模板数据集，输出目标噪声训练数据集；
结合所述目标噪声训练数据集对预设的第一噪声训练神经网络进行模型配置权重开发，输出所述噪声路径分析模型。

[0005] 第二方面，本申请实施例还提供一种用于大数据清洗的人工智能处理系统，所述用于大数据清洗的人工智能处理系统包括大数据清洗系统以及与所述大数据清洗系统通信连接的多个AI云计算训练节点；所述大数据清洗系统，用于：
获取针对大数据清洗任务所关联的业务指标预测训练事件的可信预测误差跟踪数据进行干扰特征数据挖掘获得的当前干扰特征数据，其中，所述干扰特征数据包括类别干扰特征变量、属性值干扰特征变量、数据关系干扰特征变量中的至少一种；
对所述当前干扰特征数据进行干扰采集关系网络分析，输出多个干扰采集关系网络，所述干扰采集关系网络被配置于反映多个干扰采集元素之间的干扰采集关系；
结合多个所述干扰采集关系网络进行噪声特征分析所述大数据清洗任务当前所关联的业务指标预测训练事件的噪声特征路径，并结合所述噪声特征路径对所述大数据清洗任务进行任务路径优化；
所述结合多个所述干扰采集关系网络进行噪声特征分析所述大数据清洗任务当前所关联的业务指标预测训练事件的噪声特征路径，通过以下步骤实现：
结合符合模型上线要求的噪声路径分析模型对多个所述干扰采集关系网络进行噪声特征路径提取，输出所述大数据清洗任务当前所关联的业务指标预测训练事件的噪声特征路径；
其中，所述噪声路径分析模型的具体模型开发步骤包括：
将响应噪声学习指示进行噪声学习数据提取的多个干扰采集关系模板数据拆分成至少两个干扰采集关系模板数据集，将其中至少一个干扰采集关系模板数据集作为参考干扰采集关系模板数据集，各所述干扰采集关系模板数据包括至少两种干扰采集字段描述，所述干扰采集关系模板数据包括表征该干扰采集关系模板数据对应的目标噪声特征路径的可信噪声特征路径信息；
对于所述参考干扰采集关系模板数据集中的各干扰采集关系模板数据，获取该干扰采集关系模板数据的可信噪声特征路径信息，并获得该可信噪声特征路径信息与多个预设可信噪声特征路径信息中的各预设可信噪声特征路径信息的重合率，输出重合率低于指定重合率的至少一个目标可信噪声特征路径信息；
将所述干扰采集关系模板数据的可信噪声特征路径信息变更为任意一个所述目标可信噪声特征路径信息，当所述参考干扰采集关系模板数据集中的各干扰采集关系模板数据的可信噪声特征路径信息变更完成后，将该参考干扰采集关系模板数据集作为负干扰采集关系模板数据集，将其它干扰采集关系模板数据集作为正干扰采集关系模板数据集，输出目标噪声训练数据集；
结合所述目标噪声训练数据集对预设的第一噪声训练神经网络进行模型配置权重开发，输出所述噪声路径分析模型。

[0006] 采用上述任一方面的技术方案，通过对大数据清洗任务所关联的业务指标预测训练事件进行干扰特征数据挖掘获得的当前干扰特征数据进行干扰采集关系网络分析，输出多个干扰采集关系网络，结合多个所述干扰采集关系网络进行噪声特征分析所述大数据清洗任务当前所关联的业务指标预测训练事件的噪声特征路径，并结合所述噪声特征路径对所述大数据清洗任务进行任务路径优化，这样基于干扰采集关系网络可以反映干扰采集元素关系的特性进行噪声特征分析，由此提高噪声特征分析的全面性，进而提高大数据清洗的精准度。

实施方案

[0008] 下面介绍本发明一种实施例提供的用于大数据清洗的人工智能处理系统10的架构，该用于大数据清洗的人工智能处理系统10可以包括大数据清洗系统100以及与大数据清洗系统100通信连接的AI云计算训练节点200。其中，用于大数据清洗的人工智能处理系统10中的大数据清洗系统100和AI云计算训练节点200可以通过配合执行以下方法实施例所描述的用于大数据清洗的人工智能处理方法，具体大数据清洗系统100和AI云计算训练节点200的执行步骤部分可以参照以下方法实施例的详细描述。

[0009] 本实施例提供的用于大数据清洗的人工智能处理方法可以由大数据清洗系统100执行，下面结合图1对该用于大数据清洗的人工智能处理方法进行详细介绍。

[0010] Process110，获取针对大数据清洗任务所关联的业务指标预测训练事件进行干扰特征数据挖掘获得的当前干扰特征数据，其中，所述干扰特征数据包括类别干扰特征变量、属性值干扰特征变量、数据关系干扰特征变量、异常下载干扰特征变量中的至少一种。

[0011] Process120，对所述当前干扰特征数据进行干扰采集关系网络分析，输出多个干扰采集关系网络。

[0012] 针对一些可能实施方式而言，所述干扰采集关系网络被配置于反映多个干扰采集元素之间的干扰采集关系（如存在噪声干扰的多个噪声数据对象之间的数据关联关系），多个干扰采集关系网络可以是所述类别干扰特征变量、属性值干扰特征变量、数据关系干扰特征变量中的其中至少两种干扰特征变量分别对应的干扰采集关系网络的组合。

[0013] Process130，结合多个所述干扰采集关系网络进行噪声特征分析所述大数据清洗任务当前所关联的业务指标预测训练事件的噪声特征路径，并结合所述噪声特征路径对所述大数据清洗任务进行任务路径优化。例如，可以将所述噪声特征路径记录到所述大数据清洗任务的清洗进程中，在后续的大数据清洗进程中清洗与所述噪声特征路径中各个噪声特征点所关联的特征数据。

[0014] 由此，可以基于任务路径优化后的所述大数据清洗任务对所述业务指标预测训练事件所对应的第一大数据采集数据实时进行大数据清洗操作，获得对应的第二大数据采集数据，基于所述业务指标预测训练事件所指示的训练数据规则从所述第二大数据采集数据中提取对应的业务指标预测训练数据，从而提高后续的业务指标预测训练效果。

[0015] 由此，本申请实施例通过对大数据清洗任务所关联的业务指标预测训练事件进行干扰特征数据挖掘获得的当前干扰特征数据进行干扰采集关系网络分析，输出多个干扰采集关系网络，结合多个所述干扰采集关系网络进行噪声特征分析所述大数据清洗任务当前所关联的业务指标预测训练事件的噪声特征路径，并结合所述噪声特征路径对所述大数据清洗任务进行任务路径优化，这样基于干扰采集关系网络可以反映干扰采集元素关系的特性进行噪声特征分析，由此提高噪声特征分析的全面性，进而提高大数据清洗的精准度。

[0016] 针对一些可能实施方式而言，为了实现对所述噪声特征路径的精确分析，本实施例可以结合AI实现所述噪声特征路径的挖掘。由此，在上述Process130，结合多个所述干扰采集关系网络进行噪声特征分析所述大数据清洗任务当前所关联的业务指标预测训练事件的噪声特征路径，可以结合符合模型上线要求的噪声路径分析模型对多个所述干扰采集关系网络进行噪声特征路径提取，输出所述大数据清洗任务当前所关联的业务指标预测训练事件的噪声特征路径。

[0017] 其中，所述噪声路径分析模型通过以下Process131‑Process134进行模型部署开发。

[0018] Process131，将响应噪声学习指示进行噪声学习数据提取的多个干扰采集关系模板数据拆分成至少两个干扰采集关系模板数据集，将其中至少一个干扰采集关系模板数据集作为参考干扰采集关系模板数据集。

[0019] 各所述干扰采集关系模板数据可以包括至少两种干扰采集字段描述，所述干扰采集关系模板数据包括表征该干扰采集关系模板数据对应的目标噪声特征路径的可信噪声特征路径信息。此外，不同的可信噪声特征路径信息之间具有相应的重合率。

[0020] Process132，对于所述参考干扰采集关系模板数据集中的各干扰采集关系模板数据，获取该干扰采集关系模板数据的可信噪声特征路径信息，并获得该可信噪声特征路径信息与多个预设可信噪声特征路径信息中的各预设可信噪声特征路径信息的重合率，输出重合率低于指定重合率的至少一个目标可信噪声特征路径信息。

[0021] 针对一些可能实施方式而言，多个所述预设可信噪声特征路径信息可以是预先为各可能的噪声特征路径而设定的可信噪声特征路径信息，用于对相应的噪声特征路径进行AI学习流程中的标签标定。

[0022] Process133，将所述干扰采集关系模板数据的可信噪声特征路径信息变更为任意一个所述目标可信噪声特征路径信息，当所述参考干扰采集关系模板数据集中的各参考干扰采集关系模板数据的可信噪声特征路径信息变更完成后，将该参考干扰采集关系模板数据集作为负干扰采集关系模板数据集，将其它干扰采集关系模板数据集作为正干扰采集关系模板数据集，输出目标噪声训练数据集。

[0023] Process144，结合所述目标噪声训练数据集对预设的第一噪声训练神经网络进行模型配置权重开发，输出所述噪声路径分析模型。

[0024] 针对一些可能实施方式而言，对于Process144，结合所述目标噪声训练数据集对预设的第一噪声训练神经网络进行模型配置权重开发的每次模型配置权重开发阶段，参见下述步骤进行执行。

[0025] Process1441，逐个调取正干扰采集关系模板数据集，将所述正干扰采集关系模板数据集中的各干扰采集关系模板数据传递到所述第一噪声训练神经网络进行噪声特征路径分析。

[0026] Process1442，结合对于所述正干扰采集关系模板数据集中的各干扰采集关系模板数据的噪声特征路径分析数据与该干扰采集关系模板数据对应的可信噪声特征路径信息的第一特征区别信息，输出针对该正干扰采集关系模板数据集的第一训练评价系数。

[0027] 针对一些可能实施方式而言，可以将针对各个干扰采集关系模板数据的噪声特征路径分析数据与各相应的干扰采集关系模板数据对应的可信噪声特征路径信息的多个第一特征区别信息的特征区别平均值计算得到所述第一训练评价系数（loss值）。其中，所述第一特征区别平均值与所述第一训练评价系数正相关。例如，所述特征区别平均值越大，则所述第一训练评价系数越大。

[0028] Process1443，逐个调取负干扰采集关系模板数据集，将所述负干扰采集关系模板数据集中的各干扰采集关系模板数据传递到所述第一噪声训练神经网络进行噪声特征路径分析。

[0029] Process1444，结合对于所述负干扰采集关系模板数据集中的各干扰采集关系模板数据的噪声特征路径分析数据与该干扰采集关系模板数据对应的可信噪声特征路径信息的第二特征区别信息，输出针对该负干扰采集关系模板数据集的第二训练评价系数；针对一些可能实施方式而言，可以将针对各个干扰采集关系模板数据的噪声特征路径分析数据与各相应的干扰采集关系模板数据对应的可信噪声特征路径信息的各个第二特征区别信息的特征区别平均值计算得到所述第二训练评价系数。其中，所述第二特征区别平均值与所述第二训练评价系数正相关。例如，所述第二特征区别平均值越大，则所述第一训练评价系数越大。

[0030] Process1445，结合所述第一训练评价系数以及所述第二训练评价系数对所述第一噪声训练神经网络进行模型配置权重开发。

[0031] Process1446，分析当前模型配置权重开发阶段是否符合模型上线部署规则，当符合模型上线部署规则时，将当前模型配置权重开发后的所述第一噪声训练神经网络作为所述噪声路径分析模型；若不符合模型上线部署规则，则跳转至下一模型配置权重开发阶段。

[0032] 其中，所述模型上线部署规则可以是所述第一训练评价系数以及所述第二训练评价系数分别超过设定训练评价系数。

[0033] 针对一些可能实施方式而言，也可以结合AI策略实现所述干扰采集关系网络的生成。在上述Process120中，对所述当前干扰特征数据进行干扰采集关系网络分析，输出多个干扰采集关系网络，可以是：结合干扰采集关系决策模型对所述当前干扰特征数据进行干扰采集关系网络分析，输出多个所述干扰采集关系网络。

[0034] 针对一些可能实施方式而言，所述方法还包括对预设的第二噪声训练神经网络进行模型配置权重开发而获得所述干扰采集关系决策模型的步骤，参见下述步骤进行执行。

[0035] （1）获取多个所述模板干扰特征数据集，结合多个所述模板干扰特征数据集，输出多个所述待调度干扰特征库。

[0036] 针对一些可能实施方式而言，多个所述待调度干扰特征库中的每种待调度干扰特征库可以包括一种相关的干扰采集关系网络对应的第一模板干扰特征数据、第二模板干扰特征数据和第三模板干扰特征数据。各种所述待调度干扰特征库中的第一模板干扰特征数据、第二模板干扰特征数据和第三模板干扰特征数据形成的待调度干扰特征库是结合多个所述模板干扰特征数据集确定的。多个所述模板干扰特征数据集中的每种模板干扰特征数据集包括一种干扰采集关系网络对应的第一成员干扰特征数据和第二成员干扰特征数据。其中，所述第一模板干扰特征数据和所述第二模板干扰特征数据分别携带不同的可信干扰采集关系网络，所述第三模板干扰特征数据为未携带可信干扰采集关系网络的模板干扰特征数据。

[0037] 针对一些可能实施方式而言，所述结合多个所述模板干扰特征数据集，输出多个所述待调度干扰特征库，参见下述步骤进行执行。

[0038] （11）将多个所述模板干扰特征数据集中的目标干扰识别标签的第一成员干扰特征数据，确定为目标干扰识别标签的第一模板干扰特征数据。

[0039] （12）从多个所述模板干扰特征数据集的第二成员干扰特征数据中，输出目标干扰识别标签的第三模板干扰特征数据。

[0040] 针对一些可能实施方式而言，可以从多个所述第二成员干扰特征数据中，将目标干扰识别标签的第二成员干扰特征数据以外的其它第二成员干扰特征数据确定为所述目标干扰识别标签的第三模板干扰特征数据。

[0041] 又针对一些可能实施方式而言，可以结合目标干扰识别标签的干扰采集关系网络在多个所述模板干扰特征数据集中的影响权重系数，从多个所述第二成员干扰特征数据中，输出所述目标干扰识别标签的第三模板干扰特征数据。其中，所述影响权重系数反映所述目标干扰识别标签的干扰采集关系网络在多个所述的模板干扰特征数据集中的重要性。影响权重系数越大则表面该目标干扰识别标签的干扰采集关系网络对于噪声特征路径的重要性较大。

[0042] 其中，响应于多个所述干扰采集关系网络中的目标干扰识别标签的干扰采集关系网络在多个所述模板干扰特征数据集中的影响权重系数超过预设影响权重系数，可以将所述第二成员干扰特征数据中所述目标干扰识别标签的第二成员干扰特征数据以外的其它第二成员干扰特征数据，确定为所述目标干扰识别标签的第三模板干扰特征数据。响应于所述目标干扰识别标签的干扰采集关系网络在多个所述模板干扰特征数据集中的影响权重系数不超过所述预设影响权重系数，则可以将所述目标干扰识别标签的干扰采集关系网络对应的第二成员干扰特征数据确定为所述目标干扰识别标签的第三模板干扰特征数据，其它的第二成员干扰特征数据确定为所述第二模板干扰特征数据。

[0043] （13）从多个所述模板干扰特征数据集中，将所述目标干扰识别标签的第一模板干扰特征数据和所述目标干扰识别标签的第三模板干扰特征数据之外的其它干扰特征数据，确定为目标干扰识别标签的第二模板干扰特征数据。

[0044] （14）将所述目标干扰识别标签的第一模板干扰特征数据、所述目标干扰识别标签的第二模板干扰特征数据和所述目标干扰识别标签的第三模板干扰特征数据汇聚确定为所述目标干扰识别标签的待调度干扰特征库，从而确定多个所述待调度干扰特征库。

[0045] （2）结合多个所述待调度干扰特征库，对所述预设的第二噪声训练神经网络进行模型配置权重开发，以实现所述初始干扰采集关系决策模型的模型配置权重开发，输出所述干扰采集关系决策模型。

[0046] 针对一些可能实施方式而言，可以针对各目标干扰识别标签对应的待调度干扰特征库，可以分别将该目标干扰识别标签对应的待调度干扰特征库对应的第一模板干扰特征数据、第二模板干扰特征数据对所述第二噪声训练神经网络进行有监督训练，然后再结合所述第三模板干扰特征数据对通过所述第一模板干扰特征数据、第二模板干扰特征数据进行有监督训练后的第二噪声训练神经网络进行无监督训练，如此反复，直到结合各目标干扰识别标签的参考特征待调度干扰特征库对所述第二噪声训练神经网络完成训练后，输出所述干扰采集关系决策模型。

[0047] 针对一些可能实施方式而言，所述干扰采集关系决策模型可以包括字段描述层和多个干扰采集关系网络分析层。其中，所述字段描述层用于对所述当前干扰特征数据进行字段描述，输出所述当前干扰特征数据中包括的至少两种干扰采集字段描述。多个所述干扰采集关系网络分析层中的各种干扰采集关系网络分析层用于结合所述字段描述层得到的至少两种干扰采集字段描述进行干扰采集关系网络分析，从而确定多个干扰采集关系网络。

[0048] 针对一些可能实施方式而言，上述（2）中，结合多个所述待调度干扰特征库，对所述预设的第二噪声训练神经网络进行模型配置权重开发，以实现所述初始干扰采集关系决策模型的模型配置权重开发，输出所述干扰采集关系决策模型，可以参见下述实施例。

[0049] （21）将多个所述待调度干扰特征库中的模板干扰特征数据拆分成多组模板干扰特征数据。

[0050] （22）结合多个所述待调度干扰特征库中的s组模板干扰特征数据，在当前模型配置进程中，对所述第二噪声训练神经网络执行s次模型配置权重开发，输出s次模型配置权重开发确定的多个Loss值中的各种Loss值和当前模型配置进程中模型配置权重开发后的第二噪声训练神经网络。其中，多个所述Loss值分别与多个所述干扰采集关系网络分析层一一对应。

[0051] 针对一些可能实施方式而言，可以在当前模型配置进程中，结合所述s次模型配置权重开发中而获得第d‑1次模型配置权重开发阶段确定的第二噪声训练神经网络中的字段描述层，获取多个所述模板干扰特征数据集中s组模板干扰特征数据中的第d组模板干扰特征数据的干扰采集关系网络，输出第d干扰采集关系网络，d不超过s；然后，结合所述第d‑1次模型配置权重开发阶段确定的第二噪声训练神经网络中的各种干扰采集关系网络分析层，并结合所述s组模板干扰特征数据中与所述第d组模板干扰特征数据对应的第d组模板干扰特征数据，输出所述第d干扰采集关系网络的各种Loss值，输出第d次模型配置权重开发对应的Loss值；
其次，结合所述第d次模型配置权重开发对应的Loss值，对所述第d‑1次模型配置权重开发阶段确定的第二噪声训练神经网络进行网络配置开发，输出第d次网络配置开发后的第二噪声训练神经网络；
最后，迭代遍历以上阶段，输出s次模型配置权重开发确定的多个Loss值中的各种Loss值和当前模型配置进程中模型配置权重开发后的第二噪声训练神经网络，确定为所述干扰采集关系决策模型；
其中，所述模型部署规则包括：
所述当前模型配置进程中的目标Loss值低于设定Loss值；或者
所述模型配置权重开发的迭代次数超过指定阈值。

[0052] （23）结合所述s次模型配置权重开发确定的多个Loss值中的各种Loss值，输出当前模型配置进程中的目标Loss值。

[0053] （24）结合所述当前模型配置进程中的目标Loss值以及模型配置权重开发的次数分析是否符合模型部署规则，当符合模型部署规则时，将所述当前模型配置进程中模型配置权重开发后的第二噪声训练神经网络作为所述干扰采集关系决策模型。其中，当不符合模型部署规则时，执行下一次模型配置权重开发阶段，输出下一次模型配置权重开发阶段中的目标Loss值和下一次模型配置权重开发阶段中模型配置权重开发后的第二噪声训练神经网络。

[0054] 一些实施例中，大数据清洗系统100可包括处理器110、机器可读存储介质120、总线130以及通信单元140。

[0055] 处理器110可以依据存储在机器可读存储介质120中的程序而执行各种适当的动作和处理，例如前述实施例所描述的用于大数据清洗的人工智能处理方法所相关的程序指令。处理器110、机器可读存储介质120以及通信单元140通过总线130进行信号传输。

[0056] 特别地，依据本发明的实施例，上文示例性流程图描述的过程可以被实现为计算机软件程序。例如，本发明的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信单元140从网络上被下载和安装，在该计算机程序被处理器110执行时，执行本发明实施例的方法中限定的上述功能。

[0057] 本发明又一实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现如上述任一实施例所述的用于大数据清洗的人工智能处理方法。

[0058] 本发明又一实施例还提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现如上述任一实施例所述的用于大数据清洗的人工智能处理方法。

[0059] 应该理解的是，虽然本发明实施例的流程图中通过箭头指示各个操作步骤，但是这些步骤的实施顺序并不受限于箭头所指示的顺序。除非本文中有明确的说明，否则在本发明实施例的一些实施场景中，各流程图中的实施步骤可以依据需求以其它的顺序执行。此外，各流程图中的部分或全部步骤依据实际的实施场景，可以包括若干子步骤或者若干阶段。这些子步骤或者阶段中的部分或全部可以在同一时刻被执行，这些子步骤或者阶段中的各个子步骤或者阶段也可以各自在不同的时刻被执行。在执行时刻不同的场景下，这些子步骤或者阶段的执行顺序可以依据需求灵活配置，本发明实施例对此不限制。

[0060] 以上所述仅是本发明部分实施场景的可选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明的方案技术构思的前提下，依据依据本发明技术思想的其它类似实施手段，同样属于本发明实施例的保护范畴。

附图说明

[0007] 图1为本发明实施例提供的用于大数据清洗的人工智能处理方法的流程示意图。

1一种大数据蹦床 2一种大数据一体机 3一种基于大数据处理的数据采集设备 4一种基于大数据的农业大棚 5基于大数据和智慧安防的数据管理系统 6一种基于大数据的人体数据检测、监测系统 7用于大数据清洗的人工智能处理方法及大数据清洗系统 8一种基于大数据的计算机数据安全评估系统 9一种基于大数据的图像数据查询方法和系统 10在大数据场景下的在线办公安防处理方法及大数据服务器