首页 > 专利 > 杭州电子科技大学 > 基于关系矩阵的工作流日志重复任务识别方法专利详情

基于关系矩阵的工作流日志重复任务识别方法 0 0

有效专利查看PDF

申请进展

基本信息

申请人信息

代理人信息

摘要

法律状态

权利要求

说明书

专利申请流程有哪些步骤？

申请

申请号：指国家知识产权局受理一件专利申请时给予该专利申请的一个标示号码。唯一性原则。

申请日：提出专利申请之日。

2017-11-21

申请公布

申请公布指发明专利申请经初步审查合格后，自申请日（或优先权日）起18个月期满时的公布或根据申请人的请求提前进行的公布。

申请公布号：专利申请过程中，在尚未取得专利授权之前，国家专利局《专利公报》公开专利时的编号。

申请公布日：申请公开的日期，即在专利公报上予以公开的日期。

2018-05-08

授权

授权指对发明专利申请经实质审查没有发现驳回理由，授予发明专利权；或对实用新型或外观设计专利申请经初步审查没有发现驳回理由，授予实用新型专利权或外观设计专利权。

2020-07-17

预估到期

发明专利权的期限为二十年，实用新型专利权期限为十年，外观设计专利权期限为十五年，均自申请日起计算。专利届满后法律终止保护。

2037-11-21

基本信息

有效性	有效专利	专利类型	发明专利
申请号	CN201711165952.9	申请日	2017-11-21
公开/公告号	CN107909344B	公开/公告日	2020-07-17
授权日	2020-07-17	预估到期日	2037-11-21
申请年	2017年	公开/公告年	2020年
缴费截止日
分类号	G06Q10/10	主分类号	G06Q10/10
是否联合申请	独立申请	文献类型号	B
独权数量	1	从权数量	0
权利要求数量	1	非专利引证数量	1
引用专利数量	5	被引证专利数量	0
非专利引证	1、顾春琴等.“可解决多种复杂任务的过程挖掘算法”《.计算机集成制造系统》.2009,第15卷(第11期),Javier De San Pedro et al. “Discovering Duplicate Tasks inTransition Systems for the Simplificationof Process Models”《.InternationalConference on Business ProcessManagement》.2016,李嘉菲等.“一种能发现重复任务的过程挖掘算法”《.吉林大学学报(工学版)》.2007,第37卷(第1期),宋进亮等.“一种利用聚类思想识别重复任务问题的处理方法”《.中国科学院研究生院学报》.2009,第26卷(第1期),李嘉菲等.“过程挖掘中一种能发现重复任务的扩展α算法”《.计算机学报》.2007,第30卷(第8期),;
引用专利	CN103440165A、CN106803134A、CN105117430A、CN105359141A、US9459933B1	被引证专利
专利权维持	5	专利申请国编码	CN
专利事件	许可	事务标签	公开、实质审查、授权、实施许可

申请人信息

申请人	杭州电子科技大学	第一申请人	杭州电子科技大学
专利权人	杭州电子科技大学	当前专利权人	杭州电子科技大学
发明人	俞东进、陈耀旺、潘建梁、王娇娇、侯文杰	第一发明人	俞东进
地址	浙江省杭州市下沙高教园区2号大街	邮编	310018
申请人数量	1	发明人数量	5
申请人所在省	浙江省	申请人所在市	浙江省杭州市

代理人信息

代理机构

专利代理机构是经省专利管理局审核，国家知识产权局批准设立，可以接受委托人的委托，在委托权限范围内以委托人的名义办理专利申请或其他专利事务的服务机构。

杭州奥创知识产权代理有限公司

代理人

专利代理师是代理他人进行专利申请和办理其他专利事务，取得一定资格的人。

王佳健

摘要

本发明公开了一种基于关系矩阵的工作流日志重复任务识别方法。本发明采用对日志事件先分类再聚类的策略，在划分过程中通过寻找具有稳定结构的循环和并行结构，减少划分种类。在聚类过程中，根据事件上下文计算候选重复任务集合中两两之间相似度，在每次聚类过程中计算模型质量，最终聚类完成后选择最优聚类方案，其中每个聚类即代表了一个真正不同的任务。采用本发明的方法识别和重命名重复任务可提高后续工作流模型挖掘的精确度。

摘要附图

法律状态

序号	法律状态公告日	法律状态	法律状态信息
1	2022-12-13	专利实施许可合同备案的生效	IPC(主分类): G06Q 10/10 合同备案号: X2022980023151 专利申请号: 201711165952.9 申请日: 2017.11.21 让与人: 杭州电子科技大学受让人: 杭州企密宝科技有限公司发明名称: 基于关系矩阵的工作流日志重复任务识别方法申请公布日: 2018.04.13 授权公告日: 2020.07.17 许可种类: 普通许可备案日期: 2022.11.24
2	2020-07-17	授权
3	2018-05-08	实质审查的生效	IPC(主分类): G06Q 10/10 专利申请号: 201711165952.9 申请日: 2017.11.21
4	2018-04-13	公开

权利要求

权利要求书是申请文件最核心的部分，是申请人向国家申请保护他的发明创造及划定保护范围的文件。

1.基于关系矩阵的工作流日志重复任务识别方法，其特征在于该方法的具体步骤是：
步骤(1).定义e为事件，E为事件集合，输入多条由事件组成的有限活动序列，每条有限活动序列即为一条轨迹T，其中可存在重复事件，多条轨迹组成原始事件日志；
步骤(2).根据轨迹中事件输入顺序，得到轨迹的跟随关系，记为ei＞L ei+1，再将轨迹中所有跟随关系的集合表示为关系矩阵Casual Matrix，记为CM，使用三元组表示，其中：(1)E为日志的事件集合；(2)I为前驱事件集合，对于任意e1∈E，若存在e2∈I(e)，则满足e2＞L e1；(3)O为后继事件集合，对于任意e1∈E，若存在e2∈O(e)，则满足e1＞L e2；
步骤(3).定义矩阵循环、矩阵并行的特征；
序列称为矩阵循环，记为MC，当且仅当：(1)存在序列Ts＝，其中e0为开始事件，对于任意i属于[0，n-1]，在关系矩阵中都存在ei＞L ei+1；(2)Ts中除en+1外的任务没有重复；(3)en+1与序列Ts中下标为k元素相同；
序列称为矩阵并行，记为MP，当且仅当：(1) 与O为活动e在
关系矩阵中的前驱后继集合，且I∩O＝{e1，...，en}；(2)S是集合{e，e1，...，en}的一个全排列，对于所有的s∈S，都存在：如果s为任意轨迹T的子序列，则在轨迹中s的前驱事件为split，s的后继事件为join；
步骤(4).根据得到的关系矩阵CM和已定义的循环、并行结构的特征，在原始事件日志中获取矩阵循环和矩阵并行，以便后续分类时直接跳过此类结构；
步骤(5).根据步骤(4)得到的矩阵循环、矩阵并行，并通过候选重复任务定义判断，将原始事件日志中的事件进行映射，对事件进行重命名，得到新日志；
在日志中确定了属于循环结构和并行结构的事件后，进行划分类别，在关系矩阵中，对于所有事件e∈E，如果max(min(F(e)，P(e))，1)＞1，则e被判定为属于重复事件，与其对应的任务t被判定为重复任务，在经过矩阵循环和矩阵并行标记后的日志中，事件的重命名规则为：设Ae为事件e对应的活动集合，对于事件e∈EL，如果存在max(min(F(e)，P(e))，1)＞1且e没有被标记为矩阵并行和矩阵循环，则：e′∈I(e)，设tag(e′)为与e′对应的活动名称，l(e)＝tag(e′)∈Ae；其中F(e)表示所有出现在e后面的事件e′的种类数量，P(e)表示所有出现在e前面的事件e′的种类数量，EL表示日志中出现的所有事件集合，l(e)表示e的标签；
步骤(6).计算重复任务间的相似度，按照相似度从高到低的顺序聚类得到一系列事件日志；事件日志通过挖掘算法得到模型，最终选取精确度最高的重复任务聚类方案，输出已标记重复事件的事件日志；
重复任务聚类算法是先构造所有原始事件的后继关系矩阵PCM(e)，即重命名事件集合β(e)中事件的后继关系的集合，设置初始最佳日志为Lp，只要存在事件e后继关系矩阵|PCM(e)|＞1，计算β(e)中相似度最高的两个重命名事件e1，e2，更新日志中Lp的事件名称和后继关系矩阵PCM(emax)；如果使用Lp得到的模型精确度大于使用Lbest得到的模型精确度，则Lbest＝Lp；
在聚类过程中，每次都将相似度最高的事件合并，即合并一个事件e的重命名集合中的两个重复事件，同时产生临时模型并计算其精确度，最终聚类得到的日志中，对于所有的e∈E都存在β(e)＝1，即经过最后一次聚类后得到的重命名事件日志与原始事件日志相同。

说明书

技术领域

[0001] 本发明属于数据挖据技术领域，具体涉及到一种基于关系矩阵的工作流日志重复任务识别方法。

背景技术

[0002] 随着智能制造和业务流程管理的广泛应用，工作流技术在最近的几十年得到了迅猛的发展，并正不断地向智能化、柔性化等方向演进。工作流技术将日常生活中的流程抽象化成流程模型，将工作分解成一个个任务并分配给不同角色，按照既定流程执行和监管，其应用目的是提高工作效率。工作流模型挖掘是通过分析信息系统中的运行日志提取出流程模型，其相对于人工设计的流程模型更具有客观性，可为企业发现、监控和改进真实的业务流程带来重大意义。

[0003] 在流程建模过程中，建模者会为不同的任务节点分配相同的活动名称来表示同一活动在流程不同阶段的执行，而在运行日志中记录轨迹的事件名称通常由活动名称决定而不是任务名称，导致存在重复任务的情况下无法确定轨迹中出现的同名事件(重复事件)代表同一任务还是不同任务。例如图1(a)所示，某医院看病诊疗流程的原始模型，其中包含多次诊断操作c、验血操作b和X光检测操作x，如果直接基于这些原始日志挖掘得到的模型，例如图1(b),可能会因为活动名称重复导致挖掘出原诊疗流程中不存在且毫无意义的轨迹，无法还原真实的诊疗流程。

[0004] 然而，现有大多数工作流模型挖掘算法的前提假设是运行日志中记录的事件和模型中的任务是一一对应的。使用这些算法对含有重复任务的运行日志进行流程挖掘时，得到的流程模型往往存在过多连接的节点和没有意义的循环结构，导致模型还原精确度降低。

发明内容

[0005] 本发明针对现有技术的不足，提供了一种基于关系矩阵的工作流日志重复任务识别方法。

[0006] 本发明方法的具体步骤是：

[0007] 步骤(1).定义e为事件，E为事件集合,输入多条由事件组成的有限活动序列,每条有限活动序列即为一条轨迹T,其中存在重复事件,多条轨迹组成原始事件日志L。

[0008] 步骤(2).根据轨迹中事件的输入顺序,得到轨迹的跟随关系,如ei+1跟随ei, 记为ei>L ei+1,再将轨迹中所有跟随关系的集合表示为关系矩阵Casual Matrix，记为CM，可使用三元组表示。

[0009] 步骤(3).定义矩阵循环、矩阵并行的特征。

[0010] 步骤(4).根据得到的关系矩阵CM和已定义的循环、并行结构的特征，在原始事件日志中获取矩阵循环和矩阵并行，以便后续分类时直接跳过此类结构。

[0011] 步骤(5).根据步骤(4)得到的矩阵循环、矩阵并行,并通过候选重复任务定义判断,将原始事件日志中的事件进行映射，对事件进行重命名,得到新日志。

[0012] 步骤(6).计算重复任务间的相似度，按照相似度从高到低的顺序聚类得到一系列事件日志；事件日志通过挖掘算法得到模型，最终选取精确度最高的重复任务聚类方案,输出已标记重复事件的事件日志,例如图1(c),识别重复任务, 并作出区别标记,以达到流程挖掘的精确度。

[0013] 本发明所提供的基于关系矩阵的工作流日志重复任务识别方法由一组模块组成，它们包括：标记特殊结构事件模块、日志事件划分模块、日志事件聚集模块。

[0014] 标记特殊结构事件模块是在原始事件日志中通过分析事件日志行为特征，标记出日志中由循环和并行结构产生的事件序列段，这些标记出的事件不参与之后的事件划分操作。

[0015] 日志事件划分模块以候选重复任务其前驱、后继事件个数均大于1为判断条件，不考虑矩阵循环和矩阵并行的事件，确定划分种类，对重复事件进行重命名。

[0016] 日志事件聚集模块对于可能存在重复事件划分种类过多的情况，采用循环聚类的方法减少重复事件种类，计算重命名事件集合中两两事件之间的最大相似度，选择相似度最高的两个事件进行聚类操作。聚类过程中考虑事件的上下文环境，包括事件的前驱和后继事件种类及数量。由于重复事件划分的数量由前驱事件决定，因此在聚类时只考虑重复事件的后继集合。

[0017] 本发明提出的方法采用对日志事件先分类再聚类的策略，在划分过程中通过寻找具有稳定结构的循环和并行结构，减少划分种类。在聚类过程中，根据事件上下文计算候选重复任务集合中两两之间相似度，在每次聚类过程中计算模型质量，最终聚类完成后选择最优聚类方案，其中每个聚类即代表了一个真正不同的任务。采用本发明的方法识别和重命名重复任务可提高后续工作流模型挖掘的精确度。

实施方案

[0021] 以下结合附图对本发明作进一步说明。

[0022] 本发明所提供的基于关系矩阵的工作流日志重复任务识别方法的具体实施方式主要分3步(如图2所示)：

[0023] (1)通过分析特定流程结构，定义其产生的运行日志中事件的上下文规则； (2)使用关系矩阵配合流程结构产生的事件上下文规则，检测日志中重复事件的种类和数量；(3)针对划分的候选重复事件，计算两两之间最大相似度，使得每次聚类的事件最有可能由同一个任务产生。

[0024] 为叙述方便，相关定义说明如下：

[0025] 定义1(事件，轨迹，日志)：设e为事件，E为事件集合，T∈E*表示一个有限的活动序列集合，即轨迹。表示一个轨迹集合，即事件日志。

[0026] 定义2(重复任务，重复事件)：设t为流程模型中的任务，e为轨迹中事件。映射函数f:t→e表示任务经过系统执行之后在日志中产生事件e，集合α(e)表示日志中事件e所对应的任务集合，如果集合|α(e)|>1，则集合α(e)中的任务称为重复任务，日志中事件e称为重复事件。

[0027] 定义3(跟随关系)：设T＝∈L，称ei+1跟随ei，记为ei>L ei+1。

[0028] 定义4(关系矩阵)：轨迹中所有跟随关系的集合称为关系矩阵Casual Matrix，记为CM，可使用三元组表示，其中：(1)E为日志的事件集合；(2)I为前驱事件集合，对于任意e1∈E，若存在e2∈I(e)，则满足e2>L e1；(3)O为后继事件集合，对于任意e1∈E，若存在e2∈O(e)，则满足e1>L e2。

[0029] 如案例一,轨迹分别是T1＝,T2＝,T3＝，从这3条轨迹中抽取出关系矩阵，如表1:

[0030]事件日志e 前驱事件集合I(e) 后继事件集合O(e)
a {} {d}
d {a,b} {b,g,h}
g {d} {j}
h {d} {j}
b {d} {d,j}
j {b,g,h} {}

[0031] 表1关系矩阵

[0032] 其中a为开始活动，j为结束活动。表中每一行包含一个事件e及其前驱事件集合I和后继事件集合O。

[0033] 定义5(候选重复任务)：F(e)＝|e>Le′|表示所有出现在e后面的事件e′的种类数量，P(e)＝|e′>Le|表示所有出现在e前面的事件e′的种类数量，如果事件e满足如下条件：

[0034] max(min(F(e),P(e)),1)>1 (1)

[0035] 则事件e对应的任务称为候选重复任务。在关系矩阵中，候选重复任务的定义反映与其对应的事件的前驱、后继事件个数均大于1。

[0036] 定义6(事件-活动映射函数)：设EL为日志中出现的所有事件集合，集合中的事件可以重复。A是一个活动集合。映射函数l:EL→A是一个满射，表示为每个e∈EL分配一个标签l(e)＝a∈A。类似地，映射函数l′:A→E是一个满射，表示每个a∈A在原始日志中所对应的事件e∈E，记l′(a)＝e∈EL。 Lref＝(L,l)表示日志L在活动A基础上经过映射函数l之后得到的新日志。

[0037] 定义7(重命名事件集合)：β(e)表示事件e∈E经过映射函数l之后得到的事件集合，如图1中事件d的重命名事件集合为{d1,d2}。

[0038] 定义8(矩阵循环)：序列称为矩阵循环，记为MC，当且仅当：(1)存在序列Ts＝，其中e0为开始事件，对于任意i属于[0,n-1]，在关系矩阵中都存在ei>L ei+1；(2)Ts中除ei+1外的任务没有重复；(3)en+1与序列Ts中下标为k元素相同。

[0039] 定义9(矩阵并行)：序列称为矩阵并行，记为MP，当且仅当：(1)I与O为活动e在关系矩阵中的前驱后继集合，且I∩O＝ {e1,…,en}；(2)S是集合{e,e1,…,en}的一个全排列，对于所有的s∈S，都存在：如果s为任意轨迹T的子序列，则在轨迹中s的前驱事件为split,s的后继事件为join。

[0040] 定义10(后继关系矩阵)：对于事件e,其重命名事件集合β(e)中事件的后继关系的集合称为后继关系矩阵PCM(e)，使用二元组(β(e),O)表示，其中:(1)β(e)为重命名事件集合，表示活动e∈E在经过映射函数l后被分配到的活动集合；(2)O为原始日志中的有限的事件集合。对于任意a∈β(e)，所有的e∈ O都满足l′(a)>L e。关系矩阵中所有事件后继矩阵集合记为PCM。

[0041] (1)标记特殊结构事件

[0042] 循环和并行结构事件会导致判定时产生不必要的划分类别，最终对后续聚类精确度产生影响。如图3(a)所示循环结构中，任务b作为循环的开始节点，其产生的轨迹中事件b满足定义5的判定条件，会被错误地标记为候选重复任务。如图3(b)，并行结构的关系矩阵中b、c行均可得到max(min(2,2),1)>1，故原本不重复的任务也会满足定义5判定条件。因此需要在原始事件日志中通过分析日志事件行为特征，标记出日志中由循环和并行结构产生的事件序列段，这些标记出的事件不参与之后的事件划分操作。

[0043] 日志中识别循环结构的算法执行过程简述如下：输入原始事件日志L,将输入的关系矩阵CM转化成有向图G，开始事件作为开始节点，从有向图G中递归寻找符合定义8的矩阵循环集合mc_list，将得到的循环与原始事件日志L中进行匹配，对轨迹中匹配到的循环结构，标记循环中第一个事件，如果循环结构后下一个事件和循环第一个事件同名，则这个事件同样给予标记，得到日志中连续出现两次的循环结构集合matched_mc_list，最后输出标记了矩阵循环的日志Lc。

[0044] 从日志中识别并行结构的算法过程可以简述如下：输入关系矩阵CM及标记了矩阵c循环的日志L ,先通过关系矩阵得到符合定义9(1)的矩阵并行事件集合mp_set_list，然后再配合定义9(2)得到矩阵并行序列集合mp_list，之后在日志轨迹中寻找符合矩阵并行的子序列，将日志轨迹中与矩阵并行匹配的事件标记新的事件名称，最后输出标记了矩阵循环和矩阵并行的日志Lcp。

[0045] (2)日志事件划分

[0046] 在日志中确定了属于循环结构和并行结构的事件后，使用定义5确定划分类别。在关系矩阵中，对于所有事件e∈E，如果max(min(F(e),P(e)),1)>1，则e被判定为属于重复事件，与其对应的任务t被判定为重复任务。在经过矩阵循环和矩阵并行标记后的日志中，事件的重命名规则为：设Ae为事件e对应的活动集合，对于事件e∈EL，如果存在max(min(F(e),P(e)),1)>1且e没有被标记为矩阵并行和矩阵循环，则：e′∈I(e)，设tag(e′)为与e′对应的活动名称， l(e)＝tag(e′)∈Ae

[0047] 如案例1中事件d满足重复任务条件，d作为重复事件；d的前驱集合中有a，b 两个事件，对于所有的不属于循环和并行结构的任务d，将前驱为事件a的事件d 重命名为d1，前驱为事件b的事件d重命名为d2，得到d对应的活动集合{d1,d2}。

[0048] (3)日志事件聚类

[0049] 日志中的事件已经按照规则被划分成不同的种类，但是在重复事件划分过程中可能存在由于部分结构没有完全重新标记而导致划分不准确的情况，如图 3(c)所示的选择结构，使用max(min(F(e),P(e)),1)>1公式会将任务c判定为重复任务。这种不正确的划分最终将降低流程模型的精确度。

[0050] 针对可能造成的重复事件划分种类过多的情况，采用循环聚类的方法减少重复事件种类，其中聚类采用基于事件最大相似度的算法。对于计算重命名事件集合β(e)中两两事件之间的最大相似度，选择相似度最高的两个事件进行聚类操作。聚类过程中需要考虑事件的上下文环境，包括事件的前驱和后继事件种类及数量。由于重复事件划分的数量由前驱事件决定，因此在聚类时只考虑重复事件的后继集合。

[0051] 通过计算事件e的后继关系矩阵中两个重命名事件后继集合中相同后继的数量比例计算事件相似度，其计算公式为：

[0052]

[0053] 其中PCMO(a)表示事件a∈β(e)所对应的后继集合，|PCMO(a)|表示事件 a∈β(e)所对应的后继集合的数量。

[0054] 重复任务聚类算法是先构造所有原始事件的后继关系矩阵，设置初始最佳日志为Lp。只要存在事件e后继关系矩阵|PCM(e)|>1，计算β(e)中相似度最高的两个重命名事件e1,e2，更新日志中Lp的事件名称和后继关系矩阵PCM(emax)。如果使用Lp得到的模型精确度大于使用Lbest得到的模型精确度，则Lbest＝Lp。

[0055] 在聚类过程中，每次都将相似度最高的事件合并，即合并一个事件e的重命名集合中的两个重复事件，同时产生临时模型并计算其精确度。最终聚类得到的日志中，对于所有的e∈E都存在|β(e)|＝1,即经过最后一次聚类后得到的重命名事件日志与原始事件日志相同。

[0056] 本发明可用于分析信息系统中工作流模型挖掘，能正确有效地识别工作流日志中的重复任务，提高工作流模型挖掘的精准度及有效性。

附图说明

[0018] 图1医院诊疗流程为例的重复任务识别的对比案例。

[0019] 图2算法流程示意图。

[0020] 图3循环结构、并行结构、选择结构。

1基于数据挖掘的网络入侵检测方法 2基于大数据漏洞挖掘的挖掘评估方法及AI漏洞挖掘系统 3基于数据挖掘的农产品智能推荐系统 4用于联合大数据挖掘的业务预测分析方法及AI挖掘系统 5一种基于大数据挖掘技术的韩语发音纠正系统 6一种基于ASP平台的金属制品质量数据挖掘系统 7基于大数据分析的浮动车伴随行为模式挖掘方法 8一种制造系统数据挖掘模型的容错辨识方法及装置 9适于电子商务的业务操作行为大数据挖掘方法及系统 10服务于个性化推送服务的大数据挖掘方法及AI推荐系统