首页 > 专利 > 杭州电子科技大学 > 一种移动边缘计算环境下面向工作流的容错调度方法专利详情

一种移动边缘计算环境下面向工作流的容错调度方法 0 0

有效专利查看PDF

申请进展

基本信息

申请人信息

代理人信息

摘要

法律状态

权利要求

说明书

专利申请流程有哪些步骤？

申请

申请号：指国家知识产权局受理一件专利申请时给予该专利申请的一个标示号码。唯一性原则。

申请日：提出专利申请之日。

2019-09-10

申请公布

申请公布指发明专利申请经初步审查合格后，自申请日（或优先权日）起18个月期满时的公布或根据申请人的请求提前进行的公布。

申请公布号：专利申请过程中，在尚未取得专利授权之前，国家专利局《专利公报》公开专利时的编号。

申请公布日：申请公开的日期，即在专利公报上予以公开的日期。

2020-03-06

授权

授权指对发明专利申请经实质审查没有发现驳回理由，授予发明专利权；或对实用新型或外观设计专利申请经初步审查没有发现驳回理由，授予实用新型专利权或外观设计专利权。

2022-03-01

预估到期

发明专利权的期限为二十年，实用新型专利权期限为十年，外观设计专利权期限为十五年，均自申请日起计算。专利届满后法律终止保护。

2039-09-10

基本信息

有效性	有效专利	专利类型	发明专利
申请号	CN201910851811.5	申请日	2019-09-10
公开/公告号	CN110780974B	公开/公告日	2022-03-01
授权日	2022-03-01	预估到期日	2039-09-10
申请年	2019年	公开/公告年	2022年
缴费截止日
分类号	G06F9/455	主分类号	G06F9/455
是否联合申请	独立申请	文献类型号	B
独权数量	1	从权数量	8
权利要求数量	9	非专利引证数量	1
引用专利数量	2	被引证专利数量	0
非专利引证	1、2009.02.05Ke Zhang.et.al..Mobile Edge Computingand Networking for Green and Low-LatencyInternet of Things《.IEEE CommunicationsMagazine》.2018,39-45. 符永铨等.边缘计算环境下应用驱动的网络延迟测量与优化技术《.计算机研究与发展》.2018,第55卷(第3期),512-513.;
引用专利	US2016306705A、WO2009018526A	被引证专利
专利权维持	3	专利申请国编码	CN
专利事件		事务标签	公开、实质审查、授权

申请人信息

申请人	杭州电子科技大学	第一申请人	杭州电子科技大学
专利权人	杭州电子科技大学	当前专利权人	杭州电子科技大学
发明人	李忠金	第一发明人	李忠金
地址	浙江省杭州市下沙高教园区2号大街	邮编	310018
申请人数量	1	发明人数量	1
申请人所在省	浙江省	申请人所在市	浙江省杭州市

代理人信息

代理机构

专利代理机构是经省专利管理局审核，国家知识产权局批准设立，可以接受委托人的委托，在委托权限范围内以委托人的名义办理专利申请或其他专利事务的服务机构。

杭州君度专利代理事务所

代理人

专利代理师是代理他人进行专利申请和办理其他专利事务，取得一定资格的人。

杨舟涛

摘要

本发明公开了一种移动边缘计算环境下面向工作流调度的容错方法。本发明步骤：构建移动边缘环境下容错调度框架；建立故障模型；计算复制延迟执行机制和检查点延迟执行机制所需的计算资源；当服务工作流任务到达时，首先将任务放在工作流队列中并且按照先到先服务策略执行，容器调度器判断工作流是否执行执行；选择最佳的容错策略，如果找不到任何调度方案来满足任务的子完工时间，则拒绝执行整个工作流应用；6、如果步骤5没有足够虚拟机执行任务，则采用资源扩展策略新开虚拟机满足资源要求；步骤7、当工作流完成时，则通过资源缩减策略提高资源利用率。本发明在满足工作流的时间约束和存在VM故障情况下使得MEC的资源利用率最大化。

摘要附图
说明书附图：图1
说明书附图：图2
说明书附图：图3

法律状态

序号	法律状态公告日	法律状态	法律状态信息
1	2022-03-01	授权
2	2020-03-06	实质审查的生效	IPC(主分类): G06F 9/455 专利申请号: 201910851811.5 申请日: 2019.09.10
3	2020-02-11	公开

权利要求

权利要求书是申请文件最核心的部分，是申请人向国家申请保护他的发明创造及划定保护范围的文件。

1.一种移动边缘计算环境下面向工作流调度的容错方法，其特征在于包括如下步骤：
步骤1、构建移动边缘环境下容错调度框架；
步骤2、建立故障模型；
通过任务的服务时间和故障到达率计算虚拟机的可靠性；
步骤3、计算复制延迟执行机制所需计算资源；
复制延迟执行机制是通过复制方法产生多个任务副本，然后并行执行这些副本；任务副本分为主副本和备份副本，主副本的执行结果分为成功和失败，通过计算概率统计整个的复制延迟执行的所需的期望计算资源；
步骤4、计算检查点延迟执行机制所需的计算资源；
检查点延迟执行机制的任务执行时间主要由数据接受时间、块执行时间、检查点时间、虚拟机恢复时间和数据传输时间组成；通过计算任务的执行时间得到采用该机制的计算资源；
步骤5、当一批服务工作流任务到达时，首先将任务放在工作流队列中并且按照先到先服务策略执行，容器调度器判断工作流是否执行；根据步骤3和步骤4选择最佳的容错策略，如果找不到任何调度方案来满足任务的子完工时间，则拒绝执行整个工作流应用；
步骤6、如果步骤5没有足够虚拟机(VM)执行任务，则采用资源扩展策略新开虚拟机满足资源要求；
步骤7、当工作流完成时，则通过资源缩减策略提高资源利用率；
检查点延迟执行机制是指将任务任意地分割成独立的块，然后在成功执行每个块之后记录状态；如果在块执行过程中VM发生了故障，则需要重新执行块；任务ti的执行时间为C，Cl表示每个块的执行时间；因此可得公式(17)；在发生VM故障情况下具有检查点方法的任务ti的服务时间表示如公式(18)所示；
其中，Tchec和Treco分别表示执行检查点和VM恢复所需的时间；参数nl表示块Cl执行的次数，此外nl≥1，因为每个块必须至少执行一次。

2.根据权利要求1所述的一种移动边缘计算环境下面向工作流调度的容错方法，其特征在于
当一批服务工作流任务到达时，首先放入到工作流队列中并且按照先到先服务策略执行；然后容器调度器分析工作流的结构，并将截止时间分成若干个子完工时间；子完工时间表示分配给任务的执行时间，首先将服务工作流中任务映射到最大计算单元CU(K)执行；然后根据下面公式计算任务ti的最小执行时间；
假设工作流的任务都在VM(K)上执行，公式(1)能够计算得到整个工作流的最短完工时间通常服务工作流的指定期限TDL必须大于等于最短完工时间，即因此
任务ti的子完工时间定义如公式(2)所示，由公式(2)可知如果每个任务的执行时间小于其子完工时间，那么整个工作流的完工时间将不会超过截止时间；

3.根据权利要求2所述的一种移动边缘计算环境下面向工作流调度的容错方法，其特征在于
VM在执行服务工作流任务时可能发生故障导致任务执行失败；通过使用可用的故障信号和测试用例能够立即检测VM的故障；假设VM在任务执行过程中遇到多个故障，通过应用恢复机制在很短时间内恢复执行；VM的可靠性Pvm(T)根据下面的公式计算，其中T表示一个任务服务时间，λvm表示VM故障的到达率且服从泊松分布；
Pvm(T)＝exp(‑λvm·T)         (3)。

4.根据权利要求3所述的一种移动边缘计算环境下面向工作流调度的容错方法，其特征在于
所述的计算复制延迟执行机制是指通过复制方法产生多个任务副本然后并行执行任务副本；假设复制系数为∈，∈是一个预设的很小的正整数，从而得到公式(4)不等式，其中N(ti)表示任务ti的副本的个数；公式(4)表示在采用复制技术情况下Nrepl(ti)个副本在VM上执行，成功的概率至少为1‑∈；
将N(ti)个任务副本划分为主副本和备份副本，其中主副本优先执行，然后执行备份副本，主副本和备份副本在不同的VM上执行，主副本的数量根据公式(5)计算，备份副本数量Nb(ti)可由公式(6)计算得到；
Nb(ti)＝N(ti)‑Np(ti)        (6)
所述的计算复制延迟执行机制有两种延迟执行的情况；第一种情况：当Tserv(ti，VM(k))≤TsubM(ti)＜2·Tserv(ti，VM(k))时，备份副本在主副本执行过程中开始执行，如果有一个主副本执行成功，备份副本则立即停止执行；第二种情况：当TsubM(ti)≥2·Tserv(ti，VM(k))时，如果所有的主副本执行失败，备份副本才开始执行。

5.根据权利要求4所述的一种移动边缘计算环境下面向工作流调度的容错方法，其特征在于在第一种情况下计算复制延迟执行机制(R‑CE)的具体实现如下：
当Tserv(ti，VM(k))≤TsubM(ti)＜2·Tserv(ti，VM(k))，主副本的执行结果分为成功和失败，接下来计算这两种情况的计算资源；假设至少有一个主副本执行成功，发生的概率为公式(7)；在这种情况下，备份副本只执行一段时间就被中断执行，R‑CE的计算资源如公式(8)；
假设所有主副本都执行失败；发生概率如公式(9)所示，这时所有备份副本都需要执行，在这种情况下计算资源通过公式(10)得到；
根据公式(7)、(8)、(9)和(10)，第一种情况下所需要的计算资源如下：

6.根据权利要求4或5所述的一种移动边缘计算环境下面向工作流调度的容错方法，其特征在于在第二种情况下计算复制延迟执行机制(R‑CE)的具体实现如下：
当TsubM(ti)≥2·Tserv(ti，VM(k))，主副本的执行结果也有两种情况，假设至少有一个主副本执行成功，那么发生的概率为公式(12)；同第一种情况不同，第二种情况的备份副本不需要全部执行，根据公式(13)得到计算资源；
21 11
P ＝P           (12)
假设所有主副本都执行失败，概率如公式(14)所示，这时所有备份副本都需要执行，在这种情况计算资源通过公式(15)得到；
22 12
P ＝P           (14)
因此第二种情况下所需要的总计算资源表示如下：

7.根据权利要求6所述的一种移动边缘计算环境下面向工作流调度的容错方法，其特征在于每个任务的执行时间分为数据接受时间、块执行时间、检查点时间、VM恢复时间和数据传输时间；如果在任务执行过程没有发生VM故障，则VM恢复时间为0；T(C|τ)用来测量成功执行C个单元的工作量所需时间的随机变量；C1表示第一块的大小，从而得到如下递归方程；
任务的期望服务时间如公式(20)所示，此外根据上述理论分析，计算检查点延迟执行机制(C‑DE机制)所需的预期计算资源根据公式(21)计算；
*
Tserv(ti，VM(k))＝E{T(C)}+Trece(ti)+Ttrans(ti)   (20)

8.根据权利要求7所述的一种移动边缘计算环境下面向工作流调度的容错方法，其特征在于如果任务的主副本或者备份副本无法映射到现有的VM，则资源扩展策略需要从现有活动主机创建一组新的VM来执行多个任务副本；对于给定任务ti，首先根据R‑DE机制和C‑DE机制选择最佳VM类型，然后计算最小预期计算资源需求，最后从现有活动主机创建新的VM实例；如果没有满足VM分配要求的主机，则需打开新的主机。

9.根据权利要求7或8所述的一种移动边缘计算环境下面向工作流调度的容错方法，其特征在于如果虚拟机有一小段时间空闲时，系统将通过动态电压频率调整技术降低CPU频率来节省计算资源和能耗；如果VM在长时间内处于空闲状态，则会关闭VM以提高资源利用率；此外，如果主副本执行成功，那么备份副本会被回收，回收的VM将用来执行其他副本任务或者降低CPU频率又或者会被回收。

说明书

技术领域

[0001] 本发明涉及移动边缘计算领域，具体涉及一种移动边缘计算环境下面向工作流调度的容错方法。

背景技术

[0002] 随着通信、网络和智能产品的发展，如手机、平板和笔记本等移动便携式的用户设备(User Equipment，UE)越来越受欢迎。新型移动应用如人脸识别、自然语言处理、增强现实等不断涌出，引起了人们的广泛关注。这些移动应用的执行需要较高的计算资源，并消耗较大的电力能源。然而移动设备由于物理尺寸的限制，通常只具有有限的计算能力和电量。因此，如何在资源受限的移动设备上高效地运行新型移动应用是当前移动网络环境下的一个挑战。

[0003] 移动边缘计算(Mobile Edge Computing，MEC)的出现为该问题的解决提供了新的平台和机遇。MEC通过与内容提供商和应用开发商深度合作，在靠近移动用户侧就近提供内容存储计算及分发服务，使应用、服务和内容部署在高度分布的环境中，以更好地满足低延时的需要。所以在MEC环境中，执行计算和存储的服务器都部署在网络边缘，MEC服务器通过网络功能虚拟化(Network Functions Virtualization，NFV)技术产生多个虚拟机(Virtual Machines，VM)来并行执行不同的计算任务。用户设备通过将移动应用的一部分任务卸载到虚拟机上执行，来提高移动应用的服务质量以及减少UE的能源消耗。一个移动应用一般包括多个任务，任务之间存在先序和数据依赖关系，这些任务可以建模成一个工作流。与并行任务相比，MEC环境下的工作流应用调度问题更具有复杂性和挑战性，比如任务的执行顺序以及执行位置都会对移动应用的完成时间和能耗产生重大影响。

[0004] 可靠性需求是最重要的服务质量(Quality ofService，QoS)评价标准之一，在MEC下工作流调度应该满足可靠性需求。随着MEC的功能和系统复杂度增加，MEC在可靠性方面存在挑战。这是因为通过NFV技术虚拟化的VM会以一定的概率发生故障，这种故障是一种可以在短时间内恢复的软件故障。服务工作流应用如网页加速、人脸识别和虚拟现实，不仅需要执行准确还要保证较低的时延。如果执行任务时发生了VM故障，则需要重新执行该任务，这不可避免推迟了任务的完成时间，影响了服务质量。容错技术可以满足系统的可靠性需求，然而不合理的容错策略将会使用较多的资源，这不仅影响了服务质量而且会增加MEC服务器的负载。然而，现有的容错方法只考虑主机故障忽略了VM故障

发明内容

[0005] 本发明针对现有方法的不足，提出了一种移动边缘计算环境下面向工作流的容错调度算法。

[0006] 本发明所提出一种移动边缘计算环境下面向工作流的容错调度方法，其实现过程中使用有故障模型、容错机制和资源动态调整策略。

[0007] 故障模型测量了虚拟机的可靠性，构建了任务的服务时间和虚拟机故障的到达率计算的关系。

[0008] 容错机制包括了两种容错机制：复制延迟执行机制和检查点延迟执行机制。复制延迟执行机制是指通过复制方法产生多个任务副本然后并行执行任务副本。检查点延迟执行机制是指将任务任意地分割成独立的块，每个块成功执行后记录执行状态。与检查点延迟执行容错机制相比，复制延迟执行需要较多的计算资源较少执行时间。

[0009] 资源动态调整策略由资源扩展和资源缩减组成。如果任务的主副本或者备份副本无法映射到现有的虚拟机，则资源扩展策略需要从现有活动主机创建一组新的虚拟机来执行多个任务副本。当虚拟机短时间空闲则通过动态电压频率调节以降低计算资源和能耗，如果虚拟机长时间处于空闲状态，则会关闭虚拟机以提高资源利用率。

[0010] 本发明的具体步骤如下：

[0011] 一种移动边缘计算环境下面向工作流调度的容错方法，包括如下步骤：

[0012] 步骤1、构建移动边缘环境下容错调度框架；

[0013] 步骤2、建立故障模型；

[0014] 通过任务的服务时间和故障到达率计算虚拟机的可靠性；

[0015] 步骤3、计算复制延迟执行机制所需计算资源；

[0016] 复制延迟执行机制是通过复制方法产生多个任务副本，然后并行执行这些副本；任务副本分为主副本和备份副本，主副本的执行结果分为成功和失败，通过计算概率统计整个的复制延迟执行的所需的期望计算资源；

[0017] 步骤4、计算检查点延迟执行机制所需的计算资源；

[0018] 检查点延迟执行机制的任务执行时间主要由数据接受时间、块执行时间、检查点时间、虚拟机恢复时间和数据传输时间组成；通过计算任务的执行时间得到采用该机制的计算资源；

[0019] 步骤5、当一批服务工作流任务到达时，首先将任务放在工作流队列中并且按照先到先服务策略执行，容器调度器判断工作流是否执行执行；根据步骤3和步骤4选择最佳的容错策略，如果找不到任何调度方案来满足任务的子完工时间，则拒绝执行整个工作流应用；

[0020] 步骤6、如果步骤5没有足够虚拟机(VM)执行任务，则采用资源扩展策略新开虚拟机满足资源要求；

[0021] 步骤7、当工作流完成时，则通过资源缩减策略提高资源利用率。

[0022] 当一批服务工作流任务到达时，首先放入到工作流队列中并且按照先到先服务策略执行；然后调度器分析工作流的结构，并将截止时间分成若干个子完工时间；子完工时间表示分配给任务的执行时间，首先将服务工作流中任务映射到最大计算单元CU(K)执行；然后根据下面公式计算任务tj的最小执行时间；

[0023]

[0024] 假设工作流的任务都在VM(K)上执行，公式(1)能够计算得到整个工作流的最短完工时间通常服务工作流的指定期限TDL必须大于等于最短完工时间，即因此任务ti的子完工时间定义如公式(2)所示，由公式(2)可知如果每个任务的执行时间小于其子完工时间，那么整个工作流的完工时间将不会超过截止时间；

[0025]

[0026] VM在执行服务工作流任务时可能发生故障导致任务执行失败；通过使用可用的故障信号和测试用例能够立即检测VM的故障；假设VM在任务执行过程中遇到多个故障，通过应用恢复机制在很短时间内恢复执行；VM的可靠性Pvm(T)根据下面的公式计算，其中T表示一个任务服务时间，λvm表示VM故障的到达率且服从泊松分布；

[0027] Pvm(T)＝exp(‑λvm·T) (3)。

[0028] 所述的计算复制延迟执行机制是指通过复制方法产生多个任务副本然后并行执行任务副本；假设复制系数为∈，∈是一个预设的很小的正整数，从而得到公式(4)不等式，其中N(ti)表示任务ti的副本的个数；公式(4)表示在采用复制技术情况下Nrepl(ti)个副本在VM上执行，成功的概率至少为1‑∈；

[0029]

[0030] 将N(ti)个任务副本划分为主副本和备份副本，其中主副本优先执行，然后执行备份副本，主副本和备份副本在不同的VM上执行，主副本的数量根据公式(5)计算，备份副本Nb(ti)可由公式(6)计算得到；

[0031]

[0032] Nb(ti)＝N(ti)‑Np(ti) (6)

[0033] 所述的计算复制延迟执行机制有两种延迟执行的情况；第一种情况：当Tserv(ti，VM(k))≤TsubM(ti)＜2·Tserv(ti，VM(k))时，备份副本在主副本执行过程中开始执行，如果有一个主副本执行成功，备份副本则立即停止执行；第二种情况：当TsubM(ti)≥2·Tserv(ti，VM(k))时，如果所有的主副本执行失败，备份副本才开始执行。

[0034] 进一步，在第一种情况下计算复制延迟执行机制(R‑CE)的具体实现如下：

[0035] 当Tserv(ti，VM(k))≤TsubM(ti)＜2·Tserv(ti，VM(k))，主副本的执行结果分为成功和失败，接下来计算这两种情况的计算资源；假设至少有一个主副本执行成功，发生的概率为公式(7)；在这种情况下，备份副本只执行一段时间就被中断执行，R‑CE的计算资源如公式(8)；

[0036]

[0037]

[0038] 假设所有主副本都执行失败；发生概率如公式(9)所示，这时所有备份副本都需要执行，在这种情况下计算资源通过公式(10)得到；

[0039]

[0040]

[0041] 根据公式(7)、(8)、(9)和(10)，第一种情况下所需要的计算资源如下：

[0042]

[0043] 进一步，在第二种情况下计算复制延迟执行机制(R‑CE)的具体实现如下：

[0044] 当TsubM(ti)≥2·Tserv(ti，VM(k))，主副本的执行结果也有两种情况，假设至少有一个主副本执行成功，那么发生的概率为公式(12)；同第一种情况不同，第二种情况的备份副本不需要全部执行，根据公式(13)得到计算资源；

[0045] P21＝P11 (12)

[0046]

[0047] 假设所有主副本都执行失败，概率如公式(13)所示，这时所有备份副本都需要执行，在这种情况计算资源通过公式(14)得到；

[0048] P22＝P12 (14)

[0049]

[0050] 因此第二种情况下所需要的总计算资源表示如下：

[0051]

[0052] 进一步，检查点延迟执行机制是指将任务任意地分割成独立的块，然后在成功执行每个块之后记录状态；如果在块执行过程中VM发生了故障，则需要重新执行块；任务ti的执行时间为C，Cl表示每个块的执行时间；因此可得公式(17)；在发生VM故障情况下具有检查点方法的任务ti的服务时间表示如公式(18)所示；

[0053]

[0054]

[0055] 其中，Tchec和Treco分别表示执行检查点和VM恢复所需的时间；参数nl表示块Cl执行的次数，此外nl≥1，因为每个块必须至少执行一次。

[0056] 进一步，每个任务的执行时间分为数据接受时间、块执行时间、检查点时间、VM恢复时间和数据传输时间；如果在任务执行过程没有发生VM故障，则VM恢复时间为0；T(C|τ)用来测量成功执行C个单元的工作量所需时间的随机变量；C1表示第一块的大小，从而得到如下递归方程；

[0057]

[0058] 任务的期望服务时间如公式(20)所示，此外根据上述理论分析，计算检查点延迟执行机制(C‑DE机制)所需的预期计算资源根据公式(21)计算；

[0059] Tserv(ti，VM(k))＝E{T*(C)}+Trece(ti)+Ttrans(ti) (20)

[0060]

[0061] 进一步，如果任务的主副本或者备份副本无法映射到现有的VM，则资源扩展策略需要从现有活动主机创建一组新的VM来执行多个任务副本；对于给定任务ti，首先根据R‑DE机制和C‑DE机制选择最佳VM类型，然后计算最小预期计算资源需求，最后从现有活动主机创建新的VM实例；如果没有满足VM分配要求的主机，则需打开新的主机。

[0062] 进一步，如果虚拟机有一小段时间空闲时，系统将通过动态电压频率调整技术降低CPU频率来节省计算资源和能耗；如果VM在长时间内处于空闲状态，则会关闭VM以提高资源利用率；此外，如果主副本执行成功，那么备份副本会被回收，回收的VM将用来执行其他副本任务或者降低CPU频率又或者会被回收。

[0063] 本发明有益效果

[0064] 本发明提出了一种移动边缘计算环境下面向工作流的容错调度算法，该算法结合了两种容错机制和资源调整策略，在满足工作流的时间约束和存在VM故障情况下使得MEC的资源利用率最大化。首先介绍了两种容错机制：延迟执行复制和延迟执行检查点来确保发生VM故障时工作流能够执行成功。然后提出了资源调整策略来动态调整计算资源的需求。

实施方案

[0068] 下面将对本发明所提供的容错调度算法作出具体说明。

[0069] 步骤1、如图1所示，当一批服务工作流任务到达时，它们首先放入到工作流队列中并且按照先到先服务策略执行。然后调度器分析工作流的结构，并将截止时间分成若干个子完工时间。子完工时间表示分配给任务的执行时间，首先将服务工作流中任务映射到最大计算单元CU(K)执行。然后根据下面公式计算任务ti的最小执行时间。

[0070]

[0071] 假设工作流的任务都在VM(K)上执行，公式(1)可以计算得到整个工作流的最短完工时间通常服务工作流的指定期限TDL必须不小于最短完工时间，即因此任务ti的子完工时间定义如公式(2)所示，由公式(2)可知如果每个任务的执行时间小于其子完工时间，那么整个工作流的完工时间将不会超过截止时间。

[0072]

[0073] 步骤2、VM在执行服务工作流任务时可能发生故障导致任务执行失败。通过使用可用的故障信号和测试用例可以立即检测VM的故障。假设VM在任务执行过程中遇到多个故障，通过应用恢复机制在很短时间内恢复执行。此外VM的故障是独立的，这意味着VM的故障不干扰其他VM正常运行。VM的可靠性Pvm(T)根据下面的公式计算，其中T表示一个任务服务时间，λvm表示VM故障的到达率且服从泊松分布。

[0074] Pvm(T)＝exp(‑λvm·T) (3)

[0075] 步骤3、.R‑DE容错机制是指通过复制方法产生多个任务副本然后并行执行任务副本。假设复制系数为∈，∈是一个很小的正整数，可以得到公式(4)不等式，其中N(ti)表示任务ti的副本的个数。公式(4)表示在采用复制技术情况下Nrepl(ti)个副本在VM上执行，成功的概率至少为1‑∈。

[0076]

[0077] 与并行执行多个任务副本的传统复制方法不同，R‑DE方法将N(ti)个任务副本划分为主副本和备份副本，其中主副本优先执行，然后执行备份副本，主副本和备份副本在不同的VM上执行，R‑DE运行过程如图2所示。主副本的数量根据公式(5)计算，备份副本Nb(ti)可由公式(6)计算得到。

[0078]

[0079] Nb(ti)＝N(ti)‑Np(ti) (6)

[0080] 从图2可以看出R‑DE机制有两种延迟执行的情况。第一种情况：当Tserv(ti，vm(k))≤TsubM(ti)＜2·Tserv(ti，vm(k))时，备份副本在主副本执行过程中开始执行，如果有一个主副本执行成功，备份副本则立即停止执行；第二种情况：当TsubM(ti)≥2·Tserv(ti，vm(k))时，如果所有的主副本执行失败，备份副本才开始执行。

[0081] 接下来分别计算R‑DE的两种情况下的计算资源。

[0082] (1)情况1：Tserv(ti，VM(k))≤TsubM(ti)＜2·Tserv(ti，VM(k))，主副本的执行结果分为成功和失败，接下来计算这两种情况的计算资源。假设至少有一个主副本执行成功，发生的概率为公式(7)。在这种情况下，备份副本只执行一段时间就被中断执行。R‑CE的计算资源如公式(8)。

[0083]

[0084]

[0085] 假设所有主副本都执行失败。发生概率如公式(9)所示，这时所有备份副本都需要执行，在这种情况下计算资源通过公式(10)得到。

[0086]

[0087]

[0088] 根据公式(7)、(8)、(9)和(10)计算第一种情况下理论上所需要的计算资源如下：

[0089]

[0090] (2)情况2：TsubM(ti)≥2·Tserv(ti，VM(k))，同情况1一样，主副本的执行结果也有两种情况，接下来分别讨论这两种情况的计算资源。假设至少有一个主副本执行成功，那么发生的概率为公式(12)。同情况1不同，情况2的备份副本不需要全部执行，根据公式(13)得到计算资源。

[0091] P21＝P11 (12)

[0092]

[0093] 假设所有主副本都执行失败，概率如公式(13)所示，这时所有备份副本都需要执行，在这种情况计算资源通过公式(14)得到。

[0094] P22＝P12 (14)

[0095]

[0096] 因此理论上R‑DE所需的总计算资源表示如下

[0097]

[0098] 步骤4、检查点机制是指将任务任意地分割成独立的块，然后在成功执行每个块之后记录状态。如果在块执行过程中VM发生了故障，则需要重新执行块。任务ti的执行时间为C，Cl表示每个块的执行时间。因此可得公式(17)。在发生VM故障情况下具有检查点方法的任务ti的服务时间表示如公式(18)所示。

[0099]

[0100]

[0101] 其中Tchec和Treco分别表示执行检查点和VM恢复所需的时间；参数nl表示块Cl执行的次数，此外nl≥1，这是因为每个块必须至少执行一次。

[0102] 图3、展示了C‑DE执行过程，从图中可知一个任务的执行时间分为数据接受时间、块执行时间、检查点时间、VM恢复时间和数据传输时间。注意，如果在任务执行过程没有发生VM故障，则VM恢复时间为0。T(C|τ)用来测量成功执行C个单元的工作量所需时间的随机变量。C1表示第一块的大小，可以得到如下递归方程。

[0103]

[0104] 任务的期望服务时间如公式(20)所示，此外根据上述理论分析，C‑DE机制所需的预期计算资源根据公式(21)计算。

[0105] Tserv(ti，VM(k))＝E{T*(C)}+Trece(ti)+Ttrans(ti) (20)

[0106]

[0107] 步骤5、当一批服务工作流任务到达时，它们首先将任务放在工作流队列中并且按照先到先服务策略执行，容器调度器判断工作流是否执行执行。根据步骤3和步骤4选择容错策略，如果找不到任何调度方案来满足任务的子完工时间，则拒绝执行整个工作流应用。

[0108] 步骤6、如果任务的主副本或者备份副本无法映射到现有的VM，则资源扩展策略需要从现有活动主机创建一组新的VM来执行多个任务副本。对于给定任务ti，首先根据R‑DE机制和C‑DE机制选择最佳VM类型，然后计算最小预期计算资源需求，最后从现有活动主机创建新的VM实例。如果没有满足VM分配要求的主机，则需打开新的主机。

[0109] 步骤7、如果虚拟机有一小段时间空闲时，系统将通过动态电压频率调整技术降低CPU频率来节省计算资源和能耗。如果VM在长时间内处于空闲状态，则会关闭VM以提高资源利用率。此外，如果主副本执行成功，那么备份副本会被回收，回收的VM将用来执行其他副本任务或者降低CPU频率又或者会被回收。

附图说明

[0065] 图1为本发明服务工作流任务到达后流程图；

[0066] 图2为本发明R‑DE运行过程图；

[0067] 图3为本发明C‑DE执行过程图；

1基于云计算的工作流双向调度方法 2一种移动边缘环境下的工作流协作调度方法 3一种移动边缘环境下的服务工作流容错调度方法 4基于萤火虫算法和动态优先级的云工作流调度方法 5一种移动边缘计算环境下面向工作流的容错调度方法 6一种边缘计算环境下针对可靠性的工作流容错调度方法 7基于实时状态监控的多目标粒子群优化的工作流调度方法