首页 > 专利 > 重庆邮电大学 > 基于偏标记学习的用户所在商铺定位大数据预测方法专利详情

基于偏标记学习的用户所在商铺定位大数据预测方法   0    0

有效专利 查看PDF
专利申请流程有哪些步骤?
专利申请流程图
申请
申请号:指国家知识产权局受理一件专利申请时给予该专利申请的一个标示号码。唯一性原则。
申请日:提出专利申请之日。
2019-04-18
申请公布
申请公布指发明专利申请经初步审查合格后,自申请日(或优先权日)起18个月期满时的公布或根据申请人的请求提前进行的公布。
申请公布号:专利申请过程中,在尚未取得专利授权之前,国家专利局《专利公报》公开专利时的编号。
申请公布日:申请公开的日期,即在专利公报上予以公开的日期。
2019-08-20
授权
授权指对发明专利申请经实质审查没有发现驳回理由,授予发明专利权;或对实用新型或外观设计专利申请经初步审查没有发现驳回理由,授予实用新型专利权或外观设计专利权。
2022-05-03
预估到期
发明专利权的期限为二十年,实用新型专利权期限为十年,外观设计专利权期限为十五年,均自申请日起计算。专利届满后法律终止保护。
2039-04-18
基本信息
有效性 有效专利 专利类型 发明专利
申请号 CN201910313789.9 申请日 2019-04-18
公开/公告号 CN110060102B 公开/公告日 2022-05-03
授权日 2022-05-03 预估到期日 2039-04-18
申请年 2019年 公开/公告年 2022年
缴费截止日
分类号 G06Q30/02G06N7/00G06K9/62 主分类号 G06Q30/02
是否联合申请 独立申请 文献类型号 B
独权数量 1 从权数量 3
权利要求数量 4 非专利引证数量 1
引用专利数量 2 被引证专利数量 0
非专利引证 1、2018.05.24王进等.基于MPI的近邻距离加权偏标记学习算法之并行实现《.江苏大学学报(自然科学版)》.2018,第39卷(第6期),杜成喜等.基于XGBoost的用户定位与商铺推荐《.无线互联科技》.2019,(第1期),;
引用专利 US8339316B、US2018144209A 被引证专利
专利权维持 3 专利申请国编码 CN
专利事件 转让 事务标签 公开、实质审查、授权、权利转移
申请人信息
申请人 第一申请人
专利权人 重庆邮电大学 当前专利权人 芽米科技(广州)有限公司
发明人 王进、闵子剑、孙开伟、许景益、邓欣、刘彬 第一发明人 王进
地址 重庆市南岸区南山街道崇文路2号 邮编 400065
申请人数量 1 发明人数量 6
申请人所在省 重庆市 申请人所在市 重庆市南岸区
代理人信息
代理机构
专利代理机构是经省专利管理局审核,国家知识产权局批准设立,可以接受委托人的委托,在委托权限范围内以委托人的名义办理专利申请或其他专利事务的服务机构。
重庆市恒信知识产权代理有限公司 代理人
专利代理师是代理他人进行专利申请和办理其他专利事务,取得一定资格的人。
刘小红、陈栋梁
摘要
本发明请求保护一种基于偏标记学习的用户所在商铺定位大数据预测方法,包括:101对用户的购物状态数据进行预处理操作;102根据每个样本所对应的候选商铺集合构建偏标记数据集;103对偏标记数据集进行特征提取操作;104根据特征空间构建相似度图;105根据相似度图进行概率传播;106通过传播所收敛的概率,从偏标记数据集的候选商铺集合中预测出用户未来有行为互动的商铺。本发明主要是通过对用户历史数据进行预处理,提取特征,转换偏标记数据集,建立偏标记学习模型,根据用户的位置行为的偏标记数据集,从每个用户所对应的候选商铺集合中预测出用户未来有行为互动的商铺,使得用户能够获得更为精准的个性化推送服务,提高用户的购物体验。
  • 摘要附图
    基于偏标记学习的用户所在商铺定位大数据预测方法
  • 说明书附图:图1
    基于偏标记学习的用户所在商铺定位大数据预测方法
  • 说明书附图:图2
    基于偏标记学习的用户所在商铺定位大数据预测方法
  • 说明书附图:图3
    基于偏标记学习的用户所在商铺定位大数据预测方法
法律状态
序号 法律状态公告日 法律状态 法律状态信息
1 2023-01-24 专利权的转移 登记生效日: 2023.01.11 专利权人由重庆邮电大学变更为芽米科技(广州)有限公司 地址由400065 重庆市南岸区南山街道崇文路2号变更为510530 广东省广州市黄埔区科丰路85号801房
2 2022-05-03 授权
3 2019-08-20 实质审查的生效 IPC(主分类): G06Q 30/02 专利申请号: 201910313789.9 申请日: 2019.04.18
4 2019-07-26 公开
权利要求
权利要求书是申请文件最核心的部分,是申请人向国家申请保护他的发明创造及划定保护范围的文件。
1.一种基于偏标记学习的用户所在商铺定位大数据预测方法,其特征在于,包括以下步骤:

101.对用户的位置行为数据进行包括异常样本清洗、缺失Wi‑Fi信息填充的预处理操作;

102.根据每个样本所对应的候选商铺集合,数据集中的每个样本为某一个用户对应的一种购物状态,每个用户的不同购物状态对应于不同的候选商铺集合,每个样本的候选商铺集合根据一定的规则获取,对于每个样本,此规则概括为三个步骤:1、根据距离找到离此用户当前购物状态最近的10个商铺;2、根据凸二次规划问题,来求解这10个店铺对于此用户当前购物状态的重要性;3、根据重要性,选择权重值大于阈值0.4的商铺作为候选商铺集合,构建偏标记数据集;

103.对偏标记数据集进行特征提取操作,提取Wi‑Fi距离强度特征向量的特征组成特征空间,特征向量的每一维代表为数据集出现的每一种Wi‑Fi在该用户当前购物状态下的距离强度值;

104.根据特征空间构建相似度图,具体包括:
对于数据集中的每一个样本xi,重复性地做相同的操作:1、将xi当作相似度图的一个结点;2、将xi看作中心点,根据xi与数据集中的其他样本之间Wi‑Fi距离强度特征向量的欧氏距离,为xi选取欧氏距离最小的10个样本,然后根据xi与选取的这10个样本,xi看作是这10个样本的中心样本点,在相似图中将其在图中所对应的结点用边连接起来;

105.根据相似度图进行概率传播;对于数据集中的每一个样本xi,重复性地做相同的操作:1、初始化:根据似然函数计算最优参数,从而计算出xi所对应的候选商铺集合中的每个候选商铺可能互动的概率,将此概率分布作为xi所对应的候选商铺集合中的每个候选商铺的初始化概率分布;2、对于概率传播算法的第t次迭代:根据基于相似图的公式获得第t次迭代的xi所对应的候选商铺的概率分布,实现第t次迭代的概率传播,计算这个公式的过程就是一次概率传播的过程,此传播过程只能实现相似图中每条边所对应的两个结点之间的传播,由于在传播的过程中可能会导致不在xi所对应的候选商铺集合的商铺的互动概率不为0,因此要对所有商铺相对于xi的互动概率进行消歧归一化,a、对于非候选商铺集合的商铺的互动概率置为0;b、对于候选商铺集合的商铺的互动概率进行最大最小归一化;

106.通过步骤105概率传播所收敛的概率,从偏标记数据集的候选商铺集合中预测出用户未来有行为互动的商铺;
所述步骤101对用户的购物状态数据进行预处理操作具体步骤为:

1011.异常样本清洗:异常样本的清洗首先通过原数据集中的经纬度和当前购物状态的Wi‑Fi强度信息,根据公式
计算每个样本的异常置信度,其中λi, τi分别为第i个样本所对应用户的经度、纬度和当前状态的Wi‑Fi强度,m表示数据集样本数量,若某样本的异常置信度ci低于0.15或者高于0.85,则将该样本判定为异常样本,并将其从原数据集中过滤出去;

1012.缺失Wi‑Fi信息的填充:首先找到离Wi‑Fi强度信息缺失的样本经纬度最为相似的10个样本,且这10个样本对应的Wi‑Fi强度信息均为已知信息,其两个样本之间的相似性根据公式
进行计算,其中λa, λb, 分别为样本a所对应用户的经纬度和样本b所对应用户的经纬度, 分别为经度和纬度在整个数据集中的方差,然后通过这10个样本根据公式去填充该样本缺失的Wi‑Fi强度信息,其中样本a为待填充样本,ai(i=1,2,…,10)为样本a的10个近邻样本, 为样本ai所对应的Wi‑Fi强度信息;
所述步骤102根据每个样本所对应的候选商铺集合构建偏标记数据集的具体步骤为:
对于原数据中的每个样本,重复执行以下操作以构造偏标记数据集:(1)根据原数据集中用户经纬度和商铺经纬度,计算样本与每个商铺之间的距离
其中λA, 分别
表示店铺A的经纬度,λa, 分别表示样本a经纬度;(2)根据计算得到的距离d,选取与样本距离最近的10个商铺;(3)根据此样本所对应的距离最近的10个商铺的经纬度,对如下二次规划方程进行优化:
求解该样本所对应的10个商铺相对此样本的权重值,其中λa, 分别表示样本a所对应用户经纬度,ωa,i(i=1,2,…,10)分别表示距离样本a最近的10个商铺中的商铺i相对于样本a的权重值, 分别表示样本a所对应最近的10个商铺的经纬度,若计
算出来的商铺所对应权重大于0.4,则将该商铺添加到该样本的候选商铺集合中;
所述步骤103对偏标记数据集进行特征提取操作,具体包括步骤:
Wi‑Fi距离强度:首先将Wi‑Fi名称离散化为1000维特征向量,特征值即为Wi‑Fi名所对应的Wi‑Fi强度,然后根据转换公式:
将离散化的Wi‑Fi强度特征向量转换为了Wi‑Fi距离强度特征向量,其中 为第i个样本的1000维Wi‑Fi距离强度特征向量, 为第i个样本的1000维Wi‑Fi名所对应的Wi‑Fi强度特征向量,|Yi|为第i个样本对应的候选商铺集合的大小, 分别表示该样
本对应候选商铺Aj的经纬度,λa, 分别表示该样本对应用户经纬度;
所述步骤105根据相似度图进行概率传播,具体步骤为:

1051.初始化概率:对于每个样本,首先假设商铺出现在其候选商铺集合中的概率为整个数据集中该商铺出现的比例,即将商铺在数据集中出现的概率作为商铺出现在该样本候选商铺集合概率的先验知识,并假设在第i个样本的Wi‑Fi距离强度出现的条件下,候选集中的商铺为真实标签的概率服从逻辑斯蒂分布,然后根据已有的偏标记数据集,构造出似然函数:
其中p(y∈Si|xi,θ)为在第i个样本的Wi‑Fi距离强度向量出现的条件下,真实标签存在于该样本的候选商铺集合中的概率,ny表示商铺y在整个数据集中出现的次数,πi,y为商铺y出现在其候选商铺集合中的概率,p(y|xi,θ)为在第i个样本的Wi‑Fi距离强度向量出现的条件下,商铺y为真实标签的概率,这个似然函数形式化了整个数据集中的每一个样本的真实标签都存在于候选商铺集合这个已知的事实,而参数值θ用极大似然估计进行预估,其中即为在此样本的Wi‑Fi距离强度特征向量出现
的条件下,该商铺y在未来将会被此样本所对应用户的进行交互行为的概率,将作为概率传播的初始化概率;

1052.概率的传播:在概率传播的第t轮迭代中,根据上一轮迭代的概率矩阵Ft‑1和初始化概率矩阵P=[p(yi=j|xi,θ)]m×q,就能获得一轮新的受到领域样本传播影响的概率矩阵Ft:
m×m
其中W∈R 为样本与样本之间的相似度矩阵,概率传播一共迭代50轮,在概率传播的每一轮中,每个样本所对应的商铺互动概率按照样本之间的相似度传播给其所对应的近邻示例,每个样本根据其10个近邻样本所对应的商铺互动概率来更新自己对此商铺的互动概率。

2.根据权利要求1所述的基于偏标记学习的用户所在商铺定位大数据预测方法,其特征在于,所述步骤104根据特征空间构建相似度图的具体步骤为:
为了构造基于特征空间的相似度图,需要分别定义相似图的结点V、相似图的边E以及相似图的边权重ωe;

1041.相似图的结点的定义:将偏标记数据集中的每一个样本视为相似度图中的结点;

1042.相似图的边的定义:对于偏标记数据集中的每一个样本即相似度图中的每一个结点,选择与之Wi‑Fi距离强度欧式距离最近的10个除自身以外的样本作为关联对象,即将相似图中对应的两点进行连接,作为相似图的边;

1043.相似图的边权重的定义:根据公式(2)中的similar(a,b)作为相似图的边(a,b)的权重,其中a,b分别为相似图中两个结点在偏标记数据集中所对应的两个样本。

3.根据权利要求2所述的基于偏标记学习的用户所在商铺定位大数据预测方法,其特征在于,在偏标记学习问题中,每一轮迭代需要对更新后的概率矩阵进行消歧操作,即将每个样本非候选商铺集合中的商铺互动概率置为0,对候选商铺集合中的商铺互动概率进行归一化:

4.根据权利要求3所述的基于偏标记学习的用户所在商铺定位大数据预测方法,其特征在于,所述步骤106通过传播所收敛的概率,从偏标记数据集的候选商铺集合中预测出用户未来有行为互动的商铺的具体步骤为:
根据105步骤中所传播收敛得到的概率矩阵Ft,即可获得每个样本对应用户最有可能互动的预测商铺:
说明书

技术领域

[0001] 本发明属于偏标记学习、大数据处理技术领域,尤其基于概率传播模型用户所在商铺定位大数据预测。

背景技术

[0002] 偏标记学习是输出空间与一组候选标签集合相关联的一种弱监督学习,候选标签集合中仅有一个为真实标记,剩余标签被视为干扰噪声标签。在偏标记训练的过程中,每个训练样本的真实标签被淹没在候选标签集合中,因此无法类似于强监督学习那样,直接从数据集中获得输入空间到输出空间的学习算法。然而,在现实生活中,带有准确唯一标签信息的数据集越难越获得。因此我们不得不面对如何从不具有单一性和明确性的数据集中学习的严峻问题。最近,偏标记学习提供了很多有效的方法去解决此类问题,并且广泛地运用在了许多实际应用中,特别在用户所在商铺定位问题上有十分大的突破。
[0003] 随着互联网移动支付的迅速普及,我们享受到越来越多智能定位所带来的生活便利。例如当客户走入商场的某家餐厅时,手机会自动弹出该餐厅的优惠券;当客户走入商场服装店时,手机可以自动推荐这家店里您喜欢的衣服;在客户路过商场一家珠宝店时,手机可以自动提示客户想了很久的一款钻戒已经有货了;离开商场停车场时,手机在客户的许可下可以自动交停车费。这些客户所享受的贴心服务都离不开背后大数据挖掘和机器学习的支持。客户所在商铺定位分析在隐性地带给客户人工智能体验的同时,使得用户更容易了解自己所感兴趣的商铺信息,从而间接地提高了客户的购买力。如何在正确的时间、正确的地点给用户最有效的服务,是大数据时代智能化拓展的新挑战。

发明内容

[0004] 本发明旨在解决以上现有技术的问题。提出了一种使得用户能够获得更为精准的个性化推送服务,提高用户的购物体验的基于偏标记学习的用户所在商铺定位大数据预测方法。本发明的技术方案如下:
[0005] 一种基于偏标记学习的用户所在商铺定位大数据预测方法,其包括以下步骤:
[0006] 101.对用户的位置行为数据进行包括异常样本清洗、缺失Wi‑Fi信息填充在内的预处理操作;
[0007] 102.根据每个样本所对应的候选商铺集合,数据集中的每个样本为某一个用户对应的一种购物状态,每个用户的不同购物状态对应于不同的候选商铺集合,每个样本的候选商铺集合根据一定的规则获取,对于每个样本,此规则可以概括为三个步骤:1、根据距离找到离此用户当前购物状态最近的10个商铺;2、根据优化一个创新的凸二次规划问题,来求解这10个店铺对于此用户当前购物状态的重要性;3、根据重要性,选择重要性大于阈值0.4的商铺作为候选商铺集合,构建偏标记数据集;
[0008] 103.对偏标记数据集进行特征提取操作,提取Wi‑Fi距离强度特征向量的特征组成特征空间,该特征向量类似于ONE‑HOT特征向量,特征向量的每一维代表为数据集出现的每一种Wi‑Fi在该用户当前购物状态下的距离强度值;
[0009] 104.根据特征空间构建相似度图,具体包括:
[0010] 对于数据集中的每一个样本xi,重复性地做相同的操作:1、将xi当作相似度图的一个结点;2、将xi看作中心点,根据xi与数据集中的其他样本之间Wi‑Fi距离强度特征向量的欧氏距离,为xi选取欧氏距离最小的10个样本,然后根据xi与选取的这10个样本,xi可以看作是这10个样本的中心样本点,在相似图中将其在图中所对应的结点用边连接起来;
[0011] 105.根据相似度图进行概率传播;对于数据集中的每一个样本xi,重复性地做相同的操作:1、初始化:根据似然函数(公式(6))计算最优参数,从而计算出xi所对应的候选商铺集合中的每个候选商铺可能互动的概率,将此概率分布作为xi所对应的候选商铺集合中的每个候选商铺的初始化概率分布;2、对于概率传播算法的第t次迭代:根据基于相似图的公式获得第t次迭代的xi所对应的候选商铺的概率分布,实现第t次迭代的概率传播,计算这个公式的过程就是一次概率传播的过程,此传播过程只能实现相似图中每条边所对应的两个结点之间的传播,由于在传播的过程中可能会导致不在xi所对应的候选商铺集合的商铺的互动概率不为0,因此要对所有商铺相对于xi的互动概率进行消歧归一化,a、对于非候选商铺集合的商铺的互动概率置为0;b、对于候选商铺集合的商铺的互动概率进行最大最小归一化。
[0012] 106.通过步骤105概率传播所收敛的概率,从偏标记数据集的候选商铺集合中预测出用户未来有行为互动的商铺。
[0013] 进一步的,,所述步骤101对用户的购物状态数据进行预处理操作具体步骤为:
[0014] 1011.异常样本清洗:异常样本的清洗首先通过原数据集中的经纬度和当前购物状态的Wi‑Fi强度信息,根据公式
[0015]
[0016] 计算每个样本的异常置信度,其中λi, τi分别为第i个样本所对应用户的经度、纬度和当前状态的Wi‑Fi强度,m表示数据集样本数量,若某样本的异常置信度ci低于0.15或者高于0.85,则将该样本判定为异常样本,并将其从原数据集中过滤出去;
[0017] 1012.缺失Wi‑Fi信息的填充:首先找到离Wi‑Fi强度信息缺失的样本经纬度最为相似的10个样本,且这10个样本对应的Wi‑Fi强度信息均为已知信息,其两个样本之间的相似性根据公式
[0018]
[0019] 进行计算,其中λa, λb, 分别为样本a所对应用户的经纬度和样本b所对应用户的经纬度, 分别为经度和纬度在整个数据集中的方差,然后通过这10个样本根据公式
[0020]
[0021] 去填充该样本缺失的Wi‑Fi强度信息,其中样本a为待填充样本,ai(i=1,2,…,10)为样本a的10个近邻样本, 为样本ai所对应的Wi‑Fi强度信息。
[0022] 进一步的,所述步骤102根据每个样本所对应的候选商铺集合构建偏标记数据集的具体步骤为:
[0023] 对于原数据中的每个样本,重复执行以下操作以构造偏标记数据集:(1)根据原数据集中 用 户经纬 度和商 铺经 纬度 ,计算样 本与每 个商 铺之间 的距 离其中λA, 分别表示店铺A的经纬度,λa, 分别表示样本a经纬度;(2)根据计算得到的距离d,选取与样本距离最近的10个商铺;(3)根据此样本所对应的距离最近的10个商铺的经纬度,对如下二次规划方程进行优化:
[0024]
[0025] 求解该样本所对应的10个商铺相对此样本的权重值,其中λa, 分别表示样本a所对应用户经纬度,ωa,i(i=1,2,…,10)分别表示距离样本a最近的10个商铺中的商铺i相对于样本a的权重值, 分别表示样本a所对应最近的10个商铺的经纬度,若计算出来的商铺所对应权重大于0.4,则将该商铺添加到该样本的候选商铺集合中。
[0026] 进一步的,所述步骤103对偏标记数据集进行特征提取操作,具体包括步骤:
[0027] Wi‑Fi距离强度:首先将Wi‑Fi名称离散化为1000维特征向量,特征值即为Wi‑Fi名所对应的Wi‑Fi强度,然后根据转换公式:
[0028]
[0029] 将离散化的Wi‑Fi强度特征向量转换为了Wi‑Fi距离强度特征向量,其中 为第i个样本的1000维Wi‑Fi距离强度特征向量, 为第i个样本的1000维Wi‑Fi名所对应的Wi‑Fi强度特征向量,|Yi|为第i个样本对应的候选商铺集合的大小, 分别表示该样本对应候选商铺Aj的经纬度,λa, 分别表示该样本对应用户经纬度。
[0030] 进一步的,所述步骤104根据特征空间构建相似度图的具体步骤为:
[0031] 为了构造基于特征空间的相似度图,需要分别定义相似图的结点V、相似图的边E以及相似图的边权重ωe;
[0032] 1041.相似图的结点的定义:将偏标记数据集中的每一个样本视为相似度图中的结点;
[0033] 1042.相似图的边的定义:对于偏标记数据集中的每一个样本即相似度图中的每一个结点,选择与之Wi‑Fi距离强度欧式距离最近的10个除自身以外的样本作为关联对象,即将相似图中对应的两点进行连接,作为相似图的边;
[0034] 1043.相似图的边权重的定义:根据公式(2)中的similar(a,b)作为相似图的边(a,b)的权重,其中a,b分别为相似图中两个结点在偏标记数据集中所对应的两个样本。
[0035] 进一步的,所述步骤105根据相似度图进行概率传播,具体步骤为:
[0036] 1051.初始化概率:对于每个样本,首先假设商铺出现在其候选商铺集合中的概率为整个数据集中该商铺出现的比例,即将商铺在数据集中出现的概率作为商铺出现在该样本候选商铺集合概率的先验知识,并假设在第i个样本的Wi‑Fi距离强度出现的条件下,候选集中的商铺为真实标签的概率服从逻辑斯蒂分布,然后根据已有的偏标记数据集,构造出似然函数:
[0037]
[0038] 其中p(y∈Si|xi,θ)为在第i个样本的Wi‑Fi距离强度向量出现的条件下,真实标签存在于该样本的候选商铺集合中的概率,ny表示商铺y在整个数据集中出现的次数,πi,y为商铺y出现在其候选商铺集合中的概率,p(y|xi,θ)为在第i个样本的Wi‑Fi距离强度向量出现的条件下,商铺y为真实标签的概率,这个似然函数形式化了整个数据集中的每一个样本的真实标签都存在于候选商铺集合这个已知的事实,而参数值θ可以用极大似然估计进行预估,其中 即为在此样本的Wi‑Fi距离强度特征向量出现的条件下,该商铺y在未来将会被此样本所对应用户的进行交互行为的概率,将作为概率传播的初始化概率;
[0039] 1052.概率的传播:在概率传播的第t轮迭代中,根据上一轮迭代的概率矩阵Ft‑1和初始化概率矩阵P=[p(yi=j|xi,θ)]m×q,就能获得一轮新的受到领域样本传播影响的概率矩阵Ft:
[0040]
[0041] 其中W∈Rm×m为样本与样本之间的相似度矩阵,概率传播一共迭代50轮,在概率传播的每一轮中,每个样本所对应的商铺互动概率按照样本之间的相似度传播给其所对应的近邻示例,每个样本根据其10个近邻样本所对应的商铺互动概率来更新自己对此商铺的互动概率。
[0042] 进一步的,在偏标记学习问题中,每一轮迭代需要对更新后的概率矩阵进行消歧操作,即将每个样本非候选商铺集合中的商铺互动概率置为0,对候选商铺集合中的商铺互动概率进行归一化:
[0043]
[0044] 进一步的,所述步骤106通过传播所收敛的概率,从偏标记数据集的候选商铺集合中预测出用户未来有行为互动的商铺的具体步骤为:
[0045] 根据105步骤中所传播收敛得到的概率矩阵Ft,即可获得每个样本对应用户最有可能互动的预测商铺:
[0046]
[0047] 本发明的优点及有益效果如下:
[0048] 1、商铺定位应用本身,最常用的预测方法为基本的多分类机器学习方法,而多分类方法会消耗大量的资源,而且每个样本可能的标签应该是所有标签的子集,即每个样本的真实标签只有可能出现在某几个标签中,而不是多分类方法将所有标签看作可能的真实标签,这样会导致多分类方法的精度不足。因此本专利创新性地将商铺定位应用看作了偏标记学习方法进行预测,可以充分利用每个样本仅可能互动的那几个的商铺的标签信息进行预测,大大提高模型的精度;
[0049] 2、在异常样本清洗步骤中,考虑到数据集中的样本均在同一个商圈中这一事实,本专利创新地创造了与样本所对应用户的经纬度以及当前购物状态的Wi‑Fi强度相关的异常置信度,将偏离数据集中的平均置信水平太高或者自身置信水平太低的样本清洗出去。
[0050] 3、跟据商铺定位应用中不同样本之间所对应用户经纬度越相似,它们所处的购物状态就应该越相似的原则,本专利创新性地创造了基于此原则的相似度公式,来表示不同样本之间的相似程度,此相似度在本专利中有两个作用:(1)根据与Wi‑Fi信息缺失的样本相似度最低的10个样本,去填充Wi‑Fi信息缺失的样本的缺失信息;(2)相似度可以作为相似图中,样本之间边权重大小。
[0051] 4、在构造偏标记数据集的过程中,常规的构造方法仅仅通过寻找该样本对应用户距离最近的10个商铺即可,然而这样会给偏标记数据集带来过多的噪声值,因此我们还需要对距离最近的10个商铺进行筛选,本专利创新性地创造了与商铺经纬度以及样本所对应用户的经纬度相关的二次规划方程,此二次规划方程将每个商铺相对于该样本的互动权重作为求解变量,根据最优化二次规划方程所对应的最优求解变量,就能够尽可能地筛选出用户当前购物状态相对距离(相对于其它9个店铺)最接近的商铺,可以大大降低偏标记数据集的候选标签集大小太大所带来的噪声值。
[0052] 5、在特征提取操作过程中,本专利抓住了商铺定位应用中每个样本所对应用户与候选商铺集合中的每个商铺距离的平均值,能够将每个样本中的候选商铺与非候选商铺很好地区分开来的特性,并同时考虑到平均距离无法很好地区分候选商铺集合中的商铺的问题,将每个样本所对应的Wi‑Fi强度与平均距离结合起来,创新性地提出了Wi‑Fi距离强度向量特征,在区分候选商铺与非候选商铺的同时,保证了候选商铺集合中的商铺之间的区分度。
[0053] 6、在概率传播的过程中,本专利将经典的标签传播算法进行改造。经典的标签传播算法仅考虑了候选商铺的出现和未出现这种表面层次,而未考虑候选商铺集合的潜在概率分布,因此经典的标签传播算法无法达到令人满意的表现力,本专利利用了标签传播算法的架构,在此基础上本专利提出的概率传播算法,根据基于逻辑斯蒂分布的极大似然估计,去挖掘出每个样本所对应候选商铺集合的概率分布,然后将估计得到的概率分布放入标签传播算法的框架中去,并创新地提出消歧归一化(a、对于非候选商铺集合的商铺的互动概率置为0;b、对于候选商铺集合的商铺的互动概率进行最大最小归一化)优化了传播过程中非候选商铺概率不为0的问题。本质上说,概率传播算法解决了标签传播算法只能在数据表层进行数据挖掘的缺点,大大提高了偏标记学习的预测结果。

实施方案

[0057] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。
[0058] 本发明解决上述技术问题的技术方案是:
[0059] 参考图1,图1为本发明实施例一提供一种基于偏标记学习的用户所在商铺定位大数据预测方法的流程图,具体包括:
[0060] 101.对用户的购物状态数据进行预处理操作,具体如下:1011.异常样本清洗:异常样本的清洗首先通过原数据集中样本所对应用户的经纬度和当前状态的Wi‑Fi强度信息,根据公式(1)计算每个样本的异常置信度,若某样本的异常置信度ci低于0.15或者高于0.85,则我们将该样本判定为异常样本,并将其从原数据集中过滤出去;1012.缺失Wi‑Fi信息的填充:由于不可抗力的因素,某些样本的Wi‑Fi强度信息无法精准的获取,根据经纬度相似的样本,Wi‑Fi强度信息也应相似的思想,首先找到离Wi‑Fi强度信息缺失的样本所对应用户经纬度最为相似的10个样本,且这10个样本对应的Wi‑Fi强度信息均为已知信息,其两个样本之间的相似性根据公式(2)进行计算,然后通过这10个样本根据公式(3)去填充该样本缺失的Wi‑Fi强度信息。
[0061] 102.根据每个用户所对应的候选商铺集合构建偏标记数据集,具体如下:对于原数据中的每个样本,重复执行以下操作以构造偏标记数据集:(1)根据原数据集中用户经纬度和商铺经纬度,计算样本与每个商铺之间的距离(其中λA, 分别
表示店铺A的经纬度,λa, 分别表示用户a经纬度);(2)跟据计算得到的距离d,选取与样本距离最近的10个商铺;(3)根据此样本所对应的距离最近的10个商铺的经纬度,对二次规划方程(公式(4))进行优化,求解该样本所对应的10个商铺相对此样本的权重值,若计算出来的商铺所对应权重大于0.4,则将该商铺添加到该样本的候选商铺集合中。
[0062] 103.根据对用户经纬度和Wi‑Fi强度信息,对偏标记数据集进行特征提取操作,具体如下:首先将Wi‑Fi名称离散化为1000维特征向量,特征值即为Wi‑Fi名所对应的Wi‑Fi强度,然后根据转换公式(5)将离散化的Wi‑Fi强度特征向量转换为了Wi‑Fi距离强度特征向量。
[0063] 104.根据特征空间构建相似度图,具体如下:为了构造基于特征空间的相似度图(见图2),需要分别定义相似图的结点V、相似图的边E以及相似图的边权重ωe。
[0064] 1041.相似图的结点的定义:将偏标记数据集中的每一个样本视为相似度图中的结点。
[0065] 1042.相似图的边的定义:对于偏标记数据集中的每一个样本(相似度图中的每一个结点),选择与之Wi‑Fi距离强度欧式距离最近的10个除自身以外的样本(结点)作为关联对象,即将相似图中对应的两点进行连接,作为相似图的边。
[0066] 1043.相似图的边权重的定义:根据公式(2)中的similar(a,b)作为相似图的边(a,b)的权重,其中a,b分别为相似图中两个结点在偏标记数据集中所对应的两个样本。
[0067] 105.根据相似度图进行概率传播,具体如下:
[0068] 1051.初始化概率:对于每个样本,首先假设商铺出现在其候选商铺集合中的概率为整个数据集中该商铺出现的比例,即将商铺在数据集中出现的概率作为商铺出现在该样本候选商铺集合概率的先验知识,并进一步假设在第i个样本的Wi‑Fi距离强度出现的条件下,候选集中的商铺为真实标签的概率服从逻辑斯蒂分布,然后根据已有的偏标记数据集,构造出了似然函数为公式(6),个似然函数形式化了整个数据集中的每一个样本的真实标签都存在于候选商铺集合这个已知的事实。而参数值θ可以用极大似然估计进行预估,其中即为在此样本的Wi‑Fi距离强度特征向量出现的条件下,该商铺y在未来将会被此样本所对应用户的进行交互行为的概率,将作为概率传播的初始化概率。
[0069] 1052.概率的传播:在概率传播的第t轮迭代中,根据上一轮迭代的概率矩阵Ft‑1和初始化概率矩阵P=[p(yi=j|xi,θ)]m×q,就能获得一轮新的受到领域样本传播影响的概率矩阵Ft为公式(7),概率传播一共迭代50轮。在概率传播的每一轮中,每个样本所对应的商铺互动概率按照样本之间的相似度传播给其所对应的近邻示例,每个样本根据其10个近邻样本所对应的商铺互动概率来更新自己对此商铺的互动概率。在偏标记学习问题中,每一轮迭代需要对更新后的概率矩阵进行消歧操作,即将每个样本非候选商铺集合中的商铺互动概率置为0,对候选商铺集合中的商铺互动概率进行归一化操作如公式(8)所示。
[0070] 106.通过传播所收敛的概率,从偏标记数据集的候选商铺集合中预测出用户未来有行为互动的商铺,具体如下:根据105步骤中所传播收敛得到的概率矩阵Ft,即可获得每个样本对应用户最有可能互动的预测商铺为公式(9)所示。基于偏标记的概率传播方法使得用户能够获得更为精准的个性化推送服务,提高用户的购物体验,成为解决如今标签获取困难的条件下能够有效预测的途径。基于大数据的偏标记学习模型在用户所在商铺定位的实际应用的整体框架图见图3。
[0071] 以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。

附图说明

[0054] 图1是本发明提供优选实施例一种基于偏标记学习的用户所在商铺定位大数据预测方法的流程图。
[0055] 图2为本发明提供优选实施例一种基于偏标记学习的用户所在商铺定位大数据预测方法中的样本相似度图。
[0056] 图3为本发明提供优选实施例一种基于偏标记学习的用户所在商铺定位大数据预测方法中偏标记学习模型实际应用整体框架图。
版权所有:盲专网 ©2023 zlpt.xyz  蜀ICP备2023003576号