[0004] 本发明旨在解决以上现有技术的问题。提出了一种使得用户能够获得更为精准的个性化推送服务,提高用户的购物体验的基于偏标记学习的用户所在商铺定位大数据预测方法。本发明的技术方案如下:
[0005] 一种基于偏标记学习的用户所在商铺定位大数据预测方法,其包括以下步骤:
[0006] 101.对用户的位置行为数据进行包括异常样本清洗、缺失Wi‑Fi信息填充在内的预处理操作;
[0007] 102.根据每个样本所对应的候选商铺集合,数据集中的每个样本为某一个用户对应的一种购物状态,每个用户的不同购物状态对应于不同的候选商铺集合,每个样本的候选商铺集合根据一定的规则获取,对于每个样本,此规则可以概括为三个步骤:1、根据距离找到离此用户当前购物状态最近的10个商铺;2、根据优化一个创新的凸二次规划问题,来求解这10个店铺对于此用户当前购物状态的重要性;3、根据重要性,选择重要性大于阈值0.4的商铺作为候选商铺集合,构建偏标记数据集;
[0008] 103.对偏标记数据集进行特征提取操作,提取Wi‑Fi距离强度特征向量的特征组成特征空间,该特征向量类似于ONE‑HOT特征向量,特征向量的每一维代表为数据集出现的每一种Wi‑Fi在该用户当前购物状态下的距离强度值;
[0009] 104.根据特征空间构建相似度图,具体包括:
[0010] 对于数据集中的每一个样本xi,重复性地做相同的操作:1、将xi当作相似度图的一个结点;2、将xi看作中心点,根据xi与数据集中的其他样本之间Wi‑Fi距离强度特征向量的欧氏距离,为xi选取欧氏距离最小的10个样本,然后根据xi与选取的这10个样本,xi可以看作是这10个样本的中心样本点,在相似图中将其在图中所对应的结点用边连接起来;
[0011] 105.根据相似度图进行概率传播;对于数据集中的每一个样本xi,重复性地做相同的操作:1、初始化:根据似然函数(公式(6))计算最优参数,从而计算出xi所对应的候选商铺集合中的每个候选商铺可能互动的概率,将此概率分布作为xi所对应的候选商铺集合中的每个候选商铺的初始化概率分布;2、对于概率传播算法的第t次迭代:根据基于相似图的公式获得第t次迭代的xi所对应的候选商铺的概率分布,实现第t次迭代的概率传播,计算这个公式的过程就是一次概率传播的过程,此传播过程只能实现相似图中每条边所对应的两个结点之间的传播,由于在传播的过程中可能会导致不在xi所对应的候选商铺集合的商铺的互动概率不为0,因此要对所有商铺相对于xi的互动概率进行消歧归一化,a、对于非候选商铺集合的商铺的互动概率置为0;b、对于候选商铺集合的商铺的互动概率进行最大最小归一化。
[0012] 106.通过步骤105概率传播所收敛的概率,从偏标记数据集的候选商铺集合中预测出用户未来有行为互动的商铺。
[0013] 进一步的,,所述步骤101对用户的购物状态数据进行预处理操作具体步骤为:
[0014] 1011.异常样本清洗:异常样本的清洗首先通过原数据集中的经纬度和当前购物状态的Wi‑Fi强度信息,根据公式
[0015]
[0016] 计算每个样本的异常置信度,其中λi, τi分别为第i个样本所对应用户的经度、纬度和当前状态的Wi‑Fi强度,m表示数据集样本数量,若某样本的异常置信度ci低于0.15或者高于0.85,则将该样本判定为异常样本,并将其从原数据集中过滤出去;
[0017] 1012.缺失Wi‑Fi信息的填充:首先找到离Wi‑Fi强度信息缺失的样本经纬度最为相似的10个样本,且这10个样本对应的Wi‑Fi强度信息均为已知信息,其两个样本之间的相似性根据公式
[0018]
[0019] 进行计算,其中λa, λb, 分别为样本a所对应用户的经纬度和样本b所对应用户的经纬度, 分别为经度和纬度在整个数据集中的方差,然后通过这10个样本根据公式
[0020]
[0021] 去填充该样本缺失的Wi‑Fi强度信息,其中样本a为待填充样本,ai(i=1,2,…,10)为样本a的10个近邻样本, 为样本ai所对应的Wi‑Fi强度信息。
[0022] 进一步的,所述步骤102根据每个样本所对应的候选商铺集合构建偏标记数据集的具体步骤为:
[0023] 对于原数据中的每个样本,重复执行以下操作以构造偏标记数据集:(1)根据原数据集中 用 户经纬 度和商 铺经 纬度 ,计算样 本与每 个商 铺之间 的距 离其中λA, 分别表示店铺A的经纬度,λa, 分别表示样本a经纬度;(2)根据计算得到的距离d,选取与样本距离最近的10个商铺;(3)根据此样本所对应的距离最近的10个商铺的经纬度,对如下二次规划方程进行优化:
[0024]
[0025] 求解该样本所对应的10个商铺相对此样本的权重值,其中λa, 分别表示样本a所对应用户经纬度,ωa,i(i=1,2,…,10)分别表示距离样本a最近的10个商铺中的商铺i相对于样本a的权重值, 分别表示样本a所对应最近的10个商铺的经纬度,若计算出来的商铺所对应权重大于0.4,则将该商铺添加到该样本的候选商铺集合中。
[0026] 进一步的,所述步骤103对偏标记数据集进行特征提取操作,具体包括步骤:
[0027] Wi‑Fi距离强度:首先将Wi‑Fi名称离散化为1000维特征向量,特征值即为Wi‑Fi名所对应的Wi‑Fi强度,然后根据转换公式:
[0028]
[0029] 将离散化的Wi‑Fi强度特征向量转换为了Wi‑Fi距离强度特征向量,其中 为第i个样本的1000维Wi‑Fi距离强度特征向量, 为第i个样本的1000维Wi‑Fi名所对应的Wi‑Fi强度特征向量,|Yi|为第i个样本对应的候选商铺集合的大小, 分别表示该样本对应候选商铺Aj的经纬度,λa, 分别表示该样本对应用户经纬度。
[0030] 进一步的,所述步骤104根据特征空间构建相似度图的具体步骤为:
[0031] 为了构造基于特征空间的相似度图,需要分别定义相似图的结点V、相似图的边E以及相似图的边权重ωe;
[0032] 1041.相似图的结点的定义:将偏标记数据集中的每一个样本视为相似度图中的结点;
[0033] 1042.相似图的边的定义:对于偏标记数据集中的每一个样本即相似度图中的每一个结点,选择与之Wi‑Fi距离强度欧式距离最近的10个除自身以外的样本作为关联对象,即将相似图中对应的两点进行连接,作为相似图的边;
[0034] 1043.相似图的边权重的定义:根据公式(2)中的similar(a,b)作为相似图的边(a,b)的权重,其中a,b分别为相似图中两个结点在偏标记数据集中所对应的两个样本。
[0035] 进一步的,所述步骤105根据相似度图进行概率传播,具体步骤为:
[0036] 1051.初始化概率:对于每个样本,首先假设商铺出现在其候选商铺集合中的概率为整个数据集中该商铺出现的比例,即将商铺在数据集中出现的概率作为商铺出现在该样本候选商铺集合概率的先验知识,并假设在第i个样本的Wi‑Fi距离强度出现的条件下,候选集中的商铺为真实标签的概率服从逻辑斯蒂分布,然后根据已有的偏标记数据集,构造出似然函数:
[0037]
[0038] 其中p(y∈Si|xi,θ)为在第i个样本的Wi‑Fi距离强度向量出现的条件下,真实标签存在于该样本的候选商铺集合中的概率,ny表示商铺y在整个数据集中出现的次数,πi,y为商铺y出现在其候选商铺集合中的概率,p(y|xi,θ)为在第i个样本的Wi‑Fi距离强度向量出现的条件下,商铺y为真实标签的概率,这个似然函数形式化了整个数据集中的每一个样本的真实标签都存在于候选商铺集合这个已知的事实,而参数值θ可以用极大似然估计进行预估,其中 即为在此样本的Wi‑Fi距离强度特征向量出现的条件下,该商铺y在未来将会被此样本所对应用户的进行交互行为的概率,将作为概率传播的初始化概率;
[0039] 1052.概率的传播:在概率传播的第t轮迭代中,根据上一轮迭代的概率矩阵Ft‑1和初始化概率矩阵P=[p(yi=j|xi,θ)]m×q,就能获得一轮新的受到领域样本传播影响的概率矩阵Ft:
[0040]
[0041] 其中W∈Rm×m为样本与样本之间的相似度矩阵,概率传播一共迭代50轮,在概率传播的每一轮中,每个样本所对应的商铺互动概率按照样本之间的相似度传播给其所对应的近邻示例,每个样本根据其10个近邻样本所对应的商铺互动概率来更新自己对此商铺的互动概率。
[0042] 进一步的,在偏标记学习问题中,每一轮迭代需要对更新后的概率矩阵进行消歧操作,即将每个样本非候选商铺集合中的商铺互动概率置为0,对候选商铺集合中的商铺互动概率进行归一化:
[0043]
[0044] 进一步的,所述步骤106通过传播所收敛的概率,从偏标记数据集的候选商铺集合中预测出用户未来有行为互动的商铺的具体步骤为:
[0045] 根据105步骤中所传播收敛得到的概率矩阵Ft,即可获得每个样本对应用户最有可能互动的预测商铺:
[0046]
[0047] 本发明的优点及有益效果如下:
[0048] 1、商铺定位应用本身,最常用的预测方法为基本的多分类机器学习方法,而多分类方法会消耗大量的资源,而且每个样本可能的标签应该是所有标签的子集,即每个样本的真实标签只有可能出现在某几个标签中,而不是多分类方法将所有标签看作可能的真实标签,这样会导致多分类方法的精度不足。因此本专利创新性地将商铺定位应用看作了偏标记学习方法进行预测,可以充分利用每个样本仅可能互动的那几个的商铺的标签信息进行预测,大大提高模型的精度;
[0049] 2、在异常样本清洗步骤中,考虑到数据集中的样本均在同一个商圈中这一事实,本专利创新地创造了与样本所对应用户的经纬度以及当前购物状态的Wi‑Fi强度相关的异常置信度,将偏离数据集中的平均置信水平太高或者自身置信水平太低的样本清洗出去。
[0050] 3、跟据商铺定位应用中不同样本之间所对应用户经纬度越相似,它们所处的购物状态就应该越相似的原则,本专利创新性地创造了基于此原则的相似度公式,来表示不同样本之间的相似程度,此相似度在本专利中有两个作用:(1)根据与Wi‑Fi信息缺失的样本相似度最低的10个样本,去填充Wi‑Fi信息缺失的样本的缺失信息;(2)相似度可以作为相似图中,样本之间边权重大小。
[0051] 4、在构造偏标记数据集的过程中,常规的构造方法仅仅通过寻找该样本对应用户距离最近的10个商铺即可,然而这样会给偏标记数据集带来过多的噪声值,因此我们还需要对距离最近的10个商铺进行筛选,本专利创新性地创造了与商铺经纬度以及样本所对应用户的经纬度相关的二次规划方程,此二次规划方程将每个商铺相对于该样本的互动权重作为求解变量,根据最优化二次规划方程所对应的最优求解变量,就能够尽可能地筛选出用户当前购物状态相对距离(相对于其它9个店铺)最接近的商铺,可以大大降低偏标记数据集的候选标签集大小太大所带来的噪声值。
[0052] 5、在特征提取操作过程中,本专利抓住了商铺定位应用中每个样本所对应用户与候选商铺集合中的每个商铺距离的平均值,能够将每个样本中的候选商铺与非候选商铺很好地区分开来的特性,并同时考虑到平均距离无法很好地区分候选商铺集合中的商铺的问题,将每个样本所对应的Wi‑Fi强度与平均距离结合起来,创新性地提出了Wi‑Fi距离强度向量特征,在区分候选商铺与非候选商铺的同时,保证了候选商铺集合中的商铺之间的区分度。
[0053] 6、在概率传播的过程中,本专利将经典的标签传播算法进行改造。经典的标签传播算法仅考虑了候选商铺的出现和未出现这种表面层次,而未考虑候选商铺集合的潜在概率分布,因此经典的标签传播算法无法达到令人满意的表现力,本专利利用了标签传播算法的架构,在此基础上本专利提出的概率传播算法,根据基于逻辑斯蒂分布的极大似然估计,去挖掘出每个样本所对应候选商铺集合的概率分布,然后将估计得到的概率分布放入标签传播算法的框架中去,并创新地提出消歧归一化(a、对于非候选商铺集合的商铺的互动概率置为0;b、对于候选商铺集合的商铺的互动概率进行最大最小归一化)优化了传播过程中非候选商铺概率不为0的问题。本质上说,概率传播算法解决了标签传播算法只能在数据表层进行数据挖掘的缺点,大大提高了偏标记学习的预测结果。