首页 > 专利 > 重庆邮电大学 > 一种基于大数据的商铺定位方法专利详情

一种基于大数据的商铺定位方法 0 0

有效专利查看PDF

申请进展

基本信息

申请人信息

代理人信息

摘要

法律状态

权利要求

说明书

专利申请流程有哪些步骤？

申请

申请号：指国家知识产权局受理一件专利申请时给予该专利申请的一个标示号码。唯一性原则。

申请日：提出专利申请之日。

2018-08-22

申请公布

申请公布指发明专利申请经初步审查合格后，自申请日（或优先权日）起18个月期满时的公布或根据申请人的请求提前进行的公布。

申请公布号：专利申请过程中，在尚未取得专利授权之前，国家专利局《专利公报》公开专利时的编号。

申请公布日：申请公开的日期，即在专利公报上予以公开的日期。

2019-02-19

授权

授权指对发明专利申请经实质审查没有发现驳回理由，授予发明专利权；或对实用新型或外观设计专利申请经初步审查没有发现驳回理由，授予实用新型专利权或外观设计专利权。

2020-09-29

预估到期

发明专利权的期限为二十年，实用新型专利权期限为十年，外观设计专利权期限为十五年，均自申请日起计算。专利届满后法律终止保护。

2038-08-22

基本信息

有效性	有效专利	专利类型	发明专利
申请号	CN201810961118.9	申请日	2018-08-22
公开/公告号	CN109242552B	公开/公告日	2020-09-29
授权日	2020-09-29	预估到期日	2038-08-22
申请年	2018年	公开/公告年	2020年
缴费截止日
分类号	G06Q30/02 、G06K9/62 、G06N20/00 、G06F16/909 、H04W4/35 、H04W64/00	主分类号	G06Q30/02
是否联合申请	独立申请	文献类型号	B
独权数量	1	从权数量	7
权利要求数量	8	非专利引证数量	1
引用专利数量	1	被引证专利数量	0
非专利引证	1、2016.12.28CN 102791025 A,2012.11.21闫琰“.基于深度学习的文本表示与分类方法研究”《.中国博士学位论文全文数据库信息科技辑》.2016,;
引用专利	EP2777304B	被引证专利
专利权维持	4	专利申请国编码	CN
专利事件		事务标签	公开、实质审查、授权

申请人信息

申请人	重庆邮电大学	第一申请人	重庆邮电大学
专利权人	重庆邮电大学	当前专利权人	重庆邮电大学
发明人	王进、高选人、孙开伟、欧阳卫华、邓欣、陈乔松、李智星、胡峰、雷大江	第一发明人	王进
地址	重庆市南岸区南山街道崇文路2号	邮编	400065
申请人数量	1	发明人数量	9
申请人所在省	重庆市	申请人所在市	重庆市南岸区

代理人信息

代理机构

专利代理机构是经省专利管理局审核，国家知识产权局批准设立，可以接受委托人的委托，在委托权限范围内以委托人的名义办理专利申请或其他专利事务的服务机构。

重庆市恒信知识产权代理有限公司

代理人

专利代理师是代理他人进行专利申请和办理其他专利事务，取得一定资格的人。

李金蓉

摘要

本发明公开了一种基于大数据的商铺定位方法，包括：101对数据进行预处理操作；102根据记录时间对数据进行划分操作；103根据一定规则构建每条样本的候选集；104对数据进行打标操作；105对数据进行特征工程构建操作；106建立多个机器学习模型，并进行模型融合操作；107通过已建立的模型，根据用户的经纬度、所连接的WiFi信息等数据定位用户所在商铺。本发明主要是通过对用户的经纬度、所连接的WiFi信息等数据进行预处理和分析提取特征，建立多个机器学习模型，从而定位用户当前所在商铺，使得商家能够在在正确的时间、正确的地点给用户最有效的服务。

摘要附图
说明书附图：图1
说明书附图：图2
说明书附图：图3

法律状态

序号	法律状态公告日	法律状态	法律状态信息
1	2020-09-29	授权
2	2019-02-19	实质审查的生效	IPC(主分类): G06Q 30/02 专利申请号: 201810961118.9 申请日: 2018.08.22
3	2019-01-18	公开

权利要求

权利要求书是申请文件最核心的部分，是申请人向国家申请保护他的发明创造及划定保护范围的文件。

1.一种基于大数据的商铺定位方法，其特征在于，包括以下步骤：

101.对用户的交易数据进行预处理操作；所述预处理操作包括：
①对异常值进行清洗，删除原始数据集中用户当前位置与店铺位置距离大的样本，删除WiFi信息中强度为空的WiFi以及强度为正值的WiFi；
②商铺经度和商铺纬度以用户在商铺内交易数据中商铺的所有经度和纬度的中位数代替；
首先将所有经度按强度从小到大排序：
longitude1≤longitude2≤longitude3≤…≤longituden
则商铺的经度确定为：
商铺的纬度也用同样的方法修正；

102.根据记录时间把预处理后的数据划分为训练集和测试集；

103.构建每条样本的候选集；

104.根据当前用户是否在商店，对数据进行打标操作；

105.对训练集和测试集进行特征工程构建操作；

106.对经过特征工程构建的数据建立多个机器学习模型，并进行模型融合操作，模型融合的具体步骤为：
①分别对11个模型调用线性回归得到每一折的预测结果；其中ym_npredict表示第m个模型第n折的预测结果，wm_n_z表示第m个模型的第n折的第z个线性回归系数，xk表示第k个特征，k的取值范围为1到所提取的特征数量：
……
②将11个模型的预测结果作为x，该训练集每一折的真实标签作为y，再次调用线性回归模型，其中ynfold表示第n折的真实标签，wm_n表示第m折的第n个线性回归系数：
③则11个模型最终的融合系数为：
……

107.通过步骤106已建立的模型，根据用户的经纬度、所连接的WiFi信息定位用户所在商铺。

2.根据权利要求1所述一种基于大数据的商铺定位方法，其特征在于：步骤101所述交易数据包括用户在商铺内交易数据和商铺信息数据，其中所述用户在商铺内交易数据包括用户ID、商铺ID、行为时间戳、行为发生时的经度、行为发生时的纬度和行为发生时的WiFi环境，所述商铺信息数据包括商铺ID、商铺类型ID、商铺经度、商铺纬度、人均消费指数和商城ID。

3.根据权利要求1所述一种基于大数据的商铺定位方法，其特征在于：步骤102所述划分训练集和测试集采用时间窗划分方法把用户在商铺内交易数据划分为训练集和测试集。

4.根据权利要求1所述一种基于大数据的商铺定位方法，其特征在于：步骤103所述构建每条样本的候选集具体为：根据用户在商铺内交易数据中每条样本强度最大WiFi所对应的某商铺的次数，选择出每条样本该次数最多的10个商铺作为候选集，不足10个的以距离该条样本最近的几个商铺填充。

5.根据权利要求1所述一种基于大数据的商铺定位方法，其特征在于：步骤104所述打标操作为候选集中的商铺与该条样本的商铺名称一致则打标为1，其余打标为0。

6.根据权利要求1所述一种基于大数据的商铺定位方法，其特征在于：步骤105所述特征工程构建包括构建基础特征、多分类概率特征和交叉特征。

7.根据权利要求6所述一种基于大数据的商铺定位方法，其特征在于：所述基础特征是，当前用户距该商铺的距离、所连最强WiFi对应该商铺的次数，用户、商铺、用户-商铺所发生的交易次数总和及其均值、方差；用户活动半径，商铺覆盖半径，用户经常连接强度第几的WiFi；
所述多分类概率特征是，在原始的用户在商铺内交易数据中，将每条样本所连所有WiFi进行离散作为特征，将每条样本中该WiFi的强度作为该离散WiFi特征的值，空值以-
999代替，将该条样本的商铺作为标签，调用XGBoost多分类模型，输出该条样本位于每个商铺的概率，与训练集、测试集进行连表操作得到每条样本的多分类概率特征；
所述交叉特征是，挖掘基础特征之间的关系，用户在该商铺的交易次数在所有商铺的交易次数的占比，用户活动半径占商铺覆盖半径的占比。

8.根据权利要求1所述一种基于大数据的商铺定位方法，其特征在于：步骤106所述机器学习模型包括11个lightGBM模型，将这些lightGBM模型以stacking进行模型融合，用线性回归以五折交叉拟合每一折得到5个系数，以这5个系数的均值作为该lightGBM的融合系数作为stacking的第一层，再以这多个lightGBM模型进行训练，得到11个lightGBM的预测结果，将预测结果乘上各自的融合系数，求和得到最终概率。

说明书

技术领域

[0001] 本发明涉及机器学习、大数据处理技术领域，尤其基于多模型融合商铺定位算法。

背景技术

[0002] 传统的定位用户所在商铺的方法是通过GPS获得用户的位置从而计算出用户与商铺的距离。但一个商城内的各个商铺距离不远，位置可能出现重叠，这个时候仅仅用GPS定位用户所在商铺可能会存在不精确的问题。基于仅仅使用GPS无法准确定位用户所在商铺，进行了本发明创造。

发明内容

[0003] 为了解决上述问题，本发明提供一种基于大数据的商铺定位方法对用户在商铺内交易数据和商铺信息数据进行分析，旨在有效地定位用户在哪一家商铺，进而促使商家能够在在正确的时间、正确的地点给用户最有效的服务，具有一定的实现意义。

[0004] 鉴于此，本发明的技术方案如下：一种基于大数据的商铺定位方法，其特征在于，包括以下步骤：

[0005] 101.对用户的交易数据进行预处理操作。

[0006] 102.根据记录时间把预处理后的数据划分为训练集和测试集。

[0007] 103.构建每条样本的候选集。

[0008] 104.根据当前该用户是否在该商店，对数据进行打标操作。

[0009] 105.对训练集和测试集进行特征工程构建操作。

[0010] 106.对经过特征工程构建的数据建立多个机器学习模型，并进行模型融合操作。

[0011] 107.通过步骤106已建立的模型，根据用户的经纬度、所连接的WiFi信息定位用户所在商铺，使得商家能够在正确的时间、正确的地点给用户最有效的服务。

[0012] 进一步，所述对数据进行预处理操作：数据预处理包括用户在商铺内交易数据和商铺信息数据的处理，根据数据表的描述以及物理理解进行如下处理：

[0013] ①对异常值进行清洗；

[0014] 删除原始数据集中用户当前位置与店铺位置距离太大的样本，删除WiFi信息中强度为空的WiFi以及强度为正值的WiFi。

[0015] ②由于商铺信息数据中的经纬度存在测量不准确的问题，商铺信息数据的经纬度以用户在商铺内交易数据中该商铺的所有经纬度的中位数代替。

[0016] 首先将所有经度按强度从小到大排序：

[0017] longitude1≤longitude2≤longitude3≤…≤longituden

[0018] 则商铺的经度确定为：

[0019]

[0020] 商铺的纬度也用同样的方法修正。

[0021] 进一步，根据用户在商铺内交易数据的分析以及预测时间段，找到合适的时间划分区间，采用时间窗划分方法把用户在商铺内交易数据划分为训练集和测试集。训练集的历史区间为Day1～Day7，标签区间为Day8～Day14，测试集的历史区间为Day8～Day14，标签区间为Day15～Day21。

[0022] 进一步，根据用户在商铺内交易数据中每条样本强度最大WiFi所对应的某商铺的次数，选择出每条样本该次数最多的10个商铺作为候选集，不足10个的以距离该条样本最近的几个商铺填充。

[0023] 进一步，所述对数据进行打标操作：若候选集中的商铺与该条样本的商铺名称一致则打标为1，其余打标为0，控制正负样本比为1：9。

[0024] 进一步，根据对用户在商铺内交易数据和商铺信息数据的分析，对训练集和测试集进行特征工程构建；指对用户历史行为数据构建基础特征、多分类概率特征、交叉特征等；

[0025] 所述基础特征是指：当前用户距该商铺的距离、所连最强WiFi对应该商铺的次数，用户、商铺、用户-商铺所发生的交易次数总和及其均值、方差；用户活动半径，商铺覆盖半径，用户经常连接强度第几的WiFi。

[0026] 所述多分类概率特征是指：在原始的用户在商铺内交易数据中，将每条样本所连所有WiFi进行离散作为特征，将每条样本中该WiFi的强度作为该离散WiFi特征的值，空值以-999代替，将该条样本的商铺作为标签，调用XGBoost多分类模型，输出该条样本位于每个商铺的概率，与训练集、测试集进行连表操作得到每条样本的多分类概率特征。

[0027] 所述交叉特征是指：挖掘基础特征之间的关系，用户在该商铺的交易次数在所有商铺的交易次数的占比，用户活动半径占商铺覆盖半径的占比。

[0028] 在上述步骤的基础上，用构建完特征的训练集去训练11个lightGBM模型。

[0029] lightGBM模型分别基础特征、多分类特征、交叉特征进行特征选择，按照特征重要性排序，在基础特征中选取特征重要性大于0的特征，在多分类特征中选取特征重要性大于0的特征，在交叉特征中选取特征重要性大于0的特征。lightGBM模型参数在默认参数乘以随机系数，系数范围为0.8～1.2，从而生成11个不同的lightGBM模型。这些lightGBM模型以stacking进行模型融合，用线性回归以五折交叉拟合每一折得到5个系数，以这5个系数的均值作为该lightGBM的融合系数作为stacking的第一层，再以这多个lightGBM模型进行训练，得到11个lightGBM的预测结果，将预测结果乘上各自的融合系数，求和得到最终概率。
过程如下：

[0030] ①分别对11个模型调用线性回归得到每一折的预测结果。其中ym_npredic表示第m个模型第n折的预测结果，wm_n_z表示第m个模型的第n折的第z个线性回归系数，xk表示第k个特征，k的取值范围为1到所提取的特征数量：

[0031]

[0032]

[0033] ……

[0034]

[0035] ②将11个模型的预测结果作为x，该训练集每一折的真实标签作为y，再次调用线性回归模型，其中yn fold表示第n折的真实标签，wm_n表示第m折的第n个线性回归系数：

[0036]

[0037] ③则11个模型最终的融合系数为：

[0038]

[0039]

[0040] ……

[0041]

[0042] 选择当前用户所在最大概率的商铺作为最终定位结果推荐给系统，使得商家能够在在正确的时间、正确的地点给用户最有效的服务。

[0043] 本发明弥补了仅仅使用GPS无法准确定位用户所在商铺的问题。具有以下有益技术效果：

[0044] ①创造性地在GPS定位的基础上引入WiFi进行定位，使定位更加准确；

[0045] ②某些商铺往往较大，经纬度无法完全代表该商铺的位置；于是将商铺的经纬度用商铺内的用户的经纬度的中位数进行替换，使商铺的经纬度更准确；

[0046] ③根据提出的规则构建了候选集，降低了机器学习的复杂度；

[0047] ④根据WiFi信息使用多分类构造了概率特征，很好地使用到了WiFi的信息同时使模型不至于太复杂；

[0048] ⑤通过stacking进行模型融合，使模型更加准确和健壮。

实施方案

[0053] 下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

[0054] 参考图1，图1为本发明实施例一提供基于大数据的商铺定位方法的流程图，具体包括：

[0055] 101.收集用户在店铺内交易数据并对数据进行预处理操作：收集用户在商铺内交易数据、商铺信息数据，具体如下：

[0056] 收集用户在商铺内交易数据包括用户ID、商铺ID、行为时间戳、行为发生时的经度、行为发生时的纬度、行为发生时的WiFi环境。

[0057]

[0058] 表1用户在店铺内交易数据

[0059] 收集商铺信息数据包括商铺ID、商铺类型ID、商铺经度、商铺纬度、人均消费指数、商城ID。

[0060]

[0061]

[0062] 表2商铺信息数据

[0063] 数据预处理包括用户在商铺内交易数据和商铺信息数据的处理，根据两个数据表的描述以及物理理解进行如下处理：

[0064] ①对异常值进行清洗，例如删除原始数据集中用户当前位置与店铺位置距离太大的样本，删除WiFi信息中强度为空的WiFi以及强度为正值的WiFi。

[0065] ②由于商铺信息数据中的经纬度存在测量不准确的问题，商铺信息数据的经纬度以用户在商铺内交易数据中该商铺的所有经纬度的中位数代替。

[0066] 首先将所有经度按强度从小到大排序：

[0067] longitude1≤longitude2≤longitude3≤…≤longituden

[0068] 则商铺的经度确定为：

[0069]

[0070] 102.根据记录时间把预处理后的数据划分为训练集和测试集：根据用户在商铺内交易数据的分析以及预测时间段，训练集的历史区间为Day1～Day7，标签区间为Day8～Day14，测试集的历史区间为Day8～Day14，标签区间为Day15～Day21；

[0071] 103.根据一定规则构建每条样本的候选集：二分类算法应用在该问题上的思路是原始数据集中每条样本都打标为1，每条样本的商铺所在商城中的其他商铺打标为0，如此正负样本比达到1：500。为了控制正负样本比，为每条样本构造候选集，先挑选出那些最有可能的商铺。根据用户在商铺内交易数据中每条样本强度最大WiFi所对应的某商铺的次数，选择出每条样本该次数最多的10个商铺作为候选集，不足10个的以距离该条样本最近的几个商铺填充。

[0072] 104.根据当前该用户是否在该商店对数据进行打标操作：若候选集中的商铺与该条样本的商铺名称一致则打标为1，其余打标为0，控制正负样本比为1：9。

[0073] 105.对训练集和测试集进行特征工程构建操作：

[0074] ①基础特征：当前用户距该商铺的距离、所连最强WiFi对应该商铺的次数，用户、商铺、用户-商铺所发生的交易次数总和及其均值、方差等；用户活动半径，商铺覆盖半径，用户经常连接强度第几的WiFi；

[0075] ②多分类概率特征：在原始的用户在商铺内交易数据中，将每条样本所连所有WiFi进行离散作为特征，将每条样本中该WiFi的强度作为该离散WiFi特征的值，空值以-999代替，将该条样本的商铺作为标签，调用XGBoost多分类模型，输出该条样本位于每个商铺的概率，与训练集、测试集进行连表操作得到每条样本的多分类概率特征；

[0076] ③交叉特征：挖掘基础特征之间的关系，比如用户在该商铺的交易次数在所有商铺的交易次数的占比；

[0077] 106.对经过特征工程构建的数据建立11个机器学习模型，并进行模型融合操作(参见图2和图3)：lightGBM模型分别对基础特征、多分类特征、交叉特征进行特征选择，按照特征重要性排序，在基础特征中选取特征重要性大于0的特征，在多分类特征中选取特征重要性大于0的特征，在交叉特征中选取特征重要性大于0的特征。lightGBM模型参数在默认参数乘以随机系数，系数范围为0.8～1.2，从而生成11个不同的lightGBM模型。这些lightGBM模型以stacking进行模型融合，用线性回归以五折交叉拟合每一折得到5个系数，以这5个系数的均值作为该lightGBM的融合系数作为stacking的第一层，再以这多个lightGBM模型进行训练，得到每个lightGBM的预测结果，将预测结果乘上各自的融合系数，求和得到最终概率。过程如下：

[0078] ①分别对11个模型调用线性回归得到每一折的预测结果。其中ym_npredic表示第m个模型第n折的预测结果，wm_n_z表示第m个模型的第n折的第z个线性回归系数，xk表示第k个特征，k的取值范围为1到所提取的特征数量：

[0079]

[0080]

[0081] ……

[0082]

[0083] ②将11个模型的预测结果作为x，该训练集每一折的真实标签作为y，再次调用线性回归模型，其中yn fold表示第n折的真实标签，wm_n表示第m折的第n个线性回归系数：

[0084]

[0085] ③则11个模型最终的融合系数为：

[0086]

[0087]

[0088] ……

[0089]

[0090] 107.通过已建立的模型，根据用户的经纬度、所连接的WiFi信息等数据定位用户所在商铺：选择当前用户所在最大概率的商铺作为最终定位结果推荐给系统，定位结果的精度可达92％以上，使得商家能够在在正确的时间、正确的地点给用户最有效的服务。

附图说明

[0049] 为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

[0050] 图1为本发明实施例一提供一种基于大数据的商铺定位方法的流程图；

[0051] 图2为本发明实施例一提供基于一种基于大数据的商铺定位方法中lightGBM模型的流程图；

[0052] 图3为本发明实施例一提供一种基于大数据的商铺定位方法中多模型融合的流程图。

1一种基于大数据处理的数据采集设备 2基于化妆品生产的大数据处理方法及生产数据处理中心 3用于大数据清洗的人工智能处理方法及大数据清洗系统 4在大数据场景下的在线办公安防处理方法及大数据服务器 5遥感大数据处理方法、系统及云平台 6一种基于大数据的图形图像处理系统 7一种基于大数据的安防探头分析处理系统 8一种基于自适应表维度划分的大数据处理方法 9一种基于大数据处理的5G通讯基站用光伏支架 10一种应用于数字办公的异常会话大数据处理方法及服务器