首页 > 专利 > 杭州电子科技大学 > 一种支持OLAP应用的基于微博数据的兴趣维层次提取方法专利详情

一种支持OLAP应用的基于微博数据的兴趣维层次提取方法 0 0

有效专利查看PDF

申请进展

基本信息

申请人信息

代理人信息

摘要

法律状态

权利要求

说明书

专利申请流程有哪些步骤？

申请

申请号：指国家知识产权局受理一件专利申请时给予该专利申请的一个标示号码。唯一性原则。

申请日：提出专利申请之日。

2016-06-20

申请公布

申请公布指发明专利申请经初步审查合格后，自申请日（或优先权日）起18个月期满时的公布或根据申请人的请求提前进行的公布。

申请公布号：专利申请过程中，在尚未取得专利授权之前，国家专利局《专利公报》公开专利时的编号。

申请公布日：申请公开的日期，即在专利公报上予以公开的日期。

2016-12-07

授权

授权指对发明专利申请经实质审查没有发现驳回理由，授予发明专利权；或对实用新型或外观设计专利申请经初步审查没有发现驳回理由，授予实用新型专利权或外观设计专利权。

2019-09-24

预估到期

发明专利权的期限为二十年，实用新型专利权期限为十年，外观设计专利权期限为十五年，均自申请日起计算。专利届满后法律终止保护。

2036-06-20

基本信息

有效性	有效专利	专利类型	发明专利
申请号	CN201610443345.3	申请日	2016-06-20
公开/公告号	CN106095976B	公开/公告日	2019-09-24
授权日	2019-09-24	预估到期日	2036-06-20
申请年	2016年	公开/公告年	2019年
缴费截止日
分类号	G06F16/28 、G06F16/2458 、G06F16/25 、G06F17/27 、G06Q50/00	主分类号	G06F16/28
是否联合申请	独立申请	文献类型号	B
独权数量	1	从权数量	0
权利要求数量	1	非专利引证数量	1
引用专利数量	4	被引证专利数量	0
非专利引证	1、袁博阳.基于微博内容和用户关注的微博用户兴趣模型构建《.中国优秀硕士学位论文全文数据库(电子期刊)信息科技辑》.2015,第I141-187页. 欧阳继红等.基于LDA的多粒度主题情感混合模型《.电子学报》.2015,第43卷(第9期),第1875-1880页.;
引用专利	CN104574965A、CN105302866A、CN104462286A、CN103970863A	被引证专利
专利权维持	6	专利申请国编码	CN
专利事件	许可	事务标签	公开、实质审查、授权、实施许可

申请人信息

申请人	杭州电子科技大学	第一申请人	杭州电子科技大学
专利权人	杭州电子科技大学	当前专利权人	杭州电子科技大学
发明人	俞东进、孙景超、袁友伟、陈聪、金一科、倪智勇	第一发明人	俞东进
地址	浙江省杭州市下沙高教园区2号大街	邮编	310018
申请人数量	1	发明人数量	6
申请人所在省	浙江省	申请人所在市	浙江省杭州市

代理人信息

代理机构

专利代理机构是经省专利管理局审核，国家知识产权局批准设立，可以接受委托人的委托，在委托权限范围内以委托人的名义办理专利申请或其他专利事务的服务机构。

浙江杭州金通专利事务所有限公司

代理人

专利代理师是代理他人进行专利申请和办理其他专利事务，取得一定资格的人。

王佳健

摘要

本发明公开了一种支持OLAP应用的基于微博数据的兴趣维层次提取方法。本发明对微博数据使用一种改进的多分层LDA方法，将用户的“兴趣”和“子兴趣”挖掘出来，共同构成了兴趣维层次，改善了传统方法所提取的兴趣维层次结构单一、粒度较大的问题。

摘要附图
说明书附图：图1
说明书附图：图2
说明书附图：图3
说明书附图：图4

法律状态

序号	法律状态公告日	法律状态	法律状态信息
1	2021-01-15	专利实施许可合同备案的生效	IPC(主分类): G06F 16/28 合同备案号: X2020330000125 专利申请号: 201610443345.3 申请日: 2016.06.20 让与人: 杭州电子科技大学受让人: 杭州知脉科技有限公司发明名称: 一种支持OLAP应用的基于微博数据的兴趣维层次提取方法申请公布日: 2016.11.09 授权公告日: 2019.09.24 许可种类: 普通许可备案日期: 2020.12.30
2	2019-09-24	授权
3	2016-12-07	实质审查的生效	IPC(主分类): G06F 17/30 专利申请号: 201610443345.3 申请日: 2016.06.20
4	2016-11-09	公开

权利要求

权利要求书是申请文件最核心的部分，是申请人向国家申请保护他的发明创造及划定保护范围的文件。

1.一种支持OLAP应用的基于微博数据的兴趣维层次提取方法，其特征在于该方法的具体步骤是：
步骤(1).获取海量微博信息和用户个人信息，并存储至Oracle数据库中，其中微博信息包括原创微博信息和转发微博信息、用户个人信息包括用户关注者信息和个人描述信息，原创微博信息又包括微博文本信息、微博提及到的用户信息，转发微博信息又包括被转发微博文本信息、被转发微博的原作者信息；去除微博文本信息和被转发微博文本信息中的停用词和短链接；
步骤(2).在LDA中融入个人描述信息，并加入二级主题，形成多分层LDA模型；将微博信息和个人描述信息输入到多分层LDA模型中进行训练，得到基于微博信息和个人描述信息的用户主题概率分布P1；
步骤(3).将用户的关注者信息、被转发微博的原作者信息和微博提及到的用户信息构造成社交关系列表L，筛选出L中的关键人物，通过人工识别构造关键人物主题库，在社交关系列表L中遍历所有的用户关注者信息、被转发微博的原作者信息和微博提及到的用户信息，得到基于用户社交关系的用户主题概率分布P2，具体是：
3-
1.首先将用户的关注者、被转发评论的原作者和微博提及到的用户构造成社交关系列表L；
3-
2.然后筛选社交关系列表L，获取所有粉丝数超过阈值N的用户，将这些用户称之为关键人物Keyman；
3-
3.通过人工识别的方式将所有得到的关键人物归类到某一特定主题，即得到映射对“关键人物-主题”，再合并所有的映射对得到关键人物主题库；
3-
4.最后遍历用户的社交关系列表L，得到与用户有关的所有关键人物集合U(Keyman)＝{K1，K2，K3，...，Ki，...，Kn}，其中Ki表示某一关键人物；再将关键人物集合U(Keyman)中的关键人物与主题库中的关键人物匹配，得到用户主题分布U(Topic)＝{T1，T2，T3，...，Ti，...，Tn}，其中Ti为属于主题i的关键人物数量，最后对用户主题分布U(Topic)进行归一化处理，得到基于用户社交关系的用户主题概率分布P2；
步骤(4).将步骤(2)和步骤(3)获取到的基于微博信息和个人描述信息的用户主题概率分布P1以及基于用户社交关系的用户主题概率分布P2进行加权融合，得到每个用户的主题概率分布，其中权值通过模拟退火方法获取；
步骤(5).利用步骤(4)获得的每个用户的主题概率分布得到与该用户最相关的一级主题和二级主题，其中一级主题对应用户的兴趣，二级主题对应用户的子兴趣，上述兴趣和子兴趣构成兴趣维层次，可用于OLAP应用。

说明书

技术领域

[0001] 本发明属于数据挖据技术领域，具体涉及到一种支持OLAP应用的基于微博数据的兴趣维层次提取方法。

背景技术

[0002] 当今，互联网已经覆盖了我们生活的方方面面，而作为主流社交平台之一的微博平台，每天都会产生海量数据。通过联机分析处理(OLAP)技术分析这些数据，有助于了解网络舆情，帮助企业掌握市场动态以及制定更加精准有效的营销策略。

[0003] 微博平台为用户提供了一个接收和传播信息的平台。通过这个平台用户可以关注某个兴趣领域的用户，接收感兴趣的推送信息，同时可以发表自己对某个事件或者事物的看法。另一方面，通过联机分析处理技术可以帮助管理分析人员洞察微博平台中所蕴含的有价值信息。然而，传统的联机分析处理技术仅仅适合于结构化数据，而并不适合处理诸如以文本为主的非结构化微博数据。研究和实践表明，面向微博数据的OLAP应用的关键是如何在微博数据中识别和构建维层次，而兴趣维的提取又是其中的难点。而已有的兴趣维提取方法一般无法有效处理海量微博数据，特别是其挖掘出的兴趣维层次结构单一、粒度较大，导致个性化推荐的效果并不理想。

发明内容

[0004] 本发明针对现有技术的不足，提供了一种支持OLAP应用的基于微博数据的兴趣维层次提取方法。

[0005] 本发明方法包括以下步骤：

[0006] 步骤(1).获取海量微博信息和用户个人信息，并存储至Oracle数据库中，其中微博信息包括原创微博信息和转发微博信息、用户个人信息包括用户关注者信息和个人描述信息，原创微博信息又包括微博文本信息、微博提及(@)到的用户信息，转发微博信息又包括被转发微博文本信息、被转发微博的原作者信息；去除微博文本信息和被转发微博文本信息中的停用词和短链接。

[0007] 步骤(2).在传统的LDA中融入个人描述信息，并加入二级主题，形成多分层LDA模型；将微博信息和个人描述信息输入到多分层LDA模型中进行训练，得到基于微博信息和个人描述信息的用户主题概率分布P1。

[0008] 步骤(3).将用户的关注者信息、被转发微博的原作者信息和微博提及(@)到的用户信息构造成社交关系列表L，筛选出L中的关键人物，通过人工识别构造关键人物主题库，在社交关系列表L中遍历所有的用户关注者信息、被转发微博的原作者信息和微博提及(@)到的用户信息，得到基于用户社交关系的用户主题概率分布P2。

[0009] 步骤(4).将步骤(2)和步骤(3)获取到的基于微博信息和个人描述信息的用户主题概率分布P1以及基于用户社交关系的用户主题概率分布P2进行加权融合，得到每个用户的主题概率分布，其中权值通过模拟退火方法获取。

[0010] 步骤(5).利用步骤(4)获得的每个用户的主题概率分布得到与该用户最相关的一级主题和二级主题，其中一级主题对应用户的兴趣，二级主题对应用户的子兴趣，上述兴趣和子兴趣构成兴趣维层次，可用于OLAP应用。

[0011] 本发明所提供的一种支持OLAP应用的基于微博数据的兴趣维层次提取方法由一组功能模块组成，它们包括：微博数据获取模块、微博数据转换及清洗模块、微博主题提取模块和微博兴趣维层次构建模块。

[0012] 微博数据获取模块获取海量微博信息和用户个人信息。其中微博信息包括原创微博信息和转发微博信息，用户个人信息包括用户的关注者信息和个人描述信息。

[0013] 微博数据转换及清洗模块以用户的所有微博信息和个人信息为原始数据，将其转化为LDA主题建模所需的数据，并存储到数据库中；去除微博文本信息和被转发微博文本信息中的停用词和短链接。

[0014] 微博主题提取模块通过多分层LDA和人工识别构造关键人物主题库的方式分别得到基于微博信息和个人描述信息的用户主题概率分布和基于户社交关系的用户主题概率分布，并将两个概率分布加权融合，得到用户最终的主题概率分布，进而得到与用户最相关的一级主题和二级主题。

[0015] 微博兴趣维层次构建模块将获得的一级主题对应用户的兴趣、二级主题对应用户的子兴趣，然后基于兴趣和子兴趣的层次关系构成兴趣维层次，用于OLAP应用。

[0016] 本发明具有的有益效果：本发明对微博数据使用一种改进的多分层LDA方法，将用户的“兴趣”和“子兴趣”挖掘出来，共同构成了兴趣维层次，改善了传统方法所提取的兴趣维层次结构单一、粒度较大的问题。

实施方案

[0021] 本发明所提供的支持OLAP应用的基于微博数据的兴趣维层次提取方法的具体实施方式包含以下五步(实施流程图如图1所示)：

[0022] 步骤(1).微博数据获取、转换及清洗。

[0023] 1-1.获取海量微博信息和用户个人信息，并存储至Oracle数据库中，其中微博信息包括原创微博信息和转发微博信息，用户个人信息包括用户关注者信息和个人描述信息。微博信息中的原创微博信息包括微博文本信息、微博提及(@)到的用户信息，微博信息中的转发微博信息包括被转发微博文本信息和被转发微博的原作者信息。

[0024] 1-2.用户的微博文本信息和被转发微博文本信息中包含很多噪音数据，如短链接，停用词，这些噪音数据会对主题挖掘造成干扰，因此通过使用正则表达式匹配和停用词字典匹配的方法将噪音数据去除。

[0025] 步骤(2).对用户的个人描述信息和微博文本信息采用多分层的LDA方法提取主题；传统的LDA方法只能提取出单层主题，维层次依靠领域专家根据领域知识人工构建，成本高且动态适应性差,虽然有些方法实现了动态构建维层次，但是这些方法主要依赖文本集的关键词和高频词的相似度，抽取的语义准确性有待于进一步提高。本方法利用分层LDA挖掘潜在语义提取出多级主题。

[0026] 2-1.从Oracle数据库中获取每个用户的所有微博文本信息和个人描述信息，然后将每个用户的所有微博文本信息组成微博数据文档(第i个用户的微博数据文档表示为doci(blog)，文档中第j个单词表示为wordi,j)；每个用户的个人描述信息组成描述数据文档(第i个用户的描述数据文档表示为doci(desc)，文档中第j个单词表示为wordi,j)；将每个用户的微博数据文档和描述数据文档合并成用户信息文档，表示为doci。

[0027] 2-2.将所有用户的微博数据文档合并成微博数据语料库，再将所有用户的描述数据文档合并成描述数据语料库，最后将所有用户的用户信息文档合并成用户信息语料库。

[0028] 2-3.对步骤2-2得到的用户信息语料库进行多分层LDA主题建模(多分层LDA模型的贝叶斯网络图如图2所示)。假设有T个一级主题，记为topict,t＝0,1,…,(T-1)，其中每个一级主题下有L个二级主题，记为subTopicl,l＝0,1,…,(L-1)；假设微博数据语料库中的微博数据文档doci(blog)满足以α′为先验参数的狄利克雷分布，那么微博数据语料库中p的微博数据文档doci(blog)满足θ多项分布；假设描述数据语料库中的描述数据文档doci(desc)满足以α为先验参数的狄利克雷分布，那么描述数据语料库中的每篇描述数据文档doci(desc)满足θu多项分布。基于上述假设，计算用户信息文档doci的分布：如果用户的个人描述为空，则用户信息文档doci的多项分布为θp多项分布；如果用户的个人描述不为空，则用户信息文档doci的多项分布为θu多项分布和θp多项分布的融合分布。最终得到文档和一级主题的分布，用doc-topic概率矩阵表示，记为Mdoc-topic。

[0029] 2-4.假设所有二级主题组成的二级主题集合满足以η为先验参数的狄利克雷分布，那么二级主题集合中的每个二级主题满足多项分布θv，可以得到一级主题-二级主题的分布，表示为topic-subTopic概率矩阵，记为Mtopic-subTopic。

[0030] 2-5.假设用户信息文档语料库满足以β为先验参数的狄利克雷分布，那么语料库中的每个单词满足多项分布可以得到二级主题-单词的分布，表示为subTopic-word概率矩阵，记为MsubTopic-word。

[0031] 2-6.利用Gibbs Sampling算法，对Mtopic-subTopic的二级主题和MsubTopic-word中的每一个单词进行随机采样直至收敛,具体步骤如下：

[0032] 1).一个用户信息文档中，所有单词与其所属二级主题和一级主题的联合概率分布如下式：

[0033] P(w,z,z′|α,α′,η,β)＝P(z|α,α′)P(z′|η,z)P(w|z′,β)[0034] 使用欧拉公式对上式展开得到：

[0035]

[0036]

[0037]

[0038] 其中β(z|α,α′)为一级主题的概率，P(z′|η,z)为二级主题的概率，P(w|z′,β)[0039] 为单词的概率。

[0040] 2).然后对下式的后验分布使用Gibbs Sampling抽样：

[0041]

[0042] 对上式反复迭代，并对所有一级主题和二级主题进行抽样，最终达到抽样结果稳u p v定。θ，θ，θ，的结果分别如下：

[0043]

[0044]

[0045]

[0046]

[0047] 基于上述步骤，多分层LDA模型通过Gibbs Sampling求解出一级主题在微博数据语料库中的微博数据文档上的概率分布θu、一级主题在描述数据语料库中描述数据文档上的概率分布θp、二级主题在一级主题上的概率分布θv以及单词在二级主题上的概率分布根据nd,j，nj,k，nk,v计算得到Mdoc-topic，Mtopic-subTopic和MsubTopic-word。

[0048] 2-7.将微博用户的个人描述信息和微博文本信息输入到上述的多分层LDA模型中进行训练，可以得到基于微博文本信息和个人描述信息的用户主题概率分布P1。

[0049] 步骤(3).提取基于用户社交关系的用户主题概率分布(流程图如图3所示)。

[0050] 3-1.首先将用户的关注者、被转发评论的原作者和微博提及(@)到的用户构造成社交关系列表L；

[0051] 3-2.然后筛选社交关系列表L，获取所有粉丝数超过阈值N的用户(根据经验阈值N一般设定为100万)，这些用户一般是微博中某一领域具有影响力的信息传播者，我们称之为关键人物Keyman；

[0052] 3-3.通过人工识别的方式将所有得到的关键人物归类到某一特定主题，即得到映射对“关键人物-主题”，再合并所有的映射对得到关键人物主题库；

[0053] 3-4.最后遍历用户的社交关系列表L，得到与用户有关的所有关键人物集合U(Keyman)＝{K1,K2,K3,…,Ki,…,Kn}，其中Ki表示某一关键人物；再将关键人物集合U(Keyman)中的关键人物与主题库中的关键人物匹配，得到用户主题分布U(Topic)＝{T1,T2,T3,…,Ti,…,Tn},其中Ti为属于主题i的关键人物数量，最后对用户主题分布U(Topic)进行归一化处理，得到基于用户社交关系的用户主题概率分布P2。

[0054] 步骤(4).对步骤(2)和步骤(3)获取到的基于微博信息和个人描述信息的用户主题概率分布P1和基于用户社交关系的用户主题概率分布P2加权融合，得到每个用户的主题概率分布P。

[0055] 本发明通过在一批已经标注的测试数据集上使用模拟退火算法来得到加权融合参数α的最优解，具体描述过程如下：

[0056] 1).读入最高熔化温度Tmax和最低熔化温度Tmin。设Tmax为系统初始温度、Tmin为温度的下限、ks为每个熔化温度下的抽样次数，置T＝Tmax。

[0057] 2).随机生成α的初值，其中α∈[0,1],设S＝α，计算F(S)＝m/n，其中m为测试集中兴趣符合实际的用户数，n为测试集用户总数。

[0058] 3).给定抽样次数k＝1。

[0059] 4).产生随机扰动ΔS，计算F(S+ΔS)和ΔE＝F(S+ΔS)-F(S)。

[0060] 5).如果ΔE>0，则S用S+ΔS取代。如果ΔE≤0，则产生[0,1]间均匀分布的一个伪随机数ρ，若exp(-ΔE/T)≤ρ，则S用S+ΔS来取代。否则，不更新S。

[0061] 6).置k＝k+1。如果k＜ks，转回5)。

[0062] 7).置T＝Tmax/(1+t)，降低T的值，如果T＜Tmin则输出结果后停止，否则转回4)。这里t为参数，随退火过程的进行而逐步增大，可凭经验给定。

[0063] 根据以上步骤可以得到最优权值α，最后通过以下公式确定用户主题概率分布(其中P表示每个用户相对于每个一级主题和二级主题的概率分布)：

[0064] P＝αP1+(1-α)P2

[0065] 步骤(5).OLAP维层次映射。

[0066] 利用步骤(4)获得的每个用户主题概率分布得到与用户最相关的一级主题和二级主题，其中一级主题对应用户的兴趣，二级主题对用户的子兴趣。上述兴趣和子兴趣构成兴趣维层次(如图4所示)，可用于OLAP应用。

[0067] 本发明可用于基于微博数据的兴趣维层次提取，提取后的兴趣维层次可进一步用于实现OLAP操作。

附图说明

[0017] 图1实施流程图；

[0018] 图2多分层LDA模型的贝叶斯网络图；

[0019] 图3基于用户社交关系的主题提取流程图；

[0020] 图4兴趣维层次结构示意图。

1基于数据挖掘的网络入侵检测方法 2基于大数据漏洞挖掘的挖掘评估方法及AI漏洞挖掘系统 3基于数据挖掘的农产品智能推荐系统 4用于联合大数据挖掘的业务预测分析方法及AI挖掘系统 5一种基于大数据挖掘技术的韩语发音纠正系统 6一种基于ASP平台的金属制品质量数据挖掘系统 7基于大数据分析的浮动车伴随行为模式挖掘方法 8一种制造系统数据挖掘模型的容错辨识方法及装置 9适于电子商务的业务操作行为大数据挖掘方法及系统 10服务于个性化推送服务的大数据挖掘方法及AI推荐系统