[0027] 为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0028] 一种计算机物联网数据处理系统,包括数据采集模块、数据处理模块、数据存储模块、物流配送模块,数据处理模块包括批数据处理设备和实时数据处理模块,批数据处理设备用于读取/提取存储数据并进行数据准备,以及在实时数据处理情况下进行数据的清理、过滤,批数据处理设备通过无线网络将数据直接发送到实时数据处理模块。
[0029] 数据采集模块采集多源异构数据,多源异构数据包括数据传感器的信息和物流应用的信息,其中数据传感器包括车辆传感器、天气传感器;物流应用包括微博、Twitter、社交媒体、Facebook等。
[0030] 批数据处理设备将来自多个数据传感器及物流应用的物流数据进行批处理,批数据处理设备包括两个阶段:数据准备阶段和数据处理阶段。数据准备阶段包括数据提取、数据清理、数据过滤、数据集成和数据存储。数据处理阶段,将准备充分的数据进行归类处理。具体地:
[0031] 数据提取:用于收集各种信息来源以获得完整的以及对感兴趣区域的准确描述并将多源异构数据进行标准化处理。数据提取器使用内部和外部的数据,内部数据源通常是用户使用的系统。一个用户系统包括由供应链管理构成的信息系统(供应链管理)、客户关系管理(CRM),物流管理系统和账户管理系统(AMS)。这些系统产生大量由数据提取器收集的数据。它也从外部源气象传感器、和其他社交媒体获取数据。此外,可以收集结构化和非结构化数据。例如,可以从微博收集非结构化文本,也可以收集来自物流信息系统的结构化业务流程数据。数据提取器从云服务器上抓取特定网站中所链接的网页,并从已爬取来的网页中提取链接,提取的链接数据信息分别存储在数据存储模块中,同时,数据提取器包括网页预处理模块和查询模块,网页预处理模块将分析抓取来的网页,建立索引、计算网页的等级;查询模块提供用户搜索界面,用户输入搜索词,并根据用户的查询向用户返回查询结果。网页的抓取是利用Heritrix开源爬虫程序进行的,Heritrix是一种以多线程方式抓取网页内容的爬虫,在它现有的开源的代码上,用户可以扩展其各个组件以实现自己的抓取逻辑,并从网络中获取所需的资源。
[0032] 数据过滤:指广泛的策略或优化数据集的解决方案。数据集被细化为一组用户需要什么,而不包括其他可能重复、不相关甚至敏感的数据,数据过载会增加计算成本和数据处理的准确性。在收集过程中,特别是其标签的数据块决定了运输,交货,物流,装运过程中直接和间接的联系。例如获取消息“今天股票价格非常高”将被数据筛选器删除,因为它没有携带任何与物流流程相关的信息。数据过滤要由三个部分组成:网页去噪、中文分词和链接分析。大多数网页是半结构化的,存在着大量的格式信息,因此分析网页内容的第一步就是对网页进行去噪,过滤掉一些脚本标识符和无用的信息。随后将每个页面中有用的文本保存下来,并且分析这些文本,对其进行分词、去噪、排序,提取出网页的关键字。根据网页抓取模块中提取到的网页间的链接关系,并使用PageRank排序算法思想,首先获取基于网页的链接关系计算得出的网页PR值。再利用空间向量模型计算物流相关信息与相关网页关键字的相似度权重,并且增加用户历史搜索与搜索关键字的权重。最后通过算法重新计算有链接关系的网页间的贡献值,并获得等级排名,并由此作为物流服务的重要参考依据。具体分为如下步骤:
[0033] (1)分析需要排序的网页链接集合Setweb中链接指向关系,确定每个网页的链出链入情况;
[0034] (2)从Setweb中每个网页的页面内容中提取关键词,生成网页的关键词集合Sweb_keywords={V1,V2,V3,…,Vi};
[0035] (3)计算Setweb中每个网页对应的的关键词和K的相似度,得到关键词相关度因子集合W(u);
[0036] (4)根据ID找到该用户对应的物流、交通、天气、地理位置等关键词列表Sh_web_keywords;
[0037] (5)计算Setweb中每个网页对应的关键词和Sh_web_keywords的距离d,得到影响因子H(u);
[0038] (6)对每个网页,都有三个因子,根据公式GR=(1-d)+d[∑PR(v)(α/Nv+β·W(u)+γ·H(u))]
[0039] 计算每个网页的综合得分,得到最终的网页排名GR;其中α,β,γ分别代表的是链接、主题相关度因子以及用户因子在PR值分配中的权重,三个参数都大于0,并且为了保证算法的收敛性,三个值之和要等于1,每一项的权重都代表着这些因子在分配过程中的重要程度,三者取值的变化都会影响到排序结果的优劣。
[0040] 数据清理:它是检测纠正(或移除)损坏或不准确的记录集、表。
[0041] 数据集成:执行数据集成分两个步骤。在第一步中,数据被转换从源到目标序列化格式;第二步是合并转换的数据。
[0042] 数据存储:此步骤旨在处理集成数据集并将数据存储到存储器中。
[0043] 数据查询模块主要包括两部分:查询代理和用户界面。在系统预处理后,此时传递到查询模块的数据由两部分组成:索引网页库和倒排文件。查询代理接受用户通过用户界面输入的查询短语,并在分割短语后,从索引网页库和倒排文件中检索,并获取包含查询短语的文档,然后将它们作为返回结果返回给用户。在实现查询过程中,对查询短语分词后,获得查询的向量表示,并综合考虑在倒排索引中查询短语的权重以及该术语的位置信息。通过传统的信息检索模型计算查询与网页文档的相似度;结合网页预处理阶段获得的网页排名,对网页进行排序形成最终排名,然后根据排名的先后顺序将相应的网页返回给用户。
[0044] 实时数据处理模块是核心部件。物流服务有不同的装运方式,包括空运、船舶和陆运,单一的运输方式不能满足运送需求。尤其是境外物流,如在中国制造的产品被装运面向国外不同城市的客户;装运过程必须是多式联运,这意味着这一过程将包括卡车、火车、轮船或航空等。综合多式联运物流过程容易遇到各种各样的挑战,导致交货延误。例如,如果在港口的通关被延误,货物可能会延误,即使所有其他运输方式都符合预定的时间表。不确定事件,如自然灾害、战争、罢工抗议可能会影响一个或多个交付模式或是整合物流流程的更多步骤。不确定性是这类事件的主要挑战。因此,本发明通过实时分析数据以提取可能导致交货延误的因素,其信息包含可能导致交货延误事件的连续数据流。实时数据处理模块基于社交媒体及传感器事件,其访问速度是磁盘的十万倍,实时数据处理模块的设计目的是添加缺少的数据信息以方便事件的及时应对处理。这些事件首先进入通过分布式消息传递到数据存储模块。对于此类不确定事件,实时数据处理模块能够优先扩展处理行为,而不是成批处理。实时数据处理模块实时执行事件的集群并获取对已处理数据的即时洞察。归类是对数据项进行分组或分段的过程,这些数据项它们在集群中相似,但与数据不同属于另一个群集的项。本发明基于归类概念,将目标函数生成一个聚集的数据集,进而有助于在预测交货延迟时进行有效的分析。
[0045] 令Xi={X1,X2,…,Xn}表示具有n个物流对象的数据集,其中Xi={X1,X2,…,Xn}表示第i个对象的m个属性,数据集表示成n×m的矩阵。对数据集进行T次归类,Ri={Ri1,Ri2,…,RiT}表示第i个对象在T次归类下的结果,基归类结果表示成n×T的矩阵,数据信息采用成对约束,成对约束所描述的是两个数据对象之间的关系,其包括两种关系:反映数据对象属于同一类的必连关系信息,记作M,反应数据对象不属于同一类的不连关系信息,记作C。
[0046] 在原数据特征空间中,将原数据表示成n×n的矩阵D,D(i,j)表示对象i与对象j之间的相似度,用高斯相似度计算 其中δ为超参数,再计算对角矩阵E,对角线上元素是W矩阵一行(列)所有元素的和,归一化得到最终的矩阵D=E-1/2WE-1/2,距离越近两点之间的相似性越大。在基归类构成的符号特征空间中,将基归类表示为n×n的矩阵B。B(i,j)表示在T次基归类结果下对象i与对象j划分在一类的次数,根据下式计算:
[0047]
[0048] δ(Rit,Rjt)=1,Rit=Rjt;δ(Rit,Rjt)=0,Rit≠Rjt。
[0049] 在监督信息特征空间中,将成对约束表示成n×n的矩阵S。对于给定的同一数据集上,成对约束具有对称性和传递性。根据下式计算对象点之间的相似度,以保证相似性矩阵S的非负性,
[0050]
[0051] 这样,在原数据、基归类、监督信息三种特征空间上分别构造n×n的矩阵D、B和S后,将三个相似性矩阵线性结合构造一个新矩阵L=w1D+w2B+w3S,其中,w1、w2、w3分别为原数据、基归类及监督信息的权重,对L进行NMF归类,得到结果,在最终的结果矩阵中选取NMI值最大的一列为类标签。
[0052] 信息优化模块根据NMI值、买家信息、卖家信息以及运输信息(如航班、车次等),对物流进行线路优化,信息优化模块是基于发布订阅的信息系统,它是快速且高度可扩展的分布式信息模块,它用于构建持久数据高吞吐量和可靠交付的收集系统的信息对物流线路进行主题集合,分为一个或多个线性有序的消息序列,其中每个消息都按其索引被标识。信息优化模块将优化线路通过无线/有线数据传输给物流配送模块,实现数据交互。
[0053] 物流配送模块包括GPS模块和位移传感器,通过GPS模块和位移传感器结合实时对货物的地点进行监测,并实时根据交互数据对物流输送进行及时调整,以实现物流配送产品的信息化与规范化。
[0054] 以上所述仅是对本发明的较佳实施例而已,并非对本发明作任何形式上的限制,凡是依据本发明的技术实质对以上实施例所做的任何简单修改,等同变化与修饰,均属于本发明技术方案的范围内。