[0038] 下面对照附图,通过对实施例的描述,对本发明的具体实施方式作进一步 详细的说明,以帮助本领域的技术人员对本发明的发明构思、技术方案有更完 整、准确和深入的理解。
[0039] 首先给出发明中部分术语的定义,
[0040] 网格单元:给出一个n维空间D,将空间D中的每一维D1,D2,…,Dn分别 划分成m1,m2,m3,…,mn个区间,每个区间的边长相等,空间D就被划分成 m1*m2*m3*…*mn个网格单元。空间D的每一个网格单元di就可以表示成:
[0041]
[0042] 其中 是网格单元di在Dj维上一个前闭后开的区间且满足 1≤j≤n,为该区间的左右端点,区间长度即为网格单元边长。由于发明 研究的是出租车位置采样点的聚类分析,这里的数据源是落于二维平面上,因 此这里的坐标空间维度n为2,因此网格单元可以形象化的表示为方形网格。
[0043] 网格单元密度:划分空间之后,落入某个网格单元的数据点的数量就是该 网格单元的密度。设输入的数据点集为:
[0044] V={v1,v2,v3,…,vn} (3‑2)
[0045] 其中 其中 是数据点集V中数据点vi在Dj维上的分 量。如果一个数据点vi在Dj维上落入一个网格单元di中,则需满足条件:
[0046]
[0047] 其中 分别为区间的最小值和最大值。如果数据点 在n个维度上均落 于一个网格单元di中,则该网格单元密度计数加1。在二维位置采样点集中,V 通常为经纬度点的集合,因此只需要判断每个采样点在经度、纬度两个指标上 是否落入对应网格单元的区间内即可进行密度计数。
[0048] 网格中心点:网格单元的中心点是指每个网格单元最中间的一个位置点, 一个网格单元di的中心点:
[0049]
[0050] 其中 为网格单元di在Dj维上的数学中心点,其计算公式为
[0051]
[0052] 其中 分别为区间的最小值和最大值。其中在本发明的聚类研究中网格 数据维度为2,即经度和纬度。因此这里的n为2,网格单元di的中心点 gridci=(longitude,latitude),其中经度计算方式即为网格单元经度最小值与最大 值的平均值,纬度计算方式亦然。
[0053] 数据中心点:指网格单元中包含的数据点的中心位置点,一个网格单元di中 有k个数据点V={v1,v2,v3,…,vk},则该网格单元的数据中心点:
[0054]
[0055] 其中, 为k个数据点V在Dj维上的投影分量的算术平均值,其计算 方式如下[0056]
[0057] 根据上文网格中心点所述,本发明所使用的维度n为2,因此数据中心点 的形式化表示依旧为gridci=(longitude,latitude),其中经度计算方式为该网格单 元中所有数据点的经度平均值,纬度计算方式亦然。
[0058] 直接关联网格单元:两个网格单元至少在一个维度上有交集,就称这两个 网格单元是直接关联。
[0059] 图1为本发明实施例提供的出租车热点区域提取方法的流程图,该方法具 体包括如下步骤:
[0060] S1、对于原始位置数据进行停留点的识别并过滤;
[0061] 原始位置数据集中会因为现实因素产生多余的停留点,比如在某些地点停 留等待客人,在路口停留等。但是位置传感器依旧会定时上传GPS信息造成该 区域采样点个数过多,这些停留的点会带来聚类结果的不准确,本发明提出了 停留点过滤的预处理方法;定义常见的出租车停留事件及其停留时间,本发明 提出了五种停留事件如表1所示,Δt表示停留时间,按照所定义停留事件,可 以对原始位置数据中的停留点进行分类和提取。
[0062] 表1停留点类别与停留时间
[0063]
[0064] 此外,由于GPS定位会存在一些精度上的误差,即使在同一个地点两次上 传的经纬度也可能存在误差。因此,本发明提出停留点阈值来解决这种定位误 差。当从纬度的角度,停留点距离阈值取值为0.0001、0.001、0.01,根据全球 各地经纬网图,纬度1°的间隔长度都相等(因为所有经线的长度都相等),根 据经纬度计算相关距离标准,所对应的实际距离分别代表0.0111km、0.111km、 1.11km;
[0065] 根据停留事件对出租车GPS数据集的不同类别停留点进行不同级别过滤 的数据预处理方法,更贴近真实世界,准确性更高,而且灵活性更强,可以个 性化设置。例如,将采样间隔定义在一分钟以内,并且经纬度基本不变化的采 样点,从数据集中提取和过滤过多的由于出租车等候红绿灯而造成停留点,可 以解决由于等候红绿灯而造成的网格单元密度过高导致聚类结果不准确的问题
[0066] S2、对过滤后的位置数据进行网格映射形成网格单元,识别网格单元中的 密集网格单元及非密集网格单元;
[0067] 在过滤掉停留点的预处理阶段之后,本发明需要进行网格映射阶段,该阶 段主要任务是将原始位置点进行网格划分,并且计算对应的网格单元密度。
[0068] 首先找到数据集中经纬度最小点作为原点,按照预先定义的网格单元边长 对整个数据空间划分网格单元。其次对所有网格进行筛选判断其是否为密集网 格,根据原始位置点的GPS坐标确定其属于哪一个具体的网格之中,计算采样 点个数来确定网格单元密度。对于网格内数据点密度大于或等于密度阈值的直 接判断为密集网格单元,否则为非密集网格单元。
[0069] S3、识别非密集网格单元中的次密集网格单元及噪声网格单元,次密集网 格单元包括:次密集网格单元一及次密集网格单元二;
[0070] 现有的很多聚类方法直接将非密集单元设置为噪声点,这样会造成很多边 界点被当成噪音点,带来聚类结果的不准确。而本发明在通过进一步细化非密 集网格单元,找出包含边界数据的次密集网格单元及包括稀疏噪声数据的噪声 网格单元。
[0071] 本发明将非密集单元分为两类:
[0072] 一类是与密集网格单元直接关联的非密集网格,直接设置为次密集网格单 元一;另一类是不与密集单元直接关联的非密集网格单元,基于网格单元中心 平移法来区分出次密集网格单元二和噪声网格单元,该方法平移针对不与密集 网格单元关联的非密集网格单元,其中,网格单元中心平移过程具体如下:
[0073] 将网格中心点移动到网格的数据中心点,且保持网格边长不变,形成新网 格单元,重新计算新网格单元密度,若密度大于或等于密度阈值,则将新网格 单元置为次密集网格单元二;若密度依旧小于密度阈值,则将该网格单设置为 噪声网格单元。
[0074] 网格中心和数据中心的计算如图2所示,网格单元中心平移过程如图3所 示;图2中,实线方框为一个网格单元,该网格单元密度为3即其中有三个数 据采样点。网格中心点的计算方式为[(0+1)/2,(0+1)/2]=(0.5,0.5)。数据中心点即 三个黑色的数据采样点的横纵坐标平均值。图3表示了本发明网格单元移动过 程,首先以网格中心点p为中心的网格单元为初始网格单元,此时网格单元内 有三个数据采样点,网格单元的密度为3。在边界点判断过程中需要将网格中 心移动到p’点,即网格的数据中心点。此时构建出来的新网格单元包括了新的 四个采样点,因此网格单元的密度为7。
[0075] 在经过以上网格移动过程后,重新计算新网格单元密度,如果满足密度阈 值,则将新网格单元置为次密集网格单元二,否则设置为噪声网格单元,噪声 网格单元内所有的采样点均为噪声数据,算法1详细描述了聚类边界点的判断 步骤,算法执行过程实例如图4所示。
[0076]
[0077] 图4中,网格边长设为1,密度阈值为3;网格单元划分好之后,根据网格 单元前闭后开原则和密度阈值,判断出编号为E、G的网格为密集网格单元, 编号为J、C、D、A、B、H、F、I的网格为非密集网格单元。由于网格单元B、 D、F、H与密集网格单元直接关联,所以将这些非密集网格单元设置成次密集 网格单元一。再对编号为C、J、A、I的网格单元进一步判断是否为次密集网 格单元二。如图中的虚线框所示,网格单元的中心点移动到数据中心点生成一 个新网格单元,重新计算网格密度,如果新网格单的密度大于或等于满足密度 阈值,则将新网格单元设为次密集网格单元二,如果密度小于密度阈值,则将 原来的网格单元设置为噪声网格单元,网格单元内的数据点作为“噪音”处理。 图4中编号为I的网格单元经过移动得到的新网格单元密度满足密度阈值,所 以I号网格单元用新网格单元代替,且被设置成次密集网格单元二;编号为C、 J、A的非密集网格单元经过移动之后的新网格单元不满足密度阈值,为噪音网 格单元,最终这些噪音网格单元中的数据点将被当做“噪音”处理。
[0078] S4、基于次密集网格单元与密集网格单元构成若干聚类簇,即完成网格聚 类。
[0079] 次密集网格单元中的数据点为边界点,在边界点判断完成之后,需要进行 网格聚类,形成多个聚类簇。基于密集单元和次密集单元进行聚类,因此,将 密集单元和次密集单元均放入聚类网格集中,需要将聚类网格集中所有直接关 联网格单元聚类为一个簇,噪声点不参与聚类过程。
[0080] 聚类过程采用深度优先的方式找出相关联的密集网格单元及次密集网格单 元,将这些关联的密集网格单元和次密集网格组合到同一个网格集合中,最后 将数据点映射到相应的聚类簇。密集网格单元聚类算法2伪代码描述如下:
[0081]
[0082] 实例如图5所示;假设从D网格单元开始遍历,D网格单元所属聚类编号 为1,E网格单元是与D网格单元直接关联的密集网格单元,E所属的聚类编 号也为1;以E网格单元为中心继续深度遍历,B网格单元是与E网格单元直 接关联的次密集网格单元一,B网格单元所属的聚类编号为1,退回到E网格 单元,F网格单元是与E网格单元直接关联次密集网格单元一,F网格单元所 属的聚类编号也为1,退回到E网格单元;G网格单元是与E网格单元直接关 联的密集网格单元,G网格单元所属的聚类编号也为1,以G网格单元为中心 继续深度遍历,H网格单元是与G网格单元直接关联的次密集网单元一,H网 格单元的聚类编号也为1,I网格单元是与H网格单元直接关联的次密集网格 单元二,因此I网格单元的聚类编号也为1,完成1号聚类的网格单元在图中 以粗线网格标出,其中A、C、J网格单元中数据点为“噪音”数据。
[0083] 本发明提出的出租车热点区域提取方法具有如下有益技术效果:
[0084] 1)提出了基于停留点分类以及停留点阈值的过滤预处理算法,可以来避免 由于车辆停留而造成部分地区网格密度过高而导致的聚类结果不准确的问题;
[0085] 2)将位置数据空间划分成矩形网格单元,根据所定义的密度阈值判断出每 个网格单元是否为密集网格单元,并在非密集网格单元中判断出聚类边界点和 噪声点,避免将正常数据识别为噪声,提高了的噪声数据处理的精确度;
[0086] 3)连接相关联的密集网格单元构成聚类簇,由于面向网格单元进行聚类所 以相较于传统算法更加高效;
[0087] 此外,通过在真实数据集的实验验证本发明所提出的出租车热点区域提取 方法不但减少了聚类的时间成本并且提高了聚类效果;
[0088] 实验从原始T‑drive位置数据集中随机截取了部分数据,生成数据量不同的 四组实验数据集,如表2所示。其中DS1为编号7、13的2组出租车位置数据, DS2为编号36、37、112、114的4组出租车位置数据,DS3为编号137、138、 140、231、267、351、419、427、501的9组出租车位置数据,DS4为编号3090、 8249、9174、9500、9837的5组出租车位置数据。
[0089] 表2数据集采样点数量
[0090]
[0091]
[0092] 实验环境为:Windows 10 64bit操作系统、Inter Core i5‑5350U处理器、8G 内存,使用Visual C#语言实现,基于Mircrosoft Visual Studio 2015集成开发环 境和SQL Server 2014数据库上进行实验结果分析。
[0093] 停留点过滤分析:由于定位误差,停留点的实际数据不一定完全不变,会 在小的定位不准确范围内变化,本发明定义了停留点阈值,来减少这种停留点 定位误差对聚类的影响,即在比较车辆移动的过程中允许停留点的位置在小范 围内偏移。
[0094] 为了分析本发明实验数据集中停留点阈值的影响,我们对四个数据量不同 数据集上分析了停留点过滤预处理中停留点阈值的影响。根据表1中定义的停 留点事件,实验停留点时间设置如下:DS1停留时间15分钟,其余数据集停 留时间30分钟。
[0095] 实验对比了原始数据在停留点阈值分别为0、0.0001、0.001、0.01时采样 点留存数量情况,结果如表3所示。
[0096] 表3停留点过滤后的采样点留存
[0097]
[0098] 从表3可知四个数据集中均存在大量由于出租车停留产生的重复采样数据 点。当停留点阈值为0时,四组数据集均存在一些完全不移动的数据点,当停 留点阈值为0.0001、0.001、0.01时,停留点阈值增大时更多停留点被过滤,留 存点减少。停留点阈值分别为0、
0.0001、0.001时的差别不大,但是为0.01时, 数据留存量受到较大的影响,尤其是DS3和DS4,去掉的点过多,不适合取这 样大的阈值。因此,停留点过滤过程中停留点阈值需要根据实际情况来判断和 确定。
[0099] 根据表1分类,我们对本发明实验中的等待红绿灯、上下客、堵车、有事 暂停营业、停业休息五种停留点事件,分别在四个数据集上进行了分析,停留 点过滤时停留点阈值设置为0,在经纬度判断的时候是判断经纬度相差为0的 采样点,因此只针对基本不位移的车辆。实验结果如表4所示。
[0100] 表4不同停留点事件分析结果
[0101]
[0102] 由表4可知,四组数据集中,停留时间小于30分钟的出租车停留点出现的 占据了大多数,这说明了停留事件主要由于等候红绿灯、上下客以及堵车造成, 有事暂停营业以及停业休息事件所过滤的停留点较少,从表4可知本文的停留 点事件定义的方法考虑了真实场景,这种停留点过滤的预处理方法更符合实际、 更准确。
[0103] 网格映射分析:在DS3数据集上分析了停留点阈值对于单个网格单元密度 的影响,实验网格单元一共有137个,1‑40号网格单元实验结果如图6所示, 为横坐标为网格单元编号,纵坐标表示网格映射后每个网格单元内的轨迹采样 点个数,其中,(a)为1‑10号网格,(b)为11‑20号网格,(c)为21‑30号网格, (d)为31‑40号网格,是判断网格单元是否密集的根据。
[0104] 由图6可以看出在随着停留点阈值的增加,为0、0.0001、0.001、0.01时, 每个网格单元的密度呈现减少趋势,这说明在网格映射阶段停留点阈值与网格 单元密度为反比关系,而密度的减少表示聚类过程中可用数据采样点的减少。
[0105] 同时可以看出在停留点取值为0.01时,大部分网格单元密度较其他 取值下降的更快,而网格单元密度作为聚类中重要的衡量指标,直接关 系到该网格单元是否为密集网格单元。密度下降过快会导致在后续聚类 过程中,没有足够的网格单元符合密集网格的判断标准,使得可用的聚 类网格过少,而影响聚类结果。因此,本发明停留点阈值不适合取0.01 这样较大的值。
[0106] 密集网格聚类结果可视分析:本组实验在预处理阶段,设置停留点 阈值为0,设置DS1堵车停留时间Δt为15分钟以内,设置DS2、DS3、 DS4堵车的停留时间Δt为30分钟以内。在网格映射阶段中为了呈现不同 的网格边长对于聚类结果的影响,DS1和DS4网格边长设置为0.01, DS2和DS3网格边长设置为0.05。网格单元密度阈值设置为10,即当 某网格单元中采样点数目为10时,判断为密集网格单元。
[0107] 本发明密集网格聚类的直观可视化结果如图7所示。图7为密集网 格单元与原始位置点分布结合图,该图首先以前景色显示出由密集网格 单元构成的聚类簇,其次再以背景色的形式显示出数据采样点分布。位 于聚类簇中密集网格单元的数据采样点的为该簇内数据点,不存在于任 意网格单元内的采样点为稀疏噪声点。
[0108] 图7中浅灰色点为数据采样点,即过滤停留点后不同数据集中位置 点的分布,黑色和深灰色点表示聚类簇网格点。由于本组实验网格单元 边长已给出,再根据任意一个网格端点即可唯一确定该网格单元,因此 为了简化图形显示,用网格单元左下方的端点表示网格单元
[0109] 图7表明本发明聚类方法可以有效判断出稀疏的噪声点。例如,在 7(b)图DS2结果中,北纬115.5‑116.1度,东经39.7‑40.05度存在大量 的稀疏点,没有将其包含于任意聚类簇中。而且,在其他数据集实验结 果也表明类似的稀疏点没有对聚类结果造成影响。例如,图7(a)DS1聚 类结果中,两个聚类簇周边以及联合处的采样点等。同时,图7(a)‑(d) 四组实验结果表明,本文方法可以精准的判断采样点高密度区域的聚类 簇,代表着出租车分布的高密度区域,对城市热点区域提取有着较高的 价值。
[0110] 图7中还显示了网格单元边长对于网格映射的影响,图7(a)和(d)中, DS1和DS4的网格单元较密集,图7(b)和(c)中,DS2和DS3的网格单 元较稀疏,这是因为DS1和DS4网格边长设置为0.01而DS2和DS3为 0.05。这四组数据均采集于北京市出租车,因此数据空间变化不大,是 网格边长不一样导致的网格密集和稀疏程度不同。
[0111] 本发明将基于停留点与网格密度聚类算法与基于混合特征 DBSCAN聚类算法(Hybrid Feature based DBSCAN,HF_DBSCAN)、基于 参数选择的DBSCAN聚类算法(Effective Parameter Selection Process for the DBSCAN,PS_DBSCAN)进行了比较。
[0112] (1)HF_DBSCAN算法:HF_DBSCAN是Luo等人在2017年提出 的一种基于改进DBSCAN的算法。DBSCAN是一种经典的基于密度的 算法,用于发现空间中的高密度区域,并且已经提出了该算法的不同衍 生方法来找到轨迹的城市热点区域,DBSCAN算法中当前点的密度由距 当前点一定距离内的点数来衡,HF_DBSCAN算法采用高斯函数来作为 点的密度,计算方法如下:
[0113]
[0114] 其中pi(i=1,2,3...,n)表示轨迹点,dij表示轨迹点pi,pj之间的欧式距 离,σ1表示标准偏差。本文实验中标准偏差取值为0.3。
[0115] (2)PS_DBSCAN算法:PS_DBSCAN是Huang等人在2019年在 ACM Trans上提出的一种改进算法,针对原始DBSCAN算法在选择半 径长度和密度阈值两个参数上没有一个严格的指标确定导致了聚类结果 不准确,作者改进了这两组参数的确定方法,步骤如下:首先,确定一 个较大的半径长度,然后,逐步减小半径长度,并且观察每一组半径长 度下聚类簇数量与密度阈值的对比结果,找到随着密度阈值上升时聚类 簇数量刚好降低时的密度阈值,将其设置为该组半径长度下合适的密度 阈值。并且,最后一组出现上述变化的密度阈值为最终的取值。在上一 步中得到的合适密度阈值下观察聚类簇数量与半径长度的对比结果,对 应于聚类簇数量较大的半径长度为合适取值。
[0116] 本发明先在DS4数据集,按照PS_DBSCAN算法中的参数选择方法 实验,找出合适的半径长度和密度阈值。首先确定一个较大的半径长度 0.025,随后依次减少为0.01、0.005。这三组半径长度下密度阈值与聚类 簇数量的变化对比结果如下表5‑7所示。
[0117]
[0118] 表7半径长度=0.025
[0119]
[0120] 首先判断三组数据中密度阈值增加而聚类簇数量下降的有三组:半 径长度0.005密度阈值60、半径长度0.01密度阈值110、半径长度0.025 密度阈值150。这三组数据中密度阈值150最大,是最后变化的关键值, 因此作为合适的密度阈值参数。
[0121] 随后判断三组数据中密度阈值为150的数据有:半径长度0.025下 的密度阈值150其聚类簇数量为4、半径长度0.005下的密度阈值150 其聚类簇数量为3、半径长度0.025下的密度阈值150其聚类簇数量为7。 因此可以得到基于参数选择的DBSCAN算法在DS4下的合适半径长度 为0.025,密度阈值为150。同理可得DS1、DS2、DS3的合适半径长度 均为0.005、0.025、0.025,密度阈值分别为10、30、50。
[0122] 聚类精确度对比分析
[0123] 本发明与HF_DBSCAN和PS_DBSCAN在四组数据集聚类结果实 验如表5‑7所示。表中属性No表示聚类的编号,m表示聚类簇中数据 点的个数,Longitude、Latitude是该聚类簇的聚类中心坐标,即该聚类 中所有点到该点的距离和最小;LoadLength表示该聚类的聚集距离,所 有点到聚类中心的距离和。其计算公式如下:
[0124] Loadlength=∑p∈cluster dis(p,center) (3‑9)
[0125] 其中p表示该聚类簇cluster中的簇内元素,center表示该簇的聚类 中心即Longitude、Latitude坐标。Avg则表示每个点的平均聚集距离, 计算方式如下:
[0126]
[0127] No值代表聚类簇的个数,m代表了簇中点的个数,m越大,说明 参与聚类的点越多,舍弃的噪声点越少。Avg代表簇中点多平均密集程 度,Avg越大,说明簇中点越密集。若聚类簇中点越多,而且越密集, 则每个簇的聚集效果越好。
[0128] 表8 DS1数据集下本文算法的聚类结果
[0129]
[0130]
[0131] 表9 DS1数据集下HF_DBSCAN聚类结果
[0132]
[0133] 表10 DS1数据集下PS_DBSCAN的聚类结果
[0134]
[0135] 表11 DS2数据集下本文算法的聚类结果
[0136]
[0137] 表12 DS2数据集下HF_DBSCAN聚类结果
[0138]
[0139] 表13 DS2数据集下PS_DBSCAN聚类结果
[0140]
[0141] 表14 DS3数据集下本文算法的聚类结果
[0142]
[0143] 表15 DS3数据集下HF_DBSCAN聚类结果
[0144]
[0145] 表16 DS3数据集下PS_DBSCAN聚类结果
[0146]
[0147] 表17 DS4数据集下本文算法的聚类结果
[0148]
[0149] 表18 DS4数据集下HF_DBSCAN聚类结果
[0150]
[0151]
[0152] 表19 DS4数据集下PS_DBSCAN聚类结果
[0153]
[0154] 表8‑10显示,DS1数据集下本文算法和PS_DBSCAN算法在m值 比HF_DBSCAN算法少,说明了在小规模数据集中,本文算法和 PS_DBSCAN算法会存在较多的聚类采样点丢失。其次,该组表 LoadLength以及Avg值显示HF_DBSCAN算法产生的聚类簇簇内距离 较大,说明其在聚类精确度质量上不如本文算法和PS_DBSCAN算法。 在DS2、DS3、DS4数据集下三种算法的m值相差不大,说明了三组算 法在聚类结果采样点数量上基本一致,表8‑13显示,本文算法在LoadLength以及Avg指标上较对比算法高一些,说明了簇内距离上本文 算法聚类精确度结果差一些,这是因为本文聚类的网格映射过程会带来 一定的精度损失。
[0155] 表8‑19显示,HF_DBSCAN算法虽然产生了较多的簇,但是大部分 簇内点稀疏、元素个数较少,而本文聚类算法和PS_DBSCAN算法聚类 的簇中数据结果较为均匀。例如,表3.14‑3.16显示,本文聚类方法和 PS_DBSCAN算法分别产生2、3个聚类簇而HF_DBSCAN算法产生了 9个聚类簇,但是根据m值可知,HF_DBSCAN算法簇编号为2、3、4、 5、6、7、9的聚类簇仅有一个数据点,这一类实验数据可以作为噪声而 被剔除或者归并到其他聚类簇中,在其他数据及上也有类似的结果,说 明本文聚类算法和PS_DBSCAN算法形成的簇更加合理、均衡、稳定。 但是在PS_DBSCAN算法中,通过对参数进行了调优选择使得其聚类结 果较为均匀,算法实现相对复杂。因此,本文在形成合理的簇时,实现 起来更简单、高效。
[0156] 综上,在聚类效果上,对比PS_DBSCAN算法,本文算法更简单, 丢弃的噪声点更少,对比HF_DBSCAN算法,本文方法形成的簇更加均 匀、合理。
[0157] 运行时间对比分析:实验还对比分析了本文算法与HF_DBSCAN以 及PS_DBSCAN算法执行时间,在四组数据集上的实验结果如图8所示。
[0158] 图8表明本文聚类算法在处理相同规模数据集时的运行时间消耗远 远低于对比算法。并且随着数据对象集中的数量不断增加,对比算法的 运行时间急剧增加,本文以网格单元为运行单位的基于网格与密度聚类 算法运行时间增加幅度远远小于对比算法,这表明本文算法在处理大规 模数据集时比对比算法更有优势。
[0159] 这是因为本算法采用了网格聚类算法划分网格的方法,使得处理的 对象不是数据点,而是划分后的网格单元,而基于改进DBSCAN聚类 算法是对数据对象进行操作,所以本实验聚类算法大大缩减了算法的运 行时间,使得算法的效率高于HF_DBSCAN和PS_DBSCAN算法;
[0160] 本实验以网格单元为单位进行聚类,空间被划分后的网格单元的个 数和非密集单元的数量也会影响了本实验的效率,同时对非密集网格单 元进行进一步判断也需要消耗额外的计算影响时间效率,但是综合效率 依旧明显优于对比算法。
[0161] 上面结合附图对本发明进行了示例性描述,显然本发明具体实现并 不受上述方式的限制,只要采用了本发明的方法构思和技术方案进行的 各种非实质性的改进,或未经改进将本发明的构思和技术方案直接应用 于其它场合的,均在本发明的保护范围之内。