收藏 分享(赏)

基于聚类的农产品流通物联网感知数据时空可视化技术.doc

上传人:无敌 文档编号:156361 上传时间:2018-03-22 格式:DOC 页数:13 大小:108KB
下载 相关 举报
基于聚类的农产品流通物联网感知数据时空可视化技术.doc_第1页
第1页 / 共13页
基于聚类的农产品流通物联网感知数据时空可视化技术.doc_第2页
第2页 / 共13页
基于聚类的农产品流通物联网感知数据时空可视化技术.doc_第3页
第3页 / 共13页
基于聚类的农产品流通物联网感知数据时空可视化技术.doc_第4页
第4页 / 共13页
基于聚类的农产品流通物联网感知数据时空可视化技术.doc_第5页
第5页 / 共13页
点击查看更多>>
资源描述

1、基于聚类的农产品流通物联网感知数据时空可视化技术 林兰芬 于鹏华 李泽洋 浙江大学计算机科学与技术学院 摘 要: 农产品在流通过程中对运输环境的要求相对严格,借助物联网技术可以实时感知农产品流通过程中的环境数据以及车辆位置数据,通过对这些数据进行有效地可视化,能够实现对整个运输环节的环境监控和位置追踪。但是,流通过程中往往会产生大规模的环境感知数据和车辆位置数据。直接将这些数据进行可视化映射将面临如下挑战:感知点会显得很繁杂错乱,容易出现视觉混淆问题;关键位置点会被湮没在密集的点群之中,难以发现数据中蕴含的有价值的信息;大规模数据的渲染会占用大量的系统计算资源,导致浏览器卡顿等现象,影响用户的

2、使用体验。针对这些难题,该文提出了一种基于聚类的农产品流通过程感知的时空数据可视化技术,该技术首先综合考虑地理空间分布、时间连续性、语义特性对采集到的大规模数据进行聚类分析,挖掘出流通过程的关键位置;然后基于这些关键位置绘制运输轨迹,以实现对流通过程感知数据的时空可视化;最后,将此技术应用到农业物联网地理空间分析与可视化系统中,该系统成功应用到浙江省多个农业基地,针对农业物流环节进行应用示范,应用表明该技术方便了对农产品流通过程进行直观地时空可视化分析。关键词: 农产品; 聚类; 可视化; 流通过程; 时空数据; 作者简介:林兰芬,女,浙江平阳人,教授,博士生导师,主要从事知识管理、数据挖掘、

3、智能信息处理、语义网等方向的研究工作。杭州浙江大学计算机科学与技术学院,310027。Email:收稿日期:2014-09-17基金:“十二五”农村领域国家科技计划子课题:农村物联网信息资源地理空间分析及可视化服务关键技术产品研发(2012BAD35B01-3)Using clustering algorithm to visualize spatial-temporal internet of things data in process of agricultural product circulationLin Lanfen Yu Penghua Li Zeyang College of

4、 Computer Science and Technology, Zhejiang University; Abstract: Stable environment is of vital importance in the process of long-distance circulation for agricultural products. With the development of Internet of Things(Io T) technique, it is relatively convenient to acquire the real-time data abou

5、t the agricultural environment and the location data of the transport vehicle during the whole circulation process. In order to better perform the environment monitoring and position tracing, one can supervise the trajectory based on the collected Io T data through some current visualization approac

6、hes. However, the data collection of one specific trajectory on circulation for agricultural products is usually extremely large because the real-time data is usually required in real-world applications. Therefore, there still exist several open challenges to effectively and efficiently visualize th

7、e trajectory by large data collected on circulation for agricultural products. Firstly, there will be too many markers on the limited map once the visualization mapping is made directly from the original collected data set. Then the visual overload problem may occur when loading all the markers on t

8、he screen. Meanwhile, it also wastes computational resources to be rendered for the large scale data set, and it will decay the satisfaction of the end users. In addition, it is not conducive to grab the valuable information, which is typically usable for decision-making but hidden in the large raw

9、data set. In order to effectively address these problems, a novel spatial-temporal visualization technique based on clustering the original data points is proposed in this paper. The clustering algorithm considers both the spatial-temporal characteristics and the semantic features of the data collec

10、ted from the transport vehicle during the circulation process. For the spatial aspect, the trajectory is consecutive in nature, and the curves of the trajectory are well guaranteed with the constraint of the temporal factor. As for the spatial perspective, the nearby points are surely clustered toge

11、ther. Besides, the semantic features are taken into account, and then the points with abnormal Io T sensing values are detected in time, which is demanded by the manager of the circulation. In this approach, the original data will be firstly clustered by the proposed clustering algorithm and reduced

12、 to relatively fewer points, which are deemed to be critical positions in a specific trajectory on circulation for agricultural products. Then the real-time trajectory of this transport vehicle can be drawn with these critical positions to monitor the environment and trace its position during the ci

13、rculation process. Furthermore, the proposed spatial-temporal visualization method is applied to the project that focuses on position-based analysis and visualization of agricultural Io T data based on the geographic information system. Finally, the system is successfully applied to several agricult

14、ural companies, and the intuitive visualization of the entire trajectory on the circulation process of agricultural products is effectively achieved.Keyword: agricultural products; clustering algorithms; visualization; circulation process; spatial-temporal data; Received: 2014-09-170 引言在农产品流通过程中,鲜活农

15、产品的生物性能(含水量高、保鲜期短和极易腐烂变质等)对运输的效率和保鲜条件提出了相对较高的要求。目前,中国农产品物流主要以常温物流或者自然物流的形式为主。在这种物流形式下,农产品在流通过程中的损失往往很大。据统计,中国每年因为集装箱运输农产品腐烂变质而造成的损失估计超过 1 000 亿元,其中,7%的货物是在运输途中因为监管不善而毁损的1。因此,运输环境监控和地理位置追踪是农产品流通过程中非常重要的部分。完善农产品流通过程的监控和追踪,有效直观地对运输过程感知的大规模数据进行时间、空间可视化,对提高农产品运输过程中的质量非常重要。先进的物流装备技术已经在农产品领域广泛使用,发达国家的农产品物流

16、配送更加系统化和规模化2。近几年来,国内研究学者也开始重视地理信息系统(geographicinformation system,GIS)和物联网技术在农业领域应用,并着力于研究新一代信息技术的应用。例如,文献3详细介绍了 GIS 技术在农业领域的应用;文献4研究了利用 GIS 进行安全农产品追踪的方法;文献5提出了农产品追踪的原型系统和方案;而文献6针对传统农产品物流损失过大的问题,提出了基于信息网络的模型,并构建了信息网络环境下的农产品物流供应链模式。最近几年,基于传感器网络的智能监控、跟踪系统也应运而生7-9,其中,文献10和11总结了物联网技术在食品及农业领域的研究进展。目前的研究工作

17、侧重于对运输环境数据的采集和传输方面,应用方面主要以监控和追溯系统的流程、方案和设计为主。对采集到的数据展示主要以表格、曲线、轨迹等形式为主。然而,为了能够实时获取运输轨迹和环境参数信息,通常需要传感器每隔很短的时间间隔内传回一次感知数据。因此,在一趟运输过程中会采集到大量的带有地理位置和时间属性的物联网感知数据。对如此大规模的多维度感知数据直接进行展示、分析会面临如下的挑战:1)以表格的形式直接显示感知数据时,会产生很长的数据列表,不易发现感知数据中蕴含的有价值的信息;2)直接在地图上渲染运输轨迹时,大量的感知点会显得很繁杂错乱,不仅无法清晰的展示信息而且会使重要点湮没在密集的点群之中;3)

18、大规模数据的轨迹渲染还会占用大量的系统计算资源,导致浏览器卡顿系统响应变慢等现象,从而影响用户的使用体验。因此,以清晰简洁的方式展示大规模运输轨迹数据所蕴含的有效信息同时在大量信息中突出关键位置的感知数据,是本文重点关注的一个研究问题。本文提出了一种基于聚类的农产品流通感知数据时空可视化技术。首先,综合考虑农产品流通过程中的感知数据的地理空间分布、时间连续性、语义特性,对这些大规模感知数据进行聚类处理,挖掘出其中的关键位置;然后,基于这些关键位置绘制流通过程的运输轨迹,以实现对整个流通过程感知数据的时空可视化;最后,将此技术应用到支撑课题项目所研发的“农业物联网 GIS 地理空间分析与可视化系

19、统”中。1 农产品流通数据时空可视化方案首先介绍所采用的数据可视化流程,后续基于此可视化流程阐述农产品流通过程时空数据采集与分析,基于聚类的农产品流通感知数据处理,农产品流通轨迹可视化方法和关键运输位置可视化方法,最后介绍对运输轨迹和关键位置的可视化展示提供的基于“概览+细节”的交互模式。数据可视化技术12综合运用计算机图形学、图像处理、人机交互等技术,将采集或模拟的数据变换为可识别的图形符号、图像或动画,并以此呈现对用户有价值的信息。用户通过对可视化的感知,使用可视化交互工具进行数据分析,获取知识。本文采用图 1 所示的数据可视化流程,主要模块包括数据采集、数据处理和变换、可视化映射和用户交

20、互 4 个关键部分。图 1 农产品流通数据可视化流程 Fig.1 Flow of data visualization on agricultural productcirculation 下载原图1.1 数据采集本文通过在运输车辆上安装农产品流通环境物联网数据采集仪采集农产品流通过程的环境参数(温度、湿度、CO 2含量)和对应的地理位置(经纬度),这些数据都带有采集时间(精确到秒)。1.2 数据的处理和变换将原始数据进行处理并变换成用户可以理解的模式和特征,为之后的可视化映射做准备。本文设计了综合考虑地理空间分布、时间连续性、数据语义特征的聚类算法对大量数据点进行聚合。1.3 数据的映射与绘

21、制将数据的数值、空间坐标、不同位置数据间的联系等映射为可视化视觉通道的不同元素(如标记、位置、形状、大小和颜色等)。本文将采集到的点以标注的形式绘制在地图上,以标注的颜色来表示环境参数状态。1.4 用户交互用户通过交互从数据的可视化结果中提取有价值的信息。经过可视化映射和绘制后,用户可以以不同的粒度和方式观察到运输车辆的地理位置,运输过程中的关键位置,此外,还可查看某一具体位置的环境参数。2 农产品流通过程时空数据采集数据采集是物联网实现“物物相联,人物互动”的基础,传感器技术是数据采集技术中的重要部分12。本文借助物联网技术来感知农产品流通过程中的环境参数数据和车辆位置数据。为了对农产品的流

22、通过程实施数据采集,需要在运输车辆上安装农产品流通环境物联网数据采集仪(由定制的温度、湿度、CO 2传感器,GPS 定位仪,以及电源和存储芯片所组成的感知芯片)。各种传感器采集运输环境参数,而 GPS 定位仪则采集车辆的位置数据。将这些采集到的数据进行按照规定好的规范进行统一编码,通过无线传输技术和互联网技术定时将编码数据传送到数据服务器端。然后,服务器对数据进行格式解码和内容解析,并将转换后的数据存储到数据库,同时,服务器对转换后的数据进行数据分析与数据预处理,并根据用户的请求将数据分发到客户端。最后,在客户端以有效的可视化方式展示这些数据以及数据中蕴含的有价值的信息。在上述的流程中,数据定

23、时传送到数据服务器,这里的时间间隔可以由用户配置。为了能够实时掌握运输车辆的环境和位置,通常需要将这个时间间隔设置为较小的数值(例如设置为每 1 min 返回一次感知数据),因为较大的时间间隔就失去了感知数据的时效性。举例进行说明,假如对一辆从杭州到北京的运输车辆实施监控和追踪,在该车辆上已经安装了所需的农产品流通环境物联网数据采集仪。将数据传输间隔设定为 1 min(即每隔 1 min 传回一次数据到服务器)。如果从杭州到北京的路程需要花费 15 h,那么整个过程可以采集到 900 个数据点。每个数据点包含车辆的位置数据以及车厢中的各个传感器环境参数信息。如果设置时间间隔更短,则这个运输过程

24、中会采集到更多的数据点。进一步地,这些农产品流通过程中采集到的数据除了带有地理位置信息外,运输轨迹还具有时间连续性的特点,此外,传感器参数的数值变化情况和预警情况也应当直观地表现在整体的流通轨迹上。3 基于时间、空间、语义特征的聚类算法3.1 地图点聚合方法的选取基于地图的点聚合方法主要解决当点要素非常多的时候难以在地图上清晰展示的问题。点聚合方法可以用少量的点或图标来代表地图中所有的点,就可把这些点清晰简洁的加载在地图上13-14。一般的点聚合(聚类)算法对在线地图点聚合虽适用(如 K-means 等),但综合考虑运行效率和必要性后,实际的在线地图很少使用这些复杂的方法。目前在线地图的点聚合

25、方法主要有以下几种:基于网格的点聚合方法13,基于距离的点聚合方法14,基于方格和距离结合的点聚合方法15,基于距离和最少点数量限制的点聚合方法15等。其中 Google 地图,百度地图和高德地图现在使用的都是基于方格和距离结合的点聚合方法,事实证明这种方法的综合性能比较优越。但考虑到本文需要聚合的是运输轨迹,即需要聚合的点集比较规则而不会呈区域分散状,因此,采取基于距离的点聚合的思想进行数据聚合处理。基于距离的点聚合算法的基本思想是根据点与点之间的物理距离进行聚合,依次对每个点进行迭代,若被迭代的点到某个聚合点的距离在规定的范围内,则该点可聚合到这个聚合点中,否则新建一个聚合点。若一个点在多

26、个聚合点的阈值范围内,则聚合到离它最近的那个聚合点中。此种方法的优点是每个原始的点仅需进行一次迭代,聚合点比较精确地反映了所包含的原始的点要素的位置信息。其不足之处在于当一个点在多个聚合点的阈值范围内的时候,可能需要进行多次重复的计算。3.2 点聚类算法的改进现有的点聚合方法只考虑了位置要素,地理位置相近的点会被聚合到一起。而环境参数的情况并未被充分考虑。结合真实应用场景,本文考虑以下 2 种情况:1)运输路线是具有时间连续的一条轨迹,因此地理位置相近但是采集时间相差较大的两点不应该聚合在一起(时间连续性);2)当数据点的环境参数超出正常范围或者 2 个数据点之间的参数变化幅度较大时,应该将这

27、些关键位置识别出来(数据语义性)。此外,运输过程中数据采集是动态添加的,每当传感器返回新的数据点就进行聚类的代价比较高。因此,根据不同的数据渲染阶段,可以采取不同的聚合方案:1)方案 1:在服务器端对整条运输轨迹上的所有数据点重新进行一次聚类处理,并将聚合结果传到客户端进行展示渲染;2)方案 2:在服务器保存上一次聚类后的结果,当新的数据点到达后并不重新聚类,而是将新的数据点看成一个新的聚类点去渲染。将此技术集成到系统应用,应该交替使用方案 1 和 2。当数据的规模达到一定程度时再重新进行聚类处理。一方面可以保持运输轨迹绘制的连续性;另一方面,也降低了服务器端每次聚合处理所需要的计算代价。综合

28、上述考虑,本文提出的聚合算法的基本思想沿用了基于距离的点聚合的思路,进一步地,结合农产品流通数据的特点和现实应用的需求,本文提出了以下 4 个方面的改进:1)为保证运输轨迹的时间连续性,设置一个时间阀值,采集时间超过此阈值点不聚合在一起;2)考虑运输环境的数值范围,对环境参数处于预警状态的数据点不与正常点状态聚合在一起;3)考虑环境参数变化程度,设置一个参数差阈值,超过此阈值的 2 个数据点(环境参数变化幅度较大的 2 个数据点)不聚合在一起;4)为保证算法的应用效率问题,进行增量式的聚类处理,即根据新到的数据点的个数自动确定是否重新进行数据聚合过程。3.3 聚类算法设计在聚类算法中,对数据点

29、对之间距离(或者称之为相似性)的定义和度量是非常重要的。定义 1 物理距离:设 lat、lng 分别表示纬度、经度,地理位置 P1(lat1,lng1)和P2(lat2,lng2)的实际距离定义为物理距离。本文后续的渲染绘制基于百度地图应用程序开发接口(application programing interface,API)(http:/ 2 个经纬度的真实距离,计算公式如下:Dp=Rarccos(cos(lat1/180)cos(lat 2/180)cos(lng 1/180-lng2/180)+sin(lat 1/180) sin(lat 2/180),其中,R 为地球半径6370996

30、.81, 为圆周率)上实现,通过调用其接口函数 DistanceU til.get Distance 可以计算出 2 个经纬度所对应的实际距离,记作 Dp,则:定义 2 语义距离:本文将 2 个数据点所对应环境参数的差异定义为其语义距离。语义距离将参数变化程度小的点聚在一起。假设使用了 n 个传感器对运输环境进行监测,s ij表示第 i 个数据点的第 j 的环境参数的数值,用欧式距离衡量 2 个环境数据点 S1(s11,s12,s1n)和 S2(s21,s22,s2n)的之间的语义距离,记作 Ds,则:综合考虑数据点的物理距离和语义距离,可以得到 2 个数据点的合成距离。为了同上述概念进行区分

31、,这里将表示物理位置 Pi的(lat i,lngi)和表示环境参数 Si的 n 个传感器属性(s i1,si1,sin)拼接在一起,表示一个有(2+n)个属性的合成数据点 di:(lati,lngi,si1,si2,sin)。因此,2 个合成数据点的合成距离,记作Dc,可以通过下面的公式进行计算:其中,Max Dp 和 Max Ds 分别表示任意合成数据点 di和 dj间最大的物理距离和最大语义距离。引入这 2 个变量的目的是为了进行数据归一化,将这 2 个距离的合成界定到统一的数据范围下(0,1。而 用来控制物理距离和语义距离的权重, 的取值范围为0,1,它的取值越大则物理距离的权重越大。因

32、而 的取值范围也是(0,1,它由数据归一化算出。因为最终需要计算的是在地图上渲染的距离,因而合成距离定义为 和 Max Dp 的乘积。由于农产品流通环境物联网数据采集仪按照固定的时间间隔将地理位置和环境参数返回到数据服务器端,对于时间连续性特点的考虑可以采用相对简单的处理方式。本文将数据点采集的此顺序作为一个有序的数据集合进行聚合。此外,当寻找与当前点最近的聚合点的时候采取从后向前扫描“聚合点”集合,这样只需要进行较少次数的比较次,就可以有效的避免时间差超过一定阈值的 2 个数据点聚合到一起。在实际应用中,环境监测的目标是为了及时发现运输环境超标的情况(触发了预警),以能够在最快的时间内做出补

33、救。预警条件的数值一般由农业领域专家进行设定,系统需要在预警处进行及时判定。同时,语义距离衡量了环境参数的变化程度,对于变化幅度较大的点提前结束比较。此外,最大时间间隔、最大距离间隔用来控制单个数据聚合点内数据点个数。表 1 描述了所提出的聚类算法。表 1 本文提出的聚类算法 Table1 Clustering algorithm proposed in this paper 下载原表 4 数据可视化方法4.1 运输轨迹可视化方法农产品流通过程中采集到的环境数据同时带有时间属性和地理位置信息。文献16和17对地理空间数据分析的概念和模型理论进行了详细的介绍。为了在地图上直观地展示车辆的运输轨迹

34、,可以采用点地图的方法将这些数据点按照地理经纬度逐一渲染在地图上,最后以网页地图的形式进行可视化展示。在现有的客户端设备中,用户的可视区域通常是非常有限的。因此,在有限的可视区域中为用户展示全面的、有价值的信息而不产生重叠覆盖现象,是在农产品运输轨迹可视化环节中需要解决的关键问题。一个解决方案是采用合适的方法来减少数据的规模,同时保留数据中蕴含的、潜在有价值的信息。针对大规模空间数据进行点聚合和信息挖掘的研究也引起了研究学者的关注,例如,Keim 和 Panse 等18提出了对大规模地理空间数据点集进行可视化的 3 个主要目标:没有重叠(no overlap),保持位置(position pr

35、eservation)以及聚合(clustering),进而基于这 3 个目标设计了一个 3D 模型;Ng 和 Han19则提出了一种有效的基于随机检索的空间数据聚合方法来进行空间数据的挖掘。除了要达到避免重叠、保持位置的聚合效果,本文所针对的农产品流通过程数据还保持时间连续性,即在聚合地理位置的同时还要限制连续时间内采集的数据点。此外,对农产品流通过程进行可视化的主要目标除了位置追踪外还需要提供对运输环境的实时监控,因此,点聚合的过程除了考虑地理位置、时间连续性外还要考虑运输环境的变化情况和变化状态等因素。最后,综合考虑以上因素聚类产生一系列的关键位置点,将这些关键位置的经纬度标注在地图上,

36、并将这些标注点依次连接起来形成一趟运输过程的可视轨迹。4.2 关键运输位置可视化方法在地图上进行点数据可视化存在 2 个关键的研究问题:如何表示可视化元素的大小(即每个数据点所包含的信息量是不同的);通过何种方式能够区分这些信息(即每个数据点包含的信息类型是不同的)。将每个关键运输位置看成一个待可视化数据点,那么农产品流通过程的这些关键位置数据点具有以下 2 个特点:每个关键运输位置数据点是对一组运输位置点的聚合表示,不同关键位置点所覆盖的运输位置点的个数不同;每个关键位置点所呈现的运输车辆的环境状态不同,包括正常运输环境状态和异常运输环境状态(例如,某些传感器返回值超出正常的、合适的范围,此

37、时监控系统必须及时给出预警提示,以便及时采取补救措施)。本文采用 Keim 和 Panse 等18提出的地理空间数据可视化模型,即对大规模地理空间数据集进行可视化包括将数据的地理位置信息映射到地图上,并将数据所包含的其他统计数值用颜色进行区分表示。根据这一思路,本文采用大小、数值、颜色这 3 个可视通道对关键运输位置进行可视化映射。对每个关键运输位置点,本文用标记的大小表示该聚合点的聚合能力(标记越大表示该关键位置所覆盖的数据点越多),同时将该数据点所聚合的数据点的个数标注在该数据点上;而对于不同的数据点的运输环境状态,采用不同的颜色来区分正常运输状态(用蓝色表示)和异常运输状态(用红色来表示

38、预警)。4.3 基于“概览+细节”的交互模式“概览+细节”的用户交互模式能显示全局概览,并将细节部分在本视图或相邻视图上进行展示12。本文以点地图的形式绘制了许多关键位置点,并将这些位置点连起来成为一条运输轨迹。虽然可以通过位置点的颜色和大小来区分不同的环境状态,但各个聚合点所涵盖的具体环境参数数值无法通过颜色展示出来。因此,还需要根据用户的交互提供不同的细节视图提供不同粒度的数据追踪。本文采用浮窗形式来显示每个关键数据点的具体环境参数信息。当鼠标点击某个具体的关键位置点的时候,该点所涵盖的数据点的环境参数的具体数值就在此位置以浮窗形式显示出来。数据在不同尺度下呈现不同的结构,采用多尺度可视化

39、表达的方式提供多个概览层次会取得更好的效果。此外,本文在地图下方提供了一个折线图,以展示采集到的各类环境参数信息的整体变化趋势概览,而细节部分则通过鼠标移动到某一点,以浮窗形式显示此点的时间和环境参数数值。通过将概览视图和细节视图相结合,利用了有限的屏幕空间发挥概览+细节的作用。5 案例分析5.1 案例数据说明本文采用一趟从杭州出发到北京为目的地的农产品运输路线的采集数据进行案例分析。设定农产品流通环境物联网数据采集仪为每 5 min 上传一次感知数据。在环境监测环节,根据不同的运输农产品和实际需求,可以定制不同的传感器监测不同的环境因素,本文采用温度、湿度传感器来监控运输车厢的环境。这一趟运输过程采集到了 180 个数据点。每个数据点的格式如下:(车辆标识、当前时间、经度、纬度、温度、湿度)为了方便统一地比较,本文采用这一组运输过程的数据进行后续的试验与分析。下面,首先探究了模型参数 的不同取值对可视化结果的影响;然后,对不同的聚合算法的可视化结果进行了比较;最后,分析该可视化技术在支撑课题项目所研发的“农业物联网 GIS 地理空间分析与可视化系统”中的应用验证。5.2 案例参数确定

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 学术论文 > 期刊/会议论文

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报