1、基于朴素贝叶斯算法的船舶异常行为监测 魏照坤 谢新连 潘伟 赵瑞嘉 大连海事大学综合运输研究所 摘 要: 随着海事事故与海上违法行为的不断增多, 智能的监控方法成为降低海事事故, 打击海上违法行为的有效手段.同时, 船舶自动识别系统 (Automatic Identification System, AIS) 的普及及船舶交通管理系统 (Vessel Traffic Service, VTS) 的扩建, 又为智能监控提供了数据支持.鉴于此, 利用船舶自动识别系统提供的数据, 分析通航水域船舶信息的分布情况, 根据其概率分布采用朴素贝叶斯算法, 从船舶航速、航向及距航道边界距离 3 个方面, 构
2、建船舶异常行为检测模型.最后, 以成山角通航水域为例, 检验模型的有效性.实验结果表明, 构建的模型能够有效地完成异常行为监测, 减少海事监管人员的工作强度, 同时根据实验结果分析了成山角水域船舶航行的特点, 并对成山角定线制提出合理化建议.关键词: 交通工程; 船舶自动识别系统; 朴素贝叶斯算法; 异常行为监测; 作者简介:魏照坤 (1987-) , 男, 山东青岛人, 博士生.作者简介:谢新连 收稿日期:2017-06-20基金:中央高校基本科研业务费专项资金Ship Abnormal Behavior Detection Based on Naive BayesWEI Zhao-kun
3、XIE Xin-lian PAN Wei ZHAO Rui-jia Integrated Transport Institute, Dalian Maritime University; Abstract: With maritime accidents and violating law increasing, intelligent surveillance as a kind of significant measure can be applied to decrease or avoid maritime accidents and violations. Meanwhile, Au
4、tomatic Identification System (AIS) is widely used and Vessel Traffic Service (VTS) is being improved, which is beneficial to supply effective data for intelligent surveillance. On the bases of that, AIS data is used to analyze ship information on the sea area. According to probability distribution
5、of ship information, Naive Bayes (NB) algorithm is applied to build abnormal detection model to monitor dynamic information such as speed, course and the distance between vessel position and limit of fairway. At last, data from Chengshan Jiao sea area is used to validate the validity of the algorith
6、m. It is indicated from experimental results that the proposed method can effectively recognize ship abnormal behavior, which is conductive to decreasing workload. Moreover, the traffic characteristics in Chenshan Jiao sea area are analyzed and reasonable suggestions are proposed.Keyword: traffic en
7、gineering; automatic identification system (AIS) ; Naive Bayes (NB) ; abnormal behavior detection; Received: 2017-06-200 引言船舶运输作为主要的运输方式, 承担了绝大多数国际贸易中的运输任务1.因此, 海事事故与海上违法行为所造成的人员伤亡和财产损失是巨大的, 特别是海事事故所造成的环境破坏是难以估计和衡量的.如何有效的预防海事事故的发生, 打击海上违法行为是海事监管部门现阶段的焦点问题.海事事故和违法行为的复杂性使得该问题难以用数学模型进行准确的描述, 但利用统计分析的方法
8、能够对常规的船舶群体行为及其规律实现较为准确的刻画, 而在此基础上构建的常规船舶行为的概率分布模型可作为参考依据, 进而利用船舶属性 (如船宽、船长等) 推断船舶各种行为 (如航速、航向等) 发生的概率, 及早的识别船舶异常行为并进行预警, 从而有效的避免海事事故, 打击海上违法犯罪行为, 而该方法的实现需要有大量船舶信息数据作为支撑.随着通信技术的不断发展, 船舶自动识别系统 (Automatic Identification System, AIS) 作为与岸站进行信息交换的平台被广泛配置于各类船舶, 该系统所提供的船舶信息也被广泛地应用于海事研究的各个领域.Mou 等2利用 AIS 数据
9、对船舶的避碰操纵行为进行了研究;Han3, Krzysztof4等使用 AIS 数据刻画了船舶领域;Xiao5, 魏照坤6等根据 AIS 信息对航行水域船舶运动模式进行识别;Wang 等7将 AIS 数据应用于海事事故调查;Li8, Goerlandt9, Mazaheri10等将 AIS 数据用于海事风险分析.这说明 AIS 数据不仅内容丰富且应用价值高, 可以为研究船舶异常行为的监测提供数据支持.此外, 朴素贝叶斯算法作为数据挖掘领域十大经典算法之一11为异常行为监测的实现提供了技术支持.该算法发源于古典数学理论, 有着坚实的数学基础, 以及稳定的分类效率.同时, 所需估计的参数较少, 对
10、缺失数据不太敏感, 相对简单, 其应用范围广阔.Marucci 等12利用朴素贝叶斯算法构建了公共健康监控设备;Escalante 等13将朴素贝叶斯算法应用于早期手势识别;Zhang 等14则使用朴素贝叶斯算法预测化学品的突变;Mukherjee 等15利用贝叶斯分类器解决入侵检测问题.目前对于船舶异常行为的研究较少, 主要是 Castaldo16, Salma17根据船舶轨迹对港口水域异常行为的检测和分析, 由于港口是操纵受限水域, 航速、航向变化不大且轨迹模式相对较少, 使设计的方法应用受到限制.基于此, 本文设计了一种不考虑轨迹, 仅利用船舶静态信息 (船长、船宽等) 与动态信息 (航
11、速、航向等) 对船舶异常行为进行监测的方法.本文的主要贡献分为 3 个方面:首先, 分析了设定水域 (成山角) 的船舶信息 (动态信息、静态信息) 分布;其次, 根据其概率分布, 构建基于朴素贝叶斯算法的船舶异常监测模型;最后, 根据实验结果针对成山角水域定线制提出合理化建议.1 AIS 数据AIS 数据可分为静态信息、动态信息、航次相关信息及安全信息.其中, 静态信息、动态信息和航次相关信息为基本信息, 各类信息包含的内容如表 1 所示.表 1 AIS 信息类型及内容 Table 1The types of AIS and its details 下载原表 不同类型的 AIS 船站, 其动态
12、信息的更新速率也不相同.对于通信方式为SOTDMA 的 A 类 AIS 船站, 当锚泊时对地航速小于 3 kn 时, 其更新时间间隔为10 min;当锚泊时对地速度大于 3 kn 时, 更新的时间间隔为 10 s;当航速在014 kn 且航向不变时, 信息更新的时间间隔为 10 s, 航向改变时更新的时间间隔为 3s;当航速在 1423 kn 时且航向不变, 信息更新的时间间隔为 6 s, 航向改变时更新时间间隔为 2 s;当航速大于 23 kn 时更新时间间隔为 2 s18.B类船站信息更新时间的要求要低于 A 类船站.AIS 信息的及时更新, 确保了船舶运动特征被较完整的保存, 为后续在数
13、据挖掘和人工智能方面的应用奠定了基础.2 船舶异常行为检测2.1 异常行为要实现对异常行为的监测, 首先就要明确何为异常行为.在公路交通中, 通常认为逆行、超速等为异常行为, 这种通过运动的状态对异常行为进行判断的思想拓展到海上交通同样适用.例如, 海盗船通常具有较快的速度, 走私船舶有时会偏离航道等.因此, 海上交通依然可以参照公路交通利用运动状态来监测船舶行为, 而海上交通运动的特点又有别于公路交通, 其航速、航向等动态信息的变化又与船长、船宽等静态信息相关.鉴于此, 本文所研究的异常行为主要是指AIS 数据所提供的动态信息有别于航行于该水域同类型船舶的运动特征 (如航向、航速、距航道边界
14、距离) 时, 即判定为异常行为.根据本文对于异常行为的界定, 有异常行为的船舶不一定为违法船舶或者是存在发生海事事故的风险, 所以本文提出的方法主要是为了提高监管效率, 对可能存在的违法行为或者海事事故进行预警, 而不能完全识别是否存在违法行为或者将会发生海事事故.2.2 船舶行为分析朴素贝叶斯算法以概率论为基础, 需要对船舶设定水域的船舶信息进行梳理与统计, 具体的统计结果与分析详见 3.1 节.2.3 异常行为监测方法利用朴素贝叶斯算法解决船舶异常行为监测的核心思想是根据统计设定水域船舶信息的概率分布, 对进入该水域船舶通过静态信息如船长、船宽等来推测其航速、航向及距离水道边界的距离所处区
15、间, 然后判断进入水域船舶的航速、航向等动态信息是否位于相应的区间内, 从而实现对异常行为的监测.其中, 航向、航速、距离水道边界的区间范围的推算采用朴素贝叶斯算法, 如式 (1) 所示19.式中:x z为具体的静态信息, 如船长、船宽等, x zX;x zu表示第 z 个静态信息位于第 u 个区间;y i为具体的动态信息, 如航速、航向等, y iY;y ij表示第 i个动态信息的第 j 个区间.在实际统计过程中, 属性的类条件概率可能等于 0, 导致后验概率也等于 0, 即 P (yij|X) =0, 从而难以判定该类行为.针对此类问题, 采用 m 估计的方法来估计条件概率, 如式 (2)
16、 所示.式中:N 表示 yij中的实例总数;N c表示类 yij的训练样例中取值 xzu的样例数;m表示称为等价样本大小的参数;p 表示用户指定的参数.综上所述, 基于朴素贝叶斯算法的船舶异常行为监测流程可归结为图 1.为了保证监测的准确性应对 AIS 数据库中的数据进行定期的更新, 从而确保该水域AIS 历史数据具有较好的时效性.图 1 船舶异常行为监测流程图 Fig.1The flow chart of ship abnormal behavior detection 下载原图3 实例分析利用成山角 VTS 中心获取的部分 AIS 数据对航行于该水域的船舶进行异常行为监测, 检验算法的有效
17、性.监控水域如图 2 所示, 根据转向前和转向后及上下行水道, 将监测区域划分了 A, B, C, D 共 4 个区域, 对 4 个区域分别进行信息的统计和监测模型的构建.图 2 成山角水域示意图 Fig.2The diagram for Chengshan Jiao area 下载原图3.1 船舶行为分析图 3图 6 是对航行 AD 区域的船舶信息统计结果, 通过该统计结果可以看出:航行于 A 区域的船舶船长主要集中于 100240 m, 小于 100 m 和大于 250 m 的船舶相对较少;船宽主要集中于 1035 m, 小于 10 m 和大于 35 m 的船舶所占比例较少.就船舶动态信息
18、而言, 航行于该区域的船舶平均航速为 10.5 kn, 标准差为 3.8 kn;航向平均值为 180, 标准差为 10.8;船舶多集中在距离航道左边界 2 n mile 以内的水域航行.总体而言, 行驶于该区域的船舶航向与航速变化较大, 且驾驶员倾向于远离分割带行驶.航行于 B 区域的船舶船长主要集中于 90250 m, 船宽集中于 1336 m;平均航速为 10.5 kn, 标准差为 3.5 kn;平均航向 2.7, 标准差为 1.6;驾驶员在该区域倾向于在航道中央行驶.航行于 C 区域的船舶平均航速 10.5 kn, 标准差为 3.6 kn;平均航向为 156, 标准差为 15.6;与 A
19、 区域相似, 船舶驾驶员趋于靠近航道右边界航行.航行于 D 区域的船舶平均航速为 10.6 kn, 标准差为 2.7 kn;平均航向 338, 标准差为 53.59;驾驶员倾向于在航道中央行驶.通过上述分析可以看出, 整个水域的船舶航速的均值变化不大, 且各个水域中船舶航速分布区间较为相似, 但是 C、D 两水域航向变化较大说明多数船舶的转向行为发生在该水域.图 3 A 区域船舶 AIS 数据统计 Fig.3 The statistical result of AIS data in the area A 下载原图图 4 B 区域船舶 AIS 数据统计 Fig.4 The statistica
20、l result of AIS data in the area B 下载原图图 4 B 区域船舶 AIS 数据统计 Fig.4 The statistical result of AIS data in the area B 下载原图图 5 C 区域船舶 AIS 数据统计 Fig.5The statistical result of AIS data in the area C 下载原图3.2 船舶异常行为检测以航速步长为 5 kn, 航向步长为 20, 距离步长为 0.5 n mile, 船长与船宽的步长为 50 m、10 m 将 4 个水域的动、静态信息划分为若干个区间.表 2 是在上述
21、步长设置下, 随机抽取 200 个训练样本进行异常监测的准确率及当步长设置发生改变时异常监测准确率的变化.图 6 D 区域船舶 AIS 数据统计 Fig.6The statistical result of AIS data in the area D 下载原图表 2 不同步长下的监测准确率 Table 2The accuracy rate for detection with different interval 下载原表 根据表 2 的预测结果, 可以看出利用朴素贝叶斯算法构建的监测模型在航速和航向方面监测的准确率要高于距离的监测准确率且航速和航向监测的准确率随着步长的变化, 其变化较大.
22、产生该结果的原因在于成山角水域实行定线制, 因此其航向变化受限, 如图 3图 6 的航向分布统计, 特别是 A, B 水域航向分布的区间范围较小, 导致该水域航向对区间划分的步长较为敏感, 而 C、D 区域作为转向发生的密集区域航向变化较大, 促使监测的准确率要低于 A、B 区域;航速与距航道边界距离的分布区间较广, 如图 3图 6 中航速与距离的统计结果, 弱化了船型的影响, 在一定程度上对预测的结果产生负面作用.以上结果间接反映出行驶于成山角水域的船舶对航行水域与航速的选择较为宽泛, 且受船型影响较弱, 这都不利于主管机关的监督与管理.因此, 为了提高监管效率, 主管机关应根据不同的船型推
23、荐相应的航行区域与航速, 合理规划转向区域, 从而提高监管的效率.4 结论为了避免海上事故、打击海上违法行为, 本文提出了基于朴素贝叶斯算法的船舶异常行为监测方法以进一步提升监管效率.该方法利用 AIS 数据, 在分析船舶行为的同时统计 AIS 数据中动、静态信息的概率分布, 根据朴素贝叶斯算法, 构建船舶异常行为监测模型.以成山角水域船舶 AIS 数据样本为例, 进行了算例的验证, 得到了如下的结论和建议.(1) 就 AIS 数据统计分析而言, A、B、C、D 水域的平均航速分别为 10.5 kn、10.5 kn、10.5 kn、10.6 kn, 平均航向为 180、2.7、156、338;
24、转向区域多位于 C、D 两个水域, 在 A、C 区域内驾驶员倾向于靠近航道右边界行驶, 在 B、D 区域内驾驶员倾向于在航道中央行驶.(2) 就设计的船舶异常行为监测方法而言, 当在航速步长为 5 kn, 航向步长为20, 距离步长为 1 n mile, 船长与船宽的步长为 50 m、10 m 时, 设计的方法对航向和航速的监测准确率较高.因此, 对于提出的算法推荐区间划分的步长为航速 5 kn、航向 20、距航道边界距离为 1 n mile、船长为 50 m、船宽为10 m.(3) 根据算例实验结果, 建议主管机关应根据不同的船型推荐相应的航行区域与航速, 合理规划转向区域, 从而进一步提高
25、监管效率.参考文献1UNCTAD.Review of maritime transport 2014R.American:United Nation Publication, 2014. 2MOU J M, VANDERTAK C, LIGTERINGEN H.Study on collision avoidance in busy Waterways by using AISdataJ.Ocean Engineering, 2010 (37) :483-490. 3HANSEN M G, JENSEN T K, LEHNSCHIOLER T, et al.Empirical ship dom
26、ain based on AIS dataJ.Journal of Navigation, 2014, 66 (6) :931-940. 4KRZYSZTOF M, Gucma L.Probabilistic model of minimal passing distances of vessels navigating in Polish coastal watersC.Psam 11&Esrel, 2012. 5XIAO F, HAN L, GULIJK C V, et al.Comparison study on AIS data of ship traffic behaviorJ.Oc
27、ean Engineering, 2015, 95 (3) :84-93. 6魏照坤, 周康, 魏明, 等.基于 AIS 数据的船舶运动模式识别与应用J.上海海事大学学报, 2016, 37 (2) :17-22.WEI Z K, ZHOU K, WEI M, et al.Ship motion pattern recognition and application based on AISdataJ.Journal of Shanghai Maritime University, 2016, 37 (2) :17-22. 7WANG Y, ZHANG J, CHEN X, et al.A s
28、patialtemporal forensic analysis for inland-water ship collision using AIS dataJ.Safety Science, 2013 (57) :187-202. 8LI S, MENG Q, QU X.An overview of maritime waterway quantitative risk assessment modelsJ.Risk Analysis, 2012, 32 (3) :496-512. 9GOERLANDT F, MONTEWKA J.Maritime transportation risk a
29、nalysis:review and analysis in light of some foundational issuesJ.Reliability Engineering&System Safety, 2015 (138) :115-134. 10MAZAHERI A, MONTEWKA J, KUJALA P.Modeling the risk of ship grounding-a literature review from a risk management perspectiveJ.WMU Journal of Maritime Affairs, 2014, 13 (2) :
30、269-297. 11JIANG L, LI C, WANG S, et al.Deep feature weighting for nave Bayes and its application to text classificationJ.Engineering Applications of Artificial Intelligence, 2016 (52) :26-39. 12MARUCCI-WELLMAN H R, LEHTO M R, CORNS HL.A practical tool for public health surveillance:Semiautomated co
31、ding of short injury narratives from large administrative database using Nave Bayes algorithmsJ.Accident Analysis and Prevention, 2015 (84) :165-176. 13ESCALANTE H J, MORALES E F, SUCAR L E.Anave bayes baseline for early gesture recognitionJ.Pattern Recognition Letters, 2016 (73) :91-99. 14ZHANG H,
32、KANG Y Y, ZHU Y Y, et al.Novel nave Bayes classification models for predicting the chemical ames mutagenicityJ.Toxicology in Vitro, 2017 (41) :56-63. 15MUKHERJEE S, SHARMA N.Intrusion detection using nave bayes classifier with feature reductionJ.Procedia Technology, 2012 (4) :119-128. 16FRANCESCO C,
33、 FRANCESCO A N P, VAHID B, et al.Abnormal vessel behavior detection in port areas based on dynamic bayesian networksC.17th International Conference on Information Fusion, Indra:IEEE, 2014. 17SALMA Z, VALERIE R, NADIA M.Behavior analysis modulus for harbor securityC.Harnessing the Power of the Ocean,
34、 United States:IEEE, 2012. 18SANG L Z, WALL A, MAO Z, et al.A novel method for restoring the trajectory of the inland waterway ship by using AIS dataJ.Ocean Engineering, 2015 (110) :183-194. 19范明, 范宏建.数据挖掘导论M.北京:人民邮电出版社, 2011.FAN M, FAN H J.Introduction to data miningM.Beijing:The Peoples Posts and Telecommunications Press, 2011.