1、基于 D-S 证据理论的肉类食品冷链温度数据分类的研究 吴敏宁 榆林学院信息工程学院 摘 要: 针对肉类食品冷链物流系统中缺少对各环节中时间-温度数据进行自动分类, 预处理过程造成各时段温度数据的混乱繁杂, 不能对冷链各环节问题进行有效的分析处理, 增加了肉类食品冷链质量安全危险因素。利用数据挖掘技术对肉类食品冷链中的时间-温度信息进行特征识别和数据规则提取, 利用粗糙集算法建立分类规则, 利用基于 D-S 的证据理论的多传感器数据融合方法对时间-温度数据进行融合处理, 最终实现对肉类食品冷链中时间-温度数据的自动分类, 可提高时间-温度数据依据的独立性、物流环节存储的合理性, 达到对肉类食品
2、冷链安全分析的目的。关键词: 肉类食品冷链; D-S 证据理论; 多传感器; 融合算法; 作者简介:吴敏宁 (1984-) , 女, 陕西横山人, 讲师, 硕士, 主要从事物联网技术、数据结构、算法与设计方面的教学与研究。收稿日期:2017-07-11基金:陕西省教育厅 2017 年专项科学研究计划项目 (17JK0896) Research on the Classification of Meat Cold Chain Temperature Data Based on D-S Evidence TheoryWU Min-ning Yulin University; Abstract: F
3、or the lack of automatic classification of time-temperature data in the cold chain logistics system of meat, the process of preprocessing results in temperature data in each period in chaos and can not be effectively analyzed and dealt with, which increases risks for the quality and safety of cold-c
4、hain meat products. Finally, the automatic classification of time-temperature data in cold chain of meat products is realized by the data mining technology, rough set algorithm and the multisensor data fusion method based on D-S evidence theory, so as to improve the independence of time-temperature
5、data and the rationality of logistics link storage and to achieve the purpose of the cold chain safety analysis of meat products.Keyword: the cold chain of meat food; D-S evidence theory; multisensor; fusion algorithm; Received: 2017-07-11肉类食品与其他加工食品物流的区别在于物品的高腐败性, 肉类食品从养殖场到餐桌的供应链过程中, 伴随着复杂的化学变化, 任何
6、一个环节的失误都可引起食品安全风险问题1。肉类食品主要由蛋白质、脂肪等多种化学物质组成, 这些化学成分在产品贮藏过程中会方式化学变化, 如出现氧化、还原、分解和合成等, 导致食品变色、变味、软烂等, 从而降低肉类食品的品质, 影响人们身体健康2。肉类食品的腐败主要是由各种的微生物的生长造成的, 细菌的浓度主要受温度影响, 肉类食品冷链物流是在低温条件下进行的3。针对不同的物流环节, 设置针对性的传感器对各阶段温度数据进行采集和存储, 温度传感器是实现温度采集和检测的重要部分, 由于冷链环节信息采集的需要, 需要对冷链各环节环境温度数据进行采集和对应时间的记录, 这样就产生大量的时间-温度数据需
7、要分析和处理, 因此提出了对肉类食品冷链温度数据的自动分类。1 基于数据挖掘的温度数据规则提取数据挖掘是数据库知识发现中的一个步骤, 其一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程4。数据挖掘通常与计算机科学有关, 并通过统计、在线分析处理、情报检索、机器学习、专家系统和模式识别等诸多方法来实现上述目标。利用数据挖掘技术, 对肉类食品冷链中的时间-温度信息进行数据挖掘处理5。针对肉类食品冷链的数据挖掘处理过程如图 1 所示:图 1 肉类食品冷链的时间-温度数据挖掘处理 下载原图2 D-S 证据理论2.1 基本概念D-S 证据理论由 20 世纪 60 年代的数学家 A.P.Dempst
8、er 利用上、下限概率解决多值映射问题, Dempster 的学生 G.shafer 对证据理论做了进一步发展, 引入信任函数概念, 形成了一套“证据”和“组合”来处理不确定性推理的数学方法?, D-S 理论是对贝叶斯推理方法推广, 主要是利用概率论中贝叶斯条件概率来进行的, 贝叶斯推理方法需要知道先验概率6。而 D-S 证据理论不需要知道先验概率, 能够很好地表示“不确定”, 被广泛用来处理不确定数据。在 D-S 证据理论中, 由互不相容的基本命题 (假定) 组成的完备集合称为识别框架, 表示对某一问题的所有可能答案, 但其中只有一个答案是正确的。该框架的子集称为命题。分配给各命题的信任程度
9、称为基本概率分配 (BPA, m 函数) , m (A) 为基本可信数, 反映着对 A 的信度大小。信任函数 Bel (A) 表示对命题A 的信任程度, 似然函数 Pl (A) 表示对命题 A 非假的信任程度, 也即对 A 似乎可能成立的不确定性度量, 实际上, Bel (A) , Pl (A) 表示 A 的不确定区间, 0, Bel (A) 表示命题 A 支持证据区间, 0, Pl (A) 表示命题 A 的拟信区间, Pl (A) , 1表示命题 A 的拒绝证据区间。设 m1 和 m2 是由两个独立的证据源导出的基本概率分配函数, 则 Dempster 组合规则可以计算这两个证据共同作用产生
10、的反映融合信息的新的基本概率分配函数7-8。其区间划分如图 2 所示:图 2 证据区间划分图 下载原图2.2 D-S 证据理论存在的问题(1) 无法解决证据冲突严重和完全冲突的情况, 而证据理论处理肉类食品冷链温度传感器的测量信息时涉及证据冲突和证据相关的问题, 冷链各阶段的时间-温度数据产生的证据很多是相关的, 使得将 D-S 证据理论应用于肉类食品冷链温度数据分类中遇到难题。(2) 难以辨识模糊程度, 由于证据理论中的证据模糊主要来自于各子集的模糊度, 根据信息论的观点, 子集中元素的个数越多, 子集的模糊度越大9。(3) 基本概率分配函数的微小变化会使组合结果产生急剧变化, 反映了证据理
11、论的不稳定性和对基本概率分配函数的敏感性10。(4) 证据损失问题, 在证据融合分析中, 证据损失是普遍存在的, 如果证据损失比较小, 或是证据冲突比较小, 则有可能带来证据融合结果的误差, 如果是证据冲突比较严重, 则有可能带来结论的错误, 所以对于证据损失需要进行合理分析, 减少因为证据损失带来的潜在风险。导致证据损失的主要原因有证据兼容性定义不够准确和组合损失11。2.3 改进 D-S 证据合成理论法在同时考虑证据间的相关性、冲突以及证据损失问题的前提下, 对 D-S 合成规则进行改进, 以适应对肉类食品冷链温度传感器量测信息的处理。证据的相关性包括三种:独立、完全相关和部分相关。证据的
12、相关性可通过属于相同信息源的焦点元素来度量, 假设获得的证据为 ei, ei 将包含新焦元 A, 引入一个熵定义来描述证据信息量的大小12。定义 1:证据 ei 的熵值表示如公式 (1) 所示。其中|A|为焦元 A 的势, m (ei) 为 ei 中包含的焦元个数。假设存在两个证据 e1 和 e2, 其基本概率分布为 m1 和 m2, 其焦元分别为 A1 和A2, 如果 e1 和 e2 是相关证据, 则 e1 中的部分焦元和 e2 中的部分焦元必然是由某个证据 ek 产生的, 称这些焦元为相关焦元, 表示为 R1, 2, 假设 R1, 2上的基本概率分布为 mr, 则 ek的熵值如格式 (2)
13、 所示。如果 E (e1, e2) =0, 表示 e1和 e2是相互独立的, 如果 E (e1, e2) =1, 表示 e1和 e2是完全相关的, 其他情况表示 e1和 e2是部分相关的。定义 2:假设存在两个证据 e1和 e2, 并且证据 e1和 e2上的熵值表示为 E (e1) , E (e2) , 相关熵值为 E (e1, e2) , 则定义证据 e1和 e2的相关度为相关熵值和对应证据熵值的比值, 即为公式 (3) 所示。如果规定 E (ei) =0, 则 D (ei, ej) =0。对相关度进行标准化可以获得公式 (4) 。证据冲突是由于对证据认识不全面而导致的合成误差, 在 D-S
14、 合成公式中, 没有考虑因冲突信息缺失而导致合成信息的错误。D-S 合成公式如公式 (5) 所示。其中 K 为冲突系数, K=m 1 (A1) m2 (A2) 。如果假设证据冲突是有两个焦元分别引起的, 则把冲突系数按照比例分给两个冲突的焦元, 可获得改进合成公式如公式 (6) 所示。假设公式 (7) 成立, 可通过加权分配冲突法减少 D-S 合成公式中的合成证据的不确定性。综合公式 (5) 和公式 (7) , 建立改进的合成规则公式如公式 (8) 所示。3 基于数据融合的温度数据识别3.1 数据融合基本概念数据融合基于对多源数据的采集与处理, 根据多个传感器在不同时间、空间、来源采集的数据,
15、 利用计算机技术按照时间序列获得经过分析的数据, 对这些数据按一定的规则进行分析、聚类等操作, 利用融合算法将多源、异构数据进行处理, 产生新规则或有效信息, 以备决策分析。多传感器的融合可以提高系统的可靠性和鲁棒性, 扩展空间上和时间上的观测范围, 提高数据的信任度和分辨能力, 其已广泛应用于多源影像复合、机器人、智能仪器系统、战场和无人驾驶飞机、目标检测与跟踪、自动目标识别、医疗诊断、模式识别、图像处理等众多领域13。数据融合分为像元级融合、特征级融合和决策级融合。数据级融合是最低级的融合, 数据量大的情况下, 系统稳定性差、误差率偏高、抗干扰能力较低14。特征级融合首先对每个传感器采集的
16、数据进行特征提取, 获取相应的特征向量, 特征向量根据关联规则进行融合处理, 对特征向量进行决策, 其可减少数据处理的工作量, 降低冗余与误差率。决策级融合是数据融合的最高层次15, 如图 2 所示, 其传感器所采集的信息已经在输出时被处理, 成为具有决策性质的数据信息, 各个传感器完成对数据的特征提取, 并进行初步识别, 然后得出初步的结论, 决策级融合对初级决策信息进行提取, 进行关联处理, 学习采集数据的目标特征, 形成最终决策结果。决策级融合抗干扰能力强, 通信量小, 融合中心的性能不高16。图 3 决策层数据融合 下载原图从肉类食品冷链的加工、贮藏与运输环节产生的时间-温度数据库中选
17、取完整的、异常少的数据形成典型时间-温度数据库, 根据数据挖掘算法, 对肉类食品冷链各环节时间-温度进行分析处理, 生产特征规则和模式识别库, 对某一环节的时间-温度数据信息进行属性分析处理, 是对时间-温度分类的基础, 模式识别主要是对时间-温度的采集方式与数据结构进行分析, 提取相似的时间-温度记录, 以便时间-温度信息与冷链各环节信息的关联。通过特征提取和模式识别可以形成规则库, 通过翻译模型利用属性特征, 对时间-温度信息做初步的分类处理。如图 4 所示。图 4 肉类食品冷链时间-温度数据融合 下载原图3.2 基于改进的 D-S 证据理论的数据融合基于改进的 D-S 证据理论的数据融合
18、的具体过程如图 5 所示, 首先对温度传感器采集数据进行数据处理, 通过数据级的融合, 提高数据的精确度, 利用模糊算法获得每个传感器信号与目标状态之间的隶属度函数, 求出各传感器数据信度函数的分配, 通过 D-S 证据理论进行最后决策层的处理, 根据最终数据融合结果对肉类食品冷链温度数据进行自动分类。图 5 基于改进 D-S 证据理论的数据融合过程 4 肉类食品冷链时间-温度数据的自动分类模型 下载原图通过数据挖掘与数据融合对时间-温度数据的处理, 形成了信息分类算法, 达到了对时间-温度数据自动分类的目的。其具体步骤为:(1) 对典型数据样本进行特征提取, 从时间-温度数据库中提取多组典型
19、数据通过数据挖掘中的自学习算法, 提取数据特征属性, 生产数据模式类型, 存储于模式库。(2) 对多传感器的数据进行融合, 各传感器所传送的信息通过数据融合调用模式库, 进行匹配、关联和融合, 有组织的存储于数据库中。根据肉类食品冷链的时间-温度传感器工作形式, 设计利用数据挖掘与基于改进D-S 证据理论算法的数据融合集成对时间-温度数据进行处理的模式如图 6 所示。图 6 肉类食品冷链时间-温度数据的自动分类模式 下载原图5 结束语提出应用数据挖掘技术对肉类食品冷链中时间-温度数据样本进行提取, 应用粗糙集算法建立分类规则, 将 D-S 证据理论应用于决策级数据融合, 利用 D-S 证据理论
20、改进算法对量测信息进行处理, 得到合适的融合决策, 提高了融合结果的可靠性, 融合分类可将时间-温度数据与冷链环节进行匹配, 利用对独立的时间-温度数据的分析, 可对对应冷链环节进行描述和分析, 提高对肉类食品冷链安全风险分析能力和肉类食品冷链全过程中危险因素定位的准确度。参考文献1李丹, 王守伟, 臧明伍, 等.我国肉类食品安全风险现状与对策J.肉类研究, 2015, 29 (11) :34-38. 2林宇洪, 林敏敏, 林承操, 等.基于物联网的肉产品质量安全信息的追溯J.华北科技学院学报, 2015, 12 (5) :98-102. 3袁彦彦, 王兴芬, 杨浩.基于关联规则技术的肉类食品
21、冷链物流质量安全保障因素发现及质量安全预警模型J.物流技术, 2015, 34 (21) :182-185. 4徐婧, 顾煜炯, 王仲, 等.基于数据挖掘的煤电机组能效特征指标及其基准值的研究J.中国电机工程学报, 2017, 37 (7) :2009-2016. 5樊俊花.基于数据挖掘技术的投资能力预测模型研究D.太原:山西财经大学, 2016. 6赵秋月, 左万利, 田中生, 等.一种基于改进 D-S 证据理论的信任关系强度评估方法研究J.计算机学报, 2014, 37 (4) :873-883. 7李文立, 郭凯红.D-S 证据理论合成规则及冲突问题J.系统工程理论与实践, 2010,
22、30 (8) :1422-1432. 8孙锐.基于 D-S 证据理论的信息融合及在可靠性数据处理中的应用研究D.成都:电子科技大学, 2012. 9石波, 谢小权.基于 D-S 证据理论的网络安全态势预测方法研究J.计算机工程与设计, 2013, 34 (3) :821-825. 10江金娜.基于 D-S 证据理论的多传感器决策级图像融合的算法研究D.哈尔滨:哈尔滨理工大学, 2015. 11陈红, 甘佐贤, 谢羲, 等.基于信息熵与 D-S 证据理论的交通安全风险评估J.安全与环境学报, 2014, 14 (4) :100-105. 12李猛.基于 D-S 证据理论的海事管理综合评价D.大连:大连海事大学, 2013. 13段青玲, 肖晓琰, 刘怡然, 等.基于改进型支持度函数的畜禽养殖物联网数据融合方法J.农业工程学报, 2017, 33 (S1) :239-245. 14程利娜.物联网感知层安全数据融合方法研究D.重庆:重庆邮电大学, 2016. 15刘兴斌, 卢静, 王延军, 等.多传感器数据融合技术在多相流领域研究进展J.石油管材与仪器, 2016, 2 (1) :6-9. 16周鹏.多传感器数据融合技术研究与展望J.物联网技术, 2015, 5 (5) :23-25.