1、基于集成学习的温室育种智能决策算法 张广南 饶元 西安交通大学科技园有限责任公司 西安交通大学软件学院 摘 要: 针对温室种植自动化程度低的情况, 提出利用传感器采集多源种植环境数据, 结合机器学习方法, 进行基于集成学习的温室育种智能决策, 不仅可以融合多源种植信息, 还可以自适应调整各信息源的权重。实验表明, 所提方法可提高温室育种成活率。关键词: 智能决策; 多源信息; 集成学习; 温室育种; 作者简介:张广南 (1963) , 男, 工程师, 研究方向为科技成果转移转化, E-mail:收稿日期:2017-09-02基金:陕西省协同创新计划项目 (2015XT-21) Intellig
2、ence Decision Algorithm of Green-house Breeding Based on Ensemble LearningZHANG Guangnan RAO Yuan Science Park Limited Liability Company, Xian Jiaotong University; College of Software, Xian Jiaotong University; Abstract: Extensive management of Chinas traditional agriculture leads to low growing eff
3、iciency of crops, especially green-house breeding.It will give rise to plant production and influence the development of agriculture.According to low automation of green-house breeding, an intelligence decision algorithm of greenhouse breeding based on ensemble learning is proposed in this paper.Fir
4、stly, multi-sources planting environment data are collected by sensors.Secondly, inspired by machine learning, intelligence decision algorithm is designed.It cannot only fuse multi-sources planting information, but also adjust the weights of multi-sources adaptively.Finally, the problem of intellige
5、nce decision can be solved.The experiment results indicate that proposed algorithm can provide intelligence decision of green-house breeding, and improve survival rate, which is of great realistic significance for the efficiency of the agricultural economy.Keyword: Intelligence decision; Multi-sourc
6、e information; Ensemble learning; Green-house breeding; Received: 2017-09-02我国农业精细化主要依靠温室培育, 温室培育可为农作物生长提供较优越的生长环境, 进而通过温室培育可以提高农作物产量和质量, 提升现代农业国际竞争力。温室育种是温室培育最重要的环节, 其直接影响农业的发展。温室育种需要更为精细的生长环节控制, 然而目前温室管理水平相对落后, 自动化程度较低, 对生长环境调节主要依靠人工调控, 使得效率较低且浪费资源。鉴于以上情况, 对温室育种环境通过传感器进行采集, 将获得的多源种植信息融合并对种植操作进行种植智
7、能决策是很有必要的1-4。目前农业智能决策系统存在的主要问题是农业种植信息为多源异构数据, 其涉猎学科较广泛, 包括气象学、化学、生物学等学科, 与此同时, 农业种植信息有很强的相关性, 例如温度和湿度共同影响植物生长, 其内在相辅相成。因此, 利用人工智能机器学习方法将多源异构农业种植信息结合, 进行智能决策, 是亟待解决的难题。多源异构信息融合主要有三类:数据融合5, 特征融合6-7, 决策融合8。数据融合是将数据先进行融合, 再进行运算。尽管数据融合时对数据损失小, 但是直接融合导致数据维度过大, 使计算难度增加。决策融合即对每类信息分别决策, 再进行融合, 尽管可以减少计算量, 但忽略
8、了信息之间的关联。特征融合, 即将信息在提取特征后进行融合, 尽管会有少量的信息损失, 但可以考虑信息之间的关联关系, 适合于多源异构的农业种植信息融合。因此, 本文设计了基于集成学习的温室种植智能决策算法, 可以对多源信息在特征层面上进行融合, 并考虑多源信息的相互关联性, 且其融合权重可以自适应改变, 以完成温室育种的智能监测与控制, 实现温室育种的智能化、实时性、以及低成本等需求, 提升农业种植智能化。1 基于集成学习的温室育种智能决策框图为弥补人工育种环境控制的不可靠性以及节约人力资源成本, 本文提出基于集成学习的温室育种智能决策算法, 通过传感器采集种植环境信息, 结合机器学习, 对
9、多源环境信息进行融合并决策, 同时考虑多源信息的权重自适应性, 为温室育种进行智能决策。图 1 给出基于集成学习的温室育种智能决策的系统框图。首先, 为了获取温室育种环境信息, 从多种温室种植信息传感器获取种植环境信息, 如土壤元素含量、温室二氧化碳浓度、湿度、温度等。然后, 将传感器获取的数据上传到上位机, 将采集数据进行清洗预处理, 再通过集成学习建模, 对多源信息进行融合并自适应选择融合权重, 最终完成智能决策算法的设计以判断对温室育种的处理, 例如加水、施肥、通风或调节温度等。图 1 基于集成学习的温室育种智能决策 Fig.1 Intelligence decision of gree
10、n-house breeding based on ensemble learning 下载原图2 种植环境信息采集及预处理为保证数据准确性, 减少采集误差, 在育种试验田中同种类传感器布局 n 个。将每类传感器采集的种植环境信息上传到上位机中, 再对每类种植信息进行预处理。每类传感器为 n 个, 同一时刻返回测量值为 n 个, 则同类数据 A 的同一时刻平均值为由于各类传感器采集数据单位不同, 现利用平均值将每类采集数据量化到0, 1范围内。3 基于集成学习的温室育种智能决策算法为针对多源种植信息对育种进行某种操作, 如加水、通风或者调温, 将单一操作看为分类问题10, 由于专家不能在每一时
11、刻都全部标记出是否应该进行某项操作, 则采用构建拉普拉斯图完成半监督的分类决策11-12, 表示为其中, H m表示希尔伯特空间, (1-y if (xi) ) 为铰链函数, f K表示流形的光滑程度, f I为分类器的复杂程度。由于需要融合多源种植信息, 则需要对每类信息构建拉普拉斯图模型, 结合温室种植信息以及专业人士标记信息, 利用基于集成学习的流形学习下的Laplician 支持向量机进行分类决策判断, 其公式为其中, x t为某一时刻的传感器值由于为多源信息采集, 则对每一类信息的传感器值, 例如 t 时刻的 , 构建拉普拉斯图, k=1 k=1, k为第 k类种植信息, A, I,
12、 R为平衡参数, 加入为防止过拟合。最终, 采用迭代优化方法9来求解此分类问题。此模型可以直接求解出不同信息源对于某项种植操作的分配权重, 进而在基于集成学习的模型下完成多源种植信息融合并进行智能决策。4 实验结果与分析4.1 实验设置实验对象为某公司温室育种试验田, 其育种植物为苜蓿草, 已知苜蓿草育种最优生长条件为: (1) 温度范围在 1421之间; (2) 湿度范围在 50%70%之间。本实验在温室育种试验田布局 30 个种植信息采集子节点, 每个节点安装温度、湿度、二氧化碳浓度采集传感器。此次实验以 1 h 为时间间隔进行数据采集, 共采集 30 d, 因此, 总共采集 720 次,
13、 每类种植信息也为 720 次。为验证所设计智能决策算法的准确性, 要求农业领域温室育种专家根据不同时间采集的多源种植信息进行操作标记, 分别对是否加水、是否通风、是否改变温度进行“0”或“1”标记, “0”表示在某一时刻不需要进行某类操作, “1”表示在某一时刻需要进行某类操作。雇佣 3 名专家进行数据标记, 每次操作结果有两人或两人以上判别相同, 则将此结果定为人工判断操作结果。4.2 实验结果与分析由于实验是以半监督学习为基础而设计的基于集成学习的温室育种智能决策, 故根据训练数据的多少而进行准确度判定, 如表 1-表 3 所示, 训练数据的个数分别为 50, 100, 150, 200
14、, 250, 300, 350。对比方法采用传统的支持向量机方法, 利用单一信息源进行决策操作结果, 再结合 3 种信息源的决策结果进行融合, 以少数服从多数原则进行 3 种决策结果融合。表 1 决策是否加水的准确率 Table 1 Accuracy of decision whether to add water 下载原表 表 2 决策是否通风的准确率 Table 2 Accuracy of decision whether to ventilate 下载原表 表 3 决策是否调温的准确率 Table 3 Accuracy of decision whether to regulate te
15、mperature 下载原表 由以上结果可以得出结论, 本文所提基于集成学习的温室育种智能决策, 以半监督分类问题进行建模, 所设计的基于集成学习的方法不仅对多源信息进行融合, 并且可以通过专家标记数据, 进行很好的预测。同时, 从实验结果可以看出, 所提方法在标记数据超过 250 个时, 其准确率有所降低, 这说明所设计的模型采用半监督学习还解决了标记数据少的问题。而对比方法支持向量机的准确率是根据单一结果进行投票进行的, 由于其是全监督方法, 随着训练样本的增加, 准确率升高。与此同时, 对于加水这项操作受温度和湿度影响, 所以对于最终投票结果, 其准确率高于通风这项操作的准确率, 因为通
16、风仅受二氧化碳浓度影响较多。基于此, 说明基于集成学习的多源信息融合决策方法优于单一决策判断再融合决策方法。为验证所设计方法采用多源信息融合的权重自适应的必要性, 将权重设为平均分配和基于集成学习的权重自适应算法进行对比。由于实验采用 3 种信息源进行融合, 因此对比采用平均权重方法, 将权重分配为 。训练数据的个数设为 200, 得到如表 4 的权重平均与权重自适应决策准确率对比。表 4 权重平均与权重自适应决策准确率 Table 4 Weighted average and weight adaptive decision accuracy 下载原表 由表 4 所示结果可以得出, 基于集成
17、学习的智能决策算法, 将多源信息进行权重自适应融合是十分必要的, 也符合农业种植多源信息之间存在的依存关系。利用人工经验很难准确得出各信息之间的权重关系, 但利用集成学习模型可以通过机器学习方法学习出多源信息融合的权重关系。4.3 讨论作为智能决策算法, 目前的应用多数都是进行辅助决策, 由人工根据决策结果进行辅助判断。本文设计的算法模型为硬分类, 为方便进行人工辅助智能决策, 将分类结果转换为判断概率则为人工可根据概率 P (xt) 进行智能决策判断是否进行某种操作。5 结论随着我国温室种植的发展以及智慧农业的提出, 对于温室种植自动控制有很大的需求。本文结合温室种植信息, 提出了基于集成学
18、习的温室育种智能决策, 主要是通过分析育种种植的环境需求, 结合机器学习和数学建模方法, 利用种植专家的专业知识及经验对温室育种操作进行专业化决策。参考文献1康伟, 潘泉, 张洪才, 等.一种特征参数的数据关联融合算法J.西北工业大学学报, 1999, 17 (4) :539-543. 2黄漫国, 樊尚春, 郑德智, 等.多传感器数据融合技术研究进展J.传感器与微系统, 2010, 29 (3) :5-8. 3XIONG H.A location-sentiment-aware recommender system for both home-town and out-of-town user
19、sC.KDD17 Proceedings of the 23rd ACM SIGKDD International conference on knowledge Discorery and Data mining, 2017:1135-1143. 4TAKEHARA T, MIKI S, NITTA N, et al.Extracting context Information from microblog based on analysis of online reviews:proceedings of the international conference on multimedia
20、 and expo workshopsC.Melbourne, Australia:IEEE, July, 2012:248-253. 5CHENG H T, KOC L, HARMSEN J, et al.Wide&Deep learning for recommender systemsJ.2016:7-10. 6YAN R, HAUPTMANN A G.The combination limit in multimedia retrieval:proceedings of theinternational conference on Multimedia, 2003C.San Franc
21、isco, USA:ACM, November, 2003:339-342. 7VOORHEES E M, GUPTA N K, JOHNSON-LAIRD B.Learning collection fusion strategies:proceedings of the International ACM SIGIR Conference on Research and Development in Information RetrievalC.Seattle, USA:ACM, July, 1995:172-179. 8WU Q, WANG Z, DENG F, et al.Realis
22、tic human action recognition with multimodal featureselection and fusionJ.IEEE Transactions on Systems, Man, and Cybernetics:Systems, 2013, 43 (4) :875-885. 9GOMEZ-CHOVA L, CAMPS-VALLS G, MUNOZ-MARI J, et al.Semisupervised image classification with Laplacian support vector machinesJ.IEEE Geoscience and Remote Sensing Letters, 2008, 5 (3) :336-340. 10MELACCI S, BELKIN M.Laplacian support vector machines trained in the primalJ.The Journal of Machine Learning Research, 2011, (12) :1149-1184.