1、地球表层特征参量反演与模拟的机理-学习耦合范式沈焕锋1,2,张良培3*1.武汉大学资源与环境科学学院,武汉 430079;2.地理信息系统教育部重点实验室,武汉 430079;3.测绘遥感信息工程国家重点实验室,武汉 430079 通讯作者,E-mail:*通讯作者,E-mail:收稿日期:2022-03-27;收修改稿日期:2022-08-09;接受日期:2022-09-08;网络版发表日期:2023-01-19国家自然科学基金重点项目(批准号:42130108)资助摘要 构建物理驱动的机理模型一直是估算地球表层特征参量的核心科学范式,发展数据驱动的机器学习模型是地学研究范式转换的重要途径,
2、而耦合机理模型与学习模型则可以实现“理性主义”与“经验主义”的结合,是当前最受关注的研究热点之一.文章针对参量估算的遥感反演与动力学模拟方法,深入分析了机理模型与学习模型的内在瓶颈及其互补性,搭建了以机理级联学习、学习嵌入机理、机理融进学习为核心的耦合范式框架,归纳了预处理与初始化、中间变量传递、后置精化处理、模型替代、模型调整、模型求解、输入变量约束、目标函数约束、模型结构约束、混合应用等十种具体耦合方式,剖析了当前的主要问题与未来的挑战方向.研究为深入理解、应用机理-学习耦合模型提供了新视角,为提升地球表层特征参量反演与模拟能力、服务地球系统科学发展提供理论与技术支撑.关键词 机理模型,机
3、器学习,模型耦合,遥感反演,数值模拟1 引言地球表层过程的气候变化、环境污染等问题,深刻影响着人类的生活生产与生命健康.要深刻理解地球表层复杂的自然与人文现象、促进社会经济的可持续发展,需要综合、完整和持续的感知数据(中国科学院地学部地球科学发展战略研究组,2009).卫星遥感反演与动力学数值模拟是获取宏观、连续地球表层特征参量数据的两个重要手段(陈发虎等,2019),如何不断提升遥感反演与数值模拟的精度与能力,是地球表层系统科学研究的关键基础问题.无论是遥感反演还是动力学数值模拟,构建物理可解释的机理模型一直核心的科学范式(De Bzenac等,2019).在遥感反演方面,基于辐射传输物理过
4、程的定量反演是获取水、土、气、生等多个圈层特征参量的主要途径,研究学者已发展了大量具有严格物理中文引用格式:沈焕锋,张良培.2023.地球表层特征参量反演与模拟的机理-学习耦合范式.中国科学:地球科学,53(3):546560,doi:10.1360/SST e-2022-0089英文引用格式:Shen H,Zhang L.2023.Mechanism-learning coupling paradigms for parameter inversion and simulation in earth surface systems.Science ChinaEarth Sciences,66
5、(3):568582,https:/doi.org/10.1 007/s1 1430-022-9999-9 2023 中国科学杂志社 中国科学:地球科学 2023 年 第 53 卷 第 3 期:546 560SCIENTIA SINICA Terrae 论 文机制的遥感反演方法(李小文,2005;梁顺林等,2016;李召良等,2016),并发布了系列全球及区域尺度的定量遥感参量产品(张正等,2016).在数值模拟方面,各国科学家构建了多种大气数值模型(Skamarock等,2005)、陆面过程模型(孟春雷和戴永久,2013)、水文模型(Arnold等,1998)等,并基于超级计算平台开发了地球
6、系统模拟器(陈春等,2005;邱晨辉,2021).总之,以物理驱动为基础的机理模型是地球表层特征参量反演与模拟的“主框架”(De Bzenac 等,2019),是地学知识发现的重要基石(Karpatne等,2017b).近年来,地球科学正在经历从数据匮乏到数据丰富的转变(Karpatne等,2019),人们获取与生产时空数据的能力已经远大于对其进行处理、分析与理解的能力(Reichstein等,2019).在此背景下,基于大数据的第四科学范式悄然崛起,并成为地学研究的重要支撑(郭华东等,2014;宋长青,2016;程昌秀等,2018;邓敏等,2020;周成虎等,2021;李新等,2022).以
7、机器学习为代表的人工智能技术发展迅猛,被认为是挖掘大数据潜力的“金钥匙”(郭仁忠等,2020;陈军等,2021),在卫星遥感与数值模拟领域受到广泛关注和快速发展(Hsieh和T ang,1998;黎夏和叶嘉安,2005;宫鹏,2009;Hrter和de Campos V elho,2010;张兵,2018).在IEEE地学与遥感学会组织的融合分析大赛中,深度学习模型获得了近年多数赛道的冠军(黄昕等,2021);在定量应用方面,机器学习模型已被广泛地应用于数十种特征参量的遥感反演(郭庆华等,2020;Y uan等,2020;胡斯勒图等,2020;冉有华等,2021).与此同时,机器学习也已被成功
8、应用于大气(Navares 和 Aznarte,2020)、水文(Petty和Dhingra,2018)、海洋(De Bzenac 等,2019)等地表过程的模拟预测,并表现较大的应用潜力.有鉴于此,机器学习被期待成为释放数据驱动潜能、加速科学发现的重要框架(Karpatne等,2017b),有学者认为它将地学研究推向即将取得重大进展的门槛(Ber gen等,2019).显而易见,以大数据为支撑的机器学习模型已经对正统的机理模型形成冲击(裴韬等,2019),甚至有学者认为可能导致“理论的终结(the end of theory)”(An-derson,2008).然而,一些学者却坚持当前普遍存
9、在“大数据傲慢”问题(Lazer等,2014),机器学习的效能被高估.例如,谷歌发布神经网络降水预报模型MetNet(Snderby等,2020),声称在8h的预测中神经网络模型已经优于机理模型,但是其在学术界受到不少质疑,至少在长期预测、大尺度预测等方面其仍然不能替代机理模型(W itt等,2021;Chantry 等,2021).针对机器学习的地学应用问题,Natur e、Science等期刊近期相继发表论文(Berg en 等,2019;Reichstein等,2019;Bauer等,2021),认为地学过程的复杂性、交互性、多尺度特性,以及数据的不确定性、真实样本的稀缺性等,使得机器学
10、习模型仍然不能替代机理模型,但是两种模型具有天然的互补优势,耦合机理模型与学习模型是极具前景的发展方向.然而,将显式的机理模型与隐式的学习模型进行耦合存在诸多挑战,尽管当前已经取得了一些研究进展,但仍然缺乏标准、统一的范式框架,导致相关研究模式各异、缺乏关联,甚至出现相互混淆的问题.本文在充分归纳现有工作基础之上,力图构建系统的机理-学习耦合范式框架,剖析不同耦合方式的特点与潜力,并展望未来的挑战方向,以期为相关研究提供理论与应用参考,促进地球表层特征参量遥感反演与数值模拟技术发展,为提升地球表层特征参量估算能力、服务地球系统科学发展提供理论与技术支撑.2 两种模型的优势与瓶颈2.1 机理模型
11、“机理”可以广义地理解为任何表达地理对象属性或要素之间有效关系的知识(von Rueden等,2023),既包括物理知识,也包括几何约束、地学规律等.机理模型遵循客观规律建立输入与输出之间的显式关联,帮助人们认识与理解所生存的物理世界(Karpatne等,2017b).经典的定量遥感反演方法基于大气辐射传输等模型,将对地观测的电磁波信号与特征参量建立关联,实现对地球表层的面域感知;数值模拟系统通过其内在物理过程和动力学机制,获得地理对象在时间和空间上的连续演进(李新等,2007).可见,机理模型可以较为清晰地描述系统的内部特性,理论严谨、模型(相对)稳定、结果可解释是其突出的优点.然而,机理模
12、型也存在其难以克服的不足.(1)机理认知局限.地球表层系统是多要素混杂、多尺度耦合、多过程交织的复杂巨系统(陈旻等,2021),现有的机理模型仍然难以实现对所有地学过程的精准刻画,一些物理过程仍然未知.例如,当前仍然缺乏针对很多参数(如气温、PM2.5等)的遥感机理反演中国科学:地球科学 2023 年 第 53 卷 第 3 期547模型,数值模型中也并非所有子过程都可以进行精确物理建模,约简或近似处理往往导致不确定性.(2)欠定系统问题.即使一些地学过程的机理较为清晰,但参量反演往往是一个欠定系统,即观测方程个数少于未知数个数,导致模型求解十分困难,对此通常需要一些假设条件,而当假设条件与真实
13、不符时就会带来较大的求解误差.例如,地表温度遥感反演就是利用N个观测值(波段数)解决N+1个未知数(N个地表发射率和地表温度)的病态问题.(3)计算负担问题.一些机理过程的计算量巨大,例如,在美国大气研究中心的大气模式中,物理过程的计算占到整体模型计算量的70%(Krasnopolsky等,2005).如果进一步提升在分辨率、一致性等方面的要求,计算量又将呈指数上升,带来较大的应用困扰.2.2 学习模型机器学习模型通过“训练”与“预测”模拟人类的“归纳”与“推测”过程,实现对典型问题的建模与求解.与机理模型的显式表达不同,学习模型通过对数据的训练建立不同变量之间的隐式关联,即往往是典型的“黑箱
14、”模型.学习模型的关键优势之一就是当机理未知时,可以跳过对物理过程的理解而直接进行数据驱动的建模,特别是在训练数据充足的条件下,往往可以获得较高的建模精度.此外,机器学习虽然在训练阶段比较耗时,但在测试应用阶段一般具备较高的计算效率,也成为其重要的优势之一.尽管如此,机器学习模型仍然具有诸多局限,特别是在过程复杂的地学应用中经常存在如下问题:(1)泛化性不足.缺乏足够的训练样本是机器学习地学应用中最为常见的问题,而利用有限的样本去学习复杂的地学过程,极易出现过拟合现象,即使在训练样本上表现出较高的建模精度,测试应用精度也会大幅降低.特别是当实际的数值范围、变量关系等没有被训练样本所涵盖时,预测
15、结果更可能出现极大偏差,即典型的泛化能力不足问题.(2)迁移性不足.区域性是地理学的本质特征,不同区域之间不仅表现为不同地理要素的差异,更表现为各要素之间关系的差异.因此,在某一区域训练的机器学习模型往往难以迁移到其他区域进行应用.其次,地球表层要素及其相互关系也处于不断变化的过程中,人类活动影响使之变化更为剧烈,如此同一区域不同时间跨度的模型也往往难以通用.此外,尺度迁移性不足也是地学应用中的又一困境.(3)可解释性不足.科学研究的目标不仅在于发展一个可用的模型,更加在于发现不同变量之间的内在因果关系与驱动模式,并用之实现对理论与假设的解释,从而促进科学知识的进步(Karpatne 等,20
16、17a).机器学习的一个突出问题就是在可解释性方面存在不足,虽然在特定条件下也可以获得比较高的精度,但缺乏对内在机理过程的解释能力.通过以上分析可见,机理模型与学习模型虽然各有其建模优势,但也都存在难以克服的不足.显然,二者之间具有天然的互补性(Ganguly 等,2014;吴志峰等,2015),耦合机理模型与学习模型可以实现“理性主义”与“经验主义”的结合,可以有效调整机理模型的“偏见”,避免学习模型的“傲慢”(Chantry 等,2021),因此是必然的发展趋势.3 机理模型与学习模型的耦合范式机理模型与学习模型的耦合近期成为各领域的研究热点,但实际上从20世纪末开始,无论在数值模拟(Ch
17、evallier等,1999)还是遥感反演(Aires等,2001)领域,就已有机理模型与学习模型耦合的思想与成功案例,但受认知水平与技术条件的限制,该方向研究并没有得到足够的关注与发展.直至最近,随着神经网络特别是深度学习技术的再度崛起,机理-学习耦合已成为包括地学在内诸多领域的研究热点.近年来,在英文文献中出现了诸多表达机理模型与学习模型耦合的名词术语,可从图1所示的三列之中各任选一词连接起来,如“Physics Informed MachineLearning”等.然而,以上各种组合表达过于强调“学习”,而把“机理”放在了次要位置.但实际上二者的耦合模式多种多样,“机理”与“学习”所占比
18、重也各不相同,最好能够保持二者之间的平衡,为此Shen等(2022)用“Coupling of Mechanism and Learning”进行表达.本文提出在地学参量反演与模拟中,可将机理模型与学习模型的耦合归纳为三类基本范式:机理级联学习、学习嵌入机理、机理融进学习(后分别简称为级联、嵌入、融进),如图 2 所示.机理级联学习就是将两种模型进行前后串联,一种模型的输出作为另一种模型的输入.学习嵌入机理,就是以机理模型为主、沈焕锋等:地球表层特征参量反演与模拟的机理-学习耦合范式548学习模型为辅,将学习模型嵌入到机理模型之中,对原有的不确定过程进行替代或优化.机理融进学习,就是以学习模型
19、为主框架,将物理知识融入其中,从而实现对学习过程的约束引导.除此之外,为了发挥三种范式的各自优势,还可以将它们联合起来,构建混合应用模式.3.1 机理-学习级联耦合范式机理模型与学习模型最为简单的耦合即为级联模式,通过前后串联、顺序建模的方式实现直接结合.根据两种模型在整个系统中的应用阶段及其重要程度,可细为预处理与初始化、中间变量传递、后置精化处理三种具体方式.3.1.1 预处理与初始化(1)质量控制.利用学习模型对机理模型的输入数据进行质量控制,可以有效提升后续参量估算的精度.例如,遥感数据经常存在噪声、像元缺失等问题,在基于机理模型的参量反演之前,首先利用机器学习进行噪声去除、像素补全等
20、处理,可有效提升机理模型输出的精度与可靠性.(2)参数优化.机理模型的运行往往需要较多输入参数,模型精度很大程度上受限于输入参数的准确性(张添等,2012).机器学习可以被用于获取更加准确的模型参数,为后续的模型计算提供更优的初始条件.例如,Beck等(2016)构建了基于回归的水文模型参数局地化方法,在全球尺度上进行了成功应用;Sawada(2020)利用高斯过程回归模型对陆面过程模型进行了参数优化,有效提升了模型模拟的精度.(3)样本生成.在很多地学应用中,往往难以获取机器学习模型所需的真实训练数据,此时则可借助机理模型生成训练样本.例如,Aires等(2001)首先利用微波遥感辐射传输方
21、程生成训练数据,再基于机器学习方法反演了大气水汽、地表温度、发射率等参数.除此之外,在基于热红外遥感的地表温度反演(Mao等,2007)、基于光学遥感的叶面积指数反演(Campos-T a-berner等,2016)、总初级生产力反演(W olanin等,2019)、植被含水量反演(T rombetti等,2008)等应用中,辐射传输方程也被广泛地用于机器学习的样本构建.(4)迁移学习.为了避免真实观测样本不足导致的过拟合问题,可退而求其次,首先利用机理模型生成较粗的训练数据进行预训练,当模型达到较为稳定的状态后再基于少量的高精度真实样本进行精训练(如图3),这是迁移学习的一种典型应用形式.J
22、ia等(2021)在预测湖泊水温时,首先利用基于物理过程的通用湖泊模型生成模拟数据,并用之进行长短期记忆神经网络图 1 机理-学习耦合的英文术语图 2 机理-学习耦合的基本范式中国科学:地球科学 2023 年 第 53 卷 第 3 期549模型的预训练,有效地减少了对真实训练样本的依赖(Read等,2019).3.1.2 中间变量传递受机理认知、技术局限等因素的影响,一些特征参量难以通过完全物理过程的方法获取,此时可通过中间变量的传递实现物理模型与学习模型的联合应用,即首先基于物理模型估算中间变量,再利用机器学习模型实现目标参量的估算.例如,针对近地气温、大气PM2.5等参量,目前仍然缺乏有效
23、的全机理遥感反演模型,但地表温度、气溶胶光学厚度分别与气温、PM2.5有较强的相关性,并且已经存在较为成熟的机理反演方法,因此可首先基于机理模型反演地表温度、气溶胶光学厚度,再将反演结果作为机器学习的输入,进而实现气温、PM2.5的反演(Shen等,2018;Shen等,2020),如图4所示.当然,中间变量也可以通过动力学机理模型的数值模拟来获得(Xiao等,2017),例如,Liang等(2020)首先基于水质模型模拟六种水质参数,然后将它们输入到长短时记忆神经网络,用于实现叶绿素a含量的预测.3.1.3 后置精化处理为了提升遥感反演或动力学模拟等机理模型输出结果的精度、分辨率等指标,可以
24、利用机器学习模型进行后置的精化处理,这也是机理模型与学习模型较为传统的耦合方式之一,具体可包括误差校正、降尺度、集成优化等多种类型.(1)误差校正.基于机器学习的误差校正方法,已广泛应用于遥感反演与模型模拟参量数据的处理,通过建立模型输出数据与地面真实观测或其他参考数据之间的映射关系,通过后置的校正处理提升原有输出的精度或一致性.Rasp和Lerch(2018)利用神经网络模型进行集合天气预测系统的系统误差校正,无论从精度还是效率方面都比原有模型有了较大提升.Ivatt和Evans(2020)利用梯度提升树模型校正大气化学传输模型的输出,有效提升了臭氧的模拟精度.Noori等(2020)以站点
25、观测为参考,利用机器学习方法对SW A T水文模型的输出进行校正,有效提升了三种关键水质参数的模拟精度.(2)降尺度.大区域尺度遥感反演、模型模拟数据的空间分辨率往往较粗,难以满足精细监测与分析的需求.在机理模型反演或模拟的基础上,机器学习可被进一步用于降尺度处理,提升数据的空间分辨率.当前,机器学习已成为遥感反演的降水(W ang等,2021)、土壤湿度(Alemohammad等,2018)、地表温度(Li等,2019)等参量的通用降尺度方法.同时,神经网络(W ilby 等,1998;Cannon,201 1)、支持向量机(Ghosh,2010)等机器学习模型也被广泛用于数值模拟数据的降尺
26、度.除了常规的降尺度方法,图像处理领域的机器学习超分辨率技术也被引入用于提升地球系统模式输出的分辨率(V andal 等,2017).(3)集成优化.由于机理认知局限及参数化方案的差异,不同机理模型输出结果往往具有较大的不一致性,将不同模型输出进行综合是获得更可靠结果的有效途径.在机器学习领域,集成学习通过结合多个机器学习器完成学习任务,可以达到模型间“博采众长”的效果,被广泛应用于遥感地表覆盖分类与制图的研究(杜培军和阿里木赛买提,2013).同样,机器学习也可以实现对多个机理模型的集成优化,如图5所示.Monteleoni等(201 1)基于隐马尔可夫模型对多个气候模型的预测结果进行集成,
27、精度超过了原始最好的模型.在此基础上,McQuade 和Monteleoni(2012)进一步建立了更高空间分辨率的集成模型框架.Krasnopolsky和Lin(2012)利用神经网络进行多模型集成,使降水预报精度得到有效提升.图 3 迁移学习耦合方式图 4 机理-学习级联 PM2.5反演示意图沈焕锋等:地球表层特征参量反演与模拟的机理-学习耦合范式5503.2 学习嵌入机理耦合范式充分利用机理模型的物理可解释等建模优势,将学习模型嵌入到机理模型内部之中,并对原有的不确定子过程进行替代、调整或优化求解,是典型的以机理模型为主、学习模型为辅的耦合范式,也是当前机理-学习耦合研究的热点.3.2.
28、1 模型替代模型替代即利用机器学习对机理模型的子过程进行替代的一种耦合方式,如图 6所示.在机理模型特别是动力学模型的建模过程中,一些子过程的空间尺度往往小于原有模型的网格尺度,以致难以用严格的物理模型进行直接建模,从而需要建立合适的参数化方案进行表达.参数化就是对不能直接建模的物理过程进行间接表达的处理方案,是对复杂物理过程的近似或理想化表达(Stensrud,2007).因此,模型的参数化(Parameterization)与前述的参数优化(Parameter Opti-mization)有着本质区别.在模型替代的耦合方式中,应用最为广泛的就是利用机器学习模型替代机理模型中的参数化方案.(
29、1)模型“仿真器”.由于一些参数化方案的计算十分耗时,因此较为常用的一种替代方案就是以提升计算效率为目的,通过对子模型输入-输出数据对的学习训练,构建机理模型的机器学习“仿真器”,使之具备与原有模型接近的精度以及更高的处理效率.Chevallier等(1999)将机器学习应用于新一代辐射传输模型的构建,将多层感知器嵌入到整个物理建模过程之中,用于替换从大气顶层到陆表的长波辐射,计算效率比传统带模式(band model)提升22倍,比逐线积分(line-by-line)模式提升106倍,该方法及其改进方案后续被业务化应用于欧洲中期天气预报中心的四维变分同化系统.针对美国大气研究中心的CAM(C
30、ommunity Atmo-sphere Model)大气模型,Krasnopolsky等(2005)基于神经网络实现了对原有长波辐射参数化方法的仿真与替代,并进一步应用于对流等过程的参数化处理(Krasno-polsky等,2013),计算效率可以比原有模型提升10105倍(Krasnopolsky,2020).Keller和Evans(2019)基于GEOS-Chem 大气化学传输模式,尝试用随机森林机器学习方法替换其中的化学积分器,形成了一套可行的替代方案,为效率优化奠定了重要基础.既然机器学习模型可以替代机理模型的部分子过程,并达到与原有模型相近的计算精度,人们自然好奇其是否可以替代更
31、多子过程甚至整个复杂机理模型.Sar gsyan等(2014)利用稀疏学习方法实现对陆面过程模型的仿真,研究展现了一定的应用潜力.Krasnopols-ky等(2009)基于美国国家环境预报中心的全球预报系统,尝试利用机器学习模型替代除辐射传输以外的所有子过程,发现并不是所有的输出都能够达到原有模型的水平.Dueben和Bauer(2018)利用深度学习构建了大气模型仿真器,针对区域的短期预测表现尚可,但长时序预测难以达到预期的效果.Scher和Messori(2019)研究表明在包含季节循环的大气模型中,机器学习替代整体机理模型仍然存在较大的挑战.(2)模型“增强器”.如果存在足够的真实样本
32、,机器学习替代方案还可以进一步提升估算精度.Bolton和Zanna(2019)在海洋参量模拟中,通过引入真实观测图 6 模型替代耦合方式图 5 集成优化耦合方式中国科学:地球科学 2023 年 第 53 卷 第 3 期551数据与机器学习实现了模型的进一步优化,即使在仅有局部观测数据的条件下,也可以在全域尺度上提升模型的预测精度.Hunter等(2018)在河流参数模拟中,通过嵌入神经网络及简单的回归模型,有效提升了盐度的预测能力.Kraft等(2022)将神经网络模型嵌入到全球水文模型中,用于土壤湿度、地下水、雪等参数的模拟,获得了比机理模型更好的局部自适应性.可见,如何充分利用高精度的地
33、基观测、卫星遥感等数据,基于机器学习实现对不确定机理过程的替代,是实现模型提升的有效途径.然而,机器学习所需的训练样本经常难以获取.为此,可以利用更高分辨率的机理模型生成模拟数据,将之作为“伪观测”数据进行学习模型的训练,然后将训练的模型应用于较低分辨率的机理模型中,如图7所示.该方式已被广泛应用于大气模型的参数方案(Kras-nopolsky等,2013;Schneider等,2017;Brenowitz和Bretherton,2018),并被证明能够有效捕捉次格网尺度的时空信息,获得比原有参数方案更高的精度,甚至对极端事件都有较好的预测能力(Krasnopolsky 等,2009).3.2
34、.2 模型调整如前所述,现有的全球和区域动力学模式通常都包含了复杂的参数化方案,从而导致了模型输出的不确定性(李新等,2007),数据同化技术可以在模型的动力框架内,融合不同来源和不同分辨率的直接或间接观测,有效调整机理模型的运行轨迹,从而增强模型的预报精度及可预报性(李新等,2020,2021).变分法、贝叶斯滤波是目前常用的两大类数据同化方法,已有学者从数学上分析了数据同化和机器学习的理论等价性(Bonavita 等,2021),近年来如何将机器学习方法应用于数据同化已成为一个热点研究方向.基于数据同化的模式,将机器学习方法嵌入到模型模拟的动力学框架之中,是实现机理-学习相互耦合的有效途径
35、.该模式与前述模型替代的区别在于并不直接替换模型原有的机理过程,而是对其进行优化调整.Hsieh和T ang(1998)较早提出在气象与海洋模式中利用机器学习进行数据同化的思想,研究学者利用神经网络(Hrter和de Campos V elho,2008)、支持向量机(Gilbert等,2010)等机器学习模型进行了数据同化的理论探索,并逐步应用于真实应用场景.机器学习数据同化主要有三种方式:第一,利用机器学习对现有的同化算法进行模拟,其目的在于提升同化处理的效率,例如,在全球表面温度同化模拟研究中,达到相同精度的条件下神经网络方法比集合转换卡尔曼滤波效率提升 274 倍(Cintra等,20
36、16);第二,发展全新的机器学习同化方法,如Lu等(2018)利用神经网络同化算法有效提升了降水的预测精度;第三,将机器学习与现有数据同化方法结合,通过误差校正的方式提升模型的适用性(Bonavita和Laloyaux,2020;Farchi等,2021).3.2.3 模型求解在一些参量估算过程中,往往基于正向过程及相关物理机理建立最优化模型,并通过梯度下降迭代过程等进行模型求解,然而在具体的求解过程中,往往出现梯度不能计算或者即使可求解但计算量过大等问题,此时可借助于机器学习进行模型的优化求解.在理论研究方面,机器学习被应用于求解偏微分方程,该方向已在应用数学领域受到了广泛关注(Han等,2
37、018).在应用方面,Davis等(1993)在被动微波雪参数反演中,利用神经网络对散射模型进行训练学习,获得从参数到亮温的转换模型,并将之用于迭代求解算法;基于类似的求解思路,进一步反演了土壤湿度、近地气温、植被含水率等参数(Davis等,1995).V enkatakrish-nan等(2013)发展了一种“即插即用”的机理-学习耦合方式,可以将机器学习模型嵌入到变分最优化迭代求解之中,用于SAR遥感数据重建(Alver等,2019)、多源数据融合(Dian等,2021)等遥感应用中.3.3 机理融进学习耦合范式第三类耦合范式是将机理知识融进机器学习模型,即以机器学习为主框架,利用机理知识
38、对学习过程进行约束引导,整个模型是一个“端到端”的计算方式.根据机器学习模型中机理约束的施加位置及作用,可图 7 伪观测训练替代方案沈焕锋等:地球表层特征参量反演与模拟的机理-学习耦合范式552分为输入变量约束、目标函数约束、模型结构约束等,如图8所示(以神经网络为例).3.3.1 输入变量约束输入变量约束是指通过机理模型的计算或机理知识的引导,为机器学习模型引入新的输入变量,进而使学习过程更加符合特定的机理约束条件.例如,在 Kar-patne等(2017b)的研究中(如 图9),首先将驱动数据作为输入进行动力学机理模拟,再将机理模拟的输出数据与原始驱动数据一同作为机器学习模型的输入变量,此
39、时机器学习的两组输入变量之间即存在相应的物理映射关系,实验证明该耦合方式比纯数据驱动的模型具有更高的预测精度.再如,Li 等(2017)在遥感参量反演中,在输入变量中引入了时空关联因子,从而有效顾及了地理学第一定律,对机器学习模型施加有效的时空地学约束.3.3.2 目标函数约束机器学习往往通过目标函数的最小化实现模型求解,因此,在目标函数中加入机理约束是一种直接易行并被广泛应用的融进方式(Kashinath等,2021).不失一般性,可将机理约束神经网络的目标函数总结为如下基本形式(Karpatne 等,2017b;W illard等,2020):L L x x R w L x=()+()+(
40、),(1)d true pred phy pred式中,第一项Ld表征真实样本数据xtrue与模型预测数据xpred之间的监督误差,可定义为误差平方和、绝对误差、交叉熵等形式;第二项R(w)为通用正则化项,具有压缩求解子集的作用,其中w为模型的求解参数;第三项Lphy(xpred)即为在通用正则化的基础上,基于特定机理知识施加的约束,以进一步缩小参数解的搜索空间,更好地克服过拟合问题(Reichstein等,2019);、为用于调节各项权重的超参数.上式中Lphy(xpred)可以直接根据预测变量xpred的分布特征施加相应约束,例如,Erichson等(2019)在目标函数中加入L yapu
41、nov稳定性约束,有效降低了海面温度预测的不确定性.为了强化约束能力,应用更为广泛的是引入与xpred具有机理关联的变量z,既可以是模型输入变量也可以是其他相关变量,并以Lphy=L(z,A,xpred)的形式进行约束,其中A为机理关联模型,L 为某种惩罚函数.例如,Karpatne等(2017b)在模拟湖水温度时引入密度变量,充分利用温度与密度的物理关系方程,并基于密度与深度的关系约束应用于Lphy的构建;该方法后被进一步改进,通过对输入-输出热通量的约束构建Lphy,使得预测温度与湖水环境变化符合能量守恒定律(Read等,2019;Jia等,2021).Beucler 等(2019)在模拟
42、长波辐射过程中,同时考虑了热量、质量、太阳辐射、地表辐射的守恒定律,并在目标函数中施加相应的物理约束.另外,在遥感数据融合、降尺度等研究中,可以将输入数据y与输出数据xpred之间的正向模型用于Lphy的构建(Lin等,2022),如L y Ax=phy pred2,即通过已知的关系矩阵A对模型进行约束,提升模型求解的保真度.此外,在一些具体的应用中,也可以通过直接对Ld的改进实现对领域知识的引入.例如,当机器学习的目标变量无真实样本数据时,也就无法直接构建目标函数,然而如果存在与目标变量有确定机理关系的关联图 8 神经网络模型的机理约束中国科学:地球科学 2023 年 第 53 卷 第 3
43、期553变量z,则可以基于两种变量之间的机理关系间接构建目标函数,如L z Bx=d pred2,其中 B为变量间的转换模型.De Bzenac等(2019)在海温估算时利用上述思路,将运动场参数作为神经网络的目标变量,并利用其与海温的物理关系建立能量函数,实现二者的联合求解.在不引入关联变量的条件下,Li等(2021)在定量遥感反演中建立时空地理加权约束函数L w x x=()d true pred2(w 为时空权值),即通过顾及变量的自相关特征,有效提升了模型的反演精度.3.3.3 模型结构约束机器学习求解过程往往是一个“黑箱”问题,而另一种引入机理知识的方法就在“黑箱”中施加约束,这就需
44、要对机器学习内部结构和机理过程都有清晰的理解,还需要找到它们之间的最佳结合点,因此最具挑战性.Li等(2020)发展了时空地理加权学习方法,对神经网络结构的模式层与求和层进行改进,对加权求和节点、算术求和节点分别乘以相应的时空权值,以充分考虑时空异质与时空相关的地学规律,这与前述的目标函数时空约束方法(Li 等,2021)有异曲同工之妙,但该方法难以应用于其他神经网络结构.Daw等(2020)直接在原有长短期记忆神经网络的后端添加一个激活函数,并将激活函数输出用于表达湖水深度与密度的约束关系,进而用于湖水温度的模拟.Beucler 等(2019)同样将表达能量守恒的物理关系加到神经网络结构的后
45、端(如 图10),形成了模型结构的约束方法,并与基于目标函数约束方法进行了对比,表明两种方法都可以有效改进长波辐射的模拟.除了神经网络模型以外,还有其他一些机器学习模型被用于模型结构的机理约束.例如,高斯过程回归是使用高斯过程先验对数据进行回归分析的一种非参数模型,对小样本数据十分有效,并且能够分析预测的不确定性(W illard等,2020).Camps-V alls等(2018)针对多输出的回归问题,通过在高斯过程机器学习模型中引入微分方程,从而对多变量之间的关系上施加物理约束,并以叶面积指数与光合有效辐射为例,验证了模型的有效性.3.4 耦合范式的比较及混合应用如上所述,机理模型与学习模
46、型的耦合包含级联、嵌入、融进三类基本范式,其各有相应优势与限制条件.级联范式的最大优势就是应用简单,不需对两种模型的内部过程进行任何改动,并且适用于多数的应用场景,往往也能够获得明显的精度提升;但是,级联范式在理论上的突破有限,缺乏对模型问题的根本性解决方案,因此模型之间的互补优势难以得到充分发挥.相对而言,嵌入范式能够根据机理模型的不足进行针对性的改进,由于其保持了机理模型的基本架构,因此具备更强的物理可解释性,适用于机理模型较为成熟的应用场景;然而,利用机器学习替代机理模型的子过程需要大量用于训练的中间变量,而这些数据的获取往往比较困难,成为一些应用中的限制条件.融进范式保持了机器学习模型
47、“端到端”的计算框架,通过将机理知识融进学习模型实现高效的处理应用,比较适合于机理模型不成熟同时又存在大量真实训练样本的场景;然而对机器学习的“黑箱”模型结构进行修改往往十分困难,对机理知识的引入程度会因此受到较大制约.因此,三种耦合范式并无绝对上的优劣之分,而是针对不同的条件各有不同的适用场景,并且在一些应用中它们还可以混合使用.例如,Schneider等(2017)利用神经网络替代地球系统模式(ESM)中的参数化方案,整体上属于学习嵌入机理的耦合范式,然而,其在神经网络的目标函数中融入了物理约束,即进一步使用了机理融进学习的耦合范式.再如,Read等(2019)在水温估算的研究中,综合集成
48、了三种耦合范式(Jia等,2021):图 9 输入变量约束的一种形式图 10 神经网络模型的结构约束沈焕锋等:地球表层特征参量反演与模拟的机理-学习耦合范式554首先应用级联范式,基于机理模型生成模拟数据,并进一步用于机器学习模型的预训练;其次,在精训练阶段将驱动数据与机理模型的输出一起作为机器学习模型的输入,即融进范式;再有,在机器学习模型的能量函数中加入了物理约束项,即嵌入范式.通过不同耦合范式的联合应用,可以更加充分地发挥机理模型与学习模型的互补优势.4 主要问题与挑战方向尽管机理-学习耦合在遥感反演和数值模拟领域都已经进行了前期探索,并面向一些典型应用取得了可喜的进展,但该方向整体上仍
49、然处于较为初级的发展阶段,在广度和深度上都亟待进一步发展.在广度方面,虽然针对大气数值模拟的研究相对较多,但在陆面过程及水文模拟、遥感参量反演等方面的研究仍然较少,亟需在各个方向上全面突破.在深度方面,如何在机理模型中嵌入更为稳健的学习过程,如何在机器模型架构中融进更为复杂的机理知识,仍然存在非常巨大的研究空间.当前,在地学大数据、人工智能迅猛发展的背景下,机理模型与学习模型的耦合研究面临空前的机遇与挑战,包括但不限于:(1)多源异类地学大数据的一体化学习与融合.机器学习本身是一种数据驱动的计算模式,因此机理-学习耦合很大程度上依赖于可用的参考数据.当前,虽然地基观测、遥感观测、数值模拟、社会
50、感知等各类数据层出不穷,但现有的模型耦合研究更多是针对单类或少类数据,如何顾及多源异类数据在精度、尺度、时空连续性等方面的差异及其互补性,开展一体化的机器学习建模与融合应用是重要的发展趋势(张良培和沈焕锋,2016).另外,针对真实参考数据缺乏的问题,如何充分利用多源多尺度观测与模拟数据,通过迁移学习、主动学习等方式获得更为充足的训练样本,是提升现有模型效能的有效途径.(2)机理过程的自适应学习替代机制.利用机器学习替代机理模型中的不确定子过程,因其保持了原有的物理过程机制、具有较强的物理可解释,是具有极大潜力的一种耦合范式.但在具体的执行过程中,替代机理模型的哪个子过程?什么情况下需要替代?