1、通过计算高效的相似性搜索进行地震检测 C.E.Yoon O.OReilly K.J.Bergen G.C.Beroza 李万金 云南省地震局个旧地震台 摘 要: 地震学正经历着数据量的快速增长, 它已超过处理算法发展的速度。地震检测连续数据中地震事件的识别是观测地震学的一项基本操作。使用波形相似性克服了现有检测方法的缺点, 从而开发了一种有效的方法来检测地震。该方法称为指纹和相似性阈值法 (FAST) , 分析 1个星期的连续地震波形数据用时不到 2小时, 或者比自相关快 140倍。指纹和相似性阈值法采用数据挖掘算法, 最初设计用于大数据库中识别相似的音频剪辑。它首先通过提取关键的判别特征来创
2、建波形的紧凑“指纹”;然后把相似的指纹组合在一个数据库中, 以利于相似指纹对快速、可扩展的搜索;最后生成地震检测的一个列表。指纹和相似性阈值法从位于美国加利福尼亚中部卡拉韦拉斯断层附近的一个台站 1个星期的连续数据中检测到了大部分编目地震 (24 个中的 21个) 和 68个非编目地震, 实现了能与自相关相媲美的检测性能, 尽管有一些额外的虚假检测。当应用于地震台站的分布式台网、非常长的持续时间数据集上时, 指纹和相似性阈值法可望发挥其充分的潜力。指纹和相似性阈值法的广泛应用, 可能有助于发现意想不到的地震信号, 改善地震监测, 促进对各种地震过程的更深的了解。作者简介:李万金 (1977)
3、, 男, 中国科学技术大学地质工程专业硕士研究生毕业, 云南省地震局个旧地震台高级工程师, 主要从事地震观测及相关研究工作, E-mail:。0 引言地震学是一门数据驱动的科学, 其突破性进展往往来自观测能力的进展 (1) 。现在有巨大的数据集:拥有高达数千个传感器的台网已经记录了几年的连续地震数据流, 并且数据采集的速度持续加快。地震学可以从处理和分析这些海量数据的新的可扩展算法中获益, 从它们中提取尽可能多的有用信息。我们工作的重点是使用最初设计用于音频识别、图像检索和网络搜索引擎开发的数据挖掘技术来改善地震检测。0.1背景地震台网包括位置分散的多个台站 (接收器) , 其中每个台站都有一
4、台连续记录地面运动的地震仪。传统上, 地震被每个台站使用如短时平均/长时平均 (STA/LTA) 的能量检测器检测到一次。当这些窗口沿着连续数据滑动时, STA/LTA就计算短时窗口内的短时平均能量与长时窗口内的长时平均能量的比值。当 STA/LTA比值超过某些阈值时, 就宣布一次检测 (2, 3) ;然后算法确定该台网的多个台站是否检测到一致的地震源。如果一个地震事件被至少 4个台站检测到, 它就会被编入地震目录中。地震目录是一个包含已知地震位置、发震时间和震级的数据库。STA/LTA能成功识别具有脉冲、高信噪比 (SNR) P 波和 S波到达的地震。STA/LTA普遍适用性高 (图 1)
5、, 我们将普遍适用性定义为不用地震波形或震源信息的先验知识来检测各种各样地震的能力。但在诸如低信噪比、具有突至震相的波形、重叠地震事件、背景噪声以及稀疏的台站间距这些更具挑战性的情况下, STA/LTA 不能检测到地震或者可能产生错误检测。因此, STA/LTA 具有低检测灵敏度 (图 1) 。所以, 地震目录中低震级地震不完整。我们可以将整个地震波形的信息用于检测, 而不仅仅是脉动的体波震相, 以克服 STA/LTA的局限性。在几个星期、几个月甚至几年的时间内的重复地震震源, 在同一台站记录到的波形高度相似 (4, 5) 。路径效应几乎相同:对大地震前 (6) 后 (5) 地震波走时随时间变
6、化的搜索表明, 地球速度结构的时间变化非常微小, 所以地球结构在地震时间尺度上基本是恒定的。波形互相关利用所产生的波形相似性来实现灵敏的地震检波器。波形互相关, 又称为匹配滤波或模板匹配, 已被证明是在噪声数据中查找已知地震信号的一种灵敏的、判别式的方法。它具有高检测灵敏度 (图 1) 。它是“一对多”搜索方法, 它计算具有连续波形数据的连续候选时间窗口的模板波形的归一化相关系数 (CC) , 且具有相关系数超过特定阈值的任一候选窗口就被认为是检测到地震 (7) 。两段时域波形 之间的归一化相关系数定义为:图 1地震检测方法三个定性指标的比较:检测灵敏度、普遍适用性和计算效率 (原图为彩色图译
7、注) 。STA/LTA 的普遍适用性高, 因为它能发现未知来源;计算效率高, 因为它是实时检测地震;但检测灵敏度低, 因为它会漏掉低信噪比的地震事件。模板匹配的检测灵敏度高, 因为互相关可以找到低信噪比事件;计算效率高, 因为我们只需要将连续数据和一小组模板波形作互相关;但普遍适用性低, 因为模板波形需要事先确定。自相关的检测灵敏度高, 因为它对波形作互相关;普遍适用性高, 因为它可以找到未知的类似来源;但计算效率非常低, 因为它与连续数据集的大小极不相符。指纹和相似性阈值法 (FAST) 对所有三个指标都表现良好, 将检测灵敏度与基于相关性检测的普遍适用性相结合, 具有较高的计算效率和可扩展
8、性式中, M 是每个波形的样点数。模板匹配能检测非常低信噪比的事件, 很少有误报。当模板包含的波形来自多个台站和多个通道时, 检测是基于综合的台网互相关系数 (CC) (7, 8) 。模板匹配是一种通用的功能强大的技术, 已在各种地震活动性研究中发现未检测到的地震:未编入目录的低震级地震 (9) 、前震 (10) 、余震 (11) 、触发地震 (12) 、震群 (13) 、构造颤动中的低频地震 (LFE) (8) 和触发颤动 (14) 、地震台网稀疏的潜在诱发地震地区的小震级事件 (15) 、核监测与鉴别 (7, 16) , 以及地热 (17) 与油气藏 (18) 中的微震监测。然而匹配的一个
9、主要局限是它需要一个先验波形模板, 因此, 它的普遍适用性低 (图 1) 。模板通常通过提取目录地震的波形或通过人工检测从连续波形中提取脉冲地震波形来选定。这不是一种查找低信噪比重复信号未知来源的有效、全面的方法。已开发了子空间检测 (19) 和经验子空间检测 (20) 方法, 以将模板匹配推广到波形变化更大的、相似的、非重复震源;然而, 我们感兴趣的是最一般的情况系统地对连续数据中具有相似波形的信号进行盲搜索, 而无需信号先验知识。当所需信号波形未知时, 自相关是一种搜索相似波形的完备的“多对多”方法。我们知道, 感兴趣的地震信号有短暂的持续时间 (每个通道一般几秒钟) , 所以我们将连续数
10、据分成 N个短的重叠窗口, 并对所有可能的窗口对作互相关。当窗口对的互相关系数超过检测阀值时, 就被标记为候选事件, 它可以用额外的互相关进行后续处理, 或被组合进“家族”, 并被叠加来形成低噪声模板波形。自相关已在构造地震中成功地找到已知和以前未知的低频地震 (21, 22) 。自相关提供了超过 STA/LTA的改进的波形互相关灵敏度, 也能检测具有相似波形的未知源 (图 1) 。自相关有一个主要的缺点, 因为它属于计算密集型 (图 1) , 所以对于在大量连续数据集中检测地震来说, 最终是不可行的。对于 N个窗口, 我们必须计算N (N-1) /2次互相关系数来考虑所有可能的窗口对;因此,
11、 自相关运算时间与数据长度呈 2次方关系, 算法复杂度为 O (N) 。自相关执行了大量的冗余工作, 因为大多数窗口对是不相关的, 且对检测不感兴趣 (图 S1A, 见补充材料, 下同译注) ;自相关检测到的高度相似地震只占窗口对总数的一小部分。自相关非常适合用于检测几个小时连续数据中发生的重复地震 (21) , 其中 N值小。但自相关的 O (N) 运行时间, 对于要使用它来从具有数百个通道和地震台站的台网几天、几个星期、几个月、甚至几年的连续地震数据中, 且不使用大规模计算资源来查找不经常重复的事件是不切实际的。我们已经开发出一种结合了自相关的优势 (查找未知源的检测灵敏度和综合能力) 和
12、可扩展的运行时间的新方法用于大的 N值 (图 1) 。我们的技术有可能改善地震监测并对地震过程给出新见解。0.2地震检测的新方法人们已经开发了许多算法来高效地搜索大数据集中相似的条目 (23) ;应用包括识别大文件系统中相似的文件 (24) 、查找近乎重复的网页 (25) 、检测文档抄袭 (26) 和作为音乐鉴定来识别相似的音频剪辑 (27) , 如 Shazam移动应用程序 (28) 。我们可以通过利用计算机科学界广泛使用的可扩展算法, 来对大量连续数据中的相似地震波形进行快速、高效、自动化的盲检测来达到我们的目标。地震学家刚开始利用数据密集型搜索技术来分析地震记录;最新的一个应用是用于快速
13、震源机制识别的地震搜索引擎, 它从大数据库中检索最佳吻合的合成地震记录 (29) , 而另一项研究开发了一种快速近似算法, 从大量目录中查找相似的事件波形 (30) 。局部敏感散列 (LSH) , 是一种广泛用于高维近似近邻搜索的方法, 可以使我们避免比较构成数据中大多数波形的不相似对;局部敏感散列法是返回可能具有高概率相似性的“候选对”的一个较短列表 (23, 31) 。在计算机科学中, 散列法经常用于数据库中条目的高效插入、搜索和删除, 有恒定的 O (1) 运行时间;每个条目被插入到根据散列函数的输出选择的一个散列桶中 (32) 。散列表包含许多散列桶, 而散列函数确定条目如何分配到不同
14、的散列桶中 (32) 。使用局部敏感散列法 (图 S1B) , 我们只需要搜索同一散列桶中相似的条目对 (地震信号) 这些对成为候选对, 我们可以忽略没有出现在同一个散列桶中的条目对, 它们包括大多数对。因此, 局部敏感散列法允许用与连续数据中的窗口数成近似线性关系的运行时间来搜索相似条目, 这比自相关的二次关系要好得多。并非直接比较波形, 我们首先进行特征提取, 将每个波形浓缩成一个只保留其主要鉴别特征的紧凑的“指纹”。指纹用作波形的替代品;因此, 两个相似的波形应该有相似的指纹, 而两个不相似的波形应该有不同的指纹。我们将指纹 (而不是波形) 分配到局部敏感散列的散列桶中。我们的方法是一种
15、称为指纹和相似性阈值的算法, 基于 Waveprint音频指纹算法 (33) , 它结合了计算机视觉技术和大规模数据处理方法来匹配相似音频剪辑。我们根据从连续地震数据中检测相似地震的特殊应用的性质和要求来修改Waveprint算法。我们选择 Waveprint, 是因为它的音频识别方面展示的性能以及该技术容易映射到我们应用中。首先, 音频信号与地震记录在几个方面相似:它们都是连续时间序列波形数据, 而且感兴趣的信号往往是非脉冲;其次, Waveprint使用如自相关中的短叠加音频剪辑来计算指纹;再次, Waveprint 利用局部敏感散列法仅搜索指纹中的一小部分。Waveprint 还能报告高
16、精度的快速检索结果, 且其特征提取步骤很容易并行化。指纹和相似性阈值法用作地震检测方法在 3个定性理想化指标 (检测灵敏度、普遍适用性和计算效率) 得分都高 (图 1) , 而其他地震检测算法 (STA/LTA, 模板匹配和自相关) 在 3个指标中仅有 2个指标较好。1 结果1.1 数据集我们在一个包含可能有相似波形的未编入目录的地震的连续数据集上测试了指纹和相似性阈值法的检测能力。众所周知, 美国加利福尼亚州中部的卡拉韦拉斯断层 (图 2) 有重复地震 (34) 。我们检索了来自北加州地震台网 (NCSN) 的台站 CCOB.EHN (水平北南分量) 以速度测量的从 2011年 1月 8日
17、(000000) 至 2011年 1月 15日 (000000) 期间 1个星期 (168 小时) 的连续波形数据。根据北加州地震台网目录, 2011 年 1月 8日该断层上发生了一次 MW4.1地震, 之后有几次余震。这些编目事件中的大多数事件位于距离台站 3km的范围内。图 2卡拉韦拉斯断层上目录地震和有数据的地震台站的位置图 (原图为彩色图译注) 。2011 年 1月 8日 MW4.1地震的双差目录位置 (红五角星) 和2011年 1月 8日至 15日期间卡拉韦拉斯断层上发生的北加州地震台网 (NCSN) 目录事件 (点) , 以及我们处理了从 2011年 1月 8日至 15日 1个星期
18、数据的台站 CCOB.EHN (白色三角形) 。蓝点表示指纹和相似性阈值法检测到的 21个目录事件, 而黑点表示指纹和相似性阈值法漏检的 3个目录事件。 (插图) 地图在美国加利福尼亚州中的位置 (红框) 在运行指纹和相似性阈值算法前, 我们对连续时间序列数据进行了预处理。我们对数据进行 410Hz的带通滤波, 因为低频段的相关噪声会干扰我们检测未编目地震的能力。这种相关噪声, 似乎是此台站特有的, 包括出现在数据中不同时间的相似的非地震信号。然后我们将滤波后的数据从原来每秒 100个样本的采样率抽样成每秒 20个样本, 所以奈奎斯特频率为 10Hz。1.2 指纹和相似性阈值法检测结果我们证实
19、指纹和相似性阈值法在 1个星期的连续时间序列数据中能成功检测到未编目地震, 我们将它的检测性能和运行时间与自相关进行了比较。表 1包含了我们用于指纹和相似性阈值法的参数, 表 S1显示了自相关的参数;虽然这些参数没有调整到最佳值, 但它们表现已相当好。一般情况下, 我们不能期望来自指纹和相似性阈值法、自相关和目录的事件时间能准确匹配, 它们都有自己的事件检测时间列表。因此, 为方便比较, 我们将匹配事件定义为发生在互相的 19s范围内 (表 1) , 这是具有 1s滞后的 10s长的指纹 (表 1) 和 10s长的自相关窗口 (表 S1) 之间重叠的最大时间。表 2通过几个指标总结了自相关与指
20、纹和相似性阈值法的性能:检测事件、错误检测、目录检测, 新 (未编目的) 检测、漏检测以及运行时间的数值。指纹和相似性阈值法从这些数据中总共检测到 89个地震 (图 3) , 而自相关检测到 86个事件, 因此它们在检测事件总数上性能相当。指纹和相似性阈值法比自相关有更多的虚假检测, 但运行得更快。大部分事件都被自相关 (86 个中的 64个) 与指纹和相似性阈值法 (89 个中的 64个) 检测到。但新事件中相当一部分或被自相关 (22 个事件) 或被指纹和相似性阈值法 (25 个事件) 检测到, 但没有被两者同时检测到。指纹和相似性阈值法检测到图 2中位于感兴趣区域内 (37.137.4N
21、, 121.8121.5W) 的 24个目录事件中的 21个 (图 3) , 而自相关发现了全部 24个。只使用来自 CCOB.EHN台站的数据, 自相关与指纹和相似性阈值法都没有检测此区域外的目录地震。图 S2显示了被指纹和相似性阈值法检测到的21个目录地震按目录时间排序的 20s归一化波形 (图 S2A) , 震级范围从主震MW4.10到最小事件 Md0.84 (表 S2) , 指纹和相似性阈值法未检测到的 3个目录事件属于漏检 (图 S2B) 。指纹和相似性阈值法没有检测到这 3个目录事件, 是因为它们在这 1个星期的连续数据中没有重复 (图 2) 。位于 361 736s处检测到的那个
22、地震的位置是 (37.132 08N 和-121.578 79W) , 不同于其他目录事件。在 314 077s和 336 727s处的另外两个事件更靠近主震附近的大多数目录事件, 但与大多数目录事件的 67km深度 (表 S2) 相比它们的深度更浅 (分别为 3.50km和 3.53km) 。自相关检测到这 3个目录事件, 因为它们的初始震相到时与另一个地震的初始震相到时的匹配具有高相关系数;然而对 5s后地震对的检查显示它们波形的其余部分不相似 (图 S3) , 因此指纹和相似性阈值法没有检测到它们就不足为奇了。表 1 指纹和相似性阈值法输入参数。这些参数被用于合成数据检测 (除事件检测阈
23、值) 和 CCOB.EHN台站的 1个星期的数据 下载原表 表 2 自相关与指纹和相似性阈值法之间几个指标性能比较总结。指标 35的数目总和应该等于指标 1的数目 下载原表 除了这 21个目录事件, 指纹和相似性阈值法还检测到了目录中没有的 68个新事件 (图 3) 。这些额外的事件提供了对卡拉韦拉斯断层上地震活动更完整的描述;此余震序列更高的时间分辨率可以用来更准确地预测传染型余震序列模型的余震速率。图 S4显示了 CCOB.EHN台站一个星期之内的数据按事件检测时间排序的这些新事件的 20s归一化波形, 指纹和相似性阈值法检测到自相关也检测到的 43个新事件 (图 S4A) , 还检测到自
24、相关漏检的 25个新事件 (图 S4B) 。这些事件比图 S2中的目录地震波形的噪声大。图 S4中的波形在时间上没有完全对齐有两个原因:第一, 指纹和相似性阈值法事件时间准确性最高只有 1s, 等于相邻指纹之间的时间滞后 (表 1) ;第二, 同一事件有多个检测时间, 而我们只考虑具有指纹和相似性阈值法最高相似度的那个时间 (见补充材料) 。指纹和相似性阈值法相似度被定义为在同一个桶中指纹对的散列表的分数 (见材料与方法一节) 。指纹和相似性阈值法不能估计精确的到达时间, 但这可以由检测过程的后续步骤中的互相关很容易地计算出来。假定以表 1中的参数为选项, 我们还估计了指纹和相似性阈值法所产生
25、的误报和漏检的数量。此估计是基于对波形仔细的目视检查:虽然指纹和相似性阈值法检测时只使用 EHN通道, 但是 CCOB台站数据的所有三个分向波形必须看起来像一个脉冲地震信号才被归类为“真实的检测”。在我们的应用中, 我们只想检测地震, 所以我们没有将具有非脉冲波形的相似信号归类为真实的检测。指纹和相似性阈值法返回超过地震检测阀值, 但根据 20s归一化波形视觉识别为低幅度噪声的 12个误报检测 (图 S5A) 。自相关没有任何误报, 因为我们故意设置了一个高检测阈值 (CC=0.818) ;我们可以为自相关设置低检测阈值以检测更多事件, 但这也将会引起误报, 使指纹和相似性阈值法与自相关检测之
26、间的自动比较变得复杂。指纹和相似性阈值法未能检测到但自相关检测到的 19个未编目事件 (图 S5B) , 所以这些都是漏报。这 19个检测中的 10个与那 3个目录事件 (图 S3) 的漏检原因是一样的:自相关匹配了初始 P波到时, 但整个波形不相似。指纹和相似性阈值法总共漏检了, 但被自相关检测到的 22个事件 (包括 3个目录事件) 。但指纹和相似性阈值法检测到, 而自相关没有检测到的 25个新事件, 可以被解释为自相关漏检;它们的相关系数介于 0.6720.807之间, 所以它们低于 CC=0.818的阈值。这 25个事件波形对的整体形状是相似的, 但时间上没有精确对齐 (图 S6) 。
27、最后, 我们比较了指纹和相似性阈值法和自相关的串行运行性能来检测CCOB.EHN台站一个星期数据中的事件。当在英特尔至强处理器 E5-2620 (2.1GHz中央处理单元) 上处理时, 自相关用了 9天 13小时生成了地震检测的一个列表, 而指纹和相似性阈值法仅用了 1小时 36分钟, 加速了 143倍。加速因子的估计有些不确定性, 因为自相关与指纹和相似性阈值法的实现都没优化为最快的运行时间。指纹和相似性阈值法将 38%的时间用于特征提取, 11%的时间用于生成数据库, 以及 51%的时间用于相似性搜索。指纹和相似性阈值法在运行时间上比自相关有巨大优势, 而且根据这两种算法的可扩展性, 我们
28、预计对于更长的连续数据集, 这一优势将会增加。图 3将指纹和相似性阈值法事件检测绘制在 1个星期的连续数据上 (原图为彩色图译注) 。数据来自台站 CCOB.EHN (带通滤波, 410Hz) , 起始于2011年 1月 8日 (000000) 。指纹和相似性阈值法共检测到 89次地震, 其中包括 24个目录事件中的 21个 (蓝色) 和 68个新事件 (红色) 图 S7解释了来自指纹和相似性阈值法的候选对输出的小数目, 这有助于其计算效率。它显示了在对数刻度上按指纹和相似性阈值法相似度分级的相似指纹对的直方图 (包括近似重复对) 。有 Nfp (Nfp-1) /21.810个可能的指纹对,
29、但指纹和相似性阈值法输出初始阈值至少为 0.04相似度的有 978 904对 (表 1) , 这仅占总对数的 0.000 5%。在应用 0.19的事件检测相似性阈值 (表 1) 后, 我们仅保留 918对。进一步后续处理 (见补充材料) 返回了一个 101个检测的列表, 其中包括 89个真实事件和 12个误检:去除近似重复对会将指纹对数减少到105对, 而去除近似重复事件将检测数从 2105=210个减少到 101个。虽然指纹和相似性阈值法计算指纹和特征提取时要花费一些运行时间, 这与从避免不必要的比较获得的加速相比是很小的。2 讨论2.1 扩展到大数据集为了量化对于大数据集指纹和相似性阈值法
30、运行时间和内存使用的可扩展性, 我们从台站 CCOB.EHN下载了 6个月 (181 天) 的连续数据 (2011 年 1月 1日至2011年 6月 30日) , 并在范围从 1天至 6个月 (包括 1个星期) 的七个不同数据持续时间 (表 S3) 上运行指纹和相似性阈值法。对于此扩展测试, 我们使用了表 1中的参数, 但我们将散列函数的数量 r从 5个增加到 7个。此参数的变化降低了检测性能, 但提高了计算效率。图 4以持续长达 6个月的连续数据的函数作为指纹和相似性阈值法的比例属性 (原图为彩色图译注) 。 (a) 由局部敏感散列法产生的数据库的内存使用。 (b) 指纹和相似性阈值法的总运
31、行时间 (红色) , 细分为特征提取的 (蓝色) 和相似性搜索的运行时间 (绿色) 。长度超过 1周的连续数据的自相关运行时间 (紫色) 是根据二次比例关系外推得来的 (虚线) 。这些结果是用表 1中的参数运行指纹和相似性阈值法得来的, 同时将散列函数的数目 r从 5增加到 7, 这样做可将 1周的连续数据的总运行时间减少到一个小时之内局部敏感散列法生成的数据库的内存使用取决于散列表的数量、指纹的数量和针对散列表实现的额外开销。我们使用 Linux的 Top命令来估计长持续时间数据的内存使用情况。我们发现 6个月的连续数据大约需要 36GB内存 (图 4a) 。我们分别通过测量特征提取和相似性
32、搜索步骤的时钟时间来以连续数据持续时间函数的形式调查了指纹和相似性阈值法的运行时间 (图 4b) 。特征提取与数据持续时间成线性比例, 而相似性搜索与 O (N) 呈近线性比例。为了比较, 我们记录了长达 1个星期的数据的自相关运行时间, 然后通过假设二次方比例关系来外推到更长的时间。指纹和相似性阈值法可以仅用 2天 8.5小时检测 6个月连续数据内的相似地震比我们的自相关实现至少快三个数量级, 预计自相关需要约 20年才能完成同样的任务。2.2 局限性指纹和相似性阈值法以更高内存要求来换取更快的运行时间和降低算法的复杂度。与自相关不同, 指纹和相似性阈值法需要大量的内存, 因为局部敏感散列法
33、生成的数据库要存储散列表, 每个散列表包含对分布在其散列桶集合中所有Nfp=604 781个指纹的引用。因为我们预期搜索几个月到几年连续数据中的事件, 因此这些内存需求会增加。对于几年的连续数据, 内存可能成为瓶颈, 而且在分布式计算环境中数据库的并行实现将是必要的。我们可以通过几种方法来改善指纹和相似性阈值法的检测灵敏度和阈值算法。我们目前的实现中使用了值为 0.19的事件检测阈值 (表 1) 作为指纹和相似性阈值法的相似性指标, 这是通过视觉检查波形后设定的:高于此阈值的大多数事件看起来像地震, 而低于此阈值的大多数事件看起来像噪声。由于我们处理持续时间更长的连续数据, 我们将需要一个在特
34、定时间段内能随噪声水平变化的自动和自适应的检测阈值。我们不想因为一个短时不常见的噪声时段而通过使用一个提高的恒定检测阈值来降低连续数据整年的检测灵敏度。另外, 指纹和相似性阈值法输出的相似指纹对 (图 S8) 是真正的候选对 (23) , 它们需要经过额外的后处理来归类为事件检测。例如, 没有使用 0.19的指纹和相似性阈值法的相似性事件检测阈值 (表 1) , 我们可以取超过 0.04初始阈值的所有对 (表 1) , 并基于侯选对的波形直接计算的相关系数来设置事件检测阈值。从指纹和相似性阈值法输出的相似指纹对 (图 8) 仅识别波形之间的两两相似性;然而, 我们希望找到三个或更多个彼此相似的
35、波形组。丛集相似性具有有效的地震学应用, 从识别重复地震序列到查找构造颤动中的低频地震, 它在一次处理期间可包含成千上万个相似事件 (8, 21, 22) 。将来可以开发后处理步骤来确定相似波形对之间的“链接”以创建相似波形组。进一步研究识别多次重复的指纹对之间的联系 (22) 或应用经常用于分析社交网络 (23) 的聚类和图形算法 (30) 的组合, 可以帮助解决这个问题。指纹和相似性阈值法设计用于在连续数据中查找相似信号, 但这些信号不一定是地震。指纹和相似性阈值法也可用于相关噪声的检测, 尤其是如果数据具有重复的噪声信号, 如图 S5A中的 12个虚假检测。由于该台站特有的低频相关噪声降
36、低了我们的检测性能, 因此我们对 CCOB.EHN台站数据使用一个 410Hz的带通滤波器。相关噪声的其他例子包括短时、大振幅的假信号、尖峰以及其他扰动。相关噪声也对自相关事件的检测产生了负面影响:当我们不对连续数据应用 410Hz带通滤波器时, 自相关也检测到许多比地震波形还具有高相似性的非地震信号。减轻相关噪声影响的可能策略包括:应用一个高于噪声段的自适应检测阈值用分离相似地震信号和相似噪声信号的方式来分组检测, 以及开发如从噪声中区分地震的特征分类器 (35) 这样的后处理算法。图 5指纹和相似性阈值法中的特征提取步骤 (原图为彩色图译注) 。 (a) 连续时间序列数据。 (b) 频谱图
37、:振幅为对数刻度。 (c) 1 267s 和 1 629s处两个相似地震的频谱图像。 (d) 哈尔小波系数:振幅为对数尺度。 (e) 经过数据压缩后最高标准哈尔小波系数的符号。 (f) 二进制指纹:特征提取的输出。注意:相似的频谱图像会产生相似的指纹图 6局部敏感散列法如何将指纹分组进数据库的示例 (原图为彩色图译注) 。 (a) 两个相似指纹 A和 B的最小散列签名 (MHS) 的例子, p=6。 (b) 局部敏感散列法决定如何将两个相似指纹 A (蓝色) 和 B (绿色) 放入每个散列表 (红框) 的散列桶 (椭圆形) 中;为方便可视化显示了波形。最小散列签名长度为 p=6, 且有 b=3
38、个散列表, 所以每个散列表得到每个指纹最小散列签名的一个不同的子集, 它是 6/3=2个整数长:r=2 最小散列函数的输出。分别处理每个散列表:如果 A和 B的最小散列签名子集都相等, 那么 A和 B进入到数据库的同一散列桶中;在散列表 1和 3中就是如此, 其中分别为 h (A) =h (B) =155, 64以及 h (A) =h (B) =110, 21。然而在散列表 2中, A 和 B的最小散列签名子集不相等, 因为 h (A) =231, 35而 h (B) =207, 35, 所以 A和 B进入不同的散列桶中由于指纹和相似性阈值法被设计来检测相似信号, 我们不要指望它查找到与指纹和
39、相似性阈值法处理过的连续数据中其他信号不相似的独特地震信号。例如, 如果数据包含 100个事件信号, 但其中只有两个有相似的波形, 指纹和相似性阈值法将只返回两个检测。持续时间越长的数据越有可能包含相似的地震信号, 因此指纹和相似性阈值法将可能检测到更多地震事件。如果数据还包含独特的、不重复的地震信号, 只要它有一个具有足够能量的脉冲到达, 就可以用STA/LTA来检测它。此外, 指纹和相似性阈值法可应用于本研究不探究的一个另外的“模板匹配模式”, 其中连续数据部分的指纹是从其他数据集抽取的模板信号的指纹数据库中查询的, 这使得类似于已知波形的检测而无需去匹配连续数据滞后期间出现的信号。2.3
40、 结论和未来影响地震学是一门数据驱动的科学, 其认识的新进展往往来自观测 (1) , 且地震台网采集的地震数据量从未像今天这么大。计算机科学家们开创了用于相似性搜索的数据挖掘算法, 应用范围从音频剪辑到大型数据库中的图像, 再到互联网网页。指纹和相似性阈值法证实我们可以利用这些算法来解决地震学中的一个基本问题:识别未知地震。指纹和相似性阈值法超过其他竞争性方法的最重要的优势在于它的快速运行和可扩展性。对于 1个星期的连续数据, 指纹和相似性阈值法运行比自相关快约140倍, 同时检测到相同总数的事件。然而, 对于更长的连续数据流, 我们预测串行指纹和相似性阈值法的运行会比自相关快几个数量级, 纯粹基于这些算法的运行时间复杂度:自相关是二次方而指纹和相似性阈值法是近似线性 (图4b) 。地震学家以前应用并行处理来加速图形处理单元上 (36) 和分布式集群上 (37) 的模板匹配。我们也使用并行自相关实现 (见补充材料) 作为参考来与指纹和相似性阈值法检测结果进行比较。用并行实现可使指纹和相似性阈值法运行时