正则表达式教程.PDF-道客多多_道客多多docduoduo.com

资源描述

1、正则表达式 Regular Expression Tutorial 张子阳 jimmy_目录目录 .2 引言 .1 什么是正则表达式？ .1 准备工作 .1 匹配单个字符 .1 1.匹配固定单个字符 .1 2.匹配任意单个字符 .2 3.匹配“.”元字符 .3 4.匹配字符组 .4 4.1 字符组的基本语法 .4 4.2 在字符组中使用字符区间 .5 4.3 反义字符组 .6 5.匹配特殊字符 .7 5.1 匹配元字符 .7 5.2 匹配空字符 .8 5.3 匹配特定字符类型 .9 5.3.1 匹配数字类型 .9 5.3.2 匹配字母、数字、下划线 .9 5.3.3 匹配空字符 .10 匹

2、配多个字符 .10 1.匹配一个或多个 .11 2.匹配零个或多个字符 .12 3.匹配零个或一个字符串 .13 4.匹配指定数目字符 .14 4.1 匹配固定数目的字符 .14 4.2 匹配区间以内数目的字符 .15 5.贪婪匹配和惰性匹配 .16 5.1 贪婪匹配、惰性匹配概述 .16 5.2 贪婪匹配的匹配过程： .17 5.3 惰性匹配的匹配过程 .17 5.4 值得注意的两个匹配模式 .18 匹配边界 .19 1.匹配单词边界 .19 2.边界及其相对性 .21 2.1 边界的定义 .21 2.2 边界的相对性 .22 3.匹配非单词边界 .23 3.匹配文本边界 .24 3.1 匹

3、配文本首 24 3.2 匹配文本末 25 匹配子模式. 26 1.子模式 26 2.“或”匹配 .27 3.在子模式中使用“或”匹配 .27 4.嵌套子模式 .28 后向引用 .29 1.理解后向引用 .29 2.后向引用的一个常见应用 .32 3. .Net中的后向引用 .33 文本替换 .33 1.使用后向引用进行文本替换 .33 1.1 高亮显示文本 .34 1.2 替换电话号码格式 .34 2. .Net 中的文本替换 .35 预查和非获取匹配 .35 1.理解非获取匹配 .35 2.正向预查 .37 3.反向预查 .39 4.正向、反向预查组合 .40 5.负正向预查、负反向预查 .

4、41 5.1 负正向预查 .41 5.2 负反向预查 .41 总结 .42引言正则表达式看上去并不像某种语言或者某个技术那么重要，仅靠它们你无法写出一个应用程序来。然而，它们却总是在你的开发过程中如影随形，不管是进行表单验证，还是高亮显示搜索结果，又或者是进行 URL 地址映射，总是需要使用它们。几乎所有的语言都对它进行了不同程度的支持，由此，足见其在文本匹配这一领域中的地位。正则表达式应该算是开发人员应该掌握的一个轻量级的技能，然而，它稀奇古怪地匹配模式总让人们联想起外星语言。本文中，我期望能和大家一道，通过丰富地例子，由浅入深地对正则表达式作一个复习和回顾。 NOTE：本文章节的编排

5、顺序和风格主要参考 Ben Forta 的Sams Te ach Yourself Regular Expressions in 10 Minutes 。什么是正则表达式？正则表达式也叫做匹配模式(Patter n)，它由一组具有特定含义的字符串组成，通常用于匹配和替换文本。通常情况下，如果一个文本中出现了多个匹配，正则表达式返回第一个匹配，如果将 global设置为 true，则会返回全部匹配；匹配模式是大小写敏感的，如果设置了 ignore case 为true，则将忽略大小写区别。本文中，有时会将正则表达式简称为表达式、匹配模式或者模式，它们可以互换。本文默认 g

6、lobal 和 ignore case 均为 true。准备工作在开始进行之前，我们首先需要一份工具来对表达式进行测试，在本文中，使用的是RegexTester 这个小程序，它的使用非常的简单明了，相信你随便摆弄下就会用了，这里就不对其使用再做说明了。可以点这里下载： http:/ 1.匹配固定单个字符所有的单个大小写字母、数字，以及后面将要讲述的特殊字符，都是一个正则表达式，它们只能匹配单个字符，且这个字符与它本身相同，例如，对于表达式“i” ： Page 1 of 42 Text Jimmy is a junior developer and jimmy lives in xi

7、an. RegEx i Result Jimmy is a junior developer and jimmy lives in xian. 需要注意：对于表达式“m”来说，它的匹配是 jimmy，请注意这里的匹配方式：并不是一个“m”一次匹配了字符串“mm” ，而是一个“m”分两次匹配了单个字符“m” ，不管这两个“m”是紧挨着或者如同上面的“i”那样分散在句子的不同地方。将多个固定单个字符进行组合就构成了一个匹配固定字符串的表达式。例如： “Jimmy” ，它也是一个正则表达式，它由多个匹配固定单个字符的表达式组成，它只可以匹配任何与它完全相同的文本： Text Jimmy

8、 is a junior developer and jimmy lives in xian. RegEx Jimmy Result Jimmy is a junior developer and jimmy lives in xian. 你可以将“Jimmy”这个表达式的匹配过程理解成这样：它由“j” 、 “i” 、 “m” 、 “m” 、 “y”这五固定的单个字符组成，对于每个单个字符来说，只能匹配与它完全相同的字符；而将这五个单个字符组合起来的时候，它就匹配字符排列顺序与表达式完全相同并且相应位置上的字符也与对应字符相同的字符串(实际上也就是与表达式完全相同的字符串)。由于这种

9、匹配方式的灵活度最小，只能匹配与它完全相同的字符，所以也叫“全字匹配”。 2.匹配任意单个字符 “.”可以匹配任意的单个字符、英文字母、数字，以及它本身。我们现在结合上面介绍的全字匹配来学习它： Text regular.doc regular1.exe regular2.dat expression.doc Page 2 of 42 express.dat RegEx regular. Result regular.doc regular1.exe regular2.dat expression.doc express.dat 可以看到，对于表达式“regular.”来说，前面“regu

10、lar”部分是一个全字匹配，只能固定的匹配“regular”字符串；后面的“.”部分，可以匹配任意单个字符(包含字符“.”本身)。 “.”可以连续使用，比如，我们可以写出“.e”这样一个正则表达式。它将匹配所有：前面有任意一个字符，紧跟着一个 e，随后又跟着任意两个字符的文本。 Text regular.doc regular1.exe regular2.dat expression.doc express.dat RegEx .e Result regular.doc regular1.exe regular2.dat expression.doc express.dat NOTE：很多情

11、况下， “.”不匹配换行。但在 RegexTester 这个工具中，它匹配换行，所以，这里有个值得注意的匹配，就是回车符+exp ，我在上面的代码中用绿色粗体标识出了(回车符难以标识)。 3.匹配“.”元字符有的时候，我们不想让“.”去匹配任何的字符，仅仅想让它匹配“.”这一单个字符，也就是仅匹配它本身，此时，可以使用“.”来对它进行转义。 Page 3 of 42 Text regular.exe regular1.exe RegEx r. Result regular.exe regular1.exe 表达式“r.”仅仅匹配了字符串“r.” ，没有匹配下面的 “r1” 。表达式“r.

12、”则会匹配“r1” 、 “r.” 、以及“re” 。 NOTE：如果要匹配“”，可以使用“”来对它进行转义。后面还会介绍更多需要转义的字符。 4.匹配字符组 4.1 字符组的基本语法 “.”过于灵活了，它可以匹配几乎所有的单个字符。有的时候，我们只希望匹配有限个字符中的某一个。这个时候，可以使用字符组。假设有这样一种情况，我们希望验证某个单词是不是拼写正确，比如说 “head” 是一个单词， “heat”也是一个单词，但“heay”就不是一个单词，所以， “hea”后面要么出现“d” ，要么“t” ，而如果我们使用“.”来进行匹配，那么不管是“heay”也好， “heas”也罢，都会被匹

13、配(被认为是正确的单词)。正则表达式提供字符组来解决这一问题，对于上例， “hea”后面仅可以匹配“d”或者“t”的情况，它的语法是 “dt” 。中括号是特殊标记，用以划定属于组内的字符的界限，它所代表的含义是：“匹配d 或者 t”。 Text bread heay teas head heat RegEx .eatd Page 4 of 42 Result bread heay teas head heat NOTE：字符组虽然由多个字符构成，但它仍只匹配单个字符，而字符组能够匹配的单个字符，即是它定义中的字符（ “”内的字符）。 “”本身不进行字符匹配，它仅仅划定字符组边

14、界。 4.2 在字符组中使用字符区间现在假设我们需要匹配一组文件名，它们的名称为 city0.jpg、city1.jpg.city9.jpg。根据前面介绍的内容，我们很容易写出这样的表达式： “city0123456789.jpg” 。没错！这样写法的确可以达到我们要的效果。如果说写 10 个阿拉伯数字你觉得并不困难，那么如果要匹配这样的文件名呢？a_1.jpg、b_1.jpg、c_1.jpg.z_1.jpg 。这次，你的表达式变成这样了：“abcdefghijklmnopqrstuvwxyz_1.jpg” ，哇！看着就难受。正则表达式提供了字符区间来简化这一写法，它的语法是： “起始字

15、符-结束字符” 。对于上面匹配阿拉伯数字的例子，它的写法是0-9。 NOTE：不一定非要将匹配写成“0-9” ，完全可以根据需要写成“0-3”，它将仅匹配“0,1,2,3”这个区间。起始字符和结束字符，依据的是它的 ASC值的大小，即是说，将会匹配其ASC码位于起始字符和结束字符的 ASC之间的所有字符(包含起始、结束字符)。另外，如果起始字符的 ASC值大于结束字符的 ASC值，例如，如果你写成“3-0”，则会出错，导致匹配失败。 Text city.jpg city0.jpg city1.jpg city2.jpg city3.jpg city4.jpg RegEx cit

16、y1-3.jpg Result city.jpg city0.jpg city1.jpg city2.jpg Page 5 of 42 city3.jpg city4.jpg NOTE：如果要在字符组(“”“”内)中匹配“-” ，需要使用转义符，写法是“-” ；而在“” “”以外， “-”变成了一个普通字符，无需再进行转义。同样的道理，我们可以写出“a-z”来匹配所有的小写字母， “A-Z”匹配所有的大写字母，这里就不再举例子了。现在假设需要在 HTML 中匹配所有的 RGB 颜色，我们知道，在 Web 中，颜色通常表示为诸如“#FF00CC”这样的值，那么结合上面讲述的内容，我们可以

17、像这样使用匹配： Text RegEx #0-9a-fA-F0-9a-fA-F0-9a-fA-F0-9a-fA-F0-9a-fA-F0-9a-fA-F Result NOTE：之前说了，我们默认 Ignore Case 是为 True 的，也就是说忽略大小写。因此，本例中的表达式也可以写作： “#0-9a-f0-9a-f0-9a-f0-9a-f0-9a-f0-9a-f” 4.3 反义字符组有的时候，我们需要匹配“除了某些字符以外”的其他字符，这时候，我们可以使用反义字符组，其语法是： “字符集合” 我们在以上面的例子为例，现在我们匹配“city1.jpg、city2.jpg、city3.j

18、pg”以外的文件名。 Text city.jpg city0.jpg city1.jpg city2.jpg city3.jpg city4.jpg citys.jpg cityss.jpg RegEx city1-3.jpg Page 6 of 42 Result city.jpg city0.jpg city1.jpg city2.jpg city3.jpg city4.jpg citys.jpg cityss.jpg 注意：这里并没有匹配“city.jpg”。因为，不管是普通字符组还是反义字符组，它总是确定一定以及肯定要匹配一个字符的。换言之，在本例的模式中，“city”和“

19、.”之间是无论如何需要有一个字符的，而“city.jpg”之间没有，所以它不符合此模式。 5.匹配特殊字符 5.1 匹配元字符我们先对元字符作一个定义：元字符是在正则表达式中具有特殊含义的字符。如果我们之前已经介绍过的， “.”就是一个元字符，它用来匹配任意单个字符。当我们要匹配字符“.”本身的时候，需要使用“”来对它进行转义： “.” 很容易就看出“”也是一个元字符，它叫做转义符。所以，当我们需要匹配字符“”的时候，就需要对它进行转义： “” 。回想一下之前讲述的字符组，我们知道“”和“”也是元字符，当我们需要匹配“”和“”字符的时候，需要分别写作： “”和“” 。举个例子，加入我们

20、需要匹配 “City0.Name” ，却写成了下面这样： Text City0.Name = “Xian“; City0_Name = “Shanghai“; City0.Name = “Hangzhou“; City0_Name = “Beijing“; RegEx City0.Name Result City0.Name = “Xian“; City0_Name = “Shanghai“; Page 7 of 42 City0.Name = “Hangzhou“; City0_Name = “Beijing“; 因为没有对“” 、 “”和“.”进行转义，所以“0”被当作字符组来解释，因为字

21、符组中只有一个字符“0” ，所以，它仅能匹配一个“0” ，所以“City0”相当于“City0” 。又因为没有对“.”进行转义，所以它可以匹配它本身以及 “_” 。正确的写法：City0.Name Text City0.Name = “Xian“; City0_Name = “Shanghai“; City0.Name = “Hangzhou“; City0_Name = “Beijing“; RegEx City0.Name Result City0.Name = “Xian“; City0_Name = “Shanghai“; City0.Name = “Hangzhou“; Cit

22、y0_Name = “Beijing“; 5.2 匹配空字符我想先介绍一下回车换行的由来。通常，当我们在键盘上敲击一下回车键时，不管光标此时在哪里，总是会新起一行，然后将光标位于新行的首位置。这在计算机上看起来一气呵成，用一个符号来表示就 OK 了，可在正则表达式中，以及很多语言中(比如 VBScript)，却被表示成了两个动作，一个叫“回车” (Carriage Return)，一个叫“换行” (Line Feed)，在语言，比如VBScript中，就表示成了：Chr(13) City1.Name = “Shanghai“; Citya.Name = “Beijing“; RegEx

23、 Cityd.Name Result City0.Name = “Xian“; City1.Name = “Shanghai“; Citya.Name = “Beijing“; NOTE：不管 Ignore Case 是否设置为 True，在这种情况下， “d”与“D”总是区分大小写的，下面将介绍的也是一样。 5.3.2 匹配字母、数字、下划线不管是在程序命名中，还是文件命名中，这一类字符集都是最常见的，那就是：所有大小写Page 9 of 42 字母、数字以及下划线，其正则表达式为“a-z A-Z0-9_”。正则表达式中可以使用“w ”来代表这一匹配；类似于上一节介绍的，使用“W”

24、来匹配所有不属于这一字符集的其他字符： “a-zA-Z0-9_” 。元字符匹配描述 w 所有单个大小写字母、数字、下划线，与 a-zA-Z0-9_ 相同 W 所有单个非大小写字母、非数字、非下划线，与 a-zA-Z0-9_ 相同 Text abcde 12345 a1b2c abcd 1234 RegEx wdwdw Result abcde 12345 a1b2c abcd 1234 5.3.3 匹配空字符最后一种就是匹配空字符了，其语法如下表所示：元字符匹配描述 s 所有单个空字符，与 fnrtv 相同 S 所有单个非空字符，与 fnrtv 相同匹配多个字符应该了解，上面所介

25、绍的不管简单也好，复杂也好，都只是匹配单个字符，如果需要匹配一个很长的字符串，而组成这个字符串的每个字符都比较复杂(没有诸如d 这样的简写方式)，那么，可以想象，一个表达式会多么复杂。回顾一下匹配 Web 中颜色的例子，我们的正则表达式写法是这样的： “#0-9a-f0-9a-f 0-9a-f0-9a-f0-9a-f0-9a-f” 。应该想到，如果有办法确定匹配的单个字符的个数就好了。本章中，将讨论使用正则表达式来进行多个字符的匹配。 Page 10 of 42 1.匹配一个或多个正则表达式中，可以在单个字符(比如“j”)、字符组(比如“abcde”)、特定字符类型(比如“d”)、单个

26、任意字符(即“.”) 后面加“+” ，来表示匹配一个或多个(换言之，至少一个)字符组成的字符串。拿上面的例子来说，对于 “j+” 有： Text jimmy、jjjimmy 、simmy、immy、enjoy、enjjoy RegEx j+ Result jimmy、jjjimmy、simmy、immy、enjoy、enjjoy 对于 “abcde+”有： Text abandon、abroad 、bbbbb、aaa、edcab、bbb、jskal RegEx abcde+ Result abandon、abroad、bbbbb、aaa、edcab 、bbb、jskal 对于其他两个就不再进

27、行说明了，可以自行做测试。我们现在考虑一个实际的例子，我的电子邮件的写法：jimmy_ ，如果没有本章的知识，匹配邮件地址是不可能的，因为，我们无法确定的知道邮件地址的长度。现在，如果我们要匹配这个邮件地址，结合之前的知识和本小节的新内容，很容易得出这样的表达式：“w+w+.w+” 。 Text jimmy_ jimmy_ RegEx w+w+.w+ Page 11 of 42 Result jimmy_ jimmy_ 我们发现，这样的匹配并不完整，对于多级域名的匹配不完整。我们回想一下之前的内容，很容易想到，我们需要将“.”也加入到字符组中，最后，我们将“w+”改写成“w.+”

28、。前面说过： “-”只在字符组“”区间内才是一个元字符，在“”以外是普通字符。在此处， “.”在“”区间以外才是元字符，用以匹配任意单个字符，而在“”区间以内，它就变成了一个普通字符。所以， “w.”可以简写成“w.”(写成“w.也不会出错”)。 Text jimmy_ jimmy_ RegEx w.+w.+.w+ Result jimmy_ jimmy_ 这次，可以看到能够正确地匹配多级域名了。 2.匹配零个或多个字符让我们再次回到刚才匹配城市图片的例子(字符组和反义字符组那一节)，我们知道，不管是使用“city0-3.jpg”还是“city0-3.jpg” ， “city”与

29、“.jpg”之间总是要出现一个字符的，而有的时候，我们允许它们之间可以不出现字符，比如说：现在我要求可以匹配 “city.jpg” ，那么，该如何完成呢？正则表达式中，可以在单个字符(比如“j”)、字符组(比如“abcde”)、特定字符类型(比如“d”)、单个任意字符(即“.”) 后面加“*” ，来表示匹配零个或多个字符组成的字符串。可以看出，其使用方法与“+”完全相同。对于上面的例子，我们可以写出下面的表达式： Page 12 of 42 Text I like city.jpg、city1.jpg 、city365.jpg most. I suppose cityss.jpg an

30、d city_1.jpg are the worst ones. RegEx cityd*.jpg Result I like city.jpg、city1.jpg 、city365.jpg most. I suppose cityss.jpg and city_1.jpg are the worst ones. 我们看到，表达式“cityd*.jpg”匹配这样的字符串：以“city”开头，后面紧跟零个多个“0-9”的数字字符，然后，以“.jpg”结果。我们再次回到上面的匹配 Email 的例子中。表达式是这样的： “w.+w.+.w+” ，看上去似乎没有问题，但是，我们发现对于 “.ji

31、mmy.devho ”这样的地址，它也能够匹配。而我们知道， “.”不应该出现在邮件的第一个字符位置上。结合本节的知识，我们知道，Email的起首一定是一个或多个字母或数字组合，而后面可以是零个或多个字母数字与“.”的组合。所以，我们修改匹配为如下： Text is not a valid email format, while is. RegEx w+w.*w.+.w+ Result is not a valid email format, while is. 尽管这次对正确的 Email 地址部分进行了匹配，但由于“.jimmy.devhot ”是作为一个整体出现，而它

32、并不是一个合法的地址，所以我们通常希望的操作是完全不去匹配它，即认为它并不是一个有效 Email，而不是去匹配它合法的部分。如何解决这个问题，留待后面字符边界说明。 3.匹配零个或一个字符串现在加入我们要对单词的正确性进行匹配，对于“flower”这个单词来说，不管是单数“flower”还是复数“flowers” ，都是正确的写法，而对于“flowersss”则是不正确的。使用本章前两章的知识，无法完成这样的匹配： Page 13 of 42 对于“flowers+”来说，它不能匹配“flower” ，因为它只能匹配“flower”后面有一个或多个“s”的单词，于是，“flowers”和“

33、f lowersss”都可以被匹配。对于“flowers*”来说，它虽然能够匹配“flower”和“flowers” ，但是一样可以匹配“flowersss” 。正则表达式中，使用“?”来匹配零个或一个字符。其使用方式与“+”和“*”相同。对于本例而言，其使用方法如下： Text These flowers are very beautiful, hope you like them. This flower is so beautiful, seems like smiling to you. RegEx flowers? Result These flowers are very b

34、eautiful, hope you like them. This flower is so beautiful, seems like smiling to you. 很明显，本章的所讲述的多字符匹配中，“+” 、 “*” 、 “?”都是元字符，如果要对它们进行匹配，需要使用“”进行转义： “+” 、 “*” 、 “?” 。 4.匹配指定数目字符尽管“?” 、 “+” 、 “*”这三个元字符的出现解决了很多问题，但是，它们并不完善：1.没有办法指定最多匹配多少个字符，比如说，我们要匹配手机号码，那么应该是 11 个数字，而“+”和“*”会匹配尽可能多的数字，不管是 17 个还是 18 个

35、都认为是正确的。2.没有办法指定最少匹配多少个字符， “+” 、 “*” 、 “?” ，所能提供的最少字符，要么零个，要么一个。 4.1 匹配固定数目的字符正则表达式中，可以在单个字符(比如“j”)、字符组(比如“abcde”)、特定字符类型(比如“d”)、单个任意字符(即“.”) 后面加“数字” ，来表示匹配零个或多个字符组成的字符串。例如：使用“d3”，可以匹配从 000 到 999，这 1000 个数。而使用“a6” ，则可以匹配“aaaaaa”(也只能匹配它，因为“a”是固定字符)。现在我们考虑一个更复杂的例子，假如我们要匹配手机号码，那么它的规则是：首位为“1” ，第二位为

36、“3或者 5” ，后面 9 位任意数字。那么它的匹配应该是这样的： Page 14 of 42 Text 13991381592 is a valid telephone number. 1369188351 is too short. The second number of 17991381592 is out of range. The character “d” in 13d91381592 is not allowed. The first character in 63991381592 should be 1 constantly. RegEx 135d9 Result 1399

37、1381592 is a valid telephone number. 1369188351 is too short. The second number of 17991381592 is out of range. The character “d” in 13d91381592 is not allowed. The first character in 63991381592 should be 1 constantly. 4.2 匹配区间以内数目的字符我们再次考虑 000-999 的匹配：“d3”，尽管它没有错，但它只能匹配精确地匹配 3位：000、001、002 100、10

38、1 999。而通常，我们需要对于 0、10、99 这样的数也能够匹配，这时，就需要指定可以匹配 1 到3 位的数字。正则表达式中，使用“最小数目，最大数目”的语法来实现，它的使用方式与上一节介绍的匹配固定数目字符的语法相同。 Text 0、10、111、001、789、1234 are all matched numbers. 0d、0h、1xx、99. are not matched. RegEx d1,3 Result 0、10、111、001、789、1234 are all matched numbers. 0d、0h、1xx、99. are not matched. NOTE：我

39、们发现了两个问题：1、我们不希望 “1234” 被匹配，然而，它被分成两部分“123”和“4”进行了匹配，如何不让它被匹配；2、为什么要被分成 123 和4，而不是 1 和234？我们留待后面讨论。注意两个特例： z 最小数目可以是 0，所以 “0,1”，相当于 “?”。 Page 15 of 42 z 如果不限制最大数目，可以将最大数目设为空，所以“d1,”相当于“+”；而“0,”相当于“*”。 “”和“”也是元字符，当我们需要对它们进行匹配的时候，使用“”进行转义：“”和“”。 5.贪婪匹配和惰性匹配 5.1 贪婪匹配、惰性匹配概述我们首先从字面意思上来理解一下贪婪匹配和惰性匹配： z

40、贪婪匹配(greedy) ：它会匹配尽可能多的字符。它首先看整个字符串，如果不匹配，对字符串进行收缩；遇到可能匹配的文本，停止收缩，对文本进行扩展，当发现匹配的文本时，它不着急将该匹配保存到匹配集合中，而是对文本继续扩展，直到无法继续匹配或者扩展完整个字符串，然后将前面最后一个符合匹配的文本(也是最长的)保存起来到匹配集合中。所以说它是贪婪的。 z 惰性匹配(lazy)：它会匹配尽可能少的字符，它从第一个字符开始找起，一旦符合条件，立刻保存到匹配集合中，然后继续进行查找。所以说它是懒惰的。光看上面的定义，我们很难有一个生动的认识，现在假设我们要匹配下面和之间的文本。为了做演示，尽

41、管不符合 HTML 的定义，我们再加入一段和之间的文本： Text Jimmy is a junior developer living in xian. RegEx .* Result Jimmy is a junior developer living in xian. 这样匹配显然不是我们的初衷，它仅找到了一个匹配，而通常情况下，我们希望得到的是junior 和 living 两个匹配。解决的办法，就是上面说到的惰性匹配，它的语法如下表所示：贪婪匹配惰性匹配匹配描述 ? ? 匹配0个或 1 个 + +? 匹配1个或多个 * *? 匹配0个或多个 n n? 匹配n个 n,m n,m

42、? 匹配n个或 m 个 n, n,? 匹配n个或多个 Page 16 of 42 对于本例，当我们使用惰性匹配时： Text Jimmy is a junior developer living in xian. RegEx .*? Result Jimmy is a junior developer living in xian. 现在，请对照着之前对它们的定义，并结合下面对匹配过程的分析，来理解贪婪匹配和惰性匹配的匹配过程： 5.2 贪婪匹配的匹配过程： Jimmy is a junior developer living in xian./不匹配，收缩 immy is a jun

43、ior developer living in xian. /不匹配，收缩 mmy is a junior developer living in xian. /不匹配，收缩 . /中间略 junior developer living in xian. / 找到可能匹配的，扩展 junior developer living in xian./ 找到可能匹配的，扩展 junior developer living in xian. / 找到可能匹配的，扩展 . / 中间略 junior developer living in xian. /找到一个匹配，但是并不保存到结果集中，而是继续进行扩

44、展 junior developer living in xian. . /中间略 junior developer living in xian. /又找到匹配，继续扩展 . /中间略 junior developer living in xian. /字符串结束，将前面找到的最后一个匹配 junior developer living 保存到匹配结果集中 5.3 惰性匹配的匹配过程 J / 不匹配，继续 Ji / 不匹配，继续 . / 中间略 Jimmy is a junior /找到匹配，保存到结果集中，继续进行剩下的文本。 d / 不匹配，继续 de / 不匹配，继续 Page 17

45、of 42 developer living /找到匹配，保存到结果集中，继续进行剩下的文本。 i /不匹配，继续 in /不匹配，继续 in xianxian / 不匹配，继续 in xian. / 字符串结束，匹配结束。一共找到了两个匹配junior 和 living 我们回顾一下上面 “d1,3” 匹配数字的例子，对于“1234”，当我们使用“d1,3”时，进行的是贪婪匹配，它首先找到“123”(因为“1234”不符合)，之后的“4”也符合，所以，找到的匹配是“123”和“4”。当我们使用“d1,3?”匹配上面的例子，对于“1234”，这次是惰性匹配。首先，发现“1”符合，将“1”保

46、存到匹配集合中；随后，依次发现“2”、“3”、“4”符合，并依次保存到结果集中，最后，我们得到了四个匹配“1”、“2”、“3”、“4”。 5.4 值得注意的两个匹配模式现在请回顾一下上面贪婪、惰性匹配语法的表，有两个匹配模式比较有意思：一个是“n”，对于这种形式的匹配，由于它精确地要求匹配 n 个字符，所以无所谓贪婪还是惰性，尽管“n?”也是正确的匹配写法，但它的匹配结果总是与“n”相同。还有一个就是“?”，它看上去比较古怪且不好理解，因为通常我们使用贪婪匹配的时候都是匹配多个，也就是“*”或者“+”之类的匹配，而这里是 0 个或1 个，它的贪婪与惰性匹配又是如何呢？我们还是看范例来说明

47、： Text These flowers are for you, my beloved. RegEx flowers? Result These flowers are for you, my beloved. 我们来分析一下，在这个匹配中，匹配是这样的：首先需要匹配“flower”字符串，然后，可以有 0 个或者 1 个“s”，按上面讲述的，贪婪匹配匹配尽可能多的，所以 flowers 被匹配了。 Page 18 of 42 再来看看“?”这种匹配。 Text These flowers are for you, my beloved. RegEx flowers? Result These

展开阅读全文