1、正则表达式 含义:编写字符串处理的程序或网页时,会有查找符合某复杂规则的字符串的需要。正则表达式就是用于描述这些规则的工具。它是记录文本规则的代码。元字符用来代替字符的符号表 1.常用的元字符代码 说明. 匹配除换行符以外的任意字符w 匹配字母或数字或下划线或汉字s 匹配任意的空白符d 匹配数字注:s 匹配任意的空白符,包括空格,制表符(Tab),换行符,中文全角空格等正则表达式中的空格会当成空格匹配。 (输入几个空格就匹配几个)非打印字符非打印字符也可以是正则表达式的组成部分。下表列出了表示非打印字符的转义序列:字符 描述cx 匹配由 x 指明的控制字符。例如, cM 匹配一个 Contro
2、l-M 或回车符。x 的值必须为 A-Z 或 a-z 之一。否则,将 c 视为一个原义的 c 字符。f 匹配一个换页符。等价于 x0c 和 cL。n 匹配一个换行符。等价于 x0a 和 cJ。r 匹配一个回车符。等价于 x0d 和 cM。s 匹配任何空白字符,包括空格、制表符、换页符等等。等价于 fnrtv。S 匹配任何非空白字符。等价于 fnrtv。t 匹配一个制表符。等价于 x09 和 cI。v 匹配一个垂直制表符。等价于 x0b 和 cK。限定符 重复:表现重复时用的是大括号和* + ?,表示范围时用的是中括号,中括号里面是只选其中一个的组合。 表达分组时用圆括号() ,一个圆括号表示一
3、个意思。表 2.常用的限定符代码/语法 说明* 重复零次或更多次+ 重复一次或更多次? 重复零次或一次n 重复 n 次n, 重复 n 次或更多次n,m 重复 n 到 m 次 字符类,用来表示取字符的范围区间,用中括号括起来0-9代表da-z0-9A-Z表示w 分支条件,用|表示或者的关系。 贪婪与懒惰、最先开始匹配拥有最高优先权*、+和?限定符都是贪婪的,因为它们会尽可能多的匹配文字,只有在它们的后面加上一个?就可以实现非贪婪或最小匹配。.*表示尽可能匹配多的字符.*?表示尽可能少的字符例如:字符串 aabab,用贪婪匹配 a.*b 得到 aabab,用懒惰匹配 a.*?b 得到 aab 和
4、ab定位符定位符使您能够将正则表达式固定到行首或行尾。它们还使您能够创建这样的正则表达式,这些正则表达式出现在一个单词内、在一个单词的开头或者一个单词的结尾。定位符用来描述字符串或单词的边界,和$ 分别指字符串的开始与结束,b 描述单词的前或后边界,B表示非单词边界。正则表达式的限定符有:字符 描述 匹配输入字符串开始的位置。如果设置了 RegExp 对象的 Multiline 属性, 还会与 n 或 r 之后的位置匹配。$ 匹配输入字符串结尾的位置。如果设置了 RegExp 对象的 Multiline 属性,$ 还会与 n 或 r 之前的位置匹配。b 匹配一个字边界,即字与空格间的位置。B
5、非字边界匹配。子表达式分组获取() 分组,用()把子表达式括起来,给一个组号,后面可以再用 后向引用,用()定义的分组,可以给它定一个组名,在后面加以利用。用(?w+)或者(?Wordw+)定义w+组名为 Word,利用方式为k表 4.常用分组语法分类 代码/语法 说明(exp) 匹配 exp,并捕获文本到自动命名的组里捕获(?exp)匹配 exp,并捕获文本到名称为 name 的组里,也可以写成(?nameexp)非捕获 (?:exp)匹配 exp,不捕获匹配的文本,也不给此分组分配组号(?=exp) 匹配 exp 前面的位置(?*(?Open*)+(?-Open)可以从 xx aa yy 中找到 aa*)*)+)*(?(Open)(?!)可以找到配对的和,不管有没有不配对的 html 出现。好的例子将所有地址中的 ROAD 写成 RD.若地址中的字符不是大写的,先可以都改成大写的。匹配以罗马数字标示的四位数年份注:在罗马数字上加一个横线,就会乘以 1000 倍。所以 4000 就用(其中 L要带上横线)紧凑正则表达式:M0,3(CM|CD|D?C0,3)(XC|XL|L?X0,3)(IX|IV|V?I0,3)$最后对应的松散正则表达式是匹配电话号码紧凑正则表达式:(d3)D*(d3)D*(d4)D*(d*)$松散正则表达式: