正则表达式|Regex
正则表达式/Regex 的使用备忘录
基本语法
.
: 匹配任意字符.at -> cat, bat, rat # 匹配任意字符后面跟着at
*
: 匹配前一个字符0次或多次ca*t -> ct, cat, caat, caaat # 匹配c后面跟着0个或多个a,最后是t
+
: 匹配前一个字符1次或多次ca+t -> cat, caat, caaat # 匹配c后面跟着1个或多个a,最后是t
?
: 匹配前一个字符0次或1次ca?t -> ct, cat # 匹配c后面跟着0个或1个a,最后是t
{...}
: 匹配前一个字符的次数{n}
: 匹配前一个字符n次{n,}
: 匹配前一个字符至少n次{n,m}
: 匹配前一个字符n到m次ca{2}t -> caat ca{2,}t -> caat, caaat ca{1,2}t -> cat, caat
[]
: 匹配括号内的任意一个字符[cr]at -> cat, rat # 匹配c或r [a-z]at -> cat, bat, rat # 匹配小写字母 [a-zA-Z]at -> cat, bat, rat, Cat, Bat, Rat # 匹配大小写字母 [0-9]at -> 0at, 1at, 2at, ..., 9at # 匹配0-9的数字 [^cr]at -> bat, rat # 匹配除了c和r之外的任意字符
|
: 或运算,匹配多个表达式中的一个cat|dog -> cat, dog # 匹配cat或dog
^
: 匹配行首^cat -> cat, catfish, catnip # 匹配行首为cat的字符串
$
: 匹配行尾cat$ -> cat, wildcat, bobcat # 匹配行尾为cat的字符串
修饰符
i
: 忽略大小写/cat/i -> cat, Cat, cAt, CAT # 匹配cat, Cat, cAt, CAT
g
: 全局匹配/cat/g -> cat, cat, cat # 匹配所有的cat
m
: 多行匹配/^cat/m -> cat, cat, cat # 匹配每行的行首为cat的字符串
s
: 特殊字符.
匹配包含换行符\n
/cat.s/ -> cat\ns, cat s # 匹配cat后面跟着任意字符和s
常用转义字符
转义字符 | 描述 |
---|---|
\b | 匹配一个单词边界,也就是指单词和空格间的位置。例如,’er\b’ 可以匹配”never” 中的 ‘er’,但不能匹配 “verb” 中的 ‘er’。 |
\B | 匹配非单词边界。’er\B’ 能匹配 “verb” 中的 ‘er’,但不能匹配 “never” 中的 ‘er’。 |
\cx | 匹配由 x 指明的控制字符。例如,\cM 匹配一个 Control-M 或回车符。x 的值必须为 A-Z 或 a-z 之一。否则,将 c 视为一个原义的 ‘c’ 字符。 |
\d | 匹配一个数字字符。等价于 [0-9]。 |
\D | 匹配一个非数字字符。等价于 [^0-9]。 |
\f | 匹配一个换页符。等价于 \x0c 和 \cL。 |
\n | 匹配一个换行符。等价于 \x0a 和 \cJ。 |
\r | 匹配一个回车符。等价于 \x0d 和 \cM。 |
\s | 匹配任何空白字符,包括空格、制表符、换页符等等。等价于 [ \f\n\r\t\v]。 |
\S | 匹配任何非空白字符。等价于 [^ \f\n\r\t\v]。 |
\t | 匹配一个制表符。等价于 \x09 和 \cI。 |
\v | 匹配一个垂直制表符。等价于 \x0b 和 \cK。 |
\w | 匹配字母、数字、下划线。等价于 ‘[A-Za-z0-9_]’。 |
\W | 匹配非字母、数字、下划线。等价于 ‘[^A-Za-z0-9_]‘。 |
\xn | 匹配 n,其中 n 为十六进制转义值。十六进制转义值必须为确定的两个数字长。例如,’\x41’ 匹配 “A”。’\x041’ 则等价于 ‘\x04’ & “1”。正则表达式中可以使用 ASCII 编码。 |
\num | 匹配 num,其中 num 是一个正整数。对所获取的匹配的引用。例如,’(.)\1’ 匹配两个连续的相同字符。 |
\n | 标识一个八进制转义值或一个向后引用。如果 \n 之前至少 n 个获取的子表达式,则 n 为向后引用。否则,如果 n 为八进制数字 (0-7),则 n 为一个八进制转义值。 |
\nm | 标识一个八进制转义值或一个向后引用。如果 \nm 之前至少有 nm 个获得子表达式,则 nm 为向后引用。如果 \nm 之前至少有 n 个获取,则 n 为一个后跟文字 m 的向后引用。如果前面的条件都不满足,若 n 和 m 均为八进制数字 (0-7),则 \nm 将匹配八进制转义值 nm。 |
\nml | 如果 n 为八进制数字 (0-3),且 m 和 l 均为八进制数字 (0-7),则匹配八进制转义值 nml。 |
\un | 匹配 n,其中 n 是一个用四个十六进制数字表示的 Unicode 字符。例如,\u00A9 匹配版权符号 (?)。 |
本文由作者按照 CC BY 4.0 进行授权