正则表达式|Regex

正则表达式/Regex 的使用备忘录

发表于 2024/11/03 更新于 2025/04/23

『Thames Scene, the Elevator』乔治·莱门 1890

作者 Diexie

6 分钟阅读

正则表达式|Regex

基本语法

.: 匹配任意字符

.at -> cat, bat, rat # 匹配任意字符后面跟着at

*: 匹配前一个字符0次或多次

ca*t -> ct, cat, caat, caaat # 匹配c后面跟着0个或多个a，最后是t

+: 匹配前一个字符1次或多次

ca+t -> cat, caat, caaat # 匹配c后面跟着1个或多个a，最后是t

?: 匹配前一个字符0次或1次

ca?t -> ct, cat # 匹配c后面跟着0个或1个a，最后是t

{...}: 匹配前一个字符的次数
- {n}: 匹配前一个字符n次
- {n,}: 匹配前一个字符至少n次
- {n,m}: 匹配前一个字符n到m次
```
ca{2}t -> caat
ca{2,}t -> caat, caaat
ca{1,2}t -> cat, caat
```

[]: 匹配括号内的任意一个字符

[cr]at -> cat, rat # 匹配c或r

[a-z]at -> cat, bat, rat # 匹配小写字母

[a-zA-Z]at -> cat, bat, rat, Cat, Bat, Rat # 匹配大小写字母

[0-9]at -> 0at, 1at, 2at, ..., 9at # 匹配0-9的数字

[^cr]at -> bat, rat # 匹配除了c和r之外的任意字符

|: 或运算，匹配多个表达式中的一个
```
cat|dog -> cat, dog # 匹配cat或dog
```

^: 匹配行首

^cat -> cat, catfish, catnip # 匹配行首为cat的字符串

$: 匹配行尾

cat$ -> cat, wildcat, bobcat # 匹配行尾为cat的字符串

修饰符

i: 忽略大小写

/cat/i -> cat, Cat, cAt, CAT # 匹配cat, Cat, cAt, CAT

g: 全局匹配

/cat/g -> cat, cat, cat # 匹配所有的cat

m: 多行匹配

/^cat/m -> cat, cat, cat # 匹配每行的行首为cat的字符串

s: 特殊字符.匹配包含换行符\n

/cat.s/ -> cat\ns, cat s # 匹配cat后面跟着任意字符和s

常用转义字符

转义字符	描述
`\b`	匹配一个单词边界，也就是指单词和空格间的位置。例如，’er\b’ 可以匹配”never” 中的 ‘er’，但不能匹配 “verb” 中的 ‘er’。
`\B`	匹配非单词边界。’er\B’ 能匹配 “verb” 中的 ‘er’，但不能匹配 “never” 中的 ‘er’。
`\cx`	匹配由 x 指明的控制字符。例如，\cM 匹配一个 Control-M 或回车符。x 的值必须为 A-Z 或 a-z 之一。否则，将 c 视为一个原义的 ‘c’ 字符。
`\d`	匹配一个数字字符。等价于 [0-9]。
`\D`	匹配一个非数字字符。等价于 [^0-9]。
`\f`	匹配一个换页符。等价于 \x0c 和 \cL。
`\n`	匹配一个换行符。等价于 \x0a 和 \cJ。
`\r`	匹配一个回车符。等价于 \x0d 和 \cM。
`\s`	匹配任何空白字符，包括空格、制表符、换页符等等。等价于 [ \f\n\r\t\v]。
`\S`	匹配任何非空白字符。等价于 [^ \f\n\r\t\v]。
`\t`	匹配一个制表符。等价于 \x09 和 \cI。
`\v`	匹配一个垂直制表符。等价于 \x0b 和 \cK。
`\w`	匹配字母、数字、下划线。等价于 ‘[A-Za-z0-9_]’。
`\W`	匹配非字母、数字、下划线。等价于 ‘[^A-Za-z0-9_]‘。
`\xn`	匹配 n，其中 n 为十六进制转义值。十六进制转义值必须为确定的两个数字长。例如，’\x41’ 匹配 “A”。’\x041’ 则等价于 ‘\x04’ & “1”。正则表达式中可以使用 ASCII 编码。
`\num`	匹配 num，其中 num 是一个正整数。对所获取的匹配的引用。例如，’(.)\1’ 匹配两个连续的相同字符。
`\n`	标识一个八进制转义值或一个向后引用。如果 \n 之前至少 n 个获取的子表达式，则 n 为向后引用。否则，如果 n 为八进制数字 (0-7)，则 n 为一个八进制转义值。
`\nm`	标识一个八进制转义值或一个向后引用。如果 \nm 之前至少有 nm 个获得子表达式，则 nm 为向后引用。如果 \nm 之前至少有 n 个获取，则 n 为一个后跟文字 m 的向后引用。如果前面的条件都不满足，若 n 和 m 均为八进制数字 (0-7)，则 \nm 将匹配八进制转义值 nm。
`\nml`	如果 n 为八进制数字 (0-3)，且 m 和 l 均为八进制数字 (0-7)，则匹配八进制转义值 nml。
`\un`	匹配 n，其中 n 是一个用四个十六进制数字表示的 Unicode 字符。例如，\u00A9 匹配版权符号 (?)。

贪婪与非贪婪

贪婪模式: 默认模式，尽可能多的匹配
```
/a.*b/ -> aabab # 匹配aabab
```
非贪婪模式: 尽可能少的匹配 *? +? ?? {n,m}? 即在量词后面加上?
```
/a.*?b/ -> aab # 匹配aab
```

工具

Regex 正则

本文由作者按照 CC BY 4.0 进行授权

基本语法

修饰符

常用转义字符

贪婪与非贪婪

热门标签