文章

正则表达式|Regex

正则表达式/Regex 的使用备忘录

基本语法

  • .: 匹配任意字符
    .at -> cat, bat, rat # 匹配任意字符后面跟着at
    
  • *: 匹配前一个字符0次或多次
    ca*t -> ct, cat, caat, caaat # 匹配c后面跟着0个或多个a,最后是t
    
  • +: 匹配前一个字符1次或多次
    ca+t -> cat, caat, caaat # 匹配c后面跟着1个或多个a,最后是t
    
  • ?: 匹配前一个字符0次或1次
    ca?t -> ct, cat # 匹配c后面跟着0个或1个a,最后是t
    
  • {...}: 匹配前一个字符的次数
    • {n}: 匹配前一个字符n次
    • {n,}: 匹配前一个字符至少n次
    • {n,m}: 匹配前一个字符n到m次
      ca{2}t -> caat
      ca{2,}t -> caat, caaat
      ca{1,2}t -> cat, caat
      
  • []: 匹配括号内的任意一个字符
    [cr]at -> cat, rat # 匹配c或r
    
    [a-z]at -> cat, bat, rat # 匹配小写字母
    
    [a-zA-Z]at -> cat, bat, rat, Cat, Bat, Rat # 匹配大小写字母
    
    [0-9]at -> 0at, 1at, 2at, ..., 9at # 匹配0-9的数字
    
    [^cr]at -> bat, rat # 匹配除了c和r之外的任意字符
    
  • |: 或运算,匹配多个表达式中的一个
    cat|dog -> cat, dog # 匹配cat或dog
    
  • ^: 匹配行首
    ^cat -> cat, catfish, catnip # 匹配行首为cat的字符串
    
  • $: 匹配行尾
    cat$ -> cat, wildcat, bobcat # 匹配行尾为cat的字符串
    

修饰符

  • i: 忽略大小写
    /cat/i -> cat, Cat, cAt, CAT # 匹配cat, Cat, cAt, CAT
    
  • g: 全局匹配
    /cat/g -> cat, cat, cat # 匹配所有的cat
    
  • m: 多行匹配
    /^cat/m -> cat, cat, cat # 匹配每行的行首为cat的字符串
    
  • s: 特殊字符.匹配包含换行符\n
    /cat.s/ -> cat\ns, cat s # 匹配cat后面跟着任意字符和s
    

常用转义字符

转义字符描述
\b匹配一个单词边界,也就是指单词和空格间的位置。例如,’er\b’ 可以匹配”never” 中的 ‘er’,但不能匹配 “verb” 中的 ‘er’。
\B匹配非单词边界。’er\B’ 能匹配 “verb” 中的 ‘er’,但不能匹配 “never” 中的 ‘er’。
\cx匹配由 x 指明的控制字符。例如,\cM 匹配一个 Control-M 或回车符。x 的值必须为 A-Z 或 a-z 之一。否则,将 c 视为一个原义的 ‘c’ 字符。
\d匹配一个数字字符。等价于 [0-9]。
\D匹配一个非数字字符。等价于 [^0-9]。
\f匹配一个换页符。等价于 \x0c 和 \cL。
\n匹配一个换行符。等价于 \x0a 和 \cJ。
\r匹配一个回车符。等价于 \x0d 和 \cM。
\s匹配任何空白字符,包括空格、制表符、换页符等等。等价于 [ \f\n\r\t\v]。
\S匹配任何非空白字符。等价于 [^ \f\n\r\t\v]。
\t匹配一个制表符。等价于 \x09 和 \cI。
\v匹配一个垂直制表符。等价于 \x0b 和 \cK。
\w匹配字母、数字、下划线。等价于 ‘[A-Za-z0-9_]’。
\W匹配非字母、数字、下划线。等价于 ‘[^A-Za-z0-9_]‘。
\xn匹配 n,其中 n 为十六进制转义值。十六进制转义值必须为确定的两个数字长。例如,’\x41’ 匹配 “A”。’\x041’ 则等价于 ‘\x04’ & “1”。正则表达式中可以使用 ASCII 编码。
\num匹配 num,其中 num 是一个正整数。对所获取的匹配的引用。例如,’(.)\1’ 匹配两个连续的相同字符。
\n标识一个八进制转义值或一个向后引用。如果 \n 之前至少 n 个获取的子表达式,则 n 为向后引用。否则,如果 n 为八进制数字 (0-7),则 n 为一个八进制转义值。
\nm标识一个八进制转义值或一个向后引用。如果 \nm 之前至少有 nm 个获得子表达式,则 nm 为向后引用。如果 \nm 之前至少有 n 个获取,则 n 为一个后跟文字 m 的向后引用。如果前面的条件都不满足,若 n 和 m 均为八进制数字 (0-7),则 \nm 将匹配八进制转义值 nm。
\nml如果 n 为八进制数字 (0-3),且 m 和 l 均为八进制数字 (0-7),则匹配八进制转义值 nml。
\un匹配 n,其中 n 是一个用四个十六进制数字表示的 Unicode 字符。例如,\u00A9 匹配版权符号 (?)。
本文由作者按照 CC BY 4.0 进行授权