正则表达式

博主： syndi
发布时间：2019 年 11 月 06 日
12455 次浏览
6 条评论
7980字数
分类：

全文转自这个github上的万星教程。

什么是正则表达式？

正则表达式是一组由字母和符号组成的特殊文本, 它可以用来从文本中找出满足你想要的格式的句子。

"Regular expression"这个词比较拗口, 我们常使用缩写的术语"regex"或"regexp"。

1. 基本匹配

正则表达式其实就是在执行搜索时的搜索条件，它由一些字母和数字组合而成。

例如，一个正则表达式the，它表达这样一种搜索条件：由字母t开始，接着是h，然后是e。

"the" => The fat cat sat on the mat.

所以上面的字符串中的 "the" 被搜索了出来。

在线练习

正则表达式是大小写敏感的。

"The" => The fat cat sat on the mat.

2. 元字符

正则表达式中最重要的就是元字符。元字符不代表它们的字面意思，它们都有特殊的含义。而某些元字符在括号中的时候也有特殊的含义，下面是元字符列表：

元字符	描述
`.`	句号匹配任意单个字符除了换行符.
`[ ]`	匹配方括号内的任意字符.
`[^ ]`	匹配除了方括号里的任意字符.
`*`	匹配在星号之前的那个字符的大于等于0次的重复.
`+`	匹配在加号之前的那个字符的大于等于1次的重复.
`{n,m}`	匹配在大括号之前的那个字符的num次重复（n <= num <= m）.
`?`	标记问号之前的那个字符为可选.
`(xyz)`	匹配与xyz完全相等的字符串.
`\|`	或运算符，匹配符号前或后的字符
`\`	转义字符，用于匹配一些保留的字符 `[ ] ( ) { } . * + ? ^ $ \ \|`
`^`	匹配是否在行开头
`$`	匹配是否在行结尾

2.1. 点运算符 `.`

.是元字符中最简单的例子. .匹配任意单个字符, 但不匹配换行符。例如, 表达式.ar匹配一个任意字符后面跟着是a和r的字符串。

".ar" => The car parked in the garage.

在线练习

延伸问题：如何匹配到重叠的字符串？

看下面这个例子：

".ar" => barar

可以看到，我的本意是匹配一个任意字符后面跟上ar，所以我希望匹配到"bar""rar"，但结果并不符合我的预期，只匹配到了"bar"。

这是因为，正则表达式在进行匹配的时候，如果找到了一个匹配的字符串，会在将这个匹配到的字符串提取出来的同时“消耗”掉这个字符串。在上面的例子中，匹配到第一个"bar"后，会将这个"bar"消耗掉，也即从"a"开始继续寻找。所以最终只找出了"bar"。

可以看到，根据正则表达式的这种规则，我们是无法查找到相互重叠的目标字符串的。而为了应对这种情况，我们有两个办法可以走：零宽度断言以及编程语言对正则表达式的额外实现。（可以参考stackoverflow下这个问题：https://stackoverflow.com/questions/11430863/how-to-find-overlapping-matches-with-a-regexp）

零宽度断言将在后面介绍。

而某些编程语言如果实现了功能更加丰富的正则表达式，便可能应对这个问题。例如在Python中，可以使用regex模块来寻找重叠的字符串：

>>> import regex as re
>>> match = re.findall(r'.ar', 'barar', overlapped=True)
>>> print(match)
['bar', 'rar']

2.2. 字符集

方括号用来指定一个字符集。在方括号中使用连字符来指定字符集的范围。一个字符集表示匹配任意一个在字符集范围内的字符。在方括号中的字符集不关心顺序. 例如, 表达式[Tt]he 匹配 the 和 The。

"[Tt]he" => The car parked in the garage.

在线练习

方括号的句号就表示句号。表达式 ar[.] 匹配 ar.字符串。

"ar[.]" => A garage is a good place to park a car.

在线练习

2.2.1. 否定字符集

一般来说 ^ 表示一个字符串的开头, 但它用在一个方括号的开头的时候, 它表示这个字符集是否定的. 例如, 表达式[^c]ar 匹配一个不以c开头的后面跟着ar的字符串。

"[^c]ar" => The car parked in the garage.

在线练习

2.3. 重复次数

后面跟着元字符 +, * or ? 的, 用来指定匹配子模式的次数. 这些元字符在不同的情况下有着不同的意思。

2.3.1. `*`号

*号匹配在*号之前的那个字符的大于等于0次的重复。例如，a*b匹配b、ab、aab等等。而假如*之前的是一个字符集，则匹配这个字符集整体的大于等于0次重复。例如，[a-z]*12匹配12、a12、abasdkn12等等。

*字符和.字符搭配可以匹配所有的字符串。

2.3.2. `+`号

+号匹配在+号之前的那个字符的大于等于1次的重复。例如表达式c.+t匹配以首字母c开头以t结尾,中间跟着至少一个字符的字符串。

"c.+t" => The fat cat.

2.3.3 `?`号

正则表达式中?标记前面的字符为“可选”，即出现0或1次。例如，表达式T?he匹配he和The。

"[T]he" => The car is parked in the garage.
"[T]?he" => The car is parked in the garage.

在线练习

2.3.4 `{}`号

{min, max} 匹配在大括号之前的那个字符大于等于min次且小于等于max次的重复。例如，表达式[0-9]{2, 3}匹配最少两位最多三位的0~9的数字。

"[0-9]{2,3}" => The number was 9.9997 but we rounded it off to 10.0.

在线练习

我们可以省略第二个参数。例如，[0-9]{2,} 匹配至少两位 0~9 的数字。

"[0-9]{2,}" => The number was 9.9997 but we rounded it off to 10.0.

在线练习

如果逗号也省略掉则表示重复固定的次数。例如，[0-9]{3} 匹配3位数字。

"[0-9]{3}" => The number was 9.9997 but we rounded it off to 10.0.

在线练习

2.4. Greedy & Lazy

2.4.1 Greedy

假设现在我们要在一个HTML文件中匹配所有的HTML标签。因为这是一个合法的HTML文件，所以先假定出现在尖括号中间的一定是一个有效的HTML标签。

可能初学者会考虑用<.+>来解决这个问题。但请看下面的结果：

"<.+>" => This is a <EM>first</EM> test

你可能想匹配的是而它一口气匹配到了之后，这并不符合我们的预期。问题的根源在于，+号是贪婪（Greedy）的，+号告诉正则表达式引擎匹配之前的字符尽可能多次的重复。接下来让我们从正则表达式引擎的视角来还原匹配的过程。

首先，正则表达式匹配<，很明显这就是匹配字符串的第一个字符。然后正则表达式匹配.+，.代表除了换行符的任意字符，而+号匹配大于等于1次重复，并且+号是贪婪的。因此，正则表达式引擎将匹配.的尽可能多的重复，于是正则表达式引擎先匹配了字符串的E，然后是M，然后很重要的一步是，>同样被匹配到了，接着往下走，匹配f，可以想到，这个匹配将一直继续到字符串的末尾。当正则表达式到达字符串末尾，.+匹配失败，于是结束这一阶段的匹配。

此时，<.+匹配到了first test，并且匹配到达了字符串末尾。所以>无法被匹配，而正则表达式引擎记得之前的.+的匹配次数大于+号的最小匹配次数（一次），于是，它进行了关键的回溯。正则表达式将减小一次.+的匹配次数，然后继续尝试匹配之前剩余未匹配的部分。

所以.+缩减成为first tes。但下一个正则表达式>仍然无法匹配到最后一个字符t，于是继续进行回溯。可以想到，当回溯进行到first</EM的时候，正则表达式>终于能够匹配到了，此时匹配结束，得到了我们看到的结果，即first。

2.4.2 Lazy

最快解决这个问题的办法就是，让+号变成懒惰的（Lazy），懒惰同样经常被称为非贪婪的（ungreedy）。为了将+变成懒惰的，直接在后面加一个?号即可。所以现在我们的正则表达式变成了<.+?>，让我们再从正则表达式引擎的视角来一遍。

同样，<最先被匹配到，接下来是.+?，.匹配任意字符，而+号匹配大于等于1次重复，并且此时+号是懒惰的。因此，正则表达式引擎将匹配.的尽可能少的重复，最少为1次。所以第一次正则表达式.+?只匹配了E，接着向后匹配>，与M匹配失败。于是正则表达式引擎进行回溯，增加.+?的匹配次数，现在.+?匹配到了EM，然后向后匹配>，匹配成功，得到结果，，问题解决。

请注意，上面关于+号的贪婪与懒惰的讨论同样适用于其他的重复次数符号，包括*,+,?,{}。

2.4.3 巧用否定字符集

其实为了解决上面提出的问题，还有另一种更聪明的方法，即否定字符集。

<[^>]+>，像这样应用否定字符集就可以完美的解决这个麻烦。而之所以说这种方法更聪明是因为上面方法中回溯的存在，回溯会拖慢正则表达式的匹配速度。

2.5. `(...)` 特征标群

*、+、?、{}都是针对之前出现的一个字符的重复次数来进行匹配，而如果之前的模式为(...)的话，则是匹配()中的子模式的重复次数。例如，(ab)*匹配连续出现0个或更多个ab。

我们还可以在()中用或字符|表示或。例如，(c|g|p)ar匹配car或gar或par。

"(c|g|p)ar" => The car is parked in the garage.

在线练习

2.6. `|`或运算符

或运算符就表示或，用作判断条件。

例如 (T|t)he|car 匹配 (T|t)he 或 car。

"(T|t)he|car" => The car is parked in the garage.

在线练习

2.7. 转义字符

反斜线 \ 在表达式中用于转码紧跟其后的字符。用于指定 { } [ ] / \ + * . $ ^ | ? 这些特殊字符。如果想要匹配这些特殊字符则要在其前面加上反斜线 \。

例如 . 是用来匹配除换行符外的所有字符的。如果想要匹配句子中的 . 则要写成 \. 以下这个例子 \.?是选择性匹配.。

"(f|c|m)at.?" => The fat cat sat on the mat.

在线练习

2.8. 锚点

正则表达式中，想要匹配指定的模式出现在字符串的开头或者结尾就要用到锚点。^表示开头，$表示结尾。

2.8.1 `^`号

^用来检查指定的模式是否在所匹配的字符串的开头。

例如，在abc中用正则表达式^a会得到结果a，但如果正则表达式是^b将匹配不到任何结果。因为b并不在字符串abc的开头。

例如，^(T|t)he 匹配在字符串开头的 The 或 the 。

"^(T|t)he" => The car is parked in the garage.

在线练习

2.8.2. `$`号

同理，$号用于检查指定的模式是否在所匹配的字符串的结尾。

例如，(at\.)$ 匹配在字符串结尾的 at. 。

"(at.)$" => The fat cat. sat. on the mat.

在线练习

3. 简写字符集

正则表达式提供一些常用的字符集简写。如下:

简写	描述
`.`	除换行符外的所有字符
`\w`	匹配所有字母数字下划线，等同于 `[a-zA-Z0-9_]`
`\W`	匹配所有非字母数字下划线，即符号，等同于： `[^\w]`
`\d`	匹配数字： `[0-9]`
`\D`	匹配非数字： `[^\d]`
`\s`	匹配所有空格字符，等同于： `[\t\n\f\r\p{Z}]`
`\S`	匹配所有非空格字符： `[^\s]`
`\f`	匹配一个换页符
`\n`	匹配一个换行符
`\r`	匹配一个回车符
`\t`	匹配一个制表符
`\v`	匹配一个垂直制表符
`\p`	匹配 CR/LF（等同于 `\r\n`），用来匹配 DOS 行终止符

4. 零宽度断言（前后预查）

先行断言和后发断言都属于非捕获簇（不捕获文本，也不针对组合计进行计数）。先行断言用于判断所匹配的格式是否在另一个确定的格式之前，匹配结果不包含该确定格式（仅作为约束）。

例如，我们想要获得所有跟在 $ 符号后的数字，我们可以使用正后发断言 (?<=\$)[0-9\.]*。这个表达式匹配 $ 开头，之后跟着 0,1,2,3,4,5,6,7,8,9,. 这些字符可以出现大于等于 0 次。

零宽度断言如下：

符号	描述
`?=`	正先行断言-存在
`?!`	负先行断言-排除
`?<=`	正后发断言-存在
`?<!`	负后发断言-排除

4.1. `?=...`正先行断言

?=... 正先行断言，表示在正先行断言之前的表达式的后面必须要跟有正先行断言?=...中...定义的内容。

匹配结果只包含正先行断言之前的表达式。

定义正先行断言要使用()。在括号内部使用一个问号和等号：(?=...)。

例如，表达式 (T|t)he(?=\sfat) 匹配 The 和 the，在括号中我们又定义了正先行断言 (?=\sfat) ，即 The 和 the 后面紧跟着 空格fat。

"(T|t)he(?=\sfat)" => The fat cat sat on the mat.

在线练习

4.2. `?!...`负先行断言

?!...负先行断言，表示在负先行断言之前的表达式的后面必须不能跟有负先行断言?!...中...定义的内容。

表达式 (T|t)he(?!\sfat) 匹配后面不跟着 空格fat的The 和 the。

"(T|t)he(?!\sfat)" => The fat cat sat on the mat.

在线练习

4.3. `?<=...`正后发断言

?<=...正后发断言，表示在正后发断言之后的表达式的前面必须有正后发断言?<=...中...定义的内容。

例如，表达式 (?<=(T|t)he\s)(fat|mat) 匹配前面有The 或 the的fat 和 mat 。

"(?<=(T|t)he\s)(fat|mat)" => The fat cat sat on the mat.

在线练习

4.4. `?<!...`负后发断言

?<!...负后发断言，表示在负后发断言之后的表达式的前面必须没有负后发断言?<!...中...定义的内容。

例如，表达式 (?<!(T|t)he\s)(cat) 匹配前面没有The 或 the的cat。

"(?<!(T|t)he\s)(cat)" => The cat sat on cat.

在线练习

4.5. 匹配重叠字符串

还记得之前的匹配重叠字符串的问题吗，当时说可以用零宽度断言解决，现在来揭晓答案。

这其实是零宽度断言的一种特殊用法，即不写零宽度断言的待查找表达式，例如之前的例子中，想要在字符串barar中找到重叠的.ar，可以用这种正则表达式：(?=.ar)，即正先行断言之前的表达式不写，这时候相当于仅查找.ar而不需要管其他的约束条件，又因为零宽度断言不消耗找到的字符串，所以可以找到重叠的bar和rar。

5. 标志

标志也叫模式修正符，因为它可以用来修改表达式的搜索结果。这些标志可以任意的组合使用，它也是整个正则表达式的一部分。

标志	描述
i	忽略大小写。
g	全局搜索。
m	多行修饰符：锚点元字符 `^` `$` 工作范围在每行的起始。

5.1. 忽略大小写（Case Insensitive）

修饰语 i 用于忽略大小写。例如，表达式 /The/gi 表示在全局搜索 The，在后面的 i 将其条件修改为忽略大小写，则变成搜索 the 和 The，g 表示全局搜索。

"The" => The fat cat sat on the mat.

在线练习

"/The/gi" => The fat cat sat on the mat.

在线练习

5.2. 全局搜索（Global search）

修饰符 g 常用于执行一个全局搜索匹配，即（不仅仅返回第一个匹配的，而是返回全部）。例如，表达式 /.(at)/g 表示搜索任意字符（除了换行）+ at，并返回全部结果。

"/.(at)/g" => The fat cat sat on the mat.

在线练习

最后修改：2019 年 11 月 06 日

如果觉得我的文章对你有用，请随意赞赏

6 条评论

jhkxxkmmft
March 4th, 2025 at 04:22 pm

这篇文章提供了宝贵的经验和见解，对读者有很大的启发和帮助。

回复
blbagony
October 12th, 2019 at 06:54 pm

服务器错误：Submission failed, your input does not match the rules!

回复
blbagony
October 12th, 2019 at 06:53 pm

评论有 bug

回复
blbagony
October 12th, 2019 at 06:49 pm

测试

回复
blbagony
October 12th, 2019 at 06:48 pm

test

回复
blbagony
October 12th, 2019 at 06:47 pm

不错

回复

发表评论取消回复
使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款

评论 *

私密评论

名称 *

🎲

邮箱 *

地址

jhkxxkmmft
这篇文章提供了宝贵的经验和见解，对读者有很大的启发和帮助。
cbfiwmqvug
作者对主题的挖掘深入骨髓，展现了非凡的洞察力和理解力。
nomwyciwfi
内容的丰富性和深度让人仿佛置身于知识的海洋，受益匪浅。
trhctpjrbm
部分语句稍显冗长，可精简以增强节奏感。
biiwzvyxto
文笔细腻，描写生动，画面感跃然纸上。

正则表达式

syndi • 2019 年 11 月 06 日

全文转自这个<a class="no-external-link" href="https://github.com/ziishaned/learn-regex/blob/master/translations/README-cn.md" target="_blank">github上的万星教程</a>。<h2>什么是正则表达式？</h2><blockquote>正则表达式是一组由字母和符号组成的特殊文本, 它可以用来从文本中找出满足你想要的格式的句子。</blockquote>"Regular expression"这个词比较拗口, 我们常使用缩写的术语"regex"或"regexp"。<h2>1. 基本匹配</h2>正则表达式其实就是在执行搜索时的搜索条件，它由一些字母和数字组合而成。例如，一个正则表达式<code>the</code>，它表达这样一种搜索条件：由字母<code>t</code>开始，接着是<code>h</code>，然后是<code>e</code>。<blockquote>"the" =&gt; The fat cat sat on <a class="no-external-link" href="http://" target="_blank">the</a> mat.</blockquote>所以上面的字符串中的 "the" 被搜索了出来。<a class="no-external-link" href="https://regex101.com/r/dmRygT/1" target="_blank">在线练习</a>正则表达式是大小写敏感的。<blockquote>"The" =&gt; <a class="no-external-link" href="http://" target="_blank">The</a> fat cat sat on the mat.</blockquote><h2>2. 元字符</h2>正则表达式中最重要的就是元字符。元字符不代表它们的字面意思，它们都有特殊的含义。而某些元字符在括号中的时候也有特殊的含义，下面是元字符列表：<table><thead><tr><th align="left">元字符</th><th align="left">描述</th></tr></thead><tbody><tr><td align="left"><code>.</code></td><td align="left">句号匹配任意单个字符除了换行符.</td></tr><tr><td align="left"><code>[ ]</code></td><td align="left">匹配方括号内的任意字符.</td></tr><tr><td align="left"><code>[^ ]</code></td><td align="left">匹配除了方括号里的任意字符.</td></tr><tr><td align="left"><code>*</code></td><td align="left">匹配在星号之前的那个字符的大于等于0次的重复.</td></tr><tr><td align="left"><code>+</code></td><td align="left">匹配在加号之前的那个字符的大于等于1次的重复.</td></tr><tr><td align="left"><code>{n,m}</code></td><td align="left">匹配在大括号之前的那个字符的num次重复（n &lt;= num &lt;= m）.</td></tr><tr><td align="left"><code>?</code></td><td align="left">标记问号之前的那个字符为可选.</td></tr><tr><td align="left"><code>(xyz)</code></td><td align="left">匹配与xyz完全相等的字符串.</td></tr><tr><td align="left"><code>&#124;</code></td><td align="left">或运算符，匹配符号前或后的字符</td></tr><tr><td align="left"><code>\</code></td><td align="left">转义字符，用于匹配一些保留的字符 <code>[ ] ( ) { } . * + ? ^ $ \ &#124;</code></td></tr><tr><td align="left"><code>^</code></td><td align="left">匹配是否在行开头</td></tr><tr><td align="left"><code>$</code></td><td align="left">匹配是否在行结尾</td></tr></tbody></table><h3>2.1. 点运算符 <code>.</code></h3><code>.</code>是元字符中最简单的例子. <code>.</code>匹配任意单个字符, 但不匹配换行符。 例如, 表达式<code>.ar</code>匹配一个任意字符后面跟着是<code>a</code>和<code>r</code>的字符串。<blockquote>".ar" =&gt; The <a class="no-external-link" href="http://" target="_blank">car</a> <a class="no-external-link" href="http://" target="_blank">par</a>ked in the <a class="no-external-link" href="http://" target="_blank">gar</a>age.</blockquote><a class="no-external-link" href="https://regex101.com/r/xc9GkU/1" target="_blank">在线练习</a><div class="tip inlineBlock warning">

延伸问题：如何匹配到重叠的字符串？
</div>看下面这个例子：<blockquote>".ar" =&gt; <a class="no-external-link" href="http://" target="_blank">bar</a>ar</blockquote>可以看到，我的本意是匹配一个任意字符后面跟上ar，所以我希望匹配到"bar""rar"，但结果并不符合我的预期，只匹配到了"bar"。这是因为，正则表达式在进行匹配的时候，如果找到了一个匹配的字符串，会在将这个匹配到的字符串提取出来的同时“消耗”掉这个字符串。在上面的例子中，匹配到第一个"bar"后，会将这个"bar"消耗掉，也即从"a"开始继续寻找。所以最终只找出了"bar"。可以看到，根据正则表达式的这种规则，我们是无法查找到相互重叠的目标字符串的。而为了应对这种情况，我们有两个办法可以走：零宽度断言以及编程语言对正则表达式的额外实现。（可以参考stackoverflow下这个问题：<a class="no-external-link" href="https://stackoverflow.com/questions/11430863/how-to-find-overlapping-matches-with-a-regexp" target="_blank">https://stackoverflow.com/questions/11430863/how-to-find-overlapping-matches-with-a-regexp</a>）零宽度断言将在后面介绍。而某些编程语言如果实现了功能更加丰富的正则表达式，便可能应对这个问题。例如在Python中，可以使用<a class="no-external-link" href="https://pypi.org/project/regex/" target="_blank">regex模块</a>来寻找重叠的字符串：<pre><code class="lang-python">&gt;&gt;&gt; import regex as re
&gt;&gt;&gt; match = re.findall(r'.ar', 'barar', overlapped=True)
&gt;&gt;&gt; print(match)
['bar', 'rar']</code></pre><h3>2.2. 字符集</h3>方括号用来指定一个字符集。 在方括号中使用连字符来指定字符集的范围。一个字符集表示匹配任意一个在字符集范围内的字符。在方括号中的字符集不关心顺序. 例如, 表达式<code>[Tt]he</code> 匹配 <code>the</code> 和 <code>The</code>。<blockquote>"<code>[Tt]he</code>" =&gt; <a class="no-external-link" href="http://" target="_blank">The</a> car parked in <a class="no-external-link" href="http://" target="_blank">the</a> garage.</blockquote><a class="no-external-link" href="https://regex101.com/r/2ITLQ4/1" target="_blank">在线练习</a>方括号的句号就表示句号。表达式 <code>ar[.]</code> 匹配 <code>ar.</code>字符串。<blockquote>"<code>ar[.]</code>" =&gt; A garage is a good place to park a c<a class="no-external-link" href="http://" target="_blank">ar.</a></blockquote><a class="no-external-link" href="https://regex101.com/r/wL3xtE/1" target="_blank">在线练习</a><h4>2.2.1. 否定字符集</h4>一般来说 <code>^</code> 表示一个字符串的开头, 但它用在一个方括号的开头的时候, 它表示这个字符集是否定的. 例如, 表达式<code>[^c]ar</code> 匹配一个不以<code>c</code>开头的后面跟着<code>ar</code>的字符串。<blockquote>"<code>[^c]ar</code>" =&gt; The car <a class="no-external-link" href="http://" target="_blank">par</a>ked in the <a class="no-external-link" href="http://" target="_blank">gar</a>age.</blockquote><a class="no-external-link" href="https://regex101.com/r/nNNlq3/1" target="_blank">在线练习</a><h3>2.3. 重复次数</h3>后面跟着元字符 <code>+</code>, <code>*</code> or <code>?</code> 的, 用来指定匹配子模式的次数. 这些元字符在不同的情况下有着不同的意思。<h4>2.3.1. <code>*</code>号</h4><code>*</code>号匹配在<code>*</code>号之前的那个字符的大于等于0次的重复。例如，<code>a*b</code>匹配<code>b</code>、<code>ab</code>、<code>aab</code>等等。而假如<code>*</code>之前的是一个字符集，则匹配这个字符集整体的大于等于0次重复。例如，<code>[a-z]*12</code>匹配<code>12</code>、<code>a12</code>、<code>abasdkn12</code>等等。<code>*</code>字符和<code>.</code>字符搭配可以匹配所有的字符串。<h4>2.3.2. <code>+</code>号</h4><code>+</code>号匹配在<code>+</code>号之前的那个字符的大于等于1次的重复。例如表达式<code>c.+t</code>匹配以首字母<code>c</code>开头以<code>t</code>结尾,中间跟着至少一个字符的字符串。<blockquote>"c.+t" =&gt; The fat <a class="no-external-link" href="http://" target="_blank">cat</a>.</blockquote><h4>2.3.3 <code>?</code>号</h4>正则表达式中<code>?</code>标记前面的字符为“可选”，即出现0或1次。例如，表达式<code>T?he</code>匹配<code>he</code>和<code>The</code>。<blockquote>"[T]he" =&gt; <a class="no-external-link" href="http://" target="_blank">The</a> car is parked in the garage."[T]?he" =&gt; <a class="no-external-link" href="http://" target="_blank">The</a> car is parked in t<a class="no-external-link" href="http://" target="_blank">he</a> garage.</blockquote><a class="no-external-link" href="https://regex101.com/r/kPpO2x/1" target="_blank">在线练习</a><h4>2.3.4 <code>{}</code>号</h4><code>{min, max}</code> 匹配在大括号之前的那个字符大于等于<code>min</code>次且小于等于<code>max</code>次的重复。例如，表达式<code>[0-9]{2, 3}</code>匹配最少两位最多三位的0~9的数字。<blockquote>"[0-9]{2,3}" =&gt; The number was 9.<a class="no-external-link" href="http://" target="_blank">999</a>7 but we rounded it off to <a class="no-external-link" href="http://" target="_blank">10</a>.0.</blockquote><a class="no-external-link" href="https://regex101.com/r/juM86s/1" target="_blank">在线练习</a>我们可以省略第二个参数。 例如，[0-9]{2,} 匹配至少两位 0~9 的数字。<blockquote>"[0-9]{2,}" =&gt; The number was 9.<a class="no-external-link" href="http://" target="_blank">9997</a> but we rounded it off to <a class="no-external-link" href="http://" target="_blank">10</a>.0.</blockquote><a class="no-external-link" href="https://regex101.com/r/Gdy4w5/1" target="_blank">在线练习</a>如果逗号也省略掉则表示重复固定的次数。 例如，[0-9]{3} 匹配3位数字。<blockquote>"[0-9]{3}" =&gt; The number was 9.<a class="no-external-link" href="http://" target="_blank">999</a>7 but we rounded it off to 10.0.</blockquote><a class="no-external-link" href="https://regex101.com/r/Sivu30/1" target="_blank">在线练习</a><h3>2.4. Greedy & Lazy</h3><h4>2.4.1 Greedy</h4>假设现在我们要在一个HTML文件中匹配所有的HTML标签。因为这是一个合法的HTML文件，所以先假定出现在尖括号中间的一定是一个有效的HTML标签。可能初学者会考虑用<code>&lt;.+&gt;</code>来解决这个问题。但请看下面的结果：<blockquote><pre>"<.+>" => This is a &lt;EM&gt;first&lt;/EM&gt; test</pre></blockquote>你可能想匹配的是<code>&lt;EM&gt;</code>而它一口气匹配到了<code>&lt;/EM&gt;</code>之后，这并不符合我们的预期。问题的根源在于，<code>+</code>号是贪婪（Greedy）的，<code>+</code>号告诉正则表达式引擎匹配之前的字符尽可能多次的重复。接下来让我们从正则表达式引擎的视角来还原匹配的过程。首先，正则表达式匹配<code>&lt;</code>，很明显这就是匹配字符串的第一个字符。然后正则表达式匹配<code>.+</code>，<code>.</code>代表除了换行符的任意字符，而<code>+</code>号匹配大于等于1次重复，并且<code>+</code>号是贪婪的。因此，正则表达式引擎将匹配<code>.</code>的尽可能多的重复，于是正则表达式引擎先匹配了字符串的<code>E</code>，然后是<code>M</code>，然后很重要的一步是，<code>&gt;</code>同样被匹配到了，接着往下走，匹配<code>f</code>，可以想到，这个匹配将一直继续到字符串的末尾。当正则表达式到达字符串末尾，<code>.+</code>匹配失败，于是结束这一阶段的匹配。此时，<code>&lt;.+</code>匹配到了<code>&lt;EM&gt;first&lt;/EM&gt; test</code>，并且匹配到达了字符串末尾。所以<code>&gt;</code>无法被匹配，而正则表达式引擎记得之前的<code>.+</code>的匹配次数大于<code>+</code>号的最小匹配次数（一次），于是，它进行了关键的回溯。正则表达式将减小一次<code>.+</code>的匹配次数，然后继续尝试匹配之前剩余未匹配的部分。所以<code>.+</code>缩减成为<code>&lt;EM&gt;first&lt;/EM&gt; tes</code>。但下一个正则表达式<code>&gt;</code>仍然无法匹配到最后一个字符<code>t</code>，于是继续进行回溯。可以想到，当回溯进行到<code>&lt;EM&gt;first&lt;/EM</code>的时候，正则表达式<code>&gt;</code>终于能够匹配到了，此时匹配结束，得到了我们看到的结果，即<code>&lt;EM&gt;first&lt;/EM&gt;</code>。<h4>2.4.2 Lazy</h4>最快解决这个问题的办法就是，让<code>+</code>号变成懒惰的（Lazy），懒惰同样经常被称为非贪婪的（ungreedy）。为了将<code>+</code>变成懒惰的，直接在后面加一个<code>?</code>号即可。所以现在我们的正则表达式变成了<code>&lt;.+?&gt;</code>，让我们再从正则表达式引擎的视角来一遍。同样，<code>&lt;</code>最先被匹配到，接下来是<code>.+?</code>，<code>.</code>匹配任意字符，而<code>+</code>号匹配大于等于1次重复，并且此时<code>+</code>号是懒惰的。因此，正则表达式引擎将匹配<code>.</code>的尽可能少的重复，最少为1次。所以第一次正则表达式<code>.+?</code>只匹配了<code>E</code>，接着向后匹配<code>&gt;</code>，与<code>M</code>匹配失败。于是正则表达式引擎进行回溯，增加<code>.+?</code>的匹配次数，现在<code>.+?</code>匹配到了<code>EM</code>，然后向后匹配<code>&gt;</code>，匹配成功，得到结果，<code>&lt;EM&gt;</code>，问题解决。请注意，上面关于<code>+</code>号的贪婪与懒惰的讨论同样适用于其他的重复次数符号，包括<code>*</code>,<code>+</code>,<code>?</code>,<code>{}</code>。<h4>2.4.3 巧用否定字符集</h4>其实为了解决上面提出的问题，还有另一种更聪明的方法，即否定字符集。<code>&lt;[^&gt;]+&gt;</code>，像这样应用否定字符集就可以完美的解决这个麻烦。而之所以说这种方法更聪明是因为上面方法中回溯的存在，回溯会拖慢正则表达式的匹配速度。<h3>2.5. <code>(...)</code> 特征标群</h3><code>*</code>、<code>+</code>、<code>?</code>、<code>{}</code>都是针对之前出现的一个字符的重复次数来进行匹配，而如果之前的模式为<code>(...)</code>的话，则是匹配<code>()</code>中的子模式的重复次数。例如，<code>(ab)*</code>匹配连续出现0个或更多个<code>ab</code>。我们还可以在<code>()</code>中用或字符<code>|</code>表示或。例如，<code>(c|g|p)ar</code>匹配<code>car</code>或<code>gar</code>或<code>par</code>。<blockquote>"(c|g|p)ar" =&gt; The <a class="no-external-link" href="http://" target="_blank">car</a> is <a class="no-external-link" href="http://" target="_blank">pa</a>rked in the <a class="no-external-link" href="http://" target="_blank">gar</a>age.</blockquote><a class="no-external-link" href="https://regex101.com/r/tUxrBG/1" target="_blank">在线练习</a><h3>2.6. <code>|</code>或运算符</h3>或运算符就表示或，用作判断条件。例如 <code>(T|t)he|car</code> 匹配 <code>(T|t)he</code> 或 <code>car</code>。<blockquote>"(T|t)he|car" =&gt; <a class="no-external-link" href="http://" target="_blank">The</a> <a class="no-external-link" href="http://" target="_blank">car</a> is parked in <a class="no-external-link" href="http://" target="_blank">the</a> garage.</blockquote><a class="no-external-link" href="https://regex101.com/r/fBXyX0/1" target="_blank">在线练习</a><h3>2.7. 转义字符</h3>反斜线 <code>\</code> 在表达式中用于转码紧跟其后的字符。用于指定 <code>{ } [ ] / \ + * . $ ^ | ?</code> 这些特殊字符。如果想要匹配这些特殊字符则要在其前面加上反斜线 <code>\</code>。例如 <code>.</code> 是用来匹配除换行符外的所有字符的。如果想要匹配句子中的 <code>.</code> 则要写成 <code>\.</code> 以下这个例子 <code>\.?</code>是选择性匹配<code>.</code>。<blockquote>"(f|c|m)at.?" =&gt; The <a class="no-external-link" href="http://" target="_blank">fat</a> <a class="no-external-link" href="http://" target="_blank">cat</a> sat on the <a class="no-external-link" href="http://" target="_blank">mat.</a></blockquote><a class="no-external-link" href="https://regex101.com/r/DOc5Nu/1" target="_blank">在线练习</a><h3>2.8. 锚点</h3>正则表达式中，想要匹配指定的模式出现在字符串的开头或者结尾就要用到锚点。<code>^</code>表示开头，<code>$</code>表示结尾。<h4>2.8.1 <code>^</code>号</h4><code>^</code>用来检查指定的模式是否在所匹配的字符串的开头。例如，在<code>abc</code>中用正则表达式<code>^a</code>会得到结果<code>a</code>，但如果正则表达式是<code>^b</code>将匹配不到任何结果。因为<code>b</code>并不在字符串<code>abc</code>的开头。例如，<code>^(T|t)he</code> 匹配在字符串开头的 <code>The</code> 或 <code>the</code> 。<blockquote>"^(T|t)he" =&gt; <a class="no-external-link" href="http://" target="_blank">The</a> car is parked in the garage.</blockquote><a class="no-external-link" href="https://regex101.com/r/jXrKne/1" target="_blank">在线练习</a><h4>2.8.2. <code>$</code>号</h4>同理，<code>$</code>号用于检查指定的模式是否在所匹配的字符串的结尾。例如，<code>(at\.)$</code> 匹配在字符串结尾的 <code>at.</code> 。<blockquote>"(at.)$" =&gt; The fat cat. sat. on the m<code>at.</code></blockquote><a class="no-external-link" href="https://regex101.com/r/t0AkOd/1" target="_blank">在线练习</a><h2>3. 简写字符集</h2>正则表达式提供一些常用的字符集简写。如下:<table><thead><tr><th align="center">简写</th><th align="center">描述</th></tr></thead><tbody><tr><td align="center"><code>.</code></td><td align="center">除换行符外的所有字符</td></tr><tr><td align="center"><code>\w</code></td><td align="center">匹配所有字母数字下划线，等同于 <code>[a-zA-Z0-9_]</code></td></tr><tr><td align="center"><code>\W</code></td><td align="center">匹配所有非字母数字下划线，即符号，等同于： <code>[^\w]</code></td></tr><tr><td align="center"><code>\d</code></td><td align="center">匹配数字： <code>[0-9]</code></td></tr><tr><td align="center"><code>\D</code></td><td align="center">匹配非数字： <code>[^\d]</code></td></tr><tr><td align="center"><code>\s</code></td><td align="center">匹配所有空格字符，等同于： <code>[\t\n\f\r\p{Z}]</code></td></tr><tr><td align="center"><code>\S</code></td><td align="center">匹配所有非空格字符： <code>[^\s]</code></td></tr><tr><td align="center"><code>\f</code></td><td align="center">匹配一个换页符</td></tr><tr><td align="center"><code>\n</code></td><td align="center">匹配一个换行符</td></tr><tr><td align="center"><code>\r</code></td><td align="center">匹配一个回车符</td></tr><tr><td align="center"><code>\t</code></td><td align="center">匹配一个制表符</td></tr><tr><td align="center"><code>\v</code></td><td align="center">匹配一个垂直制表符</td></tr><tr><td align="center"><code>\p</code></td><td align="center">匹配 CR/LF（等同于 <code>\r\n</code>），用来匹配 DOS 行终止符</td></tr></tbody></table><h2>4. 零宽度断言（前后预查）</h2>先行断言和后发断言都属于非捕获簇（不捕获文本 ，也不针对组合计进行计数）。 先行断言用于判断所匹配的格式是否在另一个确定的格式之前，匹配结果不包含该确定格式（仅作为约束）。例如，我们想要获得所有跟在 <code>$</code> 符号后的数字，我们可以使用正后发断言 <code>(?&lt;=\$)[0-9\.]*</code>。 这个表达式匹配 <code>$</code> 开头，之后跟着 0,1,2,3,4,5,6,7,8,9,. 这些字符可以出现大于等于 0 次。零宽度断言如下：<table><thead><tr><th align="center">符号</th><th align="center">描述</th></tr></thead><tbody><tr><td align="center"><code>?=</code></td><td align="center">正先行断言-存在</td></tr><tr><td align="center"><code>?!</code></td><td align="center">负先行断言-排除</td></tr><tr><td align="center"><code>?&lt;=</code></td><td align="center">正后发断言-存在</td></tr><tr><td align="center"><code>?&lt;!</code></td><td align="center">负后发断言-排除</td></tr></tbody></table><h3>4.1. <code>?=...</code>正先行断言</h3><code>?=...</code> 正先行断言，表示在正先行断言之前的表达式的后面必须要跟有正先行断言<code>?=...</code>中<code>...</code>定义的内容。匹配结果只包含正先行断言之前的表达式。定义正先行断言要使用<code>()</code>。在括号内部使用一个问号和等号：<code>(?=...)</code>。例如，表达式 <code>(T|t)he(?=\sfat)</code> 匹配 The 和 the，在括号中我们又定义了正先行断言 <code>(?=\sfat)</code> ，即 The 和 the 后面紧跟着 <code>空格fat</code>。"(T|t)he(?=\sfat)" =&gt; <code>The</code> fat cat sat on the mat.<a class="no-external-link" href="https://regex101.com/r/IDDARt/1" target="_blank">在线练习</a><h3>4.2. <code>?!...</code>负先行断言</h3><code>?!...</code>负先行断言，表示在负先行断言之前的表达式的后面必须不能跟有负先行断言<code>?!...</code>中<code>...</code>定义的内容。表达式 <code>(T|t)he(?!\sfat)</code> 匹配后面不跟着 <code>空格fat</code>的<code>The</code> 和 <code>the</code>。<blockquote>"(T|t)he(?!\sfat)" =&gt; The fat cat sat on <a class="no-external-link" href="http://" target="_blank">the</a> mat.</blockquote><a class="no-external-link" href="https://regex101.com/r/V32Npg/1" target="_blank">在线练习</a><h3>4.3. <code>?&lt;=...</code>正后发断言</h3><code>?&lt;=...</code>正后发断言，表示在正后发断言之后的表达式的前面必须有正后发断言<code>?&lt;=...</code>中<code>...</code>定义的内容。例如，表达式 <code>(?&lt;=(T|t)he\s)(fat|mat)</code> 匹配前面有<code>The</code> 或 <code>the</code>的<code>fat</code> 和 <code>mat</code> 。<blockquote>"(?&lt;=(T|t)he\s)(fat|mat)" =&gt; The <code>fat</code> cat sat on the <code>mat</code>.</blockquote><a class="no-external-link" href="https://regex101.com/r/avH165/1" target="_blank">在线练习</a><h3>4.4. <code>?&lt;!...</code>负后发断言</h3><code>?&lt;!...</code>负后发断言，表示在负后发断言之后的表达式的前面必须没有负后发断言<code>?&lt;!...</code>中<code>...</code>定义的内容。例如，表达式 <code>(?&lt;!(T|t)he\s)(cat)</code> 匹配前面没有<code>The</code> 或 <code>the</code>的<code>cat</code>。<blockquote>"(?&lt;!(T|t)he\s)(cat)" =&gt; The cat sat on <a class="no-external-link" href="http://" target="_blank">cat</a>.</blockquote><a class="no-external-link" href="https://regex101.com/r/8Efx5G/1" target="_blank">在线练习</a><h3>4.5. 匹配重叠字符串</h3>还记得之前的匹配重叠字符串的问题吗，当时说可以用零宽度断言解决，现在来揭晓答案。这其实是零宽度断言的一种特殊用法，即不写零宽度断言的待查找表达式，例如之前的例子中，想要在字符串<code>barar</code>中找到重叠的<code>.ar</code>，可以用这种正则表达式：<code>(?=.ar)</code>，即正先行断言之前的表达式不写，这时候相当于仅查找<code>.ar</code>而不需要管其他的约束条件，又因为零宽度断言不消耗找到的字符串，所以可以找到重叠的<code>bar</code>和<code>rar</code>。<h2>5. 标志</h2>标志也叫模式修正符，因为它可以用来修改表达式的搜索结果。这些标志可以任意的组合使用，它也是整个正则表达式的一部分。<table><thead><tr><th align="center">标志</th><th align="center">描述</th></tr></thead><tbody><tr><td align="center">i</td><td align="center">忽略大小写。</td></tr><tr><td align="center">g</td><td align="center">全局搜索。</td></tr><tr><td align="center">m</td><td align="center">多行修饰符：锚点元字符 <code>^</code> <code>$</code> 工作范围在每行的起始。</td></tr></tbody></table><h3>5.1. 忽略大小写（Case Insensitive）</h3>修饰语 <code>i</code> 用于忽略大小写。 例如，表达式 <code>/The/gi</code> 表示在全局搜索 <code>The</code>，在后面的 <code>i</code> 将其条件修改为忽略大小写，则变成搜索 <code>the</code> 和 <code>The</code>，<code>g</code> 表示全局搜索。<blockquote>"The" =&gt; <a class="no-external-link" href="http://" target="_blank">The</a> fat cat sat on the mat.</blockquote><a class="no-external-link" href="https://regex101.com/r/dpQyf9/1" target="_blank">在线练习</a><blockquote>"/The/gi" =&gt; <a class="no-external-link" href="http://" target="_blank">The</a> fat cat sat on <a class="no-external-link" href="http://" target="_blank">the</a> mat.</blockquote><a class="no-external-link" href="https://regex101.com/r/ahfiuh/1" target="_blank">在线练习</a><h3>5.2. 全局搜索（Global search）</h3>修饰符 <code>g</code> 常用于执行一个全局搜索匹配，即（不仅仅返回第一个匹配的，而是返回全部）。 例如，表达式 <code>/.(at)/g</code> 表示搜索 任意字符（除了换行）+ at，并返回全部结果。<blockquote>"/.(at)/g" =&gt; The <a class="no-external-link" href="http://" target="_blank">fat</a> <a class="no-external-link" href="http://" target="_blank">cat</a> <a class="no-external-link" href="http://" target="_blank">sat</a> on the <a class="no-external-link" href="http://" target="_blank">mat</a>.</blockquote><a class="no-external-link" href="https://regex101.com/r/dO1nef/1" target="_blank">在线练习</a>

什么是正则表达式？

1. 基本匹配

2. 元字符

2.1. 点运算符 .

2.2. 字符集

2.2.1. 否定字符集

2.3. 重复次数

2.3.1. *号

2.3.2. +号

2.3.3 ?号

2.3.4 {}号

2.4. Greedy & Lazy

2.4.1 Greedy

2.4.2 Lazy

2.4.3 巧用否定字符集

2.5. (...) 特征标群

2.6. |或运算符

2.7. 转义字符

2.8. 锚点

2.8.1 ^号

2.8.2. $号

3. 简写字符集

4. 零宽度断言（前后预查）

4.1. ?=...正先行断言

4.2. ?!...负先行断言

4.3. ?<=...正后发断言

4.4. ?<!...负后发断言

4.5. 匹配重叠字符串

5. 标志

5.1. 忽略大小写（Case Insensitive）

5.2. 全局搜索（Global search）

6 条评论

发表评论 取消回复 使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款

正则表达式

2.1. 点运算符 `.`

2.3.1. `*`号

2.3.2. `+`号

2.3.3 `?`号

2.3.4 `{}`号

2.5. `(...)` 特征标群

2.6. `|`或运算符

2.8.1 `^`号

2.8.2. `$`号

4.1. `?=...`正先行断言

4.2. `?!...`负先行断言

4.3. `?<=...`正后发断言

4.4. `?<!...`负后发断言

发表评论取消回复
使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款