好久没更新内容了,今天分享一个小的知识点,一个正则表达式方面的很容易被人忽视的坑。
我们知道,正则表达式中,可以用 .
表示任意单个字符,但在 underscore 和 jquery 的源代码中,我们可以看到,这些著名类库的代码中,经常并不是用 .
来表示任意字符,而是使用 [\w\W]
或者 [\s\S]
。乍一看,好像表达的含义是一样的,可是为什么放着简单的方法不用,而去多绕个圈子?今天就简单说说这个问题。
首先我们必须要正确理解 .
的含义。其实说它表示任意单个字符,可能会让人产生误解,必须要强调一下,这个“任意单个字符”不包括控制换行的字符,也就是不包含 \n
、\r
、\u2028
或 \u2029
这几个字符。而 \W
和 \s
中是能够包含这些字符的。那个这两种写法的差异也就很清晰了,就是能否匹配到几个换行控制符的差异。
那么在什么时候我们需要考虑这几个换行控制符呢?当要处理的字符串可能包含换行时。这样的情景太多了,处理 html 字符串、处理 template、Node.js 读取文本等等。
提及多行文本的场景,我们很容易想到正则表达式的 m
模式(多行模式)。那么多行模式对我们今天讨论的问题有影响吗?我不是很确定。为什么不确定呢?有些人信誓旦旦地声称单行模式下 .
的含义与多行模式下不同,单选模式下等同于 [\w\W]
或者 [\s\S]
,而多行模式下会排除换行控制符。但据我试验,以及参考 MDN 的说法,这是不对的。的确有很多语言的正则表达式会有上述特性,但在 javascript 中我没有看到,不知道会不会有浏览器方面的差异。那么多行模式对于 javascript 而言影响的是什么呢?我认为仅仅是改变了 ^
和 $
标识的含义:单行模式下,分别表示整个字符串的开始的结尾;多行模式下表示每一行的开始和结尾。而不管多行模式还是单行模式,我认为 .
都是不包含换行控制字符的,等价于 [^\n\r\u2028\u2029]
。
再多延伸一点点,对于现代浏览器,可以直接用 [^]
来匹配任意字符的。
例子程序不想写了,有兴趣的可以自己试验一下,分别用 /.*/g
、/^.*$/g
、/.*/gm
、/^.*$/gm
来匹配一下 "abc\nedf"
,其中道理不言自明。
2018年3月16日补充:
感谢 Will_Liu 提醒,ECMAScript中正则增加 dotAll(\s
) 的标识的提案已经在 stage 4 了。详情请参考:proposal-regexp-dotall-flag。
如果使用 babel,可以添加 @babel/plugin-transform-dotall-regex 开启这个特性。
示例 .babelrc:
{
"plugins": ["@babel/plugin-transform-dotall-regex"]
}