首页 > 编程知识 正文

正则表达式性能高吗(无符号数的正则表达式)

时间:2023-05-05 16:17:55 阅读:82947 作者:953

图片来源|电影《成长教育》剧照

正则表达式是描述与特定字符串匹配的字符串特性的模式。 ”——Ken Thompson

什么是正则表达式?

正则表达式是指pattern、模式、格式、规则,主要在处理文本字符串时,希望在文本堆中找到满足某种格式、规则的字符串时使用。

这起源于20世纪50年代科学家在数学领域进行的研究,后来被引入计算机领域。 从名字可以看出,这是用于描述规则的表达式。

例如,编写一个APP应用程序,希望设置一个用户名规则,将字符、数字、下划线和连字符包含在用户名中,或者限制字符数量使其看起来不那么难看。 现在,使用以下正则表达式验证用户名:

以上正则表达式可以接受Johndoe、jo-hndoe和john12_as .但由于它们包含大写字母且太短,与jo不一致。

那么,学习正则表达式,初学者应该从哪些方面开始呢?

这个强烈安利的一些学习教程和资源:

1 .正则表达式30分钟入门教程

358 Deerchao.net /教程/注册/注册. htm

推荐理由:特别适合想快速入门的学生。 结合实例可以理解基本原理和语法。

2 .有效地开始正则表达式

359 Github.com/Ziishaned/learn-regex/blob /主/翻译/自述- CN.MD

推荐理由: Github的简单正则表达式教程提供了10多种语言,包括中文。 本教程涵盖了实际APP应用中99%的场景。

3.regex101网站——可以将正则一致结果可视化表示

https://regex101.com

4.regexper网站——可以直观地显示正则表达式的状态机图

https://regexper.com

正则表达式高级——从基本机制理解正则表达式

许多同学在入门某种语言或工具时,习惯首先从实例着手,往往忽视语言最底层的原理。 这里引用@yqdwk的“高级正则表达式”一句,有助于更好地理解和利用正则表达式。

注:此次引用已根据原文删除。 想看全部内容时,

359 www.cn blogs.com/Hust sking/p/how-regular-expressions-work.html

正则表达式的结构

画了草图,简单地说明了正则表达式的结构。

|编译|

------------

|

下箭头

-------------

|起始位置的设定|-------------

----------- -。

| |

那|

---------他|

|火柴背|路|

------------直径

| |

|

--------|

|成功

or

失败|------

-------------

你写的正则直接量和RegExp在浏览器中被编译成本机代码程序。 第一个匹配从第一个字符开始。 匹配成功时,他会检查其他路径是否不匹配。 如果有,回到最后成功匹配的位置,重复下一步。 但是,此时开始匹配的位置(lastIndex )是上次成功的位置加1。 这个有点难懂。 以下写demo。 这个demo是实现正则表达式的分析引擎。

Reg:

/h(I|ello )是指,

barret/g

Str:

Lalala. Hi, barret. Hello, John

如果上面的 demo 跑不起来,请戳这里:

http://qianduannotes.duapp.com/demo/regexp/index.html

如果要深入了解正则表达式的内部原理,必须先理解匹配过程的一个基础环节——回溯。他是驱动正则的一个基本动力,也是性能消耗、计算消耗的根源。

回溯

正则表达式中出现最多的是分支和量词。上面的 demo 中可以很清楚的看到 hi 和 hello 这两个分支,当匹配到第一个字符 h 之后,进入 (i | ello) 的分支选择,首先是进入 i 分支,当 i 分支匹配完了之后,再回到分支选择的位置,重新选择分支。简单点说,分支就是 | 操作符带来的多项选择问题,而量词指的是诸如 *,+?,{m,n} 之类的符号,正则表达式必须决定何时尝试匹配更多的字符。下面结合回溯详细说说分支和量词。

1.分支

继续分析上面那个案例。 "Lalala. Hi, barret. Hello, John".match(/H(i|ello), barret/g),首先会查找 H 字符,在第九位找到 H 之后,正则子表达式提供了两个选择 (i|ello),程序会先拿到最左边的那个分支,进入分支后,在第十位匹配到了 i,接着匹配下一个字符,下一个字符是逗号,接着刚才的位置又匹配到了这个逗号,然后再匹配下一个,依次类推,直到完整匹配到整个正则的内容,此时程序会在 Hi,barret后面做一个标记,表示在这里进行了一次成功的匹配。但程序到此并没有结束,因为后面加了一个全局参数,依然使用这个分支往后匹配,很显然,到了 Hello 的时候,Hi 分支匹配不了了,于是程序会回溯到刚才我们做标记的位置,并进入第二个分支,从做标记的位置重新开始匹配,依次循环。

只要正则表达式没有尝试完所有的可选项,他就会回溯到最近的决策点(也就是上次匹配成功的位置)。

2.量词

量词这个概念特别简单,只是在匹配过程中有贪婪匹配和懒惰匹配两种模式,结合回溯的概念理解稍微复杂。还是用几个例子来说明。

1)贪婪

str = "AB1111BA111BA"; reg = /AB[sS]+BA/; console.log(str.match(reg));

首先是匹配AB,遇到了 [sS]+,这是贪婪模式的匹配,他会一口吞掉后面所有的字符,也就是如果 reg 的内容为 AB[sS]+,那后面的就不用看了,直接全部匹配。而往后看,正则后面还有B字符,所以他会先回溯到倒数第一个字符,匹配看是否为 B,显然倒数第一个字符不是B,于是他又接着回溯,找到了B字母,找到之后就不继续回溯了,而是往后继续匹配,此刻匹配的是字符A,程序发现紧跟B后的字母确实是A,那此时匹配就结束了。如果没有看明白,可以再读读下面这个图:

REG: /AB[sS]+BA/ MATCH: A 匹配第一个字符 AB 匹配第二个字符 AB1111BA111BA [sS]+ 贪婪吞并所有字符 AB1111BA111BA 回溯,匹配字符B AB1111BA111B 找到字符B,继续匹配A AB1111BA111BA 找到字符A,匹配完成,停止匹配

2) 懒惰(非贪婪)

str = "AB1111BA111BA"; reg = /AB[sS]+?BA/; console.log(str.match(reg));

与上面不同的是,reg 中多了一个 ? 号,此时的匹配模式为懒惰模式,也叫做非贪婪匹配。此时的匹配流程是,先匹配AB,遇到[sS]+?,程序尝试跳过并开始匹配后面的字符B,往后查看的时候,发现是数字1,不是要匹配的内容,继续往后匹配,知道遇到字符B,然后匹配A,发现紧接着B后面就有一个A,于是宣布匹配完成,停止程序。

REG: /AB[sS]+BA/ MATCH: A 匹配第一个字符 AB 匹配第二个字符 AB [sS]+? 非贪婪跳过并开始匹配B AB1 不是B,回溯,继续匹配 AB11 不是B,回溯,继续匹配 AB111 不是B,回溯,继续匹配 AB1111 不是B,回溯,继续匹配 AB1111B 找到字符B,继续匹配A AB1111BA 找到字符A,匹配完成,停止匹配

如果匹配的内容是 AB1111BA,那贪婪和非贪婪方式的正则是等价的,但是内部的匹配原理还是有区别的。为了高效运用正则,必须搞清楚使用正则时会遇到那些性能消耗问题。

逗比的程序

//去测试下这句代码 "TTTTTTTT".match(/(T+T+)+K/); //然后把前面的T重复次数改成30 //P.S:小心风扇狂转,CPU暴涨

我们来分析下上面这段代码,上面使用的都是贪婪模式,那么他会这样做:

REG: (T+T+)+K MATCH: ①第一个T+匹配前7个T,第二个T+匹配最后一个T,没找到K,宣布失败,回溯到最开始位置 ②第一个T+匹配前6个T,第二个T+匹配最后两个T,没找到K,宣布失败,回溯到最开始位置 ③... ... 接着还会考虑(T+T+)+后面的 + 号,接着另一轮的尝试。 ⑦... ...

这段程序并不会智能的去检测字符串中是否存在 K。如果匹配失败,他会选择其他的匹配方式(路径)去匹配,从而造成疯狂的回溯和重新匹配,结果可想而知。这是回溯失控的典型例子。

前瞻和反向引用

1.前瞻和引用

前瞻有两种。一种是负向前瞻,JS中使用 (?!xxx) 来表示,他的作用是对后面要匹配的内容做一个预判断,如果后面的内容是xxx,则此段内容匹配失败,跳过去重新开始匹配。另一种是正向前瞻,(?=xxx),匹配方式和上面相反,还有一个长的类似的是 (?:xxx),这个是匹配xxx,他是非捕获性分组匹配,即匹配的内容不会创建反向引用。具体内容可以去文章开头提到的文档中查看。

反向引用,这个在 replace 中用的比较多,在 replace 中:

而在正则表达中,主要就是 1, 2 之类的数字引用。前瞻和反向引用使用恰当可以大大的减少正则对资源的消耗。举个例子来简单说明下这几个东西:

问题:使用正则匹配过滤后缀名为 .css 和 .js 的文件。

如:test.wow.js test.wow.css test.js.js等等。

有人会立马想到使用负向前瞻,即:

//过滤js文件 /(?!.+.js$).*/.exec("test.wow.js") //过滤js和css文件 /(?!.+.js$|.+.css$).*/.exec("test.wow.js") /(?!.+.js$|.+.css$).*/.exec("test.wow.html")

但是你自己去测试下,拿到的结果是什么。匹配非js和非css文件可以拿到正确的文件名,但是我们期望这个表达式对js和css文件的匹配结果是null,上面的表达式却做不到。问题是什么,因为(?!xxx)和(?=xxx)都会消耗字符,在做预判断的时候把 .js 和 .css 给消耗了,所以这里我们必须使用非捕获模式。

/(?:(?!.+.js$|.+.css$).)*/.exec("test.wow.html"); /(?:(?!.+.js$|.+.css$).)*/.exec("test.wow.js");

我们来分析下这个正则:

(?:(?!.+.js$|.+.css$).)* --- ---------------- - | | | +----------------------+ ↓ | 非捕获,内部只有一个占位字符 | ↓ 负向前瞻以.js和.css结尾的字符串

最后一个星号是贪婪匹配,直接吞掉全部字符。

这里讲的算是有点复杂了,不过在稍复杂的正则中,这些都是很基础的东西了,想在这方面提高的童鞋可以多研究下。

2.原子组

JavaScript的正则算是比较弱的,他没有分组命名、递归、原子组等功能特别强的匹配模式,不过我们可以利用一些组合方式达到自己的目的。上面的例子中,我们实际上用正则实现了一个或和与的功能,上面的例子体现的还不是特别明显,再写个例子来展示下:

str1 = "我(wo)叫(jiao)李(li)靖(jing)"; str2 = "李(li)靖(jing)我(wo)叫(jiao)"; reg = /(?=.*?我)(?=.*?叫)(?=.*?李)(?=.*?靖)/; console.log(reg.test(str1)); //true console.log(reg.test(str2)); //true

不管怎么打乱顺序,只要string中包含“我”,“是”,“李”,“靖”这四个字,结果都是true。

类似(?=xxx)1,就相当于一个原子组,原子组的作用就是消除回溯,只要是这种模式匹配过的地方,回溯时都不会到这里和他之前的地方。上面的程序 "TTTTTTTT".match(/(T+T+)+K/);可以通过原子组的方式处理:

"TTTTTTTT".match(/(?=(T+T+))2+K/);

如此便能彻底消除回溯失控问题。

- 完 -


与其他程序设计语言一样,学习正则表达式的关键是实践,实践,再实践。 ——年轻的心锁(fzdss Forta)

[美] 年轻的心锁(fzdss Forta)著 门佳 多情的月光 等 (译)

紧贴实战需求,化繁为简,高效解决编程难题如果想快速上手正则表达式,那么除了本书,没有第二种选择相比上一版,书中完善了正则表达式的用法,丰富了提示、注意、警告等信息。

本书从简单的文本匹配开始,循序渐进地介绍了很多复杂内容,包括反向引用、条件评估、环视等。每章都配有许多简明实用的示例,有助于全面、系统、快速掌握正则表达式,并运用它们解决实际问题。

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。