首页 > 编程知识 正文

java正则表达式截取字符串,正则文法转正则表达式

时间:2023-05-04 08:33:27 阅读:173376 作者:574

Java正则表达式说明

更新日期: 2009年06月11日02:39:02作者:

java正则知识总结。 常见的正则中包括传统的向日葵,推荐收藏。

表达式含义:

1 .文字

x文字x。 例如a表示字符a

反斜杠字符。 写的时候要写\"。 (注意:由于java在第一次解析时会将\"解析为正则表达式\",在第二次解析时会解析为\,因此1.1中未列举的转义字符将包含1.1的\,所有带的字符都写两次

具有0n8进制值0的字符n(0=n=7) ) )。

nn具有进制值0的字符nn(0=n=7) ) )。

mnn具有进制值0的字符mnn (0=m=3,0=n=7) )。

具有xhh十六进制值0x的字符hh

hhhh十六进制数值0x的字符hhhh

t选项卡() ((u0009 ) ) ) )。

n新行(换行符) ) (u000A ) )。

r回车((u000D ) )。

f分页符(((((u000C ) ) ) ) ) ) ) ) ) ) ) ) ) ) ) ) ) )。

a闹钟(bell )符号() ((u0007 ) ) ) ) )。

e转义字符((u001B ) )。

cx对应于x的控件

2 .字母系统[abc] a、b或c (简单系统)。 例如,[egd]表示包含字母e、g或d。

除[^abc]、b或c (否定)以外的任何字符。 例如,[^egd]表示不包含字母e、g或d。

[a-zA-Z] a包含a到z或a到z两个字符。

[a-d[m-p]] a至d或m至p:[a-dm-p] (并行集)

([a-z[def]] d、e或f (相交) )。

[a-z[^bc]] a至z,b和c除外: c:[ad-z] (

([a-z[^m-p]] a到p,而不是p:[a-lq-z] (减去) ) ) ) ) ) ) ) ) ) )。

3 .预定义的字符类(注意,反斜杠要写两次。 例如,d写为d ) )任何字符

(可能与行尾一致,也可能不一致)

(d数字) [0-9]

(d非数字) [^0-9]

s空白字符: [ tnx0Bfr]

S非空白字符: [^s]

(w单词字符: [a-zA-Z_0-9]

W非单词字符: [^w]

4 .请注意,4.POSIX字符类(仅限US-ASCII )反斜线应写两次。 例如,p{Lower}将写为p{Lower}。 )

p{Lower}小写: [a-z]。

p{Upper}大写: [A-Z]

p{ASCII}所有ASCII:[x00-x7F]

p { alpha }字母字符: [p{Lower}p{Upper}]

(p ) digit )十进制: [0-9]

p{Alnum}字母数字字符: [p{Alpha}p{Digit}]

p{Punct}标点符号: ' #$% ' (),-./:=? @[]^_`{|}~

p{Graph}可视字符: [p{Alnum}p{Punct}]

p{Print}可打印字符: [p{Graph}x20]

p{Blank}空格或选项卡: [ t]

p{Cntrl}控制字符: [x00-x1Fx7F]

(p ) xdigit )十六进制: [0-9a-fA-F]

p{空格}空白字符: [ tnx0Bfr]

5.java.lang.Character类(简单的java字符类型) )。

p{javaLowerCase}是由Java.lang.character.is lower case (

p{javaUpperCase}等效于Java.lang.character.isupper case ()

p{javaWhitespace}是由Java.lang.character.is white space (

p{javaMirrored}是java.lang.Character.isMirrored ()

6.Unicode块和类别类p{InGreek} Greek块(简单块)中的字符

p{Lu}大写(简单类别)

p{Sc}货币符号

P{InGreek}所有字符,Greek块中的排除(否定) () ) ) ) ) ) ) ) ) ) P{InGreek}块中的排除(否定) ) )

[p{L}[^p{Lu}]]除大写字母外的所有字符

7 .边界匹配^行的开头应为正则表达式的开头

使用^。例如:^(abc)表示以abc开头的字符串。注意编译的时候要设置参数MULTILINE,如 Pattern p = Pattern.compile(regex,Pattern.MULTILINE);

$ 行的结尾,请在正则表达式的结束处使用。例如:(^bca).*(abc$)表示以bca开头以abc结尾的行。

b 单词边界。例如b(abc)表示单词的开始或结束包含有abc,(abcjj、jjabc 都可以匹配)

B 非单词边界。例如B(abc)表示单词的中间包含有abc,(jjabcjj匹配而jjabc、abcjj不匹配)

A 输入的开头

G 上一个匹配的结尾(个人感觉这个参数没什么用)。例如\Gdog表示在上一个匹配结尾处查找dog如果没有的话则从开头查找,注意如果开头不是dog则不能匹配。

Z 输入的结尾,仅用于最后的结束符(如果有的话)

行结束符 是一个或两个字符的序列,标记输入字符序列的行结尾。

以下代码被识别为行结束符:

‐新行(换行)符 ('n')、

‐后面紧跟新行符的回车符 ("rn")、

‐单独的回车符 ('r')、

‐下一行字符 ('u0085')、

‐行分隔符 ('u2028') 或

‐段落分隔符 ('u2029)。

z 输入的结尾

当编译模式时,可以设置一个或多个标志,例如

Pattern pattern = Pattern.compile(patternString,Pattern.CASE_INSENSITIVE + Pattern.UNICODE_CASE);

下面六个标志都是支持的:

‐CASE_INSENSITIVE:匹配字符时与大小写无关,该标志默认只考虑US ASCII字符。

‐UNICODE_CASE:当与CASE_INSENSITIVE结合时,使用Unicode字母匹配

‐MULTILINE:^和$匹配一行的开始和结尾,而不是整个输入

‐UNIX_LINES: 当在多行模式下匹配^和$时,只将'n'看作行终止符

‐DOTALL: 当使用此标志时,.符号匹配包括行终止符在内的所有字符

‐CANON_EQ: 考虑Unicode字符的规范等价

8.Greedy 数量词

X? X,一次或一次也没有

X* X,零次或多次

X+ X,一次或多次

X{n} X,恰好 n 次

X{n,} X,至少 n 次

X{n,m} X,至少 n 次,但是不超过 m 次

9.Reluctant 数量词

X?? X,一次或一次也没有

X*? X,零次或多次

X+? X,一次或多次

X{n}? X,恰好 n 次

X{n,}? X,至少 n 次

X{n,m}? X,至少 n 次,但是不超过 m 次

10.Possessive 数量词

X?+ X,一次或一次也没有

X*+ X,零次或多次

X++ X,一次或多次

X{n}+ X,恰好 n 次

X{n,}+ X,至少 n 次

X{n,m}+ X,至少 n 次,但是不超过 m 次

Greedy,Reluctant,Possessive的区别在于:(注意仅限于进行.等模糊处理时)

greedy量 词被看作“贪婪的”,因为它第一次就读入整个被模糊匹配的字符串。如果第一个匹配尝试(整个输入字符串)失败,匹配器就会在被匹配字符串中的最后一位后退一个字符并且再次尝试,重复这个过程,直到找到匹配或者没有更多剩下的字符可以后退为止。根据表达式中使用的量词,它最后试图匹配的内容是1 个或者0个字符。

但是,reluctant量词采取相反的方式:它们从被匹配字符串的开头开始,然后逐步地一次读取一个字符搜索匹配。它们最后试图匹配的内容是整个输入字符串。

最后,possessive量词总是读完整个输入字符串,尝试一次(而且只有一次)匹配。和greedy量词不同,possessive从不后退。

11.Logical 运算符

XY X 后跟 Y

X|Y X 或 Y

(X) X,作为捕获组。例如(abc)表示把abc作为一个整体进行捕获

12.Back 引用

n 任何匹配的 nth捕获组

捕获组可以通过从左到右计算其开括号来编号。例如,在表达式 ((A)(B(C)))中,存在四个这样的组:

1 ((A)(B(C)))

2 A

3 (B(C))

4 (C)

在表达式中可以通过n来对相应的组进行引用,例如(ab)341就表示ab34ab,(ab)34(cd)12就表示ab34cdabcd。

13.引用

Nothing,但是引用以下字符

Q Nothing,但是引用所有字符,直到 E。QE之间的字符串会原封不动的使用(1.1中转义字符的除外)。例如, ab\Q{|}\\E

可以匹配ab{|}\

E Nothing,但是结束从 Q开始的引用

14.特殊构造(非捕获)

(?:X) X,作为非捕获组

(?idmsux-idmsux) Nothing,但是将匹配标志由 on 转为 off。比如:表达式 (?i)abc(?-i)def 这时,(?i) 打开不区分大小写开关,abc 匹配

idmsux说明如下:

‐i CASE_INSENSITIVE :US-ASCII 字符集不区分大小写。(?i)

‐d UNIX_LINES : 打开UNIX换行符

‐m MULTILINE :多行模式(?m)

UNIX下换行为n

WINDOWS下换行为rn(?s)

‐u UNICODE_CASE : Unicode 不区分大小写。(?u)

‐x COMMENTS :可以在pattern里面使用注解,忽略pattern里面的whitespace,以及"#"一直到结尾(#后面为注解)。(?x)例如(?x)abc#asfsdadsa可以匹配字符串abc

(?idmsux-idmsux:X) X,作为带有给定标志 on - off 的非捕获组。与上面的类似,上面的表达式,可以改写成为:(?i:abc)def,或者 (?i)abc(?-i:def)

(?=X) X,通过零宽度的正 lookahead。零宽度正先行断言,仅当子表达式 X 在 此位置的右侧匹配时才继续匹配。例如,w+(?=d) 表示字母后面跟数字,但不捕获数字(不回溯)

(?!X) X,通过零宽度的负 lookahead。零宽度负先行断言。仅当子表达式 X 不在 此位置的右侧匹配时才继续匹配。例如,w+(?!d) 表示字母后面不跟数字,且不捕获数字。

(?<=X) X,通过零宽度的正 lookbehind。零宽度正后发断言。仅当子表达式 X 在 此位置的左侧匹配时才继续匹配。例如,(?<=19)99 表示99前面是数字19,但不捕获前面的19。(不回溯)

(? (?>X) X,作为独立的非捕获组(不回溯)

(?=X)与(?>X)的区别在于(?>X)是不回溯的。例如被匹配的字符串为abcm

当表达式为a(?:b|bc)m是可以匹配的,而当表达式是a(?>b|bc)时是不能匹配的,因为当后者匹配到b时,由于已经匹配,就跳出了非捕获组,而不再次对组内的字符进行匹配。可以加快速度。

相关文章

这篇文章主要为大家详细介绍了Java日期工具类DateUtils实例,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下2017-12-12

这篇文章主要介绍了线上Java程序占用CPU过高解决方案,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下2020-11-11

这篇文章主要介绍了SpringBoot整合MongoDB的示例,帮助大家更好的理解和学习springboot框架,感兴趣的朋友可以了解下2020-10-10

本文是小编给大家带来的java各种排序算法知识,包括插入排序、选择排序算法、冒泡排序算法,代码简单易懂,需要的朋友可以参考下2016-08-08

今天小编就为大家分享一篇关于Java将日期类型Date时间戳转换为MongoDB的时间类型数据,小编觉得内容挺不错的,现在分享给大家,具有很好的参考价值,需要的朋友一起跟随小编来看看吧2018-10-10

这篇文章主要介绍了Java面向对象程序设计:继承,多态用法,结合实例形式分析了java继承与多态的相关概念、原理、实现方法与操作注意事项,需要的朋友可以参考下2020-04-04

这篇文章主要介绍了解决mybatis-plus使用jdk8的LocalDateTime 查询时报错的方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧2020-08-08

这篇文章主要介绍了成功解决IDEA2020 Plugins 连不上、打不开的方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧2020-06-06

这篇文章主要介绍了教你如何用Jenkins自动化部署项目(从零到搭建完成),文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧2020-10-10

最近学习java,接触到了回调机制(CallBack)。初识时感觉比较混乱,而且在网上搜索到的相关的讲解,要么一言带过,要么说的比较单纯的像是给CallBack做了一个定义,本文给大家介绍JAVA的回调机制CallBack,感兴趣的朋友一起学习2016-04-04

最新评论

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。