JavaScript常用正则表达式与应用(一)

mac2022-06-30  18

JavaScript的String类和RegExp对象类都定义了相关方法使用正则表达式进行模式匹配,本文将以连载方式介绍JavaScript常用正则表达式与相关应用,欢迎交流

 本节是连载一,首先介绍JavaScript语言常用的正则表达式,如何应用将在后几篇介绍。

所有案例将采用在线正则表达式验证工具RegExr进行测试,地址是:http://regexr.com/v1/

测试文本来自Prestel Publishing Ltd.出版某书籍的版权信息:

Copy Right The Library of Congress Cataloguing-in-publication data is available; British Libarary Cataloguing-in-Publication Data:a catalogue record for this book is available from the British Libarary; Deutsche Bibliothek holds a record of this publication in the Deutsche Nationalbibliografie; detailed bibliographical data can be found under:http://dnb.ddb.de Prestel Verlag,Munich·Berlin·london·New York 2006 (First published in hardback) Prestel Verlag Koniginstrasse 9,80539 Munich Tel.(089)387109-0;fax(089)387109-35 Prestel Publishing Ltd.

 

1.匹配字符串字面值:

正则表达式字面值包含在一对正斜杠内,如:var parttern=/P/ ,意为匹配大写字符"P"(使用RegExr测试时不用输入正斜杠,直接在match一栏输入字面值即可)

如下图所示,在match一栏输入"P"(同时勾选global和multiline,含义将在下文解释),将目标文档中所有的大写字母"P"均以蓝绿色高亮显示:

[1]

输入任何在本文中出现的字符或数字,都会实现直接匹配效果,感兴趣的可以继续尝试。

 

2.匹配字符集与字符集简写

 如果想匹配目标文本中的某一类字符,比如数字、空格或者是小写字母,则要使用字符集,以下给出了常用字符集正则表达式和其简写形式:

[2]

下图为测试数字匹配的实例,[0-9]和\d的匹配结果一致:

[3]

[4]

另外,在RegExr中可使用点号"."匹配任意字符,详见下图:

[5]

 

 

3.匹配元字符字面值

 正则表达式中有些字符输入字面值是不会予以匹配的,这些字符即为元字符。元字符有如下几种:^ $ . * + ? = ! : | \ / () [] {} 每个元字符都有其特殊含义,下文将一一解释。元字符字面值不参与匹配,如需匹配元字符内容则有如下三种常见方式:

1)对元字符用反斜杠"\"进行转义,下例用"\."来匹配点号"."字面值:

[6]

 

2)将元字符放入\Q和\E之间,下例用"\Q.\E"来匹配点号"."字面值:

[7]

 

3)将元字符放入字符组,用"[]"号括起来,下例用"[.]"来匹配点号字面值:

[8]

 

 

4.正则表达式的量词

 在上文-2节中,我们在RegExr中勾选global,并使用\d来匹配目标文本中出现的所有数字。所有数字均被高亮显示。

 如果我们要匹配目标文本的电话号码Tel.(089)387109-0,要怎么处理呢?这个电话号码由()括起来的3位区号,5位数字,连接符-,后加1位数字组成。可使用如下语法匹配电话号码:

\(\d{3}\)\d{6}[-]\d{1}(?=\;)

[9]

以下是对该语法的逐条解释:

[10]

上式使用了(?=\;)来保证只匹配电话号码。如果要既要匹配电话号码,也要匹配传真号,需要使用下式:

\(\d{3}\)\d{6}[-]\d{1,2}

其中,d{1,2}表示可以匹配至少1位数字,至多2位数字。由下图可见,该表达式可同时匹配目标文档的电话号码与传真号:

[11]

正则表达式量词除了上文使用的\d{n}和\d{n,m}外,还有问号"?"、星号" *"和加号"+",分别有不同含义:

[12]

 

5.正则表达式的选择、分组和引用

正则表达式可以使用元字符"|"、"()"和"\"进行选择、分组和引用操作:

[13]

1)选择符"|"的匹配包含两种形式:一种情况是各匹配项均独立,不存在包含关系,这种情况下“|”号两边的正则式都会执行匹配。下例使用"ca|t"匹配目标文本,含有"ca"(小写的c,未勾选ingnoreCase)和"t"的字符都会得到匹配:

[14]

另一种情况是匹配项存在包含关系。选择符"|"执行最小匹配,匹配次序从左至右,如果右边的表达式包含左边的表达式,则不再匹配右边。下例使用“ca|cat”匹配目标文本,结果仅匹配"ca",含"cat"的部分并未匹配:

[15]

2)正则表达式用"()"对匹配式进行分组,分组后可以使用"\n"对分组进行引用,n为分组序号。例如:

 [16]

 对本例采用的正则表达式(\d{3})(\))(\d{6})(.{7})\1\2\3进行解释:

 [17]

 

6.正则表达式的边界

正则表达式边界即为标记匹配起始位置的符号,有如下几种:

[18]

1)下例中,"^(P|p)(\w*)"匹配了以p开头的行,而"(P|p)(\w*)"不仅匹配了以p开头的行,还匹配了行内以p开头的字符:

[19]

[20]

2)表达式"[.;]$"匹配了以"."或则";"结尾的行,对于行内的点号"."则未进行匹配:

[21]

3)表达式"\bP\w*n\b"匹配了以大写P开头,小写字母n结尾的单词:

[22]

表达式"\bP\w*n\B"匹配了以大写P开头,小写字母n不作为单词结尾的字符,可以比较一下与上文有何差异:

[23]

4)表达式"\d(?=\;)"表示匹配分号";"前面的一个数字:

[24]

表达式"\d(?!\;)"表示不匹配后面带有分号";"的数字:

[25]

 

7.正则表达式的修饰符

JavaScript支持正则表达式的三种修饰符:

[26]

 

 

以上介绍了常用正则表达式的语法内容,下一篇将介绍正则表达式在JavaScript语言中的应用。

【20050201-Ver1.0.0】

转载于:https://www.cnblogs.com/LuRan/p/RegExp01.html

最新回复(0)