• 正则表达式从理论到时间


    正则表达式在我们的日常工作中,无论是前端,后端开始其他IT岗位都是经常需要用到的,虽然他不难但是由于他的知识点比较琐碎,所以我们需要系统的对其进行学习。

    正则表达式使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串

    正则表达式简单来说就是帮助我们搜索、编辑或者处理文本的一种技术。例如,我们要判断一段文本是否包含b,aab,aaab,我们就可以使用a*b这样的一串正则表达式。

    常见分类

    字符

    表达式描述举例/备注
    [abc]字符集合。匹配所包含的任意一个字符。匹配 “plain” 中的 ‘a’
    [^abc]负值字符集合。匹配未包含的任意字符。匹配 “plain” 中的’p’、‘l’、‘i’、‘n’
    [a-z]字符范围。匹配指定范围内的任意字符。匹配 ‘a’ 到 ‘z’ 范围内的任意小写字母字符
    .匹配除换行符(\n、\r)之外的任何单个字符。匹配 “plain” 中的’p’、‘l’、‘a’、‘i’、‘n’
    \将下一个字符标记为一个特殊字符、或一个原义字符、或一个 向后引用、或一个八进制转义符。‘n’ 匹配字符 “n”。‘\n’ 匹配一个换行符。序列 ‘\\’ 匹配 “\” 而 “\(” 则匹配 “(”
    \w匹配字母、数字、下划线。等价于’[A-Za-z0-9_]’
    \W匹配非字母、数字、下划线。等价于 ‘[^A-Za-z0-9_]’
    \d匹配一个数字字符。等价于 [0-9]
    \D匹配一个非数字字符等价于 [^0-9]
    \s匹配任何空白字符,包括空格、制表符、换页符等等。等价于 [ \f\n\r\t\v]
    \S匹配任何非空白字符。等价于 [^ \f\n\r\t\v]

    分组和引用

    (pattern)匹配 pattern 并获取这一匹配。/
    (?:pattern)匹配 pattern 但不获取匹配结果,也就是说这是一个非获取匹配,不进行存储供以后使用。/
    (?=pattern)正向肯定预查,在任何匹配pattern的字符串开始处匹配查找字符串。“Windows(?=95|98|NT|2000)“能匹配"Windows2000"中的"Windows”,但不能匹配"Windows3.1"中的"Windows”
    (?!pattern)正向否定预查,在任何不匹配pattern的字符串开始处匹配查找字符串。“Windows(?!95|98|NT|2000)“能匹配"Windows3.1"中的"Windows”,但不能匹配"Windows2000"中的"Windows”
    (?<=pattern)反向肯定预查,与正向肯定预查类似,只是方向相反。“(?<=95|98|NT|2000)Windows"能匹配"2000Windows"中的"Windows”,但不能匹配"3.1Windows"中的"Windows"
    (?<!pattern)反向否定预查,与正向肯定预查类似,只是方向相反。“(?<!95|98|NT|2000)Windows"能匹配"3.1Windows"中的"Windows”,但不能匹配"2000Windows"中的"Windows"
    \num匹配 num,其中 num 是一个正整数。对所获取的匹配的引用。‘(.)\1’ 匹配两个连续的相同字符。
    '(love)(you)\1\2\1’匹配loveyouloveyoulove

    锚点/边界

    ^匹配输入字符串的开始位置。^a,以a开头
    $匹配输出字符串的结束位置。b$,以b结尾
    \b匹配一个单词边界,也就是指单词和空格间的位置。‘er\b’ 可以匹配"never" 中的 ‘er’,但不能匹配 “verb” 中的 ‘er’。
    \B匹配非单词边界。‘er\B’ 能匹配 “verb” 中的 ‘er’,但不能匹配 “never” 中的 ‘er’。

    数量表示

    *匹配前面的子表达式零次或多次。zo* 能匹配 “z” 以及 “zoo”。* 等价于{0,}。
    +匹配前面的子表达式一次或多次。‘zo+’ 能匹配 “zo” 以及 “zoo”,但不能匹配 “z”。+ 等价于 {1,}。
    ?匹配前面的子表达式零次或一次。“do(es)?” 可以匹配 “do” 或 “does” 。? 等价于 {0,1}。
    {n}n 是一个非负整数。匹配确定的 n 次。‘o{2}’ 不能匹配 “Bob” 中的 ‘o’,但是能匹配 “food” 中的两个 o。
    {n,}n 是一个非负整数。至少匹配n 次。‘o{2,}’ 不能匹配 “Bob” 中的 ‘o’,但能匹配 “foooood” 中的所有 o。‘o{1,}’ 等价于 ‘o+’。‘o{0,}’ 则等价于 ‘o*’。
    {n,m}m 和 n 均为非负整数,其中n <= m。最少匹配 n 次且最多匹配 m 次。“o{1,3}” 将匹配 “fooooood” 中的前三个 o。‘o{0,1}’ 等价于 ‘o?’。请注意在逗号和两个数之间不能有空格。

    特殊标志

    i将匹配设置为不区分大小写搜索时不区分大小写: A 和 a 没有区别。
    g全局匹配查找所有的匹配项。
    m多行匹配使边界字符 ^ 和 $ 匹配每一行的开头和结尾,记住是多行,而不是整个字符串的开头和结尾。
    s特殊字符圆点 . 中包含换行符 \n默认情况下的圆点 . 是匹配除换行符 \n 之外的任何字符,加上 s 修饰符之后, . 中包含换行符 \n。

    其他

    ?当该字符紧跟在任何一个其他限制符 (*, +, ?, {n}, {n,}, {n,m}) 后面时,匹配模式是非贪婪的非贪婪模式尽可能少的匹配所搜索的字符串,而默认的贪婪模式则尽可能多的匹配所搜索的字符串。例如,对于字符串 “oooo”,‘o+?’ 将匹配单个 “o”,而 ‘o+’ 将匹配所有 ‘o’。
    x|y匹配 x 或 y。‘z|food’ 能匹配 “z” 或 “food”。‘(z|f)ood’ 则匹配 “zood” 或 “food”。

    正则表达式举例分析

    菜鸟教程例子
    在这里插入图片描述

    正则表达式工具

    可视化工具

    菜鸟工具
    在这里插入图片描述

    测试工具

    菜鸟工具
    在这里插入图片描述

    在Java中的应用

    主要用到Pattern,Matcher这两个类

    常见函数

    • matches:整个匹配,只有整个字符序列完全匹配成功,才返回True,否则返回False。
    • lookingAt:部分匹配,总是从第一个字符进行匹配,匹配成功了不再继续匹配,匹配失败了,也不继续匹配。
    • find:部分匹配,从当前位置开始匹配,找到一个匹配的子串,将移动下次匹配的位置。
    • reset:给当前的Matcher对象配上个新的目标,目标是就该方法的参数;如果不给参数,reset会把Matcher设到当前字符串的开始处。
    • start:返回以前匹配的初始索引。
    • end:返回最后匹配字符之后的偏移量。
     private static final String REGEX = "foo";
        private static final String INPUT = "foooooofooooooooooo";
        private static Pattern pattern;
        private static Matcher matcher;
    
        public static void main(String args[]) {
            pattern = Pattern.compile(REGEX);
            matcher = pattern.matcher(INPUT);
    
            System.out.println("Current REGEX is: " + REGEX);
            System.out.println("Current INPUT is: " + INPUT);
    
            System.out.println("find01(): " +matcher.find());//find01(): true
            System.out.println(matcher.group()+" - "+matcher.start()+"-"+matcher.end());//foo - 0-3
    
            System.out.println("find02(): " +matcher.find());//find02(): true
            System.out.println(matcher.group()+" - "+matcher.start()+"-"+matcher.end());//foo - 7-10
    
            matcher.reset();
            
            System.out.println("find03(): " +matcher.find());//find03(): true
            System.out.println(matcher.group()+" - "+matcher.start()+"-"+matcher.end());//foo - 0-3
            
            System.out.println("lookingAt(): " + matcher.lookingAt());//lookingAt(): true
            System.out.println(matcher.group()+" - "+matcher.start()+"-"+matcher.end());//foo - 0-3
    
            System.out.println("matches(): " + matcher.matches());//matches(): false
        }
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18
    • 19
    • 20
    • 21
    • 22
    • 23
    • 24
    • 25
    • 26
    • 27
    • 28

    这里要介绍一下捕获组的概念:
    捕获组是把多个字符当一个单独单元进行处理的方法,它通过对括号内的字符分组来创建。
    例如,正则表达式(dog) 创建了单一分组,组里包含"d",“o”,和"g"。
    捕获组是通过从左至右计算其开括号来编号。例如,在表达式((A)(B(D))),有四个这样的组:

    • ((A)(B(D)))
    • (A)
    • (B(D))
    • (D)

    可以通过调用matcher对象的groupCount方法来查看表达式有多少个分组。groupCount方法返回一个int值,表示matcher对象当前有多个捕获组。
    还有一个特殊的组(组0),它总是代表整个表达式。该组不包括在groupCount的返回值中。
    从而引出下面三个函数中参数的使用:

    • group(i)中的参数i:表示符合正则表达式捕获组i的字符串
    • start(i)中的参数i:表示符合正则表达式捕获组i的字符串起始位置
    • end(i)的参数i:表示符合正则表达式捕获组i的字符串结束位置

    下面具体分析一个例子:

      
          // 按指定模式在字符串查找
            String line = "I was 100 years old 7 you are 200 years old 123456";
            String pattern = "(\\D+)(\\d+)(\\D+)";
    
            // 创建 Pattern 对象
            Pattern r = Pattern.compile(pattern);
    
            // 现在创建 matcher 对象
            Matcher m = r.matcher(line);
            int groupCount = m.groupCount();
            System.out.println(groupCount);
            while (m.find()) {
                for (int n = 0; n <= groupCount; n++) {
                    System.out.println("Found value: " + m.group(n) + ":" + m.start(n) + ":" + m.end(n));
                }
                System.out.println();
            }
            //3
            //Found value: I was 100 years old :0:20
            //Found value: I was :0:6
            //Found value: 100:6:9
            //Found value:  years old :9:20
        
            //Found value:  you are 200 years old:21:43
            //Found value:  you are :21:30
            //Found value: 200:30:33
            //Found value:  years old:33:43
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18
    • 19
    • 20
    • 21
    • 22
    • 23
    • 24
    • 25
    • 26
    • 27
    • 28

    在这里插入图片描述

    首先我们看一下整个正则表达式能表示的字符串(1个或者多个非数字字符)(1个或多个数字字符)(1个或者多个非数字字符)
    组0:1个或者多个非数字字符 连接 1个或多个数字字符 1个或者多个非数字字符
    组1:1个或者多个非数字字符
    组2:1个或多个数字字符
    组3:1个或者多个非数字字符
    组0能匹配到字符串=》组1,2,3都可以匹配到字符串,思考一下对不对?是对的吧。
    我们可以认为find是去匹配组0的,一旦find匹配到了第一个字符串,也就是I was 100 years old,那group(0)其实就是I was 100 years old,group (1)就是I was,以此类推。并且Java的正则表达式默认是贪婪匹配,总是匹配最长的,所以group(2)才是100,而不是1。
    而我们进入下一次的find,匹配到的第二个字符串就是 you are 200 years old,group(0)就是you are 200 years old,group(1)就是you are ,以此类推。
    而每一次的start,end就是对应组的起始和结束位置。
    假如说组1,组2能匹配到,但是组3匹配不到,那我们可以认为组0其实无法匹配到符合的字符串,那么find其实返回的是false,就无法进入下一次循环。

    常见的正则表达式

    这个网上有很多在这就不多做赘述了

  • 相关阅读:
    Vue学习
    .NET C#基础:While & do-while
    【C语言】深入理解KMP算法及C语言实现
    Java零基础-进制转换
    TypeScript 笔记:基础类型
    【0基础学习mysql】之日期函数和流程函数
    Centos 7.4 系统,使用wireshark 抓包,获取数据包来源IP(生产环境测试可用)
    MyEclipse2019配置TomCat8.0
    新建esp32的vscode工程的三种方式
    IP行业查询API:为用户分析提供帮助
  • 原文地址:https://blog.csdn.net/h13245/article/details/125568212