• Python正则表达式



    校验正则: https://regex101.com/

    1.点-匹配所有字符

    . 表示要匹配除了 换行符 之外的任何 单个 字符。

    content = """苹果是绿色的
    橙子是橙色的
    香蕉是黄色的
    乌鸦是黑色的"""
    # re模块是python的内置模块,提供了对于正则表达式的支持
    import re
    # 正则表达式
    p = re.compile(".色")
    # 在content里面使用正则表达式查找内容,将找到的内容赋值给变量
    message = p.findall(content)
    print(message)
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11

    2.星号-重复匹配任意次

    * 表示匹配前面的子表达式任意次,包括0次。

    content = """苹果,是绿色的
    橙子,是橙色的
    香蕉,是黄色的
    乌鸦,是黑色的
    猴子,"""
    # re模块是python的内置模块,提供了对于正则表达式的支持
    import re
    # 正则表达式
    p = re.compile(",.*")
    # 在content里面使用正则表达式查找内容,将找到的内容赋值给变量
    message = p.findall(content)
    print(message)
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12

    3.加号-重复匹配多次

    + 表示匹配前面的子表达式一次或多次,不包括0次。

    content = """苹果,是绿色的
    橙子,是橙色的
    香蕉,是黄色的
    乌鸦,是黑色的
    猴子,"""
    # re模块是python的内置模块,提供了对于正则表达式的支持
    import re
    # 正则表达式
    p = re.compile(",.+")
    # 在content里面使用正则表达式查找内容,将找到的内容赋值给变量
    message = p.findall(content)
    print(message)
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12

    4.问号-匹配0-1次

    ? 表示匹配前面的子表达式0次或1次

    content = """苹果,绿色的
    橙子,橙色的
    香蕉,黄色的
    乌鸦,黑色的
    猴子,,"""
    # re模块是python的内置模块,提供了对于正则表达式的支持
    import re
    # 正则表达式
    p = re.compile(",.?")
    # 在content里面使用正则表达式查找内容,将找到的内容赋值给变量
    message = p.findall(content)
    print(message)
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12

    5.花括号-匹配指定次数

    花括号表示 前面的字符匹配 指定的次数

    content = """红彤彤,绿油油,黑乎乎乎乎,绿油油油油"""
    # re模块是python的内置模块,提供了对于正则表达式的支持
    import re
    # 正则表达式
    p = re.compile("油{2,4}")
    # 在content里面使用正则表达式查找内容,将找到的内容赋值给变量
    message = p.findall(content)
    print(message)
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8

    6.贪婪模式和非贪婪模式

    我们要把下面的字符串中的所有html标签都提取出来,

    source = 'Title'
    
    • 1

    得到这样的一个列表

    ['', '', ''</span><span class="token punctuation">,</span> <span class="token string">'']
    
    • 1

    <.>这样写是不对的,因为在python中 . 都是贪婪的,会尽可能多的向后匹配,

    为了解决这问题就要使用非贪婪模式 ,只需要加?即可

    content = """Title"""
    # re模块是python的内置模块,提供了对于正则表达式的支持
    import re
    # 正则表达式
    p = re.compile("<.*?>")
    # 在content里面使用正则表达式查找内容,将找到的内容赋值给变量
    message = p.findall(content)
    print(message)
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8

    7.对元字符的转义

    反斜杠 \ 在正则表达式中有多种用途。

    所谓元字符的转义,就是让元字符失去原来的含义

    content = """苹果.是绿色的
    橙子.是橙色的
    香蕉.是黄色的"""
    # re模块是python的内置模块,提供了对于正则表达式的支持
    import re
    # 正则表达式
    p = re.compile(".*\.")
    # 在content里面使用正则表达式查找内容,将找到的内容赋值给变量
    message = p.findall(content)
    print(message)
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10

    \d 匹配0-9之间任意一个数字字符,等价于表达式 [0-9]

    \D 匹配任意一个不是0-9之间的数字字符,等价于表达式 [^0-9]

    \s 匹配任意一个空白字符,包括 空格、tab、换行符等,等价于表达式 [\t\n\r\f\v]

    \S 匹配任意一个非空白字符,等价于表达式 [^ \t\n\r\f\v]

    \w 匹配任意一个文字字符,包括大小写字母、数字、下划线,等价于表达式 [a-zA-Z0-9_]

    缺省情况也包括 Unicode文字字符,如果指定 ASCII 码标记,则只包括ASCII字母

    \W 匹配任意一个非文字字符,等价于表达式 [^a-zA-Z0-9_]

    8.方括号-匹配几个字符之一

    9.起始、结尾位置 和 单行、多行模式

    ^ 表示匹配文本的 开头 位置。

    正则表达式可以设定 单行模式多行模式

    如果是 单行模式 ,表示匹配 整个文本 的开头位置。

    如果是 多行模式 ,表示匹配 文本每行 的开头位置。

    python中默认是单行模式

    content = """001-苹果价格-60002-橙子价格-70,
    003-香蕉价格-80,"""
    # re模块是python的内置模块,提供了对于正则表达式的支持
    import re
    # 正则表达式
    # 默认是单行模式,如果要找每一行开头的内容,则需要开启多行模式re.MULTILINE或者re.M
    p = re.compile("^\d+-", re.MULTILINE)
    # 在content里面使用正则表达式查找内容,将找到的内容赋值给变量
    message = p.findall(content)
    print(message)
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11

    $ 表示匹配文本的 结尾 位置。

    如果是 单行模式 ,表示匹配 整个文本 的结尾位置。

    如果是 多行模式 ,表示匹配 文本每行 的结尾位置。

    content = """001-苹果价格-60
    002-橙子价格-70
    003-香蕉价格-80"""
    # re模块是python的内置模块,提供了对于正则表达式的支持
    import re
    # 正则表达式
    # 默认是单行模式,如果要找每一行开头的内容,则需要开启多行模式re.MULTILINE或者re.M
    p = re.compile("-\d*$", re.MULTILINE)
    # 在content里面使用正则表达式查找内容,将找到的内容赋值给变量
    message = p.findall(content)
    print(message)
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11

    10.竖线-匹配两者之一

    竖线表示 匹配 前者 或 后者

    content = """001-苹果价格-60
    002-橙子价格-70
    003-香蕉价格-80"""
    # re模块是python的内置模块,提供了对于正则表达式的支持
    import re
    # 正则表达式
    p = re.compile("橙|蕉|7")
    # 在content里面使用正则表达式查找内容,将找到的内容赋值给变量
    message = p.findall(content)
    print(message)
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10

    11.括号-组选择

    括号称之为 正则表达式的 组选择。 是从正则表达式 匹配的内容 里面 扣取出 其中的某些部分

    content = """苹果,苹果是绿色的
    橙子,橙子是橙色的
    香蕉,香蕉是黄色的"""
    # re模块是python的内置模块,提供了对于正则表达式的支持
    import re
    # 正则表达式
    p = re.compile("(.*),")
    # 在content里面使用正则表达式查找内容,将找到的内容赋值给变量
    message = p.findall(content)
    print(message)
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    content = """张三,手机号码15945678901
    李四,手机号码13945677701
    王二,手机号码13845666901"""
    # re模块是python的内置模块,提供了对于正则表达式的支持
    import re
    # 正则表达式
    p = re.compile("(.*),\D*(\d*)")
    # 在content里面使用正则表达式查找内容,将找到的内容赋值给变量
    message = p.findall(content)
    print(message)
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
  • 相关阅读:
    DxO PhotoLab 6 for Mac/Win:专业RAW图片编辑的利器
    UniPro助力半导体企业之低代码平台篇:高效协同快速响应
    HTTP协议版本检测
    【软件设计师21天-考点整理】3)计算机系统构成及硬件基础知识
    LRU缓存机制
    第五章:TCP和UDP基本原理
    Qt软件发布(版本信息,Release版程序,代码打包,制作安装包)
    MCS:离散随机变量——Hyper Geometric分布
    【人工智能/算法】搜索求解(Solving Problems by Searching)
    基于PLE结合卡尔曼滤波的RSSI定位算法matlab仿真
  • 原文地址:https://blog.csdn.net/a328062954/article/details/127730895