网络安全（4）

一.常用的元字符

. 匹配除换行符以外的任意字符

\w	匹配字母或数字或下划线或汉字
\s	匹配任意的空白符
\d	匹配数字
\b	匹配单词的开始或结束
^	匹配字符串的开始（在集合字符里[^a]表示非（不匹配）的意思
$	匹配字符串的结束
1
2
3
4
5
6

详解和示例：

（1）. 匹配任何任意字符例如 . 可以匹配 1，n，*，+，- ,等
（2）\d\w\s 匹配第一个字符为数字，第二个字符为字母或数字、或下划线或汉字，第三字符为空格的字符串例如：11 ，2a , 1_
（3）^\d\d\d$ 匹配三个全部都为数字的字符串例如： 123,456,789
还可以用于验证输入的字符串是否符合qq（身份证号）的验证：
例如：^\d{8}$ 匹配8位数字的qq号，^\d{15}&匹配15位均为数字的身份证号
（4）\bOlive\b 匹配单词Olive 例如： I Love Oliver and Olive .这个时候返回的是Olive 而不是Oliver,因为\b…\b返回的匹配的单词

二、反义字符

反义字符：多用于查找除某个字符以外其他任意字符均可以的情况
常用的反义字符如下：

\W	匹配任意不是字母，数字，下划线，汉字的字符
\S	匹配任意不是空白符的字符
\D	匹配任意非数字的字符
\B	匹配不是单词开头或结束的位置
[^x]	匹配除了x以外的任意字符
[^aeiou]	匹配除了aeiou这几个字母以外的任意字符
1
2
3
4
5
6

三、限定字符

限定字符多用于重复匹配次数
常用的限定字符如下

*	重复零次或更多次
+	重复一次或更多次
?	重复零次或一次
{n}	重复n次
{n,}	重复n次或更多次
{n,m}	重复n到m次
1
2
3
4
5
6

详解和示例：
（1）\d* 匹配重复0次或多次数字例如:可能为空或任意数字（2,3。。。。）
（2）\d+ 匹配重复1次或多次数字例如:可能为1个或多个数字 1,23,234,2345，…
（3）\d? 匹配重复次个或者一次数字例如：可能为空或者任意的一个数字（1,2，。。。）
（4）\d{8}匹配重复8次数字例如：123456768
（5）\d{4,}匹配重复至少4次数字例如：1234,12345,124244,。。。。。
（6）^\d{8,11}$ 匹配重复8-11次数字例如：12345678,123456789,1234567890,12345678901

四、转义字符

在实际的开发中，可能会遇到要比配元字符的情况，这个时候就需要进行字符转义，如元字符 . * \ 需要转换为. *
例如：需要匹配qq邮箱 \d{8,}+qq+.+com 在这里的. 就需要加斜杠

‘’(单引号)硬转义，其内部所有的shell 元字符、通配符都会被关掉。
“”(双引号)软转义，其内部只允许出现特定的shell 元字符：$用于参数替换 `(反单引号，esc键下面)用于命令替换
\(反斜杠)又叫转义，去除其后紧跟的元字符或通配符的特殊意义
1
2
3

五、字符分枝

字符分枝多用于满足不同情况的选择，用“|”将不同的条件分割开来，比如有些固定电话区号有三位，有些有四位，这个时候可以采用字符分枝
例如：\d{3}-\d{8}|\d{4}-\d{8} 可以匹配两种不同长度区号的固定电话
下边的IP地址正则表达式也有用到字符分枝

六、字符分组

字符分组多用于将多个字符重复，主要通过使用小括号()来进行分组
形如：（\d\w){3} 重复匹配3次（\d\w)
常用于表示IP地址形如： ((25[0-5]|2[0-4][0-9]|[0-1]\d\d).){3}(25[0-5]|2[0-4][0-9]|[0-1]\d\d)

捕获	(exp)	匹配exp,并捕获文本到自动命名的组里
(?exp)	匹配exp,并捕获文本到名称为name的组里，也可以写成(?'name'exp)
(?:exp)	匹配exp,不捕获匹配的文本，也不给此分组分配组号
零宽断言	(?=exp)	匹配exp前面的位置
(?<=exp)	匹配exp后面的位置
(?!exp)	匹配后面跟的不是exp的位置
(?

七、懒惰匹配和贪婪匹配

贪婪匹配：正则表达式中包含重复的限定符时，通常的行为是匹配尽可能多的字符。
懒惰匹配，有时候需要匹配尽可能少的字符。
回溯
当前前面分支/重复匹配成功后，没有多余的文本可被正则后半部分匹配时，会产生回溯
用一个简单的例子来解释一下贪婪匹配和惰性匹配！
贪婪： /\d+\b/
惰性： /d+?\b/
文本： 1234a
贪婪正则匹配 1234a 时的过程是这样的：

\d+ 匹配得到 1234
\b 却匹配失败(\b 是分词边界匹配，用来获取位置，而不是文本，上一节有讲到)
这个时候，\d+会尝试回吐一个字符，即匹配结果为 123 ，可\b还是匹配失败！
那就继续回吐，一直到 1，还是匹配失败，那么这个正则就整体匹配失败了
这个回吐匹配结果的过程就是回溯
惰性正则匹配 1234a 时的过程是这样的：
\d+？ 首先匹配，结果是1 ，紧接着 \b 匹配失败
那就 \d+? 继续匹配，结果是 12 ，紧接着 \b 还是匹配失败
\d+? 一直匹配到1234，紧接着的 \b 依然匹配失败
结果整个正则匹配不成功
例如： a.*b，它将会匹配最长的以a开始，以b结束的字符串。如果用它来搜索aabab的话，它会匹配整个字符串aabab。但是我们此时可能需要匹配的是ab这样的话就需要用到懒惰匹配了。懒惰匹配会匹配尽可能少的字符
1
2
3
4
5
6
7
8
9
10
11

*?	重复任意次，但尽可能少重复
+?	重复1次或更多次，但尽可能少重复
??	重复0次或1次，但尽可能少重复
{n,m}?	重复n到m次，但尽可能少重复
{n,}?	重复n次以上，但尽可能少重复
1
2
3
4
5

LINUX中的正则表达式

正则表达式是用来匹配字符串的，针对文件内容的文本过滤工具里，大都用到正则表达式，如vi，grep，awk，sed等。
最常使用的特殊字符如下

^指向一行的开头
$指向一行的结尾
.任意单个字符
[]字符范围。如[a-z]
1
2
3
4

如果想将上述字符用作普通字符，就需要在它们前面加上\字符。例如，如果想使用$字符，你需要将它写为\ $
在方括号中还可以使用一些有用的特殊匹配模式

匹配字符

-  . 匹配任意单个字符，不能匹配空行
-  [] 匹配指定范围内的任意单个字符
-  [^] 取反
-  [:alnum:] 或 [0-9a-zA-Z]
-  [:alpha:] 或 [a-zA-Z]
-  [:upper:] 或 [A-Z]
-  [:lower:] 或 [a-z]
-  [:blank:] 空白字符（空格和制表符）
-  [:space:] 水平和垂直的空白字符（比[:blank:]包含的范围广）
-  [:cntrl:] 不可打印的控制字符（退格、删除、警铃...）
-  [:digit:] 十进制数字 或[0-9]
-  [:xdigit:]十六进制数字
-  [:graph:] 可打印的非空白字符
-  [:print:] 可打印字符
-  [:punct:] 标点符号
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15

配置次数

格式

***** 匹配前面的字符任意次，包括0次，贪婪模式：尽可能长的匹配
.* 任意前面长度的任意字符，不包括0次
? 匹配其前面的字符0 或 1次
+ 匹配其前面的字符至少1次
{n} 匹配前面的字符n次
{m,n} 匹配前面的字符至少m 次，至多n次
{,n} 匹配前面的字符至多n次
{n,} 匹配前面的字符至少n次
1
2
3
4
5
6
7
8

分组和后向引用

（1）格式
① 分组：() 将一个或多个字符捆绑在一起，当作一个整体进行处理
　　分组括号中的模式匹配到的内容会被正则表达式引擎记录于内部的变量中，这些变量的命名方式为: \1, \2, \3, …
② 后向引用
引用前面的分组括号中的模式所匹配字符，而非模式本身
\1 表示从左侧起第一个左括号以及与之匹配右括号之间的模式所匹配到的字符
\2 表示从左侧起第2个左括号以及与之匹配右括号之间的模式所匹配到的字符，以此类推
& 表示前面的分组中所有字符

通配符

*匹配 0 或多个字符a*b a与b之间可以有任意长度的任意字符, 也可以一个也没有, 如aabcb, axyzb, a012b, ab。
?匹配任意一个字符a?b a与b之间必须也只能有一个字符, 可以是任意字符, 如aab, abb, acb, a0b。
[list]匹配 list 中的任意单一字符a[xyz]b  a与b之间必须也只能有一个字符, 但只能是 x 或 y 或 z, 如: axb, ayb, azb。
[!list]或[^list]匹配 除list 中的任意单一字符a[!0-9]b a与b之间必须也只能有一个字符, 但不能是阿拉伯数字, 如axb, aab, a-b。
[c1-c2]匹配 c1-c2 中的任意单一字符 如：[0-9] [a-z]a[0-9]b 0与9之间必须也只能有一个字符 如a0b, a1b... a9b。
[!c1-c2]或[^c1-c2]匹配不在c1-c2的任意字符a[!0-9]b 如acb adb
{string1,string2,...}匹配 sring1 或 string2 (或更多)其一字符串a{abc,xyz,123}b 列出aabcb,axyzb,a123b
1
2
3
4
5
6
7

shell Meta字符（元字符）

IFS由  或  或  三者之一组成(我们常用 space )
CR由  产生
=设定变量
$取变量值或取运算值
> 重定向 stdout
< 重定向 stdin
|管道符号
&重导向 file descriptor ，或将命令置于背景执行
( )将其内的命令置于 nested subshell 执行，或用于运算或命令替换
{ }将其内的命令置于 non-named function 中执行，或用在变量替换的界定范围
;在前一个命令结束时，而忽略其返回值，继续执行下一个命令
&&在前一个命令结束时，若返回值为 true，继续执行下一个命令
||在前一个命令结束时，若返回值为 false，继续执行下一个命令
!运算意义上的非（not）的意思
#注释，常用在脚本中
\转移字符，去除其后紧跟的元字符或通配符的特殊意义
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16

通配符和正则表达式比较

（1）通配符和正则表达式看起来有点像，不能混淆。可以简单的理解为通配符只有*,?,[],{}这4种，而正则表达式复杂多了。
（2）在通配符和正则表达式中有其不一样的地方，在通配符中可以匹配任意的0个或多个字符，而在正则表达式中他是重复之前的一个或者多个字符，不能独立使用的。比如通配符可以用*来匹配任意字符，而正则表达式不行，他只匹配任意长度的前面的字符。

相关阅读:
Python学习记录函数基础
Microsoft Excel 101 简介
常见分词算法综述
滑动窗口解题思路
51单片机智能语音识别分类垃圾箱桶新国标垃圾分类4种垃圾脚踏开关4个舵机
R语言ggplot2可视化：使用ggpubr包的ggpie函数可视化饼图（pie chart）、为饼图添加自定义标签（包含文本内容以及数值百分比）
3.11笔记3
Scala、Spark的安装及配置
页面置换算法的模拟实现及命中率对比
Python获取命令行参数的方法sys.argv

原文地址：https://blog.csdn.net/weixin_52776876/article/details/125894596