awk RS,ORS RT,FS,OFS 含义 - 码农知识堂

awk RS,ORS RT,FS,OFS 含义
```
变量 说明	
$0 表示整个当前行	
$1 ~ $n 当前记录的第N个字段	
FS 输入字段分隔符（-F相同作用）默认空格	
RS 输入记录分割符，默认换行符(即文本是按一行一行输入)	
RT 代指分隔符，当RS时固定匹配此时RS=RT。如果RS是正则匹配，则RT是RS正则匹配的值
NF 字段个数就是列	
NR 记录数，就是行号，默认从1开始	
FNR 与NR类似，不过多文件记录不递增，每个文件都从1开始	
OFS 输出字段分隔符，默认空格	
ORS 输出记录分割符，默认换行符	
\t 制表符	
\n 换行符	
~ 匹配，与==相比不是精确比较	
!~ 不匹配，不精确比较	
== 等于，必须全部相等，精确比较	
!= 不等于，精确比较	
&& 逻辑与	
+ 匹配时表示1个或1个以上	
[0-9][0-9]+ 两个或两个以上数字	
[0-9][0-9]* 一个或一个以上数字
```
一：列相关

1.列的输入字段分隔符，FS，-F 默认是空格

1）FS是在BEGIN中定义使用的,-F是参数时候用的作用一样

2）修改列分隔符默认方式为“|”：
```
[root@localhost wubo]# echo "11|22|33|445|66" | awk -F '|' '{print $0}'
11|22|33|445|66
[root@localhost wubo]# echo "11|22|33|445|66" | awk -F '|' '{print $2}'
22
[root@localhost wubo]# echo "11|22|33|445|66" | awk  'BEGIN{FS="|"}{print $0}'
11|22|33|445|66
[root@localhost wubo]# echo "11|22|33|445|66" | awk  'BEGIN{FS="|"}{print $2}'
22
```
2.列的输出字段分隔符，OFS默认是空格

1)OFS：默认空格，此时$1和$2输出内容的连接是空格
```
[root@localhost wubo]# echo "11|22|33|445|66" | awk  'BEGIN{FS="|"}{print $1,$2}'
11 22
```
2)OFS修改为“-”，此时$1和$2输出内容的连接是“-”
```
[root@localhost wubo]# echo "11|22|33|445|66" | awk  'BEGIN{FS="|";OFS="-"}{print $1,$2}'
11-22
```
也可以这样：
```
[root@localhost wubo]# echo "11|22|33|445|66" | awk  'BEGIN{FS="|"}{print $1"-"$2}'
11-22
```
3.NF:列的个数，默认是用空格分割后来记录列的个数

1）默认：
```
[root@localhost wubo]# echo "11|22|33|445|66" | awk  '{print NF}'
1
```
1列：因为默认是空格

2）修改列的分隔符之后：
```
[root@localhost wubo]# echo "11|22|33|445|66" | awk  'BEGIN{FS="|"}{print NF}'
5
或
[root@localhost wubo]# echo "11|22|33|445|66" | awk -F "|" '{print NF}'
5
 
 
$NF 取最后一列的数据展示
[root@localhost wubo]# echo "11|22|33|445|66" | awk -F "|" '{print $NF}'
66
```
5列：因为修改分隔符为“|”

4. NR:行号，默认1开始
```
[root@localhost wubo]# cat data4.txt 
 111 222
 333 444
 555 666
[root@localhost wubo]# awk  '{print NR,$0}' data4.txt 
1  111 222
2  333 444
3  555 666
```
解释：三行

5. FNR 与NR类似，不过多文件记录不递增，每个文件都从1开始
```
[root@localhost wubo]# cat data4.txt 
 111 222
 333 444
 555 666
[root@localhost wubo]# cat data5.txt 
 111 222
 333 444
 555 666
 
[root@localhost wubo]# awk  '{print NR,$0}' data4.txt data5.txt 
1  111 222
2  333 444
3  555 666
4  111 222
5  333 444
6  555 666
 
递增
 
[root@localhost wubo]# awk  '{print FNR,$0}' data4.txt data5.txt 
1  111 222
2  333 444
3  555 666
1  111 222
2  333 444
3  555 666
 
不递增
```
二：行相关： awk是基于行列操作文本的，但如何定义“行”呢？这就是RS的作用。
默认情况下，RS的值是。下面通过实例来理解下RS。

1.RS指定行输入分隔符默认分隔符为\n。在计算机语言中字符遇到\n就会换行。此时我们可以改变这种行为遇到我们定的分隔符进行换行。

1）默认遇到\n就换行：echo -e 激活转移字符
```
[root@localhost wubo]# echo -e  "111 222\n333 444\n555 666" | awk '{print $0}'
111 222
333 444
555 666
```
2）改变RS输入分隔符为 “|” ，此时遇到“|” 就换行
```
[root@localhost wubo]# echo -e "111 222|333 444|555 666" | awk 'BEGIN{RS="|"}{print $0}'
111 222
333 444
555 666
```
2.1)遇到a换行输出：
```
[root@localhost wubo]# echo '1a2a3a4a5' | awk '{print $1}'
1a2a3a4a5
[root@localhost wubo]# echo '1a2a3a4a5' | awk 'BEGIN{RS="a"}{print $1}'
1
2
3
4
5
```
2.2）处理这种包括多行数据的记录，我们可以将字段分隔符【FS】定义为换行符【\n】，并将记录分隔符【RS】设置为空字符串【“”】它代表一个空行。
```
[root@localhost wubo]# cat test1.txt 
john 85 92 78 94 88
andrea 89 90 75 90 86 92
jasper 84 88 80 92 84 94 83
[root@localhost wubo]# awk 'BEGIN{FS="\n";RS=""}{print $2}' test1.txt 
andrea 89 90 75 90 86 92
[root@localhost wubo]# awk 'BEGIN{FS="\n";RS=""}{print $1}' test1.txt 
john 85 92 78 94 88
[root@localhost wubo]# awk 'BEGIN{FS="\n";RS=""}{print $3}' test1.txt 
jasper 84 88 80 92 84 94 83
[root@localhost wubo]# awk 'BEGIN{FS="\n";RS=""}{print $0}' test1.txt 
john 85 92 78 94 88
andrea 89 90 75 90 86 92
jasper 84 88 80 92 84 94 83
```
我们可以看到，在更改了RS的值后，awk定义的行已经不是我们实际意义中的行了。上面RS固定的字符串，RS也可以定义为正则表达式。
```
[root@localhost wubo]# echo '1ab2bc3cd4de5' | awk 'BEGIN{RS="[a-z]+"}{print $1,RS,RT}'
1 [a-z]+ ab
2 [a-z]+ bc
3 [a-z]+ cd
4 [a-z]+ de
5 [a-z]+ 
```
当我们将RS设置为正则表达式的时候，RT这个变量就有作用了，RS的值始终为我们设定的正则，RT的值则是这个正则实际匹配到的内容。

如果RS被设置为空，那么awk会将连续的空行作为行分隔符，与RS设置成" +"有什么区别
1、忽略文件开头和结尾的空行。且文件不以记录分隔符结束，即最后不是空行，会将最后一个记录的尾去掉
2、不设置RT变量（测试未发现规律，暂时认为RT变量不可用）
3、影响FS变量

总结下RS的3种情况：
1) 非空字符串
以固定字符串作为行分隔符，同时设置变量RT为固定字符串
```
[root@localhost wubo]# echo '1a2a3a4a5' | awk 'BEGIN{RS="a"}{print $1,RS,RT}'
1 a a
2 a a
3 a a
4 a a
5 a 
```
2) 正则表达式
以正则表达式作为行分隔符，同时设置变量RT为正则表达式实际匹配到的字符串
```
[root@localhost wubo]# echo '1ab2bc3cd4de5' | awk 'BEGIN{RS="[a-z]+"}{print $1,RS,RT}'
1 [a-z]+ ab
2 [a-z]+ bc
3 [a-z]+ cd
4 [a-z]+ de
5 [a-z]+ 
```
3) 空字符
以连续的空行作为行分隔符，如果FS为单个字符，会将强制加入到FS变量中
```
[root@localhost wubo]# echo '1ab2bc3cd4de5' | awk 'BEGIN{RS=""}{print $1,RS,RT}'
1ab2bc3cd4de5 
```
理解了RS，再来理解ORS就简单了。RS是awk读取文件时的行分隔符，ORS则是awk输出时的行结束符。
更简单的讲，就是awk在输出时，会在每行记录后面增加一个ORS变量所设定的值。
ORS的值只能设定为字符串，默认情况下，ORS的值是换行符\n

2. ORS指定输出行分隔符,默认是“\n”
```
[root@localhost wubo]# seq 5 | awk '{print $0}'
1
2
3
4
5
[root@localhost wubo]# 
[root@localhost wubo]# seq 5 | awk 'BEGIN{ORS="a"}{print $0}'
1a2a3a4a5a[root@localhost wubo]# 
```
我们平常用的 print $0 等价于 printf $0 ORS
```
[root@localhost wubo]# cat test.txt 
111 222
 
333 444
 
555 666 777
```
1）默认ORS=“\n”：
```
[root@localhost wubo]# awk '{print $0;}' test.txt 
111 222
 
333 444
 
555 666 777
 
或
[root@localhost wubo]# awk 'BEGIN{ORS="\n";}{print $0;}' test.txt 
111 222
 
333 444
 
555 666 777
```
2）修改默认ORS=“|”：
```
[root@localhost wubo]# awk 'BEGIN{ORS="|";}{print $0;}' test.txt 
111 222||333 444||555 666 777|[root@localhost wubo]#
```
3.RT 代指分隔符
```
[root@localhost wubo]#  echo "111 222|333 444|555 666" | awk 'BEGIN{RS="|"}{print $0,RT}'
111 222 |
333 444 |
555 666
```
RS是awk用来定义“行”的，那么FS就是awk用来定义“列”的。设置变量 FS 与使用 -F 参数是一样的。
```
echo '1,2' | awk -F , '{print $1}'
1
echo '1,2' | awk 'BEGIN{FS=","}{print $1}'
1
```
与 RS 类似，FS 同样可以设置为正则表达式
```
[root@localhost wubo]# echo '1ab2bc3cd4de5' | awk 'BEGIN{FS="[a-z]+"}{print $1,$2,$5}'
1 2 5
[root@localhost wubo]# 
```
FS 有1个特例，就是将FS设置为一个空格，FS=" " ，这也是FS的默认值。那么，FS=" " 与 FS="[ ]+" 有区别么？？？
```
[root@localhost wubo]# echo ' 1 2' | awk 'BEGIN{FS=" "}{print $1}'
1
[root@localhost wubo]# echo ' 1 2' | awk 'BEGIN{FS="[ ]+"}{print $1}'
 
[root@localhost wubo]# 
```
当FS=" "时，awk会自动去掉行首和行尾的空格或制表符( ) 或换行符( )，但FS="[ ]+"是不会的

同样，FS也可以设置为空
```
[root@localhost wubo]# echo '123' | awk 'BEGIN{FS=""}{print $1,$2}'
1 2
```
当FS被设置为空字符串的时候，awk会将一行记录的每个字符做为单独的一列。类似的，当我们想以固定的长度来分隔列的时候，可以使用 FIELDWIDTHS 来代替 FS。例如，一行记录的前3个字符作为第一列，接下来的2个字符作为第二列，接下来的4个字符作为第三列
```
[root@localhost wubo]# echo '123456789' | awk 'BEGIN{FIELDWIDTHS="3 2 4"}{print $1,$2,$3}'
123 45 6789
```
如果定义的长度小于实际的长度，awk会截断，如果大于实际长度，则以实际长度为准。
```
[root@localhost wubo]# echo '123456789' | awk 'BEGIN{FIELDWIDTHS="10 2 9"}{print $1,$2,$3}'
123456789 
```
总结下FS的4种情况：
1) 非空字符串
     以固定字符串作为列分隔符
2) 正则表达式
     以正则表达式作为列分隔符
3) 单个空格
     以连续的空格或制表符( ) 或换行符( )作为列分隔符
4) 空字符
     以每个字符做为单独的一列

如果一行记录有很多列，同时想改变输出的分隔符，print $1,$2,$3 ... 启不是很麻烦？
当然有简单的方法：
```
[root@localhost wubo]# echo '1 2 3 4 5' | awk -v OFS="|" '{print $0}'
1 2 3 4 5
[root@localhost wubo]# echo '1 2 3 4 5' | awk -v OFS="|" '{$1=$1;print $0}'
1|2|3|4|5
[root@localhost wubo]# echo '1 2 3 4 5' | awk -v OFS="|" '{NF+=0;print $0}'
1|2|3|4|5
```
为了使OFS的设置生效，需要改变 $0 ，这里我们是对 awk 撒了个小谎
$1=$1 或者 NF+=0， $0 本身的内容实际上没有任何改变，只是为了使 OFS 的设置生效

在理解了 RS 和 FS 之后，我们来回顾开始的那句话：“awk是基于行列操作文本的”
这个说法实际上不是很准确，因为在改变了 RS 后，awk 中的“行”已经不是一般的“行”了
同样，改变了 FS 后，awk 中的“列”也已经不是一般的“列”了
因此，准确的应该这样讲：“awk是基于记录(record) 和域(field) 操作文本的”

三、0 与 "0" 差在哪我们先来看一个例子：
```
awk 'BEGIN{if(0) print "true";else print "false"}'
 
false
 
awk 'BEGIN{if("0") print "true";else print "false"}'true
```
为什么同样是 0 ，结果却不一样？
其实要解释这个问题，只需要弄清楚awk中的“真”与“假”。
以下3种情况是“假”，其他情况都为“真”
1) 数字 0
2) 空字符串
3) 未定义的值
```
 awk 'BEGIN{a=0;if(a) print "true";else print "false"}'
 
false
 
awk 'BEGIN{a="";if(a) print "true";else print "false"}'
 
false
 
awk 'BEGIN{if(a) print "true";else print "false"}'
 
false
```
awk如何去重？
1.awk '! a[$0] ++'

在解释之前，我们先要了解awk的一个特性：
awk 会根据语境来给未定义的变量赋初始值
awk 'BEGIN{print a "" 1}'

1

awk 'BEGIN{print a + 1}'

1

对于未定义的变量，如果要进行字符串操作，会被赋成空字符串 ""
如果要进行数学运算，会被赋成数字 0

现在我们看看上面的代码 ! a[$0] ++ 等价于 if(! a[$0] ++) print $0
对于首次出现的记录，a[$0]的值是未定义的，由于后面的 ++ 是数学计算，所以a[$0]会被赋值成数字0
也是由于 ++ 操作符，会先取值，再计算，所以对于第一行记录实际上是if(! 0) print $0
! 是取反，0 是假，! 0 就是真，那么就会执行后面的 print $0
对于后面出现的重复记录，a[$0] 经过 ++ 的计算已经变为 1、2、3 。。。
而 ! 1 ! 2 ! 3 ... 都为假，不会打印。

下面我们用黑哥的一段代码来深刻体会一下，用awk打印奇数行：
seq 10 | awk 'i=!i'

1

3

5

7

9

Linux中awk后面的RS, ORS, FS, OFS 含义 - 走看看
相关阅读:
java解析遍历List集合(其实现子类)的三种方式
 2022 CMU15-445 Project0 Trie
网络基础（了解网络知识的前提）
c语言每日一练(13)
创新案例分享 | 一体化政务服务平台运维项目，全力提升平台服务效能
 如何通用系统平台这个黑科技把网店做大，需要注意什么？
UE5 不同的编译模式下，module的组织形式
 华为云云耀云服务器L实例评测｜云耀云服务器L实例部署SpaceHuggers网页小游戏
 【Vue面试题十七】、你知道vue中key的原理吗？说说你对它的理解
 电脑屏幕录制：录制高清视频画面以及声音
原文地址：https://blog.csdn.net/Michaelwubo/article/details/126055054