• awk RS,ORS RT,FS,OFS 含义


    1. 变量 说明
    2. $0 表示整个当前行
    3. $1 ~ $n 当前记录的第N个字段
    4. FS 输入字段分隔符(-F相同作用)默认空格
    5. RS 输入记录分割符,默认换行符(即文本是按一行一行输入)
    6. RT 代指分隔符,当RS时固定匹配此时RS=RT。如果RS是正则匹配,则RT是RS正则匹配的值
    7. NF 字段个数就是列
    8. NR 记录数,就是行号,默认从1开始
    9. FNR 与NR类似,不过多文件记录不递增,每个文件都从1开始
    10. OFS 输出字段分隔符,默认空格
    11. ORS 输出记录分割符,默认换行符
    12. \t 制表符
    13. \n 换行符
    14. ~ 匹配,与==相比不是精确比较
    15. !~ 不匹配,不精确比较
    16. == 等于,必须全部相等,精确比较
    17. != 不等于,精确比较
    18. && 逻辑与
    19. + 匹配时表示1个或1个以上
    20. [0-9][0-9]+ 两个或两个以上数字
    21. [0-9][0-9]* 一个或一个以上数字

    一:列相关 

    1.列的输入字段分隔符,FS,-F 默认是空格

      1)FS是在BEGIN中定义使用的,-F是参数时候用的作用一样

      2)修改列分隔符默认方式为“|”:

    1. [root@localhost wubo]# echo "11|22|33|445|66" | awk -F '|' '{print $0}'
    2. 11|22|33|445|66
    3. [root@localhost wubo]# echo "11|22|33|445|66" | awk -F '|' '{print $2}'
    4. 22
    5. [root@localhost wubo]# echo "11|22|33|445|66" | awk 'BEGIN{FS="|"}{print $0}'
    6. 11|22|33|445|66
    7. [root@localhost wubo]# echo "11|22|33|445|66" | awk 'BEGIN{FS="|"}{print $2}'
    8. 22

    2.列的输出字段分隔符,OFS默认是空格

    1)OFS:默认空格,此时$1和$2输出内容的连接是空格

    1. [root@localhost wubo]# echo "11|22|33|445|66" | awk 'BEGIN{FS="|"}{print $1,$2}'
    2. 11 22

     2)OFS修改为“-”,此时$1和$2输出内容的连接是“-”

    1. [root@localhost wubo]# echo "11|22|33|445|66" | awk 'BEGIN{FS="|";OFS="-"}{print $1,$2}'
    2. 11-22

     也可以这样:

    1. [root@localhost wubo]# echo "11|22|33|445|66" | awk 'BEGIN{FS="|"}{print $1"-"$2}'
    2. 11-22

    3.NF:列的个数,默认是用空格分割后来记录列的个数

    1)默认:

    1. [root@localhost wubo]# echo "11|22|33|445|66" | awk '{print NF}'
    2. 1

        1列:因为默认是空格 

    2)修改列的分隔符之后:

    1. [root@localhost wubo]# echo "11|22|33|445|66" | awk 'BEGIN{FS="|"}{print NF}'
    2. 5
    3. [root@localhost wubo]# echo "11|22|33|445|66" | awk -F "|" '{print NF}'
    4. 5
    5. $NF 取最后一列的数据展示
    6. [root@localhost wubo]# echo "11|22|33|445|66" | awk -F "|" '{print $NF}'
    7. 66

        5列:因为修改分隔符为“|”

    4. NR:行号,默认1开始

    1. [root@localhost wubo]# cat data4.txt
    2. 111 222
    3. 333 444
    4. 555 666
    5. [root@localhost wubo]# awk '{print NR,$0}' data4.txt
    6. 1 111 222
    7. 2 333 444
    8. 3 555 666

       解释:三行

    5. FNR 与NR类似,不过多文件记录不递增,每个文件都从1开始

    1. [root@localhost wubo]# cat data4.txt
    2. 111 222
    3. 333 444
    4. 555 666
    5. [root@localhost wubo]# cat data5.txt
    6. 111 222
    7. 333 444
    8. 555 666
    9. [root@localhost wubo]# awk '{print NR,$0}' data4.txt data5.txt
    10. 1 111 222
    11. 2 333 444
    12. 3 555 666
    13. 4 111 222
    14. 5 333 444
    15. 6 555 666
    16. 递增
    17. [root@localhost wubo]# awk '{print FNR,$0}' data4.txt data5.txt
    18. 1 111 222
    19. 2 333 444
    20. 3 555 666
    21. 1 111 222
    22. 2 333 444
    23. 3 555 666
    24. 不递增

    二:行相关:  awk是基于行列操作文本的,但如何定义“行”呢?这就是RS的作用。
      默认情况下,RS的值是 。下面通过实例来理解下RS。

    1.RS指定行输入分隔符 默认分隔符为\n。在计算机语言中字符遇到\n就会换行。此时我们可以改变这种行为遇到我们定的分隔符进行换行。

    1)默认遇到\n就换行:echo  -e  激活转移字符

    1. [root@localhost wubo]# echo -e "111 222\n333 444\n555 666" | awk '{print $0}'
    2. 111 222
    3. 333 444
    4. 555 666

    2)改变RS输入分隔符为 “|” ,此时遇到“|” 就换行

    1. [root@localhost wubo]# echo -e "111 222|333 444|555 666" | awk 'BEGIN{RS="|"}{print $0}'
    2. 111 222
    3. 333 444
    4. 555 666

    2.1)遇到a换行输出: 

    1. [root@localhost wubo]# echo '1a2a3a4a5' | awk '{print $1}'
    2. 1a2a3a4a5
    3. [root@localhost wubo]# echo '1a2a3a4a5' | awk 'BEGIN{RS="a"}{print $1}'
    4. 1
    5. 2
    6. 3
    7. 4
    8. 5

     2.2) 处理这种包括多行数据的记录,我们可以将字段分隔符【FS】定义为换行符【\n】,并将记录分隔符【RS】设置为空字符串【“”】它代表一个空行。 

    1. [root@localhost wubo]# cat test1.txt
    2. john 85 92 78 94 88
    3. andrea 89 90 75 90 86 92
    4. jasper 84 88 80 92 84 94 83
    5. [root@localhost wubo]# awk 'BEGIN{FS="\n";RS=""}{print $2}' test1.txt
    6. andrea 89 90 75 90 86 92
    7. [root@localhost wubo]# awk 'BEGIN{FS="\n";RS=""}{print $1}' test1.txt
    8. john 85 92 78 94 88
    9. [root@localhost wubo]# awk 'BEGIN{FS="\n";RS=""}{print $3}' test1.txt
    10. jasper 84 88 80 92 84 94 83
    11. [root@localhost wubo]# awk 'BEGIN{FS="\n";RS=""}{print $0}' test1.txt
    12. john 85 92 78 94 88
    13. andrea 89 90 75 90 86 92
    14. jasper 84 88 80 92 84 94 83

    我们可以看到,在更改了RS的值后,awk定义的行已经不是我们实际意义中的行了。 上面RS固定的字符串,RS也可以定义为正则表达式。

    1. [root@localhost wubo]# echo '1ab2bc3cd4de5' | awk 'BEGIN{RS="[a-z]+"}{print $1,RS,RT}'
    2. 1 [a-z]+ ab
    3. 2 [a-z]+ bc
    4. 3 [a-z]+ cd
    5. 4 [a-z]+ de
    6. 5 [a-z]+

      当我们将RS设置为正则表达式的时候,RT这个变量就有作用了,RS的值始终为我们设定的正则,RT的值则是这个正则实际匹配到的内容。

    如果RS被设置为空,那么awk会将连续的空行作为行分隔符,与RS设置成" +"有什么区别
      1、忽略文件开头和结尾的空行。且文件不以记录分隔符结束,即最后不是空行,会将最后一个记录的尾 去掉
      2、不设置RT变量(测试未发现规律,暂时认为RT变量不可用)
      3、影响FS变量

      总结下RS的3种情况:
      1) 非空字符串
         以固定字符串作为行分隔符,同时设置变量RT为固定字符串

    1. [root@localhost wubo]# echo '1a2a3a4a5' | awk 'BEGIN{RS="a"}{print $1,RS,RT}'
    2. 1 a a
    3. 2 a a
    4. 3 a a
    5. 4 a a
    6. 5 a


      2) 正则表达式
         以正则表达式作为行分隔符,同时设置变量RT为正则表达式实际匹配到的字符串

    1. [root@localhost wubo]# echo '1ab2bc3cd4de5' | awk 'BEGIN{RS="[a-z]+"}{print $1,RS,RT}'
    2. 1 [a-z]+ ab
    3. 2 [a-z]+ bc
    4. 3 [a-z]+ cd
    5. 4 [a-z]+ de
    6. 5 [a-z]+


      3) 空字符
         以连续的空行作为行分隔符,如果FS为单个字符,会将 强制加入到FS变量中

    1. [root@localhost wubo]# echo '1ab2bc3cd4de5' | awk 'BEGIN{RS=""}{print $1,RS,RT}'
    2. 1ab2bc3cd4de5

     理解了RS,再来理解ORS就简单了。RS是awk读取文件时的行分隔符,ORS则是awk输出时的行结束符。
      更简单的讲,就是awk在输出时,会在每行记录后面增加一个ORS变量所设定的值。
      ORS的值只能设定为字符串,默认情况下,ORS的值是换行符\n

    2. ORS指定输出行分隔符,默认是“\n”

    1. [root@localhost wubo]# seq 5 | awk '{print $0}'
    2. 1
    3. 2
    4. 3
    5. 4
    6. 5
    7. [root@localhost wubo]#
    8. [root@localhost wubo]# seq 5 | awk 'BEGIN{ORS="a"}{print $0}'
    9. 1a2a3a4a5a[root@localhost wubo]#

    我们平常用的 print $0 等价于 printf $0 ORS 

    1. [root@localhost wubo]# cat test.txt
    2. 111 222
    3. 333 444
    4. 555 666 777

    1)默认ORS=“\n”:

    1. [root@localhost wubo]# awk '{print $0;}' test.txt
    2. 111 222
    3. 333 444
    4. 555 666 777
    5. [root@localhost wubo]# awk 'BEGIN{ORS="\n";}{print $0;}' test.txt
    6. 111 222
    7. 333 444
    8. 555 666 777

    2) 修改默认ORS=“|”:

    1. [root@localhost wubo]# awk 'BEGIN{ORS="|";}{print $0;}' test.txt
    2. 111 222||333 444||555 666 777|[root@localhost wubo]#

    3.RT 代指分隔符 

    1. [root@localhost wubo]# echo "111 222|333 444|555 666" | awk 'BEGIN{RS="|"}{print $0,RT}'
    2. 111 222 |
    3. 333 444 |
    4. 555 666

      RS是awk用来定义“行”的,那么FS就是awk用来定义“列”的。设置变量 FS 与使用 -F 参数是一样的。

    1. echo '1,2' | awk -F , '{print $1}'
    2. 1
    3. echo '1,2' | awk 'BEGIN{FS=","}{print $1}'
    4. 1

    与 RS 类似,FS 同样可以设置为正则表达式 

    1. [root@localhost wubo]# echo '1ab2bc3cd4de5' | awk 'BEGIN{FS="[a-z]+"}{print $1,$2,$5}'
    2. 1 2 5
    3. [root@localhost wubo]#

    FS 有1个特例,就是将FS设置为一个空格,FS=" " ,这也是FS的默认值。 那么,FS=" " 与 FS="[ ]+" 有区别么???

    1. [root@localhost wubo]# echo ' 1 2' | awk 'BEGIN{FS=" "}{print $1}'
    2. 1
    3. [root@localhost wubo]# echo ' 1 2' | awk 'BEGIN{FS="[ ]+"}{print $1}'
    4. [root@localhost wubo]#

    当FS=" "时,awk会自动去掉行首和行尾的 空格 或 制表符( ) 或 换行符( ),但FS="[ ]+"是不会的

    同样,FS也可以设置为空

    1. [root@localhost wubo]# echo '123' | awk 'BEGIN{FS=""}{print $1,$2}'
    2. 1 2

    当FS被设置为空字符串的时候,awk会将一行记录的每个字符做为单独的一列。类似的,当我们想以固定的长度来分隔列的时候,可以使用 FIELDWIDTHS 来代替 FS。例如,一行记录的前3个字符作为第一列,接下来的2个字符作为第二列,接下来的4个字符作为第三列 

    1. [root@localhost wubo]# echo '123456789' | awk 'BEGIN{FIELDWIDTHS="3 2 4"}{print $1,$2,$3}'
    2. 123 45 6789

    如果定义的长度小于实际的长度,awk会截断,如果大于实际长度,则以实际长度为准。

    1. [root@localhost wubo]# echo '123456789' | awk 'BEGIN{FIELDWIDTHS="10 2 9"}{print $1,$2,$3}'
    2. 123456789

     总结下FS的4种情况:
      1) 非空字符串
         以固定字符串作为列分隔符
      2) 正则表达式
         以正则表达式作为列分隔符
      3) 单个空格
         以连续的 空格 或 制表符( ) 或 换行符( )作为列分隔符
      4) 空字符
         以每个字符做为单独的一列 

    如果一行记录有很多列,同时想改变输出的分隔符,print $1,$2,$3 ... 启不是很麻烦?
      当然有简单的方法: 

    1. [root@localhost wubo]# echo '1 2 3 4 5' | awk -v OFS="|" '{print $0}'
    2. 1 2 3 4 5
    3. [root@localhost wubo]# echo '1 2 3 4 5' | awk -v OFS="|" '{$1=$1;print $0}'
    4. 1|2|3|4|5
    5. [root@localhost wubo]# echo '1 2 3 4 5' | awk -v OFS="|" '{NF+=0;print $0}'
    6. 1|2|3|4|5


    为了使OFS的设置生效,需要改变 $0 ,这里我们是对 awk 撒了个小谎
      $1=$1 或者 NF+=0, $0 本身的内容实际上没有任何改变,只是为了使 OFS 的设置生效

      在理解了 RS 和 FS 之后,我们来回顾开始的那句话:“awk是基于行列操作文本的”
      这个说法实际上不是很准确,因为在改变了 RS 后,awk 中的“行”已经不是一般的“行”了
      同样,改变了 FS 后,awk 中的“列”也已经不是一般的“列”了
      因此,准确的应该这样讲:“awk是基于 记录(record) 和 域(field) 操作文本的”

    三、0 与 "0" 差在哪  我们先来看一个例子: 

    1. awk 'BEGIN{if(0) print "true";else print "false"}'
    2. false
    3. awk 'BEGIN{if("0") print "true";else print "false"}'true


    为什么同样是 0 ,结果却不一样?
      其实要解释这个问题,只需要弄清楚awk中的“真”与“假”。
      以下3种情况是“假”,其他情况都为“真”
      1) 数字 0
      2) 空字符串
      3) 未定义的值 

    1.  awk 'BEGIN{a=0;if(a) print "true";else print "false"}'
    2. false
    3. awk 'BEGIN{a="";if(a) print "true";else print "false"}'
    4. false
    5. awk 'BEGIN{if(a) print "true";else print "false"}'
    6. false

    awk如何去重? 
    1.awk '! a[$0] ++'

    在解释之前,我们先要了解awk的一个特性:
      awk 会根据语境来给未定义的变量赋初始值 
    awk 'BEGIN{print a "" 1}'

    1

     awk 'BEGIN{print a + 1}'

    1

    对于未定义的变量,如果要进行字符串操作,会被赋成空字符串 ""
      如果要进行数学运算,会被赋成数字 0

      现在我们看看上面的代码 ! a[$0] ++ 等价于 if(! a[$0] ++) print $0
      对于首次出现的记录,a[$0]的值是未定义的,由于后面的 ++ 是数学计算,所以a[$0]会被赋值成数字0
      也是由于 ++ 操作符,会先取值,再计算,所以对于第一行记录实际上是if(! 0) print $0
      ! 是取反,0 是假,! 0 就是真,那么就会执行后面的 print $0
      对于后面出现的重复记录,a[$0] 经过 ++ 的计算已经变为 1、2、3 。。。
      而 ! 1  ! 2  ! 3 ... 都为假,不会打印。

      下面我们用黑哥的一段代码来深刻体会一下,用awk打印奇数行: 
    seq 10 | awk 'i=!i'

    1

    3

    5

    7

    9

    Linux中awk后面的RS, ORS, FS, OFS 含义 - 走看看

  • 相关阅读:
    java解析遍历List集合(其实现子类)的三种方式
    2022 CMU15-445 Project0 Trie
    网络基础(了解网络知识的前提)
    c语言每日一练(13)
    创新案例分享 | 一体化政务服务平台运维项目,全力提升平台服务效能
    如何通用系统平台这个黑科技把网店做大,需要注意什么?
    UE5 不同的编译模式下,module的组织形式
    华为云云耀云服务器L实例评测|云耀云服务器L实例部署SpaceHuggers网页小游戏
    【Vue面试题十七】、你知道vue中key的原理吗?说说你对它的理解
    电脑屏幕录制:录制高清视频画面以及声音
  • 原文地址:https://blog.csdn.net/Michaelwubo/article/details/126055054