awk文本处理知识汇总

时间:2022-12-20 13:18:23

参考资料:
http://man.linuxde.net/awk

http://www.cnblogs.com/chengmo/archive/2013/01/17/2865479.html

http://bbs.chinaunix.net/thread-691456-1-1.html

 

       awk是一种编程语言,用于在linux/unix下对文本和数据进行处理。数据可以来自标准输入(stdin)、一个或多个文件,或其它命令的输出。它支持用户自定义函数和动态正则表达式等先进功能,是linux/unix下的一个强大编程工具。它在命令行中使用,但更多是作为脚本来使用。awk有很多内建的功能,比如数组、函数等,这是它和C语言的相同之处,灵活性是awk做大的优势。

       awk还提供了一系列内置的运算函数(如log、sqr、cos、sin等)和一些用于对字符串进行操作(运算)的函数(如length、substr等等)。这些函数的引用大大的提高了awk的运算功能。作为对条件转移指令的一部分,关系判断是每种程序设计语言都具备的功能,awk也不例外,awk中允许进行多种测试,作为样式匹配,还提供了模式匹配表达式~(匹配)和~!(不匹配)。作为对测试的一种扩充,awk也支持用逻辑运算符。

awk命令格式

awk [options] 'script' var=value file(s) 

awk [options] -f scriptfile var=value file(s)

option有以下选择:

-F fs:fs为分隔符,可以是字符串也可以是正则表达式,这个作用就是制定分隔符

-v:赋值一个用户定义变量,将外部变量传递给awk。VAR=10000 echo | awk -v VARIABLE=$VAR '{ print VARIABLE }'
或者:

var1="aaa" 

var2="bbb" 

echo | awk '{ print v1,v2 }' v1=$var1 v2=$var2
变量之间用空格分隔作为awk的命令行参数跟随在BEGIN、{}和END语句块之后。

script脚本的结构

awk 'BEGIN{ commands } pattern { commands } END{ commands }'

awk脚本通常由:BEGIN语句块、能够使用模式匹配的通用语句块、END语句块3部分组成,这三个部分是可选的。任意一个部分都可以不出现在脚本中,脚本通常是被单引号或双引号中,例如: awk 'BEGIN{ i=0 } { i++ } END{ print i }' filename

第一步:执行BEGIN{ commands }语句块中的语句; 

第二步:从文件或标准输入(stdin)读取一行,然后执行pattern{ commands }语句块,它逐行扫描文件,从第一行到最后一行重复这个过程,直到文件全部被读取完毕。 

第三步:当读至输入流末尾时,执行END{ commands }语句块。


        BEGIN语句块在awk开始从输入流中读取行之前被执行,这是一个可选的语句块,比如变量初始化、打印输出表格的表头等语句通常可以写在BEGIN语句块中。 END语句块在awk从输入流中读取完所有的行之后即被执行,比如打印所有行的分析结果这类信息汇总都是在END语句块中完成,它也是一个可选语句块。 pattern语句块中的通用命令是最重要的部分,它也是可选的。如果没有提供pattern语句块,则默认执行{ print },即打印每一个读取到的行,awk读取的每一行都会执行该语句块。print中双引号里的内容是直接打印的。pattern语句块类似一个循环体,会对文件中的每一行进行迭代。


awk的内置变量

$n 当前记录的第n个字段,比如n为1表示第一个字段,n为2表示第二个字段。 

$0 这个变量包含执行过程中当前行的文本内容。

FILENAME 当前输入文件的名。

FS 字段分隔符(默认是任何空格)。

NF 表示字段数,在执行过程中对应于当前的字段数。

NR 表示记录数,在执行过程中对应于当前的行号。 

OFMT 数字的输出格式(默认值是%.6g)。

OFS 输出字段分隔符(默认值是一个空格)。 

ORS 输出记录分隔符(默认值是一个换行符)。

RS 记录分隔符(默认是一个换行符)。

使用print $NF可以打印出一行中的最后一个字段,使用$(NF-1)则是打印倒数第二个字段,其他以此类推。

统计文件中的行数:awk 'END{ print NR }' filename。这里只使用了END语句块,在读入每一行的时,awk会将NR更新为对应的行号,当到达最后一行NR的值就是最后一行的行号,所以END语句块中的NR就是文件的行数。

一个每一行中第一个字段值累加:awk 'BEGIN{ sum=0; print "总和:" } { print $1"+"; sum+=$1 } END{ print "等于"; print sum }' 

awk的运算

和普通语言的运算一样,||&&,只有~匹配正则表达式,~!不匹配正则表达式。

awk中next语句使用:在循环逐行匹配,如果遇到next,就会跳过当前行,直接忽略下面语句。而进行下一行匹配。next语句一般用于多行合并。当记录行号除以2余1,就跳过当前行。下面的print NR,$0也不会执行。下一行开始,程序有开始判断NR%2值。这个时候记录行号是:2 ,就会执行下面语句块:'print NR,$0'

打印偶数行:awk 'NR%2==1{next}{print NR,$0;}' awktext.txt

awktext.txt中的内容如下:

awk文本处理知识汇总

将包含有aa的行跳过:awk '/^aa/{next;}{print "\t"$0;}' awktest.txt

结果:

awk文本处理知识汇总

 

awk中允许用如下方式将结果输出到一个文件

echo | awk '{printf("hello word!n") > "datafile"}' 或 echo | awk '{printf("hello word!n") >> "datafile"}'

      在linux awk的while、do-while和for语句中允许使用break,continue语句来控制流程走向,也允许使用exit这样的语句来退出。break中断当前正在执行的循环并跳到循环外执行下一条语句。if 是流程选择用法。awk中,流程控制语句,语法结构,与c语言类型。每条命令语句后面可以用;分号结尾。

awk 'BEGIN{ 

test=100; 

total=0; 

while(i<=test){ 

total+=i; 

i++; 

print total; 

}'


awk数组

        数组是awk的灵魂,处理文本中最不能少的就是它的数组处理。因为数组索引(下标)可以是数字和字符串在awk中数组叫做关联数组(associative arrays)。awk 中的数组不必提前声明,也不必声明大小。数组元素用0或空字符串来初始化,这根据上下文而定。字符串和数字都可以做数组下标。

{ for(item in array) {print array[item]}; } #输出的顺序是随机的 

{ for(i=1;i<=len;i++) {print array[i]}; } #Len是数组的长度
得到数组长度:awk 'BEGIN{info="it is a test";lens=split(info,tA," ");print length(tA),lens;}'
删除数组:delete array[key]可以删除,对应数组key的,序列值。

awk中有一些字符串的处理函数,使用的话可以查询。

打开外部文件(close用法):

awk 'BEGIN{while("cat /etc/passwd"|getline){print $0;};close("/etc/passwd");}'

逐行读取外部文件(getline使用方法):

awk 'BEGIN{while(getline < "/etc/passwd"){print $0;};close("/etc/passwd");}'

awk 'BEGIN{print "Enter your name:";getline name;print name;}'

调用外部应用程序(system使用方法):

awk 'BEGIN{b=system("ls -al");print b;}'

awk应用例子

单双引号的差别是:shell对单引号中的内容不解释,直接传给awk,而对双引号中的内容解释后再传给awk.

1、 awk '/101/'   file             显示文件file中包含101的匹配行。
      awk '/101/,/105/'  file       显示文件file中包含101到105的匹配行。

      awk '$1 == 5'   file            显示文件file中第一字段值为5的行。

      awk '$1 == "CT"'  file        显示文件file中第一字段值为CT的行。注意必须带双引号
      awk '$1 * $2 >100 '   file    显示文件file中第一字段值和第二字段值乘积大于100的行。

      awk '$2 >5 && $2<=15'   file    显示文件file中第2字段值大于5同时小于15的行。

2、 awk '{print NR,NF,$1,$NF,}' file   显示文件file的当前记录号、域数和每一行的第一个和最后一个域。
      awk '/aa/ {print $1,$2 + 10}' file    显示文件file的匹配行的第一、二个域加10。
      awk '/aa/ {print $1$2}'  file           找出匹配的行,在输出 等同于下面语句
      awk '/aa/ {print $1 $2}' file     显示文件file的匹配行的第一、二个域,但显示时域中间没有分隔符。
3、 df | awk '$4>1000000 '         通过管道符获得输入,如:显示第4个域满足条件的行。
4、 awk -F “|” '{print $1}'   file      按照新的分隔符“|”进行操作。
      awk  'BEGIN { FS="[: \t|]" }
     {print $1,$2,$3}'    file               通过设置输入分隔符(FS="[: \t|]")修改输入分隔符。

     Sep="|"
     awk -F $Sep '{print $1}'  file          按照环境变量Sep的值做为分隔符。   
     awk -F '[ :\t|]' '{print $1}' file          按照正则表达式的值做为分隔符,这里代表空格、:、TAB、|同时做为分隔符。
     awk -F '[][]'    '{print $1}' file          按照正则表达式的值做为分隔符,这里代表[、]

5、awk -f awkfile              file 通过文件awkfile的内容依次进行控制。
     cat awkfile
     /101/{print "\047 Hello! \047"} --遇到匹配行以后打印 ' Hello! '.\047代表单引号。
     {print $1,$2}                               --因为没有模式控制,打印每一行的前两个域。
6、awk '$1 ~ /101/ {print $1}' file             显示文件中第一个域匹配101的行(记录)。
7、awk   'BEGIN { OFS="%"} {print $1,$2}'    file         通过设置输出分隔符(OFS="%")修改输出格式。
8、取得文件第一个域的最大值

     awk   'BEGIN { max=100 ;print "max=" max}             BEGIN 表示在处理任意行之前进行的操作。
     {max=($1 >max ?$1:max); print $1,"Now max is "max}' file 
9、  awk '/tom/ {wage=$2+$3; printf wage}' file             找到匹配行后为变量wage赋值并打印该变量。
10、awk '/tom/ {count++;} 
         END {print "tom was found "count" times"}' file             END表示在所有输入行处理完后进行处理。

11、在awk中调用系统变量必须用单引号,如果是双引号,则表示字符串
      Flag=abcd
      awk '{print '$Flag'}'   结果为abcd
      awk '{print  "$Flag"}'   结果为$Flag

12、比如以下这个例子:
     a.sh脚本内容
  CPU_MIN=90
  cat aa|awk "{print $CPU_MIN,$1}"

  执行时带个参数:a.sh  1234
  如果按你的说法应该显示: 90  1234
  但实际上只显示90,为什么$1的值没有取到,是否应该和awk本身的变量定义有冲突。如果不使用中间变量,这个1234如何传递到awk中?

  $1是awk的特殊变量,不应该被shell解释。可以这样:
  cat aa|awk "{print $CPU_MIN,\$1}"