awk文本处理知识汇总

http://www.cnblogs.com/chengmo/archive/2013/01/17/2865479.html

http://bbs.chinaunix.net/thread-691456-1-1.html

awk是一种编程语言，用于在linux/unix下对文本和数据进行处理。数据可以来自标准输入(stdin)、一个或多个文件，或其它命令的输出。它支持用户自定义函数和动态正则表达式等先进功能，是linux/unix下的一个强大编程工具。它在命令行中使用，但更多是作为脚本来使用。awk有很多内建的功能，比如数组、函数等，这是它和C语言的相同之处，灵活性是awk做大的优势。

awk还提供了一系列内置的运算函数（如log、sqr、cos、sin等）和一些用于对字符串进行操作（运算）的函数（如length、substr等等）。这些函数的引用大大的提高了awk的运算功能。作为对条件转移指令的一部分，关系判断是每种程序设计语言都具备的功能，awk也不例外，awk中允许进行多种测试，作为样式匹配，还提供了模式匹配表达式~（匹配）和~!（不匹配）。作为对测试的一种扩充，awk也支持用逻辑运算符。

awk命令格式

awk [options] 'script' var=value file(s)

awk [options] -f scriptfile var=value file(s)

option有以下选择：

-F fs：fs为分隔符，可以是字符串也可以是正则表达式，这个作用就是制定分隔符

-v：赋值一个用户定义变量，将外部变量传递给awk。VAR=10000 echo | awk -v VARIABLE=$VAR '{ print VARIABLE }'
或者：

var1="aaa"

var2="bbb"

echo | awk '{ print v1,v2 }' v1=$var1 v2=$var2
变量之间用空格分隔作为awk的命令行参数跟随在BEGIN、{}和END语句块之后。

script脚本的结构

awk 'BEGIN{ commands } pattern { commands } END{ commands }'

awk脚本通常由：BEGIN语句块、能够使用模式匹配的通用语句块、END语句块3部分组成，这三个部分是可选的。任意一个部分都可以不出现在脚本中，脚本通常是被单引号或双引号中，例如： awk 'BEGIN{ i=0 } { i++ } END{ print i }' filename

第一步：执行BEGIN{ commands }语句块中的语句；

第二步：从文件或标准输入(stdin)读取一行，然后执行pattern{ commands }语句块，它逐行扫描文件，从第一行到最后一行重复这个过程，直到文件全部被读取完毕。

第三步：当读至输入流末尾时，执行END{ commands }语句块。

BEGIN语句块在awk开始从输入流中读取行之前被执行，这是一个可选的语句块，比如变量初始化、打印输出表格的表头等语句通常可以写在BEGIN语句块中。 END语句块在awk从输入流中读取完所有的行之后即被执行，比如打印所有行的分析结果这类信息汇总都是在END语句块中完成，它也是一个可选语句块。 pattern语句块中的通用命令是最重要的部分，它也是可选的。如果没有提供pattern语句块，则默认执行{ print }，即打印每一个读取到的行，awk读取的每一行都会执行该语句块。print中双引号里的内容是直接打印的。pattern语句块类似一个循环体，会对文件中的每一行进行迭代。

awk的内置变量

$n 当前记录的第n个字段，比如n为1表示第一个字段，n为2表示第二个字段。

$0 这个变量包含执行过程中当前行的文本内容。

FILENAME 当前输入文件的名。

FS 字段分隔符（默认是任何空格）。

NF 表示字段数，在执行过程中对应于当前的字段数。

NR 表示记录数，在执行过程中对应于当前的行号。

OFMT 数字的输出格式（默认值是%.6g）。

OFS 输出字段分隔符（默认值是一个空格）。

ORS 输出记录分隔符（默认值是一个换行符）。

RS 记录分隔符（默认是一个换行符）。

使用print $NF可以打印出一行中的最后一个字段，使用$(NF-1)则是打印倒数第二个字段，其他以此类推。

统计文件中的行数：awk 'END{ print NR }' filename。这里只使用了END语句块，在读入每一行的时，awk会将NR更新为对应的行号，当到达最后一行NR的值就是最后一行的行号，所以END语句块中的NR就是文件的行数。

一个每一行中第一个字段值累加：awk 'BEGIN{ sum=0; print "总和：" } { print $1"+"; sum+=$1 } END{ print "等于"; print sum }'

awk的运算

和普通语言的运算一样，||&&，只有~匹配正则表达式，~！不匹配正则表达式。

awk中next语句使用：在循环逐行匹配，如果遇到next，就会跳过当前行，直接忽略下面语句。而进行下一行匹配。next语句一般用于多行合并。当记录行号除以2余1，就跳过当前行。下面的print NR,$0也不会执行。下一行开始，程序有开始判断NR%2值。这个时候记录行号是：2 ，就会执行下面语句块：'print NR,$0'

打印偶数行：awk 'NR%2==1{next}{print NR,$0;}' awktext.txt

awktext.txt中的内容如下：

awk文本处理知识汇总

将包含有aa的行跳过：awk '/^aa/{next;}{print "\t"$0;}' awktest.txt

结果：

awk文本处理知识汇总

awk中允许用如下方式将结果输出到一个文件：

echo | awk '{printf("hello word!n") > "datafile"}' 或 echo | awk '{printf("hello word!n") >> "datafile"}'

在linux awk的while、do-while和for语句中允许使用break,continue语句来控制流程走向，也允许使用exit这样的语句来退出。break中断当前正在执行的循环并跳到循环外执行下一条语句。if 是流程选择用法。awk中，流程控制语句，语法结构，与c语言类型。每条命令语句后面可以用;分号结尾。

awk 'BEGIN{

test=100;

total=0;

while(i<=test){

total+=i;

i++;

}

print total;

awk数组

数组是awk的灵魂，处理文本中最不能少的就是它的数组处理。因为数组索引（下标）可以是数字和字符串在awk中数组叫做关联数组(associative arrays)。awk 中的数组不必提前声明，也不必声明大小。数组元素用0或空字符串来初始化，这根据上下文而定。字符串和数字都可以做数组下标。

{ for(item in array) {print array[item]}; } #输出的顺序是随机的

{ for(i=1;i<=len;i++) {print array[i]}; } #Len是数组的长度
得到数组长度：awk 'BEGIN{info="it is a test";lens=split(info,tA," ");print length(tA),lens;}'
删除数组：delete array[key]可以删除，对应数组key的，序列值。

awk中有一些字符串的处理函数，使用的话可以查询。

打开外部文件（close用法）：

awk 'BEGIN{while("cat /etc/passwd"|getline){print $0;};close("/etc/passwd");}'

逐行读取外部文件(getline使用方法）：

awk 'BEGIN{while(getline < "/etc/passwd"){print $0;};close("/etc/passwd");}'

awk 'BEGIN{print "Enter your name:";getline name;print name;}'

调用外部应用程序(system使用方法）：

awk 'BEGIN{b=system("ls -al");print b;}'

awk应用例子

单双引号的差别是:shell对单引号中的内容不解释,直接传给awk,而对双引号中的内容解释后再传给awk.

1、 awk '/101/' file 显示文件file中包含101的匹配行。
awk '/101/,/105/' file 显示文件file中包含101到105的匹配行。

awk '$1 == 5' file 显示文件file中第一字段值为5的行。

awk '$1 == "CT"' file 显示文件file中第一字段值为CT的行。注意必须带双引号
awk '$1 * $2 >100 ' file 显示文件file中第一字段值和第二字段值乘积大于100的行。

awk '$2 >5 && $2<=15' file 显示文件file中第2字段值大于5同时小于15的行。

2、 awk '{print NR,NF,$1,$NF,}' file 显示文件file的当前记录号、域数和每一行的第一个和最后一个域。
awk '/aa/ {print $1,$2 + 10}' file 显示文件file的匹配行的第一、二个域加10。
awk '/aa/ {print $1$2}'  file 找出匹配的行，在输出等同于下面语句
awk '/aa/ {print $1 $2}' file 显示文件file的匹配行的第一、二个域，但显示时域中间没有分隔符。
3、 df | awk '$4>1000000 '       通过管道符获得输入，如：显示第4个域满足条件的行。
4、 awk -F “|” '{print $1}' file 按照新的分隔符“|”进行操作。
awk  'BEGIN { FS="[: \t|]" }
{print $1,$2,$3}' file 通过设置输入分隔符（FS="[: \t|]"）修改输入分隔符。

Sep="|"
awk -F $Sep '{print $1}'  file 按照环境变量Sep的值做为分隔符。
awk -F '[ :\t|]' '{print $1}' file 按照正则表达式的值做为分隔符，这里代表空格、:、TAB、|同时做为分隔符。
awk -F '[][]' '{print $1}' file 按照正则表达式的值做为分隔符，这里代表[、]

5、awk -f awkfile       file 通过文件awkfile的内容依次进行控制。
cat awkfile
/101/{print "\047 Hello! \047"} --遇到匹配行以后打印 ' Hello! '.\047代表单引号。
{print $1,$2}                            --因为没有模式控制，打印每一行的前两个域。
6、awk '$1 ~ /101/ {print $1}' file             显示文件中第一个域匹配101的行（记录）。
7、awk 'BEGIN { OFS="%"} {print $1,$2}' file         通过设置输出分隔符（OFS="%"）修改输出格式。
8、取得文件第一个域的最大值

awk 'BEGIN { max=100 ;print "max=" max}             BEGIN 表示在处理任意行之前进行的操作。
{max=($1 >max ?$1:max); print $1,"Now max is "max}' file
9、 awk '/tom/ {wage=$2+$3; printf wage}' file             找到匹配行后为变量wage赋值并打印该变量。
10、awk '/tom/ {count++;}
      END {print "tom was found "count" times"}' file             END表示在所有输入行处理完后进行处理。

11、在awk中调用系统变量必须用单引号，如果是双引号，则表示字符串
Flag=abcd
awk '{print '$Flag'}' 结果为abcd
awk '{print "$Flag"}' 结果为$Flag

12、比如以下这个例子：
　 a.sh脚本内容
　　CPU_MIN=90
　　cat aa|awk "{print $CPU_MIN,$1}"

　　执行时带个参数：a.sh 1234
　　如果按你的说法应该显示： 90 1234
　　但实际上只显示90，为什么$1的值没有取到，是否应该和awk本身的变量定义有冲突。如果不使用中间变量，这个1234如何传递到awk中？

　　$1是awk的特殊变量，不应该被shell解释。可以这样：
　　cat aa|awk "{print $CPU_MIN,\$1}"

秒客网

awk文本处理知识汇总

相关文章