今天是腊月27,明天是腊月28,一到过年,就习惯说农历,而不说公历。这两天挺闲的,就再造一把。
话说Linux处理文本工具有三剑客,awk、grep、sed,其中awk最为厉害,grep也挺是常用。今天就来说一说awk,并结合mysql应用。
1.语法 |
awk '{[pattern] action}' {filenames}
用法有很多种,但是语法总结可以写成这样,分两个部分:pattern (条件) + action(处理动作)。
pattern表示 awk 在数据中查找的内容,是一些正则表达式或条件判断,这个选项也可以省略。
action是指在匹配到内容后,要执行的命令。
2.awk原理 |
通常,awk是以文件的一行为处理单位的。awk每接收文件的一行,然后执行相应的命令,来处理文本。
具体过程可以用这样的伪代码来描述
While(还有下一行) {
:读取下一行,并把下一行赋给$,各列赋给$,$...$N变量
: 用指定的命令来处理该行
}
下面看一个例子:city.txt文本中有5行2列数据
[root@021rjsh216086s ~]# cat city.txt
BJ
SH
TJ
HZ
ZZ
执行awk相关命令
[root@021rjsh216086s ~]# awk '{print $0}' city.txt #$0表示一行的所有列
BJ
SH
TJ
HZ
ZZ
[root@021rjsh216086s ~]# awk '{print $1}' city.txt #$1表示一行的第一列
BJ
SH
TJ
HZ
ZZ
[root@021rjsh216086s ~]# awk '{print $2}' city.txt #$2表示一行的第二列
再看第二个例子,city.txt 以竖线为分隔符。想要把数据分开,便用-F参数。
[root@021rjsh216086s ~]# cat city.txt
BJ | | a
SH | | b
TJ | | c
HZ | | d
ZZ | | e
[root@021rjsh216086s ~]# awk 'BEGIN{FS="|"} {print $1}' city.txt #或 awk -F"|" '{print $1}' city.txt
BJ
SH
TJ
HZ
ZZ
假如分隔符同时存在多种,竖线,问好,逗号。-F参数可以指定多个。
[root@021rjsh216086s ~]# cat city.txt
BJ | ? a
SH | ? b
TJ | , c
HZ | , d
ZZ | , e
[root@021rjsh216086s ~]# awk -F '[|?,]' '{print $1,$2,$3}' city.txt #同时指定三个分隔参数
BJ a
SH b
TJ c
HZ d
ZZ e
参考文章: