linux高级文本处理命令—cut,sed,awk

时间:2023-01-09 15:29:30
1 cut 命令  
cut命令可以从一个文本文件或者文本流中提取文本列。
 
cut 语法
[root@www ~]# cut -d' 分隔字符' -f fields     ## 用于有特定分隔字符
[root@www ~]# cut -c 字符区间            ## 用于排列整齐的信息
选项与参数:
-d :后面接分隔字符。与 -f 一起使用;
-f :依据 -d 的分隔字符将一段信息分割成为数段,用 -f 取出第几段的意思;
-c :以字符 (characters) 的单位取出固定字符区间;
 
 
PATH 变量如下
[root@www ~]# echo $PATH
 /bin:/usr/bin:/sbin:/usr/sbin:/usr/local/bin:/usr/X11R6/bin:/usr/games
# 1 | 2       | 3   | 4       | 5            | 6            | 7
 
 
PATH 变量取出,找出第五个路径。
#echo $PATH | cut -d ':' -f 5
/usr/local/bin
 
 
PATH 变量取出,找出第三和第五个路径。
#echo $PATH | cut -d ':' -f 3,5
/sbin:/usr/local/bin
 
 
PATH 变量取出,找出第三到最后一个路径。
echo $PATH | cut -d ':' -f 3-
/sbin:/usr/sbin:/usr/local/bin:/usr/X11R6/bin:/usr/games
 
PATH 变量取出,找出第一到第三个路径。
#echo $PATH | cut -d ':' -f 1-3
/bin:/usr/bin:/sbin:
 
PATH 变量取出,找出第一到第三,还有第五个路径。
#echo $PATH | cut -d ':' -f 1-3,5
/bin:/usr/bin:/sbin:/usr/local/bin
 
 
实用例子: 只显示/etc/passwd 的用户和shell
#cat /etc/passwd | cut -d ':' -f 1,7
root:/bin/bash
daemon:/bin/sh
bin:/bin/sh
2 sed 命令
1/ 删除: d 命令
$ sed '2d' example                ----- 删除example 文件的第二行。
$ sed '2,$d' example              ----- 删除example 文件的第二行到末尾所有行。
$ sed '$d' example                 ----- 删除example 文件的最后一行。
$ sed '/test/'d example             ----- 删除example 文件所有包含test 的行。
 
2/ 替换: s 命令
$ sed 's/test/mytest/g' example                                
##  在整行范围内把 test 替换为 mytest 。如果没有 g 标记,则只有每行第一个匹配的 test 被替换成 mytest
 
$ sed -n 's/^test/mytest/p' example                         
##  (-n) 选项和 p 标志一起使用表示只打印那些发生替换的行。也就是说,如果某一行开头的 test 被替换成 mytest ,就打印它。
 
$ sed 's/^192.168.0.1/&localhost/' example          
##  & 符号表示追加一个串到找到的串后。所有以 192.168.0.1 开头的行都会被替换成它自已加 localhost ,变成 192.168.0.1localhost
 
$ sed -n 's/\(love\)able/\1rs/p' example
##  love 被标记为 1 ,所有 loveable 会被替换成 lovers ,而且替换的行会被打印出来。
 
$ sed 's#10#100#g' example
##  不论什么字符,紧跟着 s 命令的都被认为是新的分隔符,所以,“ # ”在这里是分隔符,代替了默认的“ / ”分隔符。表示把所有 10 替换成 100
选定行的范围:逗号
 
$ sed -n '/test/,/check/p' example
## 所有在模板 test check 所确定的范围内的行都被打印。
 
$ sed -n '5,/^test/p' example
## 打印从第五行开始到第一个包含以 test 开始的行之间的所有行。
 
$ sed '/test/,/check/s/$/sed test/' example
## 对于模板 test west 之间的行,每行的末尾用字符串 sed test 替换。
多点编辑: e 命令
 
$ sed -e '1,5d' -e 's/test/check/' example
##  (-e) 选项允许在同一行里执行多条命令。如例子所示,第一条命令删除 1 5 行,第二条命令用 check 替换 test 。命令的执行顺序对结果有影响。如果两个命令都是替换命令,那么第一个替换命令将影响第二个替换命令的结果。
 
$ sed --expression='s/test/check/' --expression='/love/d' example
## 一个比 -e 更好的命令是 --expression 。它能给 sed 表达式赋值。
 
3/ 从文件读入: r 命令
$ sed '/test/r file' example
-----file 里的内容被读进来,显示在与 test 匹配的行后面,如果匹配多行,则 file 的内容将显示在所有匹配行的下面。
 
4/ 写入文件: w 命令
$ sed -n '/test/w file' example
----- example 中所有包含test 的行都被写入file 里。
 
5/ 追加命令: a 命令
$ sed '/^test/a\\--->this is a example' example   
##  '--->this is a example' 被追加到以 test 开头的行后面, sed 要求命令 a 后面有一个反斜杠。
 
 
6/ 插入: i 命令
$ sed '/test/i\\some thing new -------------------------' example
如果test 被匹配,则把反斜杠后面的文本插入到匹配行的前面。
 
7/ 下一个: n 命令
$ sed '/test/{ n; s/aa/bb/; }' example
----- 如果test 被匹配,则移动到匹配行的下一行,替换这一行的aa ,变为bb ,并打印该行,然后继续。
 
8/ 退出: q 命令
$ sed '10q' example
----- 打印完第10 行后,退出sed
 
3 awk 命令
awk 是一个强大的文本分析工具,相对于grep 的查找,sed 的编辑,awk 在其对数据分析并生成报告时,显得尤为强大。简单来说awk 就是把文件逐行的读入,以空格为默认分隔符将每行切片,切开的部分再进行各种分析处理。
 
 
假设last -n 5 的输出如下
[root@www ~]# last -n 5        ## 仅取出前五行
root     pts/1   192.168.1.100  Tue Feb 10 11:21   still logged in
root     pts/1   192.168.1.100  Tue Feb 10 00:46 - 02:28  (01:41)
root     pts/1   192.168.1.100  Mon Feb  9 11:41 - 18:30  (06:48)
dmtsai   pts/1   192.168.1.100  Mon Feb  9 11:41 - 11:41  (00:00)
root     tty1                   Fri Sep  5 14:09 - 14:10  (00:01)
 
如果只是显示最近登录的5 个帐号
#last -n 5 | awk  '{print $1}'
root
root
root
dmtsai
root
awk 工作流程是这样的:读入有'\n' 换行符分割的一条记录,然后将记录按指定的域分隔符划分域,填充域,$0 则表示所有域,$1 表示第一个域,$n 表示第n 个域。默认域分隔符是" 空白键" "[tab] ", 所以$1 表示登录用户,$3 表示登录用户ip, 以此类推。
 
 
 
如果只是显示/etc/passwd 的账户
#cat /etc/passwd |awk  -F ':'  '{print $1}' 
root
daemon
bin
sys
这种是awk+action 的示例,每行都会执行action{print $1}
-F 指定域分隔符为':'
 
 
如果只是显示/etc/passwd 的账户和账户对应的shell, 而账户与shell 之间以tab 键分割
#cat /etc/passwd |awk  -F ':'  '{print $1"\t"$7}'
root    /bin/bash
daemon  /bin/sh
bin     /bin/sh
sys     /bin/sh
 
 
如果只是显示/etc/passwd 的账户和账户对应的shell, 而账户与shell 之间以逗号分割, 而且在所有行添加列名name,shell, 在最后一行添加"blue,/bin/nosh"
cat /etc/passwd |awk  -F ':'  'BEGIN {print "name,shell"}  {print $1","$7} END {print "blue,/bin/nosh"}'
name,shell
root,/bin/bash
daemon,/bin/sh
bin,/bin/sh
sys,/bin/sh
....
blue,/bin/nosh
 
awk 工作流程是这样的:先执行BEGING ,然后读取文件,读入有/n 换行符分割的一条记录,然后将记录按指定的域分隔符划分域,填充域,$0 则表示所有域,$1 表示第一个域,$n 表示第n 个域, 随后开始执行模式所对应的动作action 。接着开始读入第二条记录······直到所有的记录都读完,最后执行END 操作。
 
 
搜索/etc/passwd root 关键字的所有行
#awk  -F:  '/root/'  /etc/passwd
root:x:0:0:root:/root:/bin/bash
这种是pattern 的使用示例,匹配了pattern( 这里是root) 的行才会执行action( 没有指定action ,默认输出每行的内容)
 
搜索支持正则,例如找root 开头的: awk -F:  '/^root/'  /etc/passwd
搜索/etc/passwd root 关键字的所有行,并显示对应的shell
# awk  -F':'  '/root/{print $7}'  /etc/passwd             
/bin/bash
  这里指定了action{print $7}
 
 
统计/etc/passwd: 文件名,每行的行号,每行的列数,对应的完整行内容:
#awk  -F ':'  '{print "filename:" FILENAME ",linenumber:" NR ",columns:" NF ",linecontent:"$0}' /etc/passwd
filename:/etc/passwd,linenumber:1,columns:7,linecontent:root:x:0:0:root:/root:/bin/bash
filename:/etc/passwd,linenumber:2,columns:7,linecontent:daemon:x:1:1:daemon:/usr/sbin:/bin/sh
filename:/etc/passwd,linenumber:3,columns:7,linecontent:bin:x:2:2:bin:/bin:/bin/sh
filename:/etc/passwd,linenumber:4,columns:7,linecontent:sys:x:3:3:sys:/dev:/bin/sh
 
 
使用printf 替代print, 可以让代码更加简洁,易读
 awk  -F ':'  '{printf("filename:%s,linenumber:%s,columns:%s,linecontent:%s\n",FILENAME,NR,NF,$0)}' /etc/passwd