linux高级文本处理命令—cut，sed，awk

 
 1 cut 
 命令

 
 cut命令可以从一个文本文件或者文本流中提取文本列。 

  cut 
 语法 

  [root@www ~]# cut -d' 
 分隔字符' -f fields     ## 
 用于有特定分隔字符 

  [root@www ~]# cut -c 
 字符区间            ## 
 用于排列整齐的信息 

 
 选项与参数： 

  -d 
 ：后面接分隔字符。与 -f 
 一起使用； 

  -f 
 ：依据 -d 
 的分隔字符将一段信息分割成为数段，用 -f 
 取出第几段的意思； 

  -c 
 ：以字符 (characters) 
 的单位取出固定字符区间； 

  PATH 
 变量如下 

 
 [root@www ~]# echo $PATH 

 
  /bin:/usr/bin:/sbin:/usr/sbin:/usr/local/bin:/usr/X11R6/bin:/usr/games 

 
 # 1 | 2       | 3   | 4       | 5            | 6            | 7 

 
 将 PATH 
 变量取出，找出第五个路径。 

 
 #echo $PATH | cut -d ':' -f 5 

 
 /usr/local/bin 

 
 将 PATH 
 变量取出，找出第三和第五个路径。 

 
 #echo $PATH | cut -d ':' -f 3,5 

 
 /sbin:/usr/local/bin 

 
 将 PATH 
 变量取出，找出第三到最后一个路径。 

 
 echo $PATH | cut -d ':' -f 3- 

 
 /sbin:/usr/sbin:/usr/local/bin:/usr/X11R6/bin:/usr/games 

 
 将 PATH 
 变量取出，找出第一到第三个路径。 

 
 #echo $PATH | cut -d ':' -f 1-3 

 
 /bin:/usr/bin:/sbin: 

 
 将 PATH 
 变量取出，找出第一到第三，还有第五个路径。 

 
 #echo $PATH | cut -d ':' -f 1-3,5 

 
 /bin:/usr/bin:/sbin:/usr/local/bin 

 
 实用例子: 
 只显示/etc/passwd 
 的用户和shell 

 
 #cat /etc/passwd | cut -d ':' -f 1,7 

 
 root:/bin/bash 

 
 daemon:/bin/sh 

 
 bin:/bin/sh 

 
 2 sed 
 命令 

 
 1/  
 删除： 
 d 
 命令 

  $ sed '2d' example                ----- 
 删除example 
 文件的第二行。 

  $ sed '2,$d' example              ----- 
 删除example 
 文件的第二行到末尾所有行。 

  $ sed '$d' example                 ----- 
 删除example 
 文件的最后一行。 

  $ sed '/test/'d example             ----- 
 删除example 
 文件所有包含test 
 的行。 

 
 2/  
 替换： 
 s 
 命令 

 
 $ sed 's/test/mytest/g' example                                 

 
 ##   
 在整行范围内把 
 test 
 替换为 
 mytest 
 。如果没有 
 g 
 标记，则只有每行第一个匹配的 
 test 
 被替换成 
 mytest 
 。 

 
 $ sed -n 's/^test/mytest/p' example                          

 
 ##  (-n) 
 选项和 
 p 
 标志一起使用表示只打印那些发生替换的行。也就是说，如果某一行开头的 
 test 
 被替换成 
 mytest 
 ，就打印它。 

 
 $ sed 's/^192.168.0.1/&localhost/' example           

 
 ##  & 
 符号表示追加一个串到找到的串后。所有以 
 192.168.0.1 
 开头的行都会被替换成它自已加 
  localhost 
 ，变成 
 192.168.0.1localhost 
 。 

 
 $ sed -n 's/\(love\)able/\1rs/p' example 

 
 ##  love 
 被标记为 
 1 
 ，所有 
 loveable 
 会被替换成 
 lovers 
 ，而且替换的行会被打印出来。 

 
 $ sed 's#10#100#g' example 

 
 ##   
 不论什么字符，紧跟着 
 s 
 命令的都被认为是新的分隔符，所以，“ 
 # 
 ”在这里是分隔符，代替了默认的“ 
 / 
 ”分隔符。表示把所有 
 10 
 替换成 
 100 
 。 

 
 选定行的范围：逗号 

 
 $ sed -n '/test/,/check/p' example 

 
 ##  
 所有在模板 
 test 
 和 
 check 
 所确定的范围内的行都被打印。 

 
 $ sed -n '5,/^test/p' example 

 
 ##  
 打印从第五行开始到第一个包含以 
 test 
 开始的行之间的所有行。 

 
 $ sed '/test/,/check/s/$/sed test/' example 

 
 ##  
 对于模板 
 test 
 和 
 west 
 之间的行，每行的末尾用字符串 
 sed test 
 替换。 

 
 多点编辑： 
 e 
 命令 

 
 $ sed -e '1,5d' -e 's/test/check/' example 

 
 ##  (-e) 
 选项允许在同一行里执行多条命令。如例子所示，第一条命令删除 
 1 
 至 
 5 
 行，第二条命令用 
 check 
 替换 
 test 
 。命令的执行顺序对结果有影响。如果两个命令都是替换命令，那么第一个替换命令将影响第二个替换命令的结果。 

 
 $ sed --expression='s/test/check/' --expression='/love/d' example 

 
 ##  
 一个比 
 -e 
 更好的命令是 
 --expression 
 。它能给 
 sed 
 表达式赋值。 

 
 3/  
 从文件读入： 
 r 
 命令 

 
 $ sed '/test/r file' example 

 
 -----file 
 里的内容被读进来，显示在与 
 test 
 匹配的行后面，如果匹配多行，则 
 file 
 的内容将显示在所有匹配行的下面。 

 
 4/  
 写入文件： 
 w 
 命令 

 
 $ sed -n '/test/w file' example 

  ----- 
 在example 
 中所有包含test 
 的行都被写入file 
 里。 

 
 5/  
 追加命令： 
 a 
 命令 

 
 $ sed '/^test/a\\--->this is a example' example    

 
 ##  '--->this is a example' 
 被追加到以 
 test 
 开头的行后面， 
 sed 
 要求命令 
 a 
 后面有一个反斜杠。 

 
 6/  
 插入： 
 i 
 命令 

  $ sed '/test/i\\some thing new -------------------------' example 

 
 如果test 
 被匹配，则把反斜杠后面的文本插入到匹配行的前面。 

 
 7/  
 下一个： 
 n 
 命令 

  $ sed '/test/{ n; s/aa/bb/; }' example 

  ----- 
 如果test 
 被匹配，则移动到匹配行的下一行，替换这一行的aa 
 ，变为bb 
 ，并打印该行，然后继续。 

 
 8/  
 退出： 
 q 
 命令 

  $ sed '10q' example 

  ----- 
 打印完第10 
 行后，退出sed 
 。 

 
 3 awk 
 命令 

  awk 
 是一个强大的文本分析工具，相对于grep 
 的查找，sed 
 的编辑，awk 
 在其对数据分析并生成报告时，显得尤为强大。简单来说awk 
 就是把文件逐行的读入，以空格为默认分隔符将每行切片，切开的部分再进行各种分析处理。 

 
 假设last -n 5 
 的输出如下 

 
 [root@www ~]# last -n 5        ## 
 仅取出前五行 

 
 root     pts/1   192.168.1.100  Tue Feb 10 11:21   still logged in 

 
 root     pts/1   192.168.1.100  Tue Feb 10 00:46 - 02:28  (01:41) 

 
 root     pts/1   192.168.1.100  Mon Feb  9 11:41 - 18:30  (06:48) 

 
 dmtsai   pts/1   192.168.1.100  Mon Feb  9 11:41 - 11:41  (00:00) 

 
 root     tty1                   Fri Sep  5 14:09 - 14:10  (00:01) 

 
 如果只是显示最近登录的5 
 个帐号 

 
 #last -n 5 | awk  '{print $1}' 

 
 root 

 
 root 

 
 root 

 
 dmtsai 

 
 root 

  awk 
 工作流程是这样的：读入有'\n' 
 换行符分割的一条记录，然后将记录按指定的域分隔符划分域，填充域，$0 
 则表示所有域,$1 
 表示第一个域,$n 
 表示第n 
 个域。默认域分隔符是" 
 空白键" 
 或 "[tab] 
 键", 
 所以$1 
 表示登录用户，$3 
 表示登录用户ip, 
 以此类推。 

 
 如果只是显示/etc/passwd 
 的账户 

 
 #cat /etc/passwd |awk  -F ':'  '{print $1}'  

 
 root 

 
 daemon 

bin

sys

 
 这种是awk+action 
 的示例，每行都会执行action{print $1} 
 。 

  -F 
 指定域分隔符为':' 

 
 如果只是显示/etc/passwd 
 的账户和账户对应的shell, 
 而账户与shell 
 之间以tab 
 键分割 

 
 #cat /etc/passwd |awk  -F ':'  '{print $1"\t"$7}' 

  root    /bin/bash 

  daemon  /bin/sh 

  bin     /bin/sh 

  sys     /bin/sh 

 
 如果只是显示/etc/passwd 
 的账户和账户对应的shell, 
 而账户与shell 
 之间以逗号分割, 
 而且在所有行添加列名name,shell, 
 在最后一行添加"blue,/bin/nosh" 
 。 

 
 cat /etc/passwd |awk  -F ':'  'BEGIN {print "name,shell"}  {print $1","$7} END {print "blue,/bin/nosh"}' 

 
 name,shell 

 
 root,/bin/bash 

 
 daemon,/bin/sh 

 
 bin,/bin/sh 

 
 sys,/bin/sh 

 
 .... 

 
 blue,/bin/nosh 

  awk 
 工作流程是这样的：先执行BEGING 
 ，然后读取文件，读入有/n 
 换行符分割的一条记录，然后将记录按指定的域分隔符划分域，填充域，$0 
 则表示所有域,$1 
 表示第一个域,$n 
 表示第n 
 个域, 
 随后开始执行模式所对应的动作action 
 。接着开始读入第二条记录······直到所有的记录都读完，最后执行END 
 操作。 

 
 搜索/etc/passwd 
 有root 
 关键字的所有行 

 
 #awk  -F:  '/root/'  /etc/passwd 

  root:x:0:0:root:/root:/bin/bash 

 
 这种是pattern 
 的使用示例，匹配了pattern( 
 这里是root) 
 的行才会执行action( 
 没有指定action 
 ，默认输出每行的内容) 
 。 

 
 搜索支持正则，例如找root 
 开头的: awk -F:  '/^root/'  /etc/passwd 

 
 搜索/etc/passwd 
 有root 
 关键字的所有行，并显示对应的shell 

 
 # awk  -F':'  '/root/{print $7}'  /etc/passwd              

  /bin/bash 

    
 这里指定了action{print $7} 

 
 统计/etc/passwd: 
 文件名，每行的行号，每行的列数，对应的完整行内容: 

 
 #awk  -F ':'  '{print "filename:" FILENAME ",linenumber:" NR ",columns:" NF ",linecontent:"$0}'  
 /etc/passwd 

 
 filename:/etc/passwd,linenumber:1,columns:7,linecontent:root:x:0:0:root:/root:/bin/bash 

 
 filename:/etc/passwd,linenumber:2,columns:7,linecontent:daemon:x:1:1:daemon:/usr/sbin:/bin/sh 

 
 filename:/etc/passwd,linenumber:3,columns:7,linecontent:bin:x:2:2:bin:/bin:/bin/sh 

 
 filename:/etc/passwd,linenumber:4,columns:7,linecontent:sys:x:3:3:sys:/dev:/bin/sh 

 
 使用printf 
 替代print, 
 可以让代码更加简洁，易读 

   awk  -F ':'  '{printf("filename:%s,linenumber:%s,columns:%s,linecontent:%s\n",FILENAME,NR,NF,$0)}' /etc/passwd 

秒客网

linux高级文本处理命令—cut，sed，awk

相关文章