文本处理器

时间:2024-06-08 07:29:28

Shell编程三剑客

  • grep
  • sed
  • awk
(注:Shell 编程中经常用到的文本处理工具)

sed工具文本解析转换工具

sed (Stream EDitor)
优点
  • 强大
  • 简单
  • 可以读取文本,并根据指定的条件对文本内容进行编辑(删除、替换、添加、移动等),最后输出所有行或者仅输出处理的某些行
  • 可以在无交互的情况下实现相当复杂的文本处理操作
广泛应用于 Shell 脚本中,完成各种自动化处理任务
工作流程包括
  • 读取:sed 从输入流(文件、管道、标准输入)中读取一行内容并存储到临时的缓冲区中(又称模式空间,pattern space)。
  • 执行:默认情况下,所有的 sed 命令都在模式空间中顺序地执行,除非指定了行的地址,否则 sed 命令将会在所有的行上依次执行。
  • 显示:发送修改后的内容到输出流。在发送数据后,模式空间将会被清空。
sed 命令常见用法

sed 命令两种格式

sed [选项] '操作' 参数
sed [选项] -f scriptfile 参数

“参数”指操作的目标文件,当存在多个操作对象时用,文件之间用逗号分隔

scriptfile表示脚本文件,需要用“-f”选项指定,当脚本文件出现在目标文件之前时,表示通过指定的脚本文件来处理输入的目标文件

sed 常用选项

  • -n :使用安静(silent)模式。在一般 sed 的用法中,所有来自 STDIN 的数据一般都会被列出到终端上。但如果加上 -n 参数后,则只有经过sed 特殊处理的那一行(或者动作)才会被列出来
  • -e :直接在命令列模式上进行 sed 的动作编辑
  • -f :直接将 sed 的动作写在一个文件内, -f filename 则可以运行 filename 内的 sed 动作
  • -r :sed 的动作支持的是延伸型正规表示法的语法。(默认是基础正规表示法语法)
  • -i :直接修改读取的文件内容,而不是输出到终端
常见的 sed 命令选项主要包含
  • -e --expression=:表示用指定命令或者脚本来处理输入的文本文件。
  • -f --file=:表示用指定的脚本文件来处理输入的文本文件。
  • -h --help:显示帮助。
  • -n--quiet silent:表示仅显示处理后的结果。
  • -i:直接编辑文本文件。
操作需要在 5~ 20 行之间进行,则表示为“520 动作行为。常见的操作包括

  • -a:增加,在当前行下面增加一行指定内容
  • -c:替换,将选定行替换为指定内容
  • -d:删除,删除选定的行
  • -i:插入,在选定行上面插入一行指定内容
  • -p:打印,如果同时指定行,表示打印指定行;如果不指定行,则表示打印所有内容;如果有非打印字符,则以 ASCII 码输出。其通常与“-n”选项一起使用
  • -s:替换,替换指定字符
  • -y:字符转换

用法

输出符合条件的文本(p 表示正常输出)

输出所有内容
[root@localhost ~]# sed -n 'p' test.txt 

输出第三行
[root@localhost ~]# sed -n '3p' test.txt 

输出3~5行
[root@localhost ~]# sed -n '3,5p' test.txt 

输出所有奇数行
[root@localhost ~]# sed -n 'p;n' test.txt 

输出所有偶数行
[root@localhost ~]# sed -n 'n;p' test.txt 

输出第1~5行之间的奇数行
[root@localhost ~]# sed -n '1,5{p;n}' test.txt 

输出第10行至文件尾之间的偶数行
[root@localhost ~]# sed -n '10,${n;p}' test.txt 
注释:此命令中,读取的第一行是文件的第10行,读取的第二行,是文件的第11行,依次类推

输出包含the的行
[root@localhost ~]# sed -n '/the/p' test.txt 

输出从第4行开始至第一个包含the的行
[root@localhost ~]# sed -n ' 4,/the/p' test.txt 

输出包含the的行所在的行号
[root@localhost ~]# sed -n '/the/=' test.txt 

注释:=用来输出行号

输出以PI开头的行
[root@localhost ~]# sed -n '/^PI/p' test.txt 

输出包含单词wood的行
[root@localhost ~]# sed -n '/\<wood\>/p' test.txt 

删除符合条件的文本(d

// 删除第3行
[root@localhost ~]# nl test.txt | sed '3d'		##显示行号
或
[root@localhost ~]# sed '3d' test.txt		##不显示行号


// 删除3~5行
[root@localhost ~]# nl test.txt |sed '3,5d'

// 删除包含cross的行
[root@localhost ~]# nl test.txt |sed '/cross/d'

注释:删除不包含cross的行
[root@localhost ~]# nl test.txt |sed '/cross/! d'

// 删除以小写字母开头的行
[root@localhost ~]# sed '/^[a-z]/d' test.txt 

// 删除以点结尾的行
[root@localhost ~]# sed '/\.$/d' test.txt 

// 删除空行
[root@localhost ~]# sed '/^$/d' test.txt

替换符合条件的文本

  • s(字符串替换)
  • c(整行/整块替换)
  • y (字符转换)
将每行的第一个the换成THE
[root@localhost ~]# sed 's/the/THE/' test.txt 

将每行中的第2个l换成L
[root@localhost ~]# sed 's/l/L/2' test.txt 

将文中所有的the换成THE
[root@localhost ~]# sed 's/the/THE/g' test.txt 

将文中所有的o删除
[root@localhost ~]# sed 's/o//g' test.txt 

在每行的行首插入#
[root@localhost ~]# sed 's/^/#/' test.txt 
注释:在每行行尾添加#
[root@localhost ~]# sed 's/$/#/' test.txt 

在包含the的每行的行首插入#
[root@localhost ~]# sed '/the/s/^/#/' test.txt 

在每行的行尾插入字符串EOF
[root@localhost ~]# sed 's/$/EOF/' test.txt

将第3~5行中的所有the替换成THE
[root@localhost ~]# sed '3,5s/the/THE/g' test.txt 

将包含the的所有行中的o都替换成O
[root@localhost ~]# sed '/the/s/o/O/g' test.txt

迁移符合条件的文本

  • H:复制到剪贴板
  • gG:将剪贴板中的数据覆盖/追加至指定行
  • w:保存为文件
  • r:读取指定文件
  • a:追加指定内容
// 将包含the的行迁移至文件的末尾
[root@localhost ~]# sed '/the/{H;d};$G' test.txt 

// 将第1~5行的内容转移至第17行后
[root@localhost ~]# sed '1,5{H;d};17G' test.txt 

// 将包含the的行另存为文件out.txt
[root@localhost ~]# sed '/the/w out.txt' test.txt 

// 将文件/etc/hostname的内容添加到包含the的每一行后
[root@localhost ~]# sed '/the/r /etc/hostname' test.txt 

// 在第3行后插入一个新行,内容为#chkconfig:35 82 20
[root@localhost ~]# sed '3a#chkconfig:35 82 20' test.txt 

// 在包含the的每行后插入一个新行,内容为New
[root@localhost ~]# sed '/the/aNew' test.txt 

// 在第3行后插入多行内容
[root@localhost ~]# sed '3aNew1\nNew2' test.txt

注释:\n为换行,添加两行为New1和New2

使用脚本编辑文件

//将第 1~5 行内容转移至第 17 行后
sed '1,5{H;d};17G' test.txt
[root@localhost ~]# vi opt.list
1,5H
1,5d
17G
[root@localhost ~]# sed -f opt.list test.txt
The year ahead will test our political establishment to the limit. PI=3.141592653589793238462643383249901429
a wood cross!
Actions speak louder than words
#woood #
#woooooood #
AxyzxyzxyzxyzC
I bet this place is really spooky late at night!
Misfortunes never come alone/single.
I shouldn't have lett so tast. he was short and fat.
He was wearing a blue polo shirt with black pants.
The home of Football on BBC Sport online.
the tongue is boneless but it breaks bones.12!
google is the best tools for search keyword.

sed 直接操作文件

[root@localhost ~]# vim local_only_ftp.sh
#!/bin/bash
# 指定样本文件路径、配置文件路径
SAMPLE="/usr/share/doc/vsftpd-3.0.2/EXAMPLE/INTERNET_SITE/vsftpd.conf " CONFIG="/etc/vsftpd/vsftpd.conf" 
# 备份原来的配置文件,检测文件名为/etc/vsftpd/vsftpd.conf.bak 备份文件是否存在, 若不存在则使用 cp 命令进行文件备份
[ ! -e "$CONFIG.bak" ] && cp $CONFIG $CONFIG.bak
# 基于样本配置进行调整,覆盖现有文件
sed -e '/^anonymous_enable/s/YES/NO/g' $SAMPLE > $CONFIG
sed -i -e '/^local_enable/s/NO/YES/g' -e '/^write_enable/s/NO/YES/g' $CONFIG
grep "listen" $CONFIG || sed -i '$alisten=YES' $CONFIG
# 启动 vsftpd 服务,并设为开机后自动运行
systemctl restart vsftpd
systemctl enable vsftpd
[root@localhost ~]# chmod +x local_only_ftp.sh

awk 工具

awk 常见用法

  • $0:表示整个当前行
  • $1           每行第一个字段
  • NF          字段数量变量
  • NR          每行的记录号,多文件记录递增
  • FNR        与NR类似,不过多文件记录不递增,每个文件都从1开始
  • \t            制表符
  • \n           换行符
  • FS          BEGIN时定义分隔符
  • RS       输入的记录分隔符, 默认为换行符(即文本是按一行一行输入)
  • ~            匹配,与==相比不是精确比较
  • !~           不匹配,不精确比较
  • ==         等于,必须全部相等,精确比较
  • !=           不等于,精确比较
  • &&     逻辑与
  • ||             逻辑或
  • +            匹配时表示1个或1个以上
  • /[0-9][0-9]+/   两个或两个以上数字
  • /[0-9][0-9]*/    一个或一个以上数字
  • FILENAME 文件名
  • OFS      输出字段分隔符, 默认也是空格,可以改为制表符等
  • ORS        输出的记录分隔符,默认为换行符,即处理结果也是一行一行输出到屏幕
  • -F'[:#/]'   定义三个分隔符

awk案例

按行输出文本

//输出所有
awk -F":" '{print}' /etc/passwd
//输出所有
awk -F":" '{print $0}' /etc/passwd
//显示第3行到第6行
awk -F: 'NR==3,NR==6{print}' /etc/passwd 
//显示第3行到第6行
awk -F: 'NR>=3&&NR<=6{print}' /etc/passwd
//显示第3行和第6行
awk -F: 'NR==3||NR==6{print}' /etc/passwd
//显示奇数行
awk '(NR%2)==1{print}' /etc/passwd
//显示偶数行
awk '(NR%2)==0{print}' /etc/passwd
//显示以root开头的行
awk '/^root/{print}' /etc/passwd
//显示以nologin结尾的行
awk '/nologin$/{print}' /etc/passwd
//统计以/bin/bash结尾的行数
awk 'BEGIN {x=0};/\/bin\/bash$/{x++};END {print x}' /etc/passwd
//统计以空行分隔的文本段落数
awk 'BEGIN{RS=""};END{print NR}' /etc/ssh/sshd_config

//输出每行的行号
awk '{print NR,$0}' /etc/passwd
//依次打印行号,字段数,最后字段值,制表符,每行内容
awk -F: '{print NR,NF,$NF,"\t",$0}' /etc/passwd
//显示第5行
awk -F: 'NR==5{print}'  /etc/passwd
//不显示第一行
route -n|awk 'NR!=1{print}'

//显示每行有多少字段
awk -F: '{print NF}' /etc/passwd
//将每行第NF个字段的值打印出来

awk -F: '{print $NF}' /etc/passwd
//显示只有4个字段的行
awk -F: 'NF==4 {print }' /etc/passwd
  //显示每行字段数量大于2的行
awk -F: 'NF>2{print $0}' /etc/passwd

按字段输出文本

//显示第三列
awk -F":" '{print $3}' /etc/passwd
//$1与$3相连输出,无空格,
awk -F":" '{print $1 $3}' /etc/passwd
//多了一个逗号,输出第1和第3个字段,有空格
awk -F":" '{print $1,$3}' /etc/passwd
//统计密码为空的shadow记录
awk -F: '$2=="!!" {print}' /etc/shadow
##显示密码为空的用户的shadow信息
awk 'BEGIN {FS=":"}; $2=="!!" {print}' /etc/shadow
##显示第七个字段为/bash的行的第一个字段
awk -F ":" '$7~"/bash" {print $1}' /etc/passwd
//显示第5行
awk -F: 'NR==5{print}' /etc/passwd
//$1与$3之间手动添加空格分隔
awk -F":" '{print $1 " " $3}' /etc/passwd

通过管道、双引号调用shell命令

##统计bash用户的个数
awk -F: '/bash$/{print | "wc -l"}' /etc/passwd
##统计在线用户的数量
awk 'BEGIN {while ("w" | getline) n++ ; {print n-2}}'
##输出当前主机名
awk 'BEGIN {"hostname" | getline;print $0}'

//逻辑与,$1匹配mail,并且$3>6
awk -F: '$1~/mail/ && $3>6 {print }' /etc/passwd
awk -F: '{if($1~/mail/ && $3>8) print }' /etc/passwd
//逻辑或,统计以mail开头或第3列大于1000的行  
awk -F: '$1~/mail/ || $3>1000 {print }' /etc/passwd
awk -F: '{if($1~/mail/ || $3>1000) print }' /etc/passwd 

优点

  • 功能强大的编辑工具
  • 逐行读取输入文本
  • 根据指定的匹配模式进行查找,对符合条件的内容进行格式化输出或者过滤处理
  • 可以在无交互的情况下实现相当复杂的文本操作,被广泛应用于 Shell 脚本

awk 包含几个特殊的内建变量(可直接用)

  • FS:指定每行文本的字段分隔符,默认为空格或制表位
  • NF:当前处理的行的字段个数
  • NR:当前处理的行的行号(序数)
  • $0:当前处理的行的整行内容
  • $n:当前处理行的第 n 个字段(第 n 列)
  • FILENAME:被处理的文件名
  • RS:数据记录分隔,默认为\n,即每行为一条记录

sort 工具

常用的文件排序工具有三种
  • sort
  • uniq
  • wc

sort 是以行为单位对文件内容进行排序的工具,也可以根据不同的数据类型来排序

sort 命令的语法为“sort [选项] 参数,其中常用的选项包括

  • -f:忽略大小写
  • -b:忽略每行前面的空格
  • -M:按照月份进行排序
  • -n:按照数字进行排序
  • -r:反向排序
  • -u:等同于 uniq,表示相同的数据仅显示一行
  • -t:指定分隔符,默认使用[Tab]键分隔
  • -o <输出文件>:将排序后的结果转存至指定文件
  • -k:指定排序区域

/将/etc/passwd 文件中的账号进行排序

[root@localhost ~]# sort /etc/passwd

/etc/passwd 文件中第三列进行反向排序

[root@localhost ~]# sort -t ':' -rk 3 /etc/passwd

/etc/passwd 文件中第三列进行排序,并将输出内容保存至 user.txt 文件中

uniq 工具

通常与 sort 命令结合使用,用于报告或者忽略文件中的重复行

命令语法格式为:uniq [选项] 参数

常用选项包括
  • -c:进行计数
  • -d:仅显示重复行
  • -u:仅显示出现一次的行

删除 testfile 文件中的重复行

[root@localhost ~]# cat testfile
Linux 10 
Linux 20 
Linux 30 
Linux 30 
Linux 30 
CentOS 6.5
CentOS 6.5 
CentOS 6.5 
CentOS 7.3 
CentOS 7.3 
CentOS 7.3

[root@localhost ~]# uniq testfile 
Linux 10 
Linux 20 
Linux 30 
CentOS 6.5 
CentOS 7.3

tr 工具

常用于标准输入的字符进行替换、压缩和删除

优点
  • 可以将一组字符替换之后变成另一组字符
  • 经常用来编写优美的单行命令
  • 作用很强大

常用选项包括

  • -c:取代所有不属于第一字符集的字符
  • -d:删除所有属于第一字符集的字符
  • -s:把连续重复的字符以单独一个字符表示
  • -t:先删除第一字符集较第二字符集多出的字符

将输入字符由大写转换为小写

[root@localhost ~]# echo "KGC" | tr 'A-Z' 'a-z' 
kgc

压缩输入中重复的字符

[root@localhost ~]# echo "thissss is a text linnnnnnne." | tr -s 'sn' 
this is a text line.

删除字符串中某些字符

[root@localhost ~]# echo 'hello world' | tr -d 'od' 
hell wrl

小阿轩yx-Shell编程之正则表达式与文本处理器