awk
awk是个很好用的东西,大量使用在linux系统分析的结果展示处理上。并且可以使用管道, input | awk '' | output
1.首先要知道形式
awk 'command' file 如 awk '{print $0}' a.txt b.txt (后面可以跟一个或多个文件)
2.command学习。command是awk的精髓,其结构为 '条件 {动作} 条件2 {动作2} ……'
2.1关键字学习:
变量名 含义
ARGC 命令行变元个数
ARGV 命令行变元数组
FILENAME 当前输入文件名
FNR 当前文件中的记录号
FS 输入域分隔符,默认为一个空格
RS 输入记录分隔符
NF 当前记录里域个数
NR 到目前为止记录数
OFS 输出域分隔符
ORS 输出记录分隔符
ARGC 命令行变元个数
ARGV 命令行变元数组
FILENAME 当前输入文件名
FNR 当前文件中的记录号
FS 输入域分隔符,默认为一个空格
RS 输入记录分隔符
NF 当前记录里域个数
NR 到目前为止记录数
OFS 输出域分隔符
ORS 输出记录分隔符
2.2
条件与动作。
条件包括:
BEGIN END 特殊的两个,代表初始化和扫尾
判断:如$1 == "abc" $NR == 5 /^tcp/(表示正则匹配)
也可不写条件,则表示“全匹配”。从这个角度来讲 条件本质上是一种筛选规则。
动作:
{print NR,NF,$1,$NF,}
{if(xxx) xxx; else xxx;}
{for(key in array) xxx}
3.实例学习:
查看机器建立的各连接数
netstat -n | awk '/^tcp/ {++state[$NF]} END {for(key in state) print key,"\t",state[key]}'
看每个连接的占用内存byte数---apache
ps aux|grep -v grep|awk '/httpd/ {sum+=$6;n++};END{print sum/n}'
根据逗号对abc文件的每一行进行split,然后按照第二列进行排序,结果输出到abc-sort中
awk -F, '{print $1}' abc | sort -n -k 2 -t: -r > abc-sort
sort命令解释:
-n 是按照数字排序
-k 是按照第二列排
-t: 是以:为分隔符
-r 是倒叙
sort命令解释:
-n 是按照数字排序
-k 是按照第二列排
-t: 是以:为分隔符
-r 是倒叙
git查看本次需要提交中变更的内容
git diff master HEAD --stat | awk '{printf "%s\n",$1}' |grep domain | awk -F'/' '{printf "%s\n",$NF}' | sort
批量重命名
ls *需要替换* | awk '{org=$0;gsub("需要替换","替换为");system("echo "org" "$0)}'
sed
sed用法很多,但是根据上节之中,用来做内容替换最多。
sed -i -e 's/^dubbo_provider_version=.*[^e]$/&-pre/' /home/wuji/webroot-xxx/WEB-INF/classes/biz.properties
该命令作用是把 biz.properties中的dubbo_provider_version=1.0.0 替换为dubbo_provider_version=1.0.0-pre
替换的格式为 sed -e ’s/abc/def’ file.txt 把abc替换为def。其中第一部分的正则在第二部分可以被&取到。注意取到的是从dubbo开头的全部,而不是.*部分,这是正则表达式的知识。
并且s可以扩展为
举例2:去掉所有html标签
$ sed -e 's/<[^>]*>//g' myfile.html
g的作用:不加只替换第一个匹配,加了会替换所有匹配
sed -i 直接替换文件而不是在屏幕上输出
学习过vim的朋友们可以轻易的联想到vim的命令模式,也有:s/abc/def的写法,所以linux下的知识很多都可以触类旁通。
uniq
uniq可以去除重复行或者做group by的统计
文件file:
a
a
b
b
b
sort file | uniq :
a
b
sort file | uniq -c:
2 a
3 b
之所以和sort组合是要把所有的a弄到一起,防止b后面有a的情况。
uniq -d 只显示重复的 ,-c只显示不重复的,两者互斥。
uniq -dc 只显示重复并统计
sort
功能说明:将文本文件内容加以排序。
语 法:sort [-bcdfimMnr][-o<输出文件>][-t<分隔字符>][+<起始栏位>-<结束栏位>][--help][--verison][文件]
补充说明:sort可针对文本文件的内容,以行为单位来排序。
实例:
以第一个关键列的第二个字母开始进行排序:
$ sort -k 1.2 file.txt
以关键列第一列的第二个字母进行排序,如果第二个字母相同则根据第三列以数值的标准进行降序排列。
$ sort -k 1.2,1.2 -k 3,3nr file.txt
-k 排序字段,按照-t 分隔符来区分的,从0开始。
-n 以数字格式排序。默认string方式比较的话,20和9比较是后者大。
-r 反序
-d 排序时,处理英文字母、数字及空格字符外,忽略其他的字符。
-b 忽略每行前面开始出的空格字符。
-u 去除重复行。(
可以利用这个来去重)
sort选项没特别需要讲的,需要注意的就是-k。-k选项的具体语法格式如下:
[ FStart [ .CStart ] ] [ Modifier ] [ , [ FEnd [ .CEnd ] ][ Modifier ] ]
这个语法格式可以被其中的逗号(“,”)分为两大部分,Start部分和End部分。
如果不设定End部分,那么就认为End被设定为行尾。Start部分也由三部分组成,其中的Modifier部分就是我们之前说过的类似n和r的选项部分。
我们重点说说Start部分的FStart和C.Start。
C.Start也是可以省略的,省略的话就表示从本域的开头部分开始。之前例子中的-k 2和-k 3就是省略了C.Start的例子喽。
FStart.CStart,其中FStart就是表示使用的域,而CStart则表示在FStart域中从第几个字符开始算“排序首字符”。
同理,在End部分中,你可以设定FEnd.CEnd,如果你省略.CEnd,则表示结尾到“域尾”,即本域的最后一个字符。或者,如果你将CEnd设定为0(零),也是表示结尾到“域尾”。
od
od命令是分析文件内容的工具,很多时候不知道文件的内容编码,此时用od命令看文件内部的字节构成是最直接的方式,使用方法:
od -Ax -tcx4 file 。
可以用于分析字符编码 是否utf-8 ,是否LE,BE
至于如何分辨,还需要了解每种编码的规则,譬如utf-8一般以三个字节来显示中文,而gbk则是两个。