刷题中熟悉Shell命令之Tenth Line和Transpose File [leetcode]

时间:2022-12-28 08:34:36

首先介绍题目中要用的4个Shell命令 sed awk head tail的常用方法。(打好地基,才能建成高楼!)

sed:(转自:http://www.cnblogs.com/barrychiao/archive/2012/09/27/2706300.html)

1.定位行

sed命令用来处理文本,在处理前首先要找得到待处理的行,这是逻辑上必须的。所以需要首先定位,然后对定位到的各行进行各种处理,包括插入,删除,替换等。
sed -n '10p' testfile // sed命令默认会打印出经过处理后所有的文本,-n选项则不打印这种默认文本。10为要定位的行,找到之后执行p命令,打印这一行。
sed -n '1,10p' testfile // 打印1-10行。
sed -n '2,$p' testfile // 打印第二行到最后一行。
sed -n '3~2p' testfile // 打印第3,5,7,9,…….行,你懂得。
sed -n '/Barry/,10p' testfile // 首先找到第一个匹配/Barry/(可以是其他基本正则表达式)的行,打印从这一行到第10行。
sed -n '1,3!p' testfile // 打印1-3行以外的行("!"的作用)。
sed -n '1{n;p}' testfile // 首先定位到第一行,然后执行命令n,定位到第一行的下一行,然后执行p打印,可见定位之后可以用 {}执行命令组合。
sed -n 'p' testfile // 什么都不写,则定位全部的行。
采用a,b这种模式定位时,首先定位a(如果超出范围或者未找到,就不会去查找b),然后定位b,如果b这一行在a的上面会出现什么状况呢?例如:
sed -n '/Barry/,/Hello/p' testfile 
该首先会定位到/Barry/,如果/Hello/这一行在/Barry/这一行上面,则只打印/Barry/这一行。为什么会这样?原来,sed定位是不回退的,即找到了/Barry/这一行之后,就从这一行下面找/Hello/,当然找不到了,所以只打印了/Barry/这一行。

2.命令

在定位之后当然是执行指定的命令了:d命令是删除命令。a命令在行后插入一行。i命令在行前插入一行。c命令替换行,当替换目标是连续的行时,把整体替换成一行。-r 选项使sed支持扩展正则表达式。s命令是替换命令,通常格式是line1,line2s/字符串1/字符串2/g,即把line1~line2的字符串1全部用字符串2代替,字符串1可以是正则表达式。这里不再对正则表达式详细介绍。如果末尾不加g字符,则表示只替换每行的第一个匹配的字符串。$是正则表达式的行尾标志。y命令替换以字符为单位,而s命令以字符串为单位。

看实例:
sed '1,3d' testfile // 删除1-3行,打印剩余的文本,注意,此时文件本身并没有改变。
sed -n '5,10a helloworld' testfile // 在5-10行每一行后面都增加一行 helloworld。
sed -n '5,10i helloworld' testfile // 在5-10行每一行前面都增加一行 helloworld。
sed -n ‘5~3c helloworld’ testfile //把5,8,11,14,17,20,23,26……依次替换为helloworld。
sed -n '5,10c helloworld' testfile //  把5-10行整体替换成一行helloworld。
sed -n -r '5,10s/yes|Yes/no/gp' testfile // 5-10行的yes或者Yes被替换成no。

sed '1,10s/$/helloworld/' testfile // 在1~10行中,替换每行的行尾设置为helloworld。
sed '5,10y/abc/ABC/' testfile // 5-10行的a被换成A,b被换成B,c被换成C,类似tr命令的功能。
sed '/My/r textfile' testfile // r命令是读命令,sed使用该命令将一个文本文件中的内容加到当前行的下面。
sed -n '1,10w newfile' testfile // 将1-10行写入newfile。w命令可以将指定的行写入指定的文件。
sed -n '/root/{=;p}' testfile // 定位到/root/行之后,打印行号,然后打印这一行。"="是打印行号的命令。

3.特殊选项

-i选项表示对真实文件进行操作,所做的更改将保存到文件中。-s,则将多个文件读入,当作一个整体处理,-s选项使分别处理。e选项可以进行多次处理。每次匹配到的行执行多个命令。命令之间用";"分隔。

sed -i '1,10d' testfile // 直接在文件中删除1~10行。
sed -s '1d' testfile1 testfile2 testfile3 // 此处有三个文件,如果不加-s,则将三个文件读入,当作一个整体处理,-s选项使分别处理。
sed -e '/root/p' -e '/Barry/d' testfile // 此处用-e选项可以进行多次处理,第一次打印/root/行,第二次删除/Barry/行。
sed -e '/root/{n;p}' -e '/Barry/{n;d}' testfile // 每次处理时,可以对每次匹配到的行执行多个命令。命令之间用";"分隔。

awk

命令行格式:

awk [-F  field-separator]  'commands'  input-file(s)
其中,commands 是真正awk命令,[-F域分隔符]是可选的。 input-file(s) 是待处理的文件。
在awk中,文件的每一行中,由域分隔符分开的每一项称为一个域。通常,在不指名-F域分隔符的情况下,默认的域分隔符是空格。
用$0变量是指整条记录。$1表示当前行的第一个域,$2表示当前行的第二个域,......以此类推 'commands'的格式
awk '{pattern + action}' {filenames}   '{pattern + action}'可以被总结为模式和操作

模式pattern :
  转自: http://man.linuxde.net/awk
  • /正则表达式/:使用通配符的扩展集。
  • 关系表达式:使用运算符进行操作,可以是字符串或数字的比较测试。
  • 模式匹配表达式:用运算符~(匹配)和~!(不匹配)。
  • BEGIN语句块、pattern语句块、END语句块。

操作action:

操作由一个或多个命令、函数、表达式组成,之间由换行符或分号隔开,并位于大括号内{}。

主要部分是:

  • 变量或数组赋值
  • 输出命令
  • 内置函数
  • 控制流语句

  awk 'BEGIN{ print "start" } pattern{ commands } END{ print "end" }' file

  一个awk脚本通常由:BEGIN语句块、能够使用模式匹配的通用语句块、END语句块3部分组成,这三个部分是可选的。任意一个部分都可以不出现在脚本中,脚本通常是被单引号或双引号中,

  例如: awk 'BEGIN{ i=0 } { i++ } END{ print i }' filename

  awk "BEGIN{ i=0 } { i++ } END{ print i }" filename

  第一步:执行BEGIN{ commands }语句块中的语句;

  第二步:从文件或标准输入(stdin)读取一行,然后执行pattern{ commands }语句块,它逐行扫描文件,从第一行到最后一行重复这个过程,直到文件全部被读取完毕。

  第三步:当读至输入流末尾时,执行END{ commands }语句块。

  BEGIN语句块在awk开始从输入流中读取行之前被执行,这是一个可选的语句块,比如变量初始化、打印输出表格的表头等语句通常可以写在BEGIN语句块中。

  END语句块在awk从输入流中读取完所有的行之后即被执行,比如打印所有行的分析结果这类信息汇总都是在END语句块中完成,它也是一个可选语句块。

  pattern语句块中的通用命令是最重要的部分,它也是可选的。如果没有提供pattern语句块,则默认执行{ print },即打印每一个读取到的行,awk读取的每一行都会执行该语句块。

awk的内置变量
ARGC               命令行参数个数
ARGV 命令行参数排列
ENVIRON 支持队列中系统环境变量的使用
FILENAME awk浏览的文件名
FNR 浏览文件的记录数
FS 设置输入域分隔符,等价于命令行 -F选项
NF 浏览记录的域的个数
NR 已读的记录数
OFS 输出域分隔符
ORS 输出记录分隔符
RS 控制记录分隔符

关于AWk命令的具体使用详解,请参考http://man.linuxde.net/awk。

Head 和 Tail(+从文章开头数,-从文章尾部数)

head命令是用来查看具体文件的前面几行的内容

tail命令是用来查看具体文件后面几行的内容

  -q 隐藏文件名

  -v 显示文件名

  -c<字节> 显示字节数

  -n<行数> 显示的行数

head -n 5 log2014.log  //文章前5行

head -n -2 log2014.log //将倒数第二行之前的内容都输出

tail [+ / - num ] [参数 ] 文件

tail -n +4 log2014.log //文章第四行之后的内容都输出(包含第四行)

tail -n -2 log2014.log //文章倒数两行的内容都输出

题目描述:

How would you print just the 10th line of a file?

For example, assume that file.txt has the following content:

Line 1
Line 2
Line 3
Line 4
Line 5
Line 6
Line 7
Line 8
Line 9
Line 10

  

Your script should output the tenth line, which is:

Line 10

Hint:

1. If the file contains less than 10 lines, what should you output?

2. There's at least three different solutions. Try to explore all possibilities.

题目大意:

输出一个文件的第10行。

思考:

1. 如果文件包含内容不足10行,应该输出什么?

2. 有至少3种不同的解决方法,尝试列举所有的可能方案

BASH脚本

解法一:使用awk

 # Read from the file file.txt and output the tenth line to stdout.
awk 'NR == 10' file.txt #NR代表已读过的记录数

解法二:使用sed

 # Read from the file file.txt and output the tenth line to stdout.
sed -n '10p' file.txt

解法三: 使用head和tail

 # Read from the file file.txt and output the tenth line to stdout.
head -n + file.txt | tail -n -1 #这种对于文件内不足10行的,就会出现错误,文件有9行 则输出9 ,为8行则输出8
 # Read from the file file.txt and output the tenth line to stdout.
tail -n + file.txt | head -n +

Transpose File(类似于矩阵转置问题)

 awk '{
for(i=;i<=NF;i++){
if(NR==){
s[i]=$i;
}else{
s[i]=s[i]" "$i;
}
}
}END{
for(i=;i<=NF;i++)
print s[i];
}' file.txt