1.在编写处理字符串的程序或网页时,经常会有查找符合某些复杂规则的字符串的需要。正则表达式就是用于描述这些规则的工具。换句话说,正则表达式就是记录文本规则的代码。其中正则表达式包括基本正则表达式和扩展正则表达式,命令grep仅支持基本正则表达式。
2.元字符是这样一类字符,它们所表达的是不通字面本身的含义。常用的元字符有:
3.命令grep:根据正则表达式检索文档并显示。其命令格式为grep [options] 'patern' file。例如:显示/proc/cupinfo中含有字符串“mode”的行:grep 'mode ' /proc/cpuinfo。其选项有:
4.命令egrep:相当于grep -E,其增加的元字符有:+ 匹配一到任意次;?匹配0次或者1次;| 或者,例如表示ab或者ac,用(ab)|(ac)。另外,egrep不支持\{\}和\(|)。
5.命令cut:用于字符串的切分。其格式为:cut [-options] filename。其中选项-d 指定分隔符;-fn,显示第n个字段。
6.命令wc(word count):用于字符、单词或者行数统计。其中选项:-l 只显示行数;-w 只显示字数;-c 显示字节数;-m 显示字符数。
7.命令sort :用于文本内容排序,其仅对读出的数据排序,不影响源文件。其中,选项-n 可以实现按照数值的大小排序;-r 进行逆序排序;-f忽略字母大小写排序;-t指定分隔符;-k指定字段。
8.命令uniq:用于显示文件中不重复的行,重复的行只显示一遍(排序后有效)。其中,-u 志向是从未重复的行;-d只显示重复的行;-c 心事每行重复的次数。
9.命令diff:用于比较两个文件的不同之处,还可以生成补丁,支持比较两个目录中同名文件。
10.命令patch:用于修补文件,和命令diff搭配使用。其中,选项-R 用于撤销补丁;-p<剥离层级> 设置欲剥离几层路径名称。
11.命令aspell:用于单词的检查,格式为:aspell [options] <command> file。
12.命令sed:一种流编辑器,一次对一行文本进行编辑,不破坏源文件,支持正则表达式,并把结果输出到屏幕上。
本文出自 “点点滴滴” 博客,请务必保留此出处http://dongni80.blog.51cto.com/1983698/551567