Shell通配符和正则表达式

时间:2021-08-16 21:26:23


  Shell是一种有特殊功能的程序,可以把它理解为是用户与内核进行交互才做的一个接口。我们知道,内核是Linux的心脏,内核在开机的时候就被调入并留在内存中。而其他的应用程序,只在需要使用的时候才被调入内存中。Shell就是一种应用程序,它是在用户登录系统的时候,被调入内存执行的。它连接了用户与内核,用户输入的命令,需要Shell传送到内核进行执行才生效,并将结果返回给用户。Shell内封装了很多能够与内核通信的命令,用户就是使用这些命令来管理Linux的了。具体的关系如下所示:

                                                              Shell通配符和正则表达式

打开Shell的方式有两种:

      第一种是通过在Linux系统的图形用户界面GNOME下点击“应用程序 -> 附件 -> 终端”来打开Shell。此时就会出现类似于windows下的DOS窗口,用户可以在此窗口中的命令提示符后输入Linux命令。

      第二种是使用软件工具,直接通过Shell登录到Linux系统。主要是使用一些软件工具以ssh的方式远程登录到Linux系统上。目前比较流行的软件工具有secureCRT和PuTTY两种,都是非常好用的工具。可以简单说一下这两种工具的使用方法:

      (1) secureCRT

      该软件的功能比较多,可以用ssh的方式连接到远程Linux系统,在其他的应用上,还是一个很不错的telnet工具,可以进行路由器或者是交换机的管理。用户界面比较简单,双击图标就会弹出“Quick Connect”(快速连接)的登陆界面,输入主机名(也就是远程主机的IP或者域名)和用户名,点击“连接”按钮,在接下来弹出的对话框中输入用户密码,就可以登录到系统,输入命令就行操作了。有时候下面几张图分别展现了这个连接过程:

                Shell通配符和正则表达式           Shell通配符和正则表达式     

                                                         Shell通配符和正则表达式      

       (2) PuTTY

       这是个比较常用的ssh连接工具。PuTTY的登陆界面如下所示:

                                                         Shell通配符和正则表达式

在“主机名称(或IP地址)”栏中输入远程主机的IP地址,点击打开,在出现的界面中输入登陆用户及其密码,成功登陆之后就会出现命令提示符了:

                                                           Shell通配符和正则表达式             

注意:很多时候,使用软件工具登陆到系统之后,在终端会出现中文乱码的情况。其实导致这个问题的原因是工具终端所使用的字符集和远程Linux系统的字符集不一样。在远程Linux系统,默认使用的字符集是UTF-8。所以,只要在终端上,将字符集设置成utf-8,就可以解决乱码的问题了。



正则表达式

正则表达式主要是用来描述一个句法规则的模式。其实说的通俗一点,就是利用字符和元字符的组合,对一些符合既定句法的模式进行模糊匹配。它的主要功能是文本查询和字符串操作。

正则表达式的基本元素包括普通字符和元字符,在Linux shell里面,常用的正则表达式元字符集为:S={*  .  ^  $  []  \  \<\>  \{\}  \{n,\}  \{n,m\} },每一个元字符都有自己在正则表达式中的含义,下面来介绍一下:

“ * ”符号:表示匹配前面一个普通字符0次或多次。注意这里是一个普通字符,即如果是JO*B的话,那么*就匹配字符“O”任意次,而不是匹配“JO”串。

“ . ”符号:表示匹配任意一个字符。字符“ . "就表示一个字符,这个字符可以是任意字符。例如字符串 ...73 就表示前面3个字符为任意字符(包括空格),第4个和第5个字符分别是7和3。

“ ^ ”符号:表示匹配行首。例如:^cloud就表示匹配以cloud字符串开头的所有行。与上面匹配一个字符不一样,这里匹配的是后面跟着的整个字符串。

” $ "符号:表示匹配行尾。例如:cloud$ 就表示匹配以cloud字符串结尾的所有行。结合上面的匹配行首,^$表示匹配空行。

“ [] "符号:表示匹配方括号里面的字符集中的一个。例如:数字0-9中的任意一个数字都满足[0-9]这个表达式。值得注意的是,当^放在[]里面的时候,^就不再表示行首,而是表示取反。如:[^7-9]则表示非7-9中的任意一个数字才满足这个表达式。

” \ “符号:是转义字符。如果你写的正则表达式里面包括元字符,而你又想将它当做普通字符用的话,就要在前面加上转义符号" \ "了。例如:\$就表示一个普通字符”$"。

“\<\>"符号:表示精确匹配<>内的字符,” \ “是用来转义<>这两个字符的。例如:\<the\>表示匹配包含”the“的行,由于精确匹配,所以,”them“,”theory“这些单词所在的行并不会被匹配到。

”\{\}"符号:与" * "类似,表示匹配前面的一个字符任意多次。但是“\{\}”可以指定重复的次数,如\{3\}则表示重复前面的字符3次;\{3,\}表示重复前面的字符至少3次;\{3,5\}表示重复3到5次。例如:JO\{3\}B则表示重复字符O三次,即JOOOB;JO\{3,\}B则表示至少重复O三次,即JOOOB,JOOOOB等都符合;\{3,5\}则匹配JOOOB,JOOOOB,JOOOOOB这几个字符串。

通配符

初学的时候对于正则表达式和通配符的理解很模糊,两个都是可以进行模糊匹配的,到底什么时候用才是正则表达式,什么时候用是通配符呢?其实,我们登录系统之后,系统的bash shell并不支持正则表达式的,也就是说,我们如果使用bash shell的某些命令时使用正则表达式,shell可能会认不出来,只有当我们使用类似grep,sed,awk等工具的时候才有效。所以,我们在使用bash shell的时候也想达到模糊匹配的目的的话,就要使用通配符了。

通配符是使用正则表达式的一些元字符来的,常用的元字符集:E={?  *  []  {}  ^ }。不过,这个通配符的元字符意义跟正则表达式里面的不太一样。例如:

“ * "字符不再表示匹配前面一个字符任意多次,而是表示任意位置的任意字符。例如:phi*ip,则可以匹配philip,phillip,philsaip等开始三个是phi和结尾两位是ip的任意字符。例如ls -l *.awk表示匹配以.awk结尾的所有文件,*表示任意长度任意字符组合。

" ? ”字符才表示任意一个字符。同正则表达式元字符的" . " 

" {} “字符不需要转义。在{}表示的是表达式集合。如:ls -l {[a-h]*.awk,0?.pem}则表示列出所有以a-h字符开头的.awk文件的和以0开头,后面接一个任意字符的.pem文件

" ^ "字符也不是表示行首,而是代表取反。


正则表达式和通配的应用环境上有些不一样,但是都能够达到模糊匹配的效果。在后面介绍到的使用grep,sed和awk等工具对于文件的查找以及各种操作中,正则表达式的匹配作用更加明显。