Python中的字符串
可能大多数人在学习C语言的时候,最先接触的数据类型就是字符串,因为大多教程都是以"Hello world"这个程序作为入门程序,这个程序中要打印的"Hello world"就是字符串。如果你做过自然语言处理方面的研究,并且用Python去做过相关实验,你肯定会体会到Python在字符串处理方面相对于其他语言的明显优势之处。今天我们来了解一下Python中的字符串,看看它的用法。
一.Python中如何声明字符串
在Python中声明一个字符串通常有三种方法:在它的两边加上那个单引号、双引号或者三引号。
如:
从上面可以看出三种声明方法的效果是完全一样的,在Python中用这三种声明方法来声明字符串意义完全等同的,即'hello world'和"hello world"以及'''hello world'''是没有任何区别的。但是会有人问:既然是完全等同的,为什么要弄出三种声明方式呢?下面看一下这几个例子:
在Python中提供了这几种方法,使得使用起来更加方便灵活(当然也可以使用转义字符去解决上面报错的地方)。
在这里要注意的是,
1)在Python中没有类似C语言中char这种类型的字符串,也就是说即使是单个字符也是字符串。
2)Python中的字符串一旦声明,是不能进行更改的,即不能通过对某一位置重新赋值改变内容。
二.Python中的字符串类型
Python中的字符串有两种数据类型:str类型和unicode类型。str类型采用的ASCII编码,也就是说它无法表示中文。unicode类型采用unicode编码,能够表示任意的字符,包括中文、日文、韩文等。
在python中字符串默认采用的ASCII编码,如果要显示声明为unicode类型的话,需要在字符串前面加上'u'或者'U'。
下面看一段代码
print '我'
print u'我'
print 'python'
print u'python'
这段代码的运行结果为:
从运行结果可以看出,如果是中文的话,不采用unicode类型,输出的会是乱码。
三.转义字符和原始字符串
同C语言中一样,Python中也有转义字符,用反斜杠'\'来表示对后面字符进行转义。
比如上面例子中的问题就可以用转义来解决:
如果你编写过Java程序,并且使用过Java中的正则表达式,你可能会对Java正则表达式深恶痛绝(我自己就是),因为稍不注意就会出错,里面有太多的转义,而且看起来也很繁琐杂乱。在Python中,你不必再为这个问题烦恼了,因为Python提供了原始字符串,顾名思义,就是保留原始字符的意思,不对反斜杠及反斜杠后面的字符进行转义,声明原始字符串的方法是在字符串前面加上'r'或者'R'。
在这里要注意:在Python中行尾结束符始终为'\n',不论Python程序在哪个操作系统下运行。在Linux环境下编写C语言时,换行符为'\n',而在windows下为'\r\n'。编写Python程序不用担心这种因运行环境不同引起的不兼容问题。
四.用户输入以及格式化输出字符串
在Python中最常用的从键盘获取输入的函数是raw_input()和input()。但是这两个函数有很大的区别:
raw_input()以字符串的形式返回用户输入的一切内容;
而input()却不是这样,它会根据输入内容的形式确定返回的形式(可能有点拗口)。下面看个例子就明白了:
从这个例子显而易见可以看出两者的区别,同样输入123,raw_input()返回的是字符串123,而input()返回的是整数123。个人建议一般情况下使用raw_input()获取输入,这样能避免程序中出现一些不必要的麻烦。
同C语言一样,Python中也提供了格式化输出。
Python中的格式化输出和C语言类似,基本格式如下:
print '....%formmat..' %(var...)
当var只有一个时,括号可以省略。
关于Python的字符串今天就讨论这么多了,在这里只是讨论了基本的概念和知识点,相关字符串函数的使用请查阅API文档。