介绍:string模块可以追溯到最早的Python版本中。现在很多的被移植为str和unicode对象的方法,在python3.0中会被完全去除。string模块中,有很多有用的常量和累,用来处理string和unicode对象。
一、 函数
1、capwords()的作用是将一个字符串中所有单词的首字母大写;
import string
s = 'We believe one thing,today is difficult,tomorrow is more difficult,but the day after tomorrow is beautiful'
print s
print string.capwords(s)
print string.capwords(s,',')
执行结果:
We believe one thing,today is difficult,tomorrow is more difficult,but the day after tomorrow is beautiful
We Believe One Thing,today Is Difficult,tomorrow Is More Difficult,but The Day After Tomorrow Is Beautiful
We believe one thing,Today is difficult,Tomorrow is more difficult,but the day after tomorrow is beautiful
capwords(s,seq) 中可以传递两个参数,第一个是需要处理的字符串;第二个是使用什么条件进行拆分(默认空格);
该函数的工作原理死,先使用split拆分转变为大写以后,在使用join结合。
2、maketrans()函数将创建转换表,可以用来结合translate()方法将一组字符串修改为另一组字符
import string
s = 'We believe one thing,today is difficult,tomorrow is more difficult,but the day after tomorrow is beautiful'
leet = string.maketrans('abegiloprstz', '')
print s
print s.translate(leet)
执行结果:
We believe one thing,today is difficult,tomorrow is more difficult,but the day after tomorrow is beautiful
W3 63113v3 0n3 7h1n6,70d4y 15 d1ff1cu17,70m0220w 15 m023 d1ff1cu17,6u7 7h3 d4y 4f732 70m0220w 15 634u71fu1
maketrans(fromstr, tostr)中需必须传递两个参数,第一个是需要替换的字符,第二个是替换成为什么字符,需要注意的是两个字符串必须长度相同,否则会报异常。
二 模板
主要使用的是string.Template拼接,变量可以使用前缀$ 来标识($var)或者使用大括号进行区分(${var})
1、下面做一个模板和使用%操作符的比较
import string
val = {'var':'Victory'}
t = string.Template("""
Variable : $var
Escape : $var
Variable in text : ${var}iable
""")
print 'TEMPLATE:',t.substitute(val) s = """
Variable : %(var)s
Escape : %%
Variable in text : %(var)siable
"""
print "INTERPOLATION:", s % val
执行结果:
TEMPLATE:
Variable : Victory
Escape : Victory
Variable in text : Victoryiable
INTERPOLATION:
Variable : Victory
Escape : %
Variable in text : Victoryiable
在这两种情况下,触发器字符($ or %) 都要写连词来完成转义,其中此处需要注意的是使用% 进行传递字典参数时,方式是%(var)s 后面的s必不可少不然会报异常
模板与标准字符串拼接有一个重要的区别,即模板不考虑参数类型都是字符串,不会出现控制几位有效情况出现。
2、使用safe_substitute() 方法,可以避免未能提供模板所需全部参数值时产生的异常
import string
val = {'var':'Victory'}
t = string.Template("$var is here but $missing is not provided")
try:
print 'substiture() :',t.substitute(val)
except KeyError,err:
print "ERROR:", str(err) print 'safe_substitute():' , t.safe_substitute(val)
执行结果:
substiture() : ERROR: 'missing'
safe_substitute(): Victory is here but $missing is not provided
由于val中没有missing的值,所以会把出一个异常,但是在safe_substitute()中不会抛出这个错误,它会捕获这个异常,并在文本中保留变量表达式
三、高级模板
可以修改string.Tempate默认语法,调整正则表达式,最简单的是修改delimiter 和 idpattern
import string
template_text = """
Delimiter :%%
Replaced : %with_underscore
Ignored : %notunderscored
"""
d = { 'with_underscore' :'repaced',
'notunderscored':'not replaced'
}
class MyTemplate(string.Template):
delimiter = '%'
idpattern = '[a-z]+_[a-z]+' t = MyTemplate(template_text)
print 'Modified ID pattern:'
print t.safe_substitute(d)
执行结果:
Modified ID pattern:
Delimiter :%
Replaced : repaced
Ignored : %notunderscored
在以上的例子中,我们更改了替换规则,定界符从$变成了%,变量名必须包含一个_,所以Ignored中没有获得值。要完成更复杂的修改,可以覆盖pattern属性。
定义一个全新的正则表达式,所提供的模式必须包含四个命名组,分别对应转义定界符、命名变量、用大括号括住的正则表达式,已经不合法的定界符模式。
import string
t = string.Template('$var')
print t.pattern.pattern
执行结果:分别代表上面的四种命名组
\$(?:
(?P<escaped>\$) | # Escape sequence of two delimiters
(?P<named>[_a-z][_a-z0-9]*) | # delimiter and a Python identifier
{(?P<braced>[_a-z][_a-z0-9]*)} | # delimiter and a braced identifier
(?P<invalid>) # Other ill-formed delimiter exprs
)
下面,我们就拉定义一个新的模式
import string
import re class MyTemplate(string.Template):
delimiter = '{{'
pattern = r'''
\{\{(?:
(?P<escaped>\{\{)|
(?P<named>[_a-z][_a-z0-9]*)\}\}|
(?P<braced>[_a-z][_a-z0-9]*)\}\}|
(?P<invalid>)
)
'''
t = MyTemplate('''
{{{{
{{var}}
''')
print 'MATCHES:',t.pattern.findall(t.template)
print 'SUBSTITUTED: ',t.safe_substitute(var = 'relacement')
执行结果:
MATCHES: [('{{', '', '', ''), ('', 'var', '', '')]
SUBSTITUTED:
{{
relacement
注意named 和 braced 模式必须单独提供,尽管看上去是一样的。