字符编码
ASCII:只有英文字母和一些符号
GB2312:在ASCII的基础上加入中国的汉子
但是其他国家也有自己的文字,于是就有很多其他的编码,还是麻烦,于是就有了Unicode
Unicode:把所有语言统一到一套编码中
但是,因为不同文字比如汉字和英文,所需要的储存空间不一样,如果使用Unicode编码会存在空间浪费的情况,于是就有了UTF-8这种可变长编码
由于Python源代码也是一个文本文件,所以,当你的源代码中包含中文的时候,在保存源代码时,就需要务必指定保存为UTF-8编码。当Python解释器读取源代码时,为了让它按UTF-8编码读取,我们通常在文件开头写上这两行:
#!/usr/bin/env python
# -- coding: utf-8 --
第一行注释是为了告诉Linux/OS X系统,这是一个Python可执行程序,Windows系统会忽略这个注释;
第二行注释是为了告诉Python解释器,按照UTF-8编码读取源代码,否则,你在源代码中写的中文输出可能会有乱码。
如何输出格式化字符串
与c语言一样,使用%
例子:
用法和c一样
有歧义需要显示%字符的时候,需要写成%%
列表list
Python内置的一种数据类型是列表:list。list是一种有序的集合,可以随时添加和删除其中的元素。(类似数组)
比如,列出班里所有同学的名字,就可以用一个list表示:
>>> classmates = ['Michael', 'Bob', 'Tracy']
变量classmates就是一个list。
- 用len()函数可以获得list元素的个数:
>>> len(classmates)
- 用索引来访问list中每一个位置的元素,记得索引是从0开始的:
>>> classmates[0]
'Michael'
>>> classmates[1]
'Bob'
>>> classmates[2]
'Tracy'
>>> classmates[3]
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
IndexError: list index out of range
当索引超出了范围时,Python会报一个IndexError错误,所以,要确保索引不要越界,记得最后一个元素的索引是len(classmates) - 1。
如果要取最后一个元素,除了计算索引位置外,还可以用-1做索引,直接获取最后一个元素:
以此类推,可以获取倒数第2个、倒数第3个:
- 往list中追加元素到末尾:
>>> classmates.append('Adam')
也可以把元素插入到指定的位置,比如索引号为1的位置:
>>> classmates.insert(1, 'Jack')
>>> classmates
['Michael', 'Jack', 'Bob', 'Tracy', 'Adam']
- 要删除list末尾的元素,用pop()方法:
>>> classmates.pop()
'Adam'
>>> classmates
['Michael', 'Jack', 'Bob', 'Tracy']
要删除指定位置的元素,用pop(i)方法,其中i是索引位置:
>>> classmates.pop(1)
'Jack'
>>> classmates
['Michael', 'Bob', 'Tracy']
要把某个元素替换成别的元素,可以直接赋值给对应的索引位置:
list里面的元素的数据类型也可以不同,
- list元素也可以是另一个list
- 如果一个list中一个元素也没有,就是一个空的list,它的长度为0:
元组:tuple
tuple和list非常类似,但是tuple一旦初始化就不能修改(指向不变)
>>> classmates = ('Michael', 'Bob', 'Tracy')
现在,classmates这个tuple不能变了,它也没有append(),insert()这样的方法。其他获取元素的方法和list是一样的,但不能赋值成另外的元素。
tuple的陷阱:
当你定义一个tuple时,在定义的时候,tuple的元素就必须被确定下来
如果要定义一个空的tuple,可以写成()
但是,要定义一个只有1个元素的tuple定义时必须加一个逗号,,来消除歧义
指向不变:加入tuple中有个list list中的元素是可以变的,因为是指向不变,他指向的list没有变化,但是list中的内容和他没有关系,变不变都管不到
list和tuple定义时的区别:
list是用中括号[]
tuple是用小括号()