字符编码:
把人类的字符翻译成计算机能认识的数字
字符编码表
存放着人类字符和计算机数字的对应关系表
ascii、gbk、utf-8、unicode
unicode》encode(utf8)》bytes
bytes》decode(utf8)》unicode
文件处理补充:
字符以什么格式编码的,就要以什么格式解码
文件的打开模式
文件句柄 = open('文件路径', '模式')打开文件时,需要指定文件路径和以何等方式打开文件,打开后,即可获取该文件句柄,日后通过此文件句柄对该文件操作。
打开文件的模式有:
- r ,只读模式【默认模式,文件必须存在,不存在则抛出异常】
- w,只写模式【不可读;不存在则创建;存在则清空内容】
- x, 只写模式【不可读;不存在则创建,存在则报错】
- a, 追加模式【可读; 不存在则创建;存在则只追加内容】
"+" 表示可以同时读写某个文件
- r+, 读写【可读,可写】
- w+,写读【可读,可写】
- x+ ,写读【可读,可写】
- a+, 写读【可读,可写】
"b"表示以字节的方式操作
- rb 或 r+b
- wb 或 w+b
- xb 或 w+b
- ab 或 a+b
注:以b方式打开时,读取到的内容是字节类型,写入时也需要提供字节类型,不能指定编码
练习,利用b模式,编写一个cp工具,要求如下:
1. 既可以拷贝文本又可以拷贝视频,图片等文件
2. 用户一旦参数错误,打印命令的正确使用方法,如usage: cp source_file target_file
提示:可以用import sys,然后用sys.argv获取脚本后面跟的参
上下文管理
with open('a.txt','w') as f:
pass
with open('a.txt','r') as read_f,open('b.txt','w') as write_f:
data=read_f.read()
write_f.write(data)
模拟copy
import sys
if len(sys.argv) != 3:#如果接收到的参数不等3,提示信息并退出程序
print('提示:python3 copy.py source.file target.file')
sys.exit()
with open(r'%s'%sys.argv[1],'rb') as read_f,\
open(r'%s'%sys.argv[2],'wb') as write_f:#
for line in read_f:#循环源文件内容的二进制内容依次写入到目标文件中,同样是以二进制
write_f.write(line)
光标的位置
一: read(3):
1. 文件打开方式为文本模式时,代表读取3个字符
2. 文件打开方式为b模式时,代表读取3个字节
二: 其余的文件内光标移动都是以字节为单位如seek,tell,truncate
注意:
1. seek有三种移动方式0,1,2,其中1和2必须在b模式下进行,但无论哪种模式,都是以bytes为单位移动的
2. truncate是截断文件,所以文件的打开方式必须可写,但是不能用w或w+等方式打开,因为那样直接清空文件了,所以truncate要在r+或a或a+等模式下测试效果
模拟tail -f
import time
with open('access.log','rb') as f:
f.seek(0,2)#直接移动的文件末尾
while True:#while循环的读取文件新内容
line=f.readline()
if line:
print(line.decode('utf-8'),end='')#如果有新内容就打印出decode解码后的内容
else:
time.sleep(0.2)#没有新内容就sleep后重来
模拟文件的修改
import os
with open('a.txt','r',encoding='utf-8') as read_f,\
open('.a.txt.swap','w',encoding='utf-8') as write_f:
for line in read_f:
if line.startswith('hello'):
line='哈哈哈\n'
write_f.write(line)
os.remove('a.txt')
os.rename('.a.txt.swap','a.txt')