Python学习笔记015——文件file的常规操作(二进制文件)

时间:2023-02-07 00:31:07

有时候诸如图片、音乐等信息不是以文本的形式存储的,而是二进制文件格式存储的。

有时候很多信息不是以文本文件的形式存储的

很多时候,都需要用到二进制读取文件。毕竟很多信息不是以文本的形式存储。例如:图片,音乐等等。这些东西都是有规则的二进制文件。

1 字节(byte)的单位

1KB = 2*10 Bytes

1MB = 1KB * 1024 = 2**20 Bytes

1GB = 1KB * 1K * 1K = 2**30 Bytes

# 1byte = 8bit(位)

 

2 二进制文件

二进制文件是以字节(byte) 为单位存储的,

不以换行符(\n)为单位进行区分内容的文件读写方法

二进制是以字节来操作的

文本是以字符来操作的

3 打开模式mode

’ b ‘

注意:"b"(用二进制模式打开)"t"(文本文件模式打开,默认,也即缺省模式)这两个不能同时使用

4 字节串 bytes

字节串也称之为字节序列

存储时以字节为单位的数据

字节串时不可变的字节序列

(如果不好理解,可以参考元组)

 字节串一旦创建,不可修改,与元组类似

备注:

字节是0~255(2**8-1)之间的整数(0b11111111, 0b00000000)

字符串存的数是1~65535(2**16-1)之间的数(UNICODE16/UNICODE32)

字节串创建过程中不能有汉字(编码范围限制所致),但可用"utf-8"来实现将字符串转成字节串

5  创建字节串

在非特殊情况下,在创建字符串时,单引号和双引号具有相同的作用

5.1 创建空字节串

创建空字符串有两种方式

方式1:

>>> b = b""
>>> b
b''
>>> B = B""
>>> B
b'' 

方式2:

>>> D = bytes()
>>> D
b''

5.2 创建非空字节串

>>> a = b"ABCD"
>>> b = b"ABCD"
>>> c = b'''ABCD'''
>>> d = b'\x41\x42'
>>> a
b'ABCD'
>>> b
b'ABCD'
>>> c
b'ABCD'
>>> d
b'AB'

6 字节串的构造(创建)函数 bytes

bytes() :创建一个空字节串, 等同于b''
bytes(整型可迭代对象)  : 用可迭代对象初始化一个字节串(数值必须是0~255的整数)
bytes(整数n) : 生成n个值为0的字节串
bytes(字符串, encoding='utf-8')  :用字符串转换编码生成一个字节串

示例

>>> b = bytes(range(0x41,0x41+26))
>>> b
b'ABCDEFGHIJKLMNOPQRSTUVWXYZ'

>>> c = bytes(4)
>>> c
b'\x00\x00\x00\x00'

>>> e = bytes("python", 'ascii')
>>> e
b'python'

>>> f = bytes("中文",'utf-8')
>>> f
b'\xe4\xb8\xad\xe6\x96\x87'

7 字节串的运算

+  +=  *   *=

比较运算: <  <=  >  >=  ==  !=

in /not in 运算符

索引 index

切片 slice

8 二进制文件的写操作示例

示例1 (写入)

二进制操作必须时ASCII范围内的数值

f = open("binary_output.txt", 'wb')
r = f.write(b"今天是2018年2月6日")
print("已经写入", r, "个字节")
f.close()

运行

  File "binary_write.py", line 6
    r = f.write(b"今天是2018年2月6日")
               ^
SyntaxError: bytes can only contain ASCII literal characters.

字节中只能包含ASCII范围内的字符

示例 2(写入)

将示例1中的汉字改成纯英文字母

f = open("binary_output.txt", 'wb')
r = f.write(b"ABCDEF")
print("已经写入", r, "个字节")
f.close()

运行:

已经写入 6 个字节

 

 

f = open(file_name,"rb+")
data = f.read(1) #这样data是一个b开头的ASCII数字。
f.close()
print(ord(data)) #将二进制数据转化为10进制数据。

 代码中的f 是文件流对象,是由顺序的,也称之为字节流

查看字节流的方式xxd file_name。

如查看test.txt文件的字节流,文件内容:ABCabc123

xxd test.py

输出

00000000: 4142 4361 6263                           ABCabc

Python学习笔记015——文件file的常规操作(二进制文件)

 

16进制表示的地址,可以认为是一个列表

00000000(16进制表示的地址): 0a23 20e6 8993 e5bc 80e6 9687 e4bb b6ef # 16字节
      01 02  
00000010: bc8c e8bf 94e5 9b9e e696 87e4 bbb6 e6b5 ................

一次读写都是8个位,也即一个字节

 

可以用 cat test.txt 方式直接查看 test.txt 文件内容

Python学习笔记015——文件file的常规操作(二进制文件)

 

ls -l test.txt  查看文档的字节数

Python学习笔记015——文件file的常规操作(二进制文件)

 



用count = f.write返回值写入字符数来判断磁盘满是否满

\n的换行是lunix unix系统的

微软的换行是\t\n

在读取或写入时一定要注意\n \t\n之间的差异

在其他平台中,微软的\t\n会被忽略,输出时正常 

w+ 与w 效果一样

 

 

硬盘是块  4k为一块

r = f.write(b"aba")在执行程序时并没有将其写入文件中,而是将其存放在缓存中,等足够数量后才写入硬盘,
可以用f.flush来实现操作,这函数功能是倾倒缓存内容,不管缓存中的容量是否够存储条件,均将缓存中的内容写入硬盘中