当一个 .txt 文件的数据过于庞大,此时想要对数据进行排序就需要先将数据进行切割,然后通过归并排序,最终实现对整体数据的排序。要实现这个过程我们需要进行以下几步:获取总数据行数;根据行数按照自己的需要对数据进行切割;对每组数据进行排序 最后对所有数据进行归并排序。
下面我们就来实现这整个过程:
一:获取总数据的行
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
|
def get_file_lines(file_path):
# 目标文件的路径
file_path = str (file_path)
with open (file_path, 'rb' ) as file :
# 定义行数
i = 0
while True :
# 一次读取一行数据
line = file .readline()
if not line :
break
else :
# 每读一行,行数加一
i + = 1
#设置进度条,每当i读取1000000行时打印一次i
# 每当读取1000000的整数倍行时,打印行数(进度条)
if i % 1000000 = = 0 :
print (i)
# 打印总行数
print (i)
return i
|
二:对数据进行切割
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
|
# 定义均等切割函数,num是待切割的文件的行数的值,n为切割份数,file_path是待切割的文件,file_dir是切割好的文件写入的目录
def evg_split(num, n, file_path, file_dir):
last_list = []
# 如果样本刚好可以整除为n份
if num % n = = 0 :
for i in range (n):
# 则直接将样本分为n分没份对应num/n个
last_list.append(num / n)
# 如果不能整除
if num % n ! = 0 :
# 如果不能整除,则先将num整除n-1并取n-1份,余下的单独做一份
evg = (num - num % n) / / (n - 1 )
for i in range (n):
last_list.append(evg)
last_list.append(num % (n - 1 ))
print (last_list)
# return last_list
# 对应于切割后的每一份数据
with open (file_path, 'rb' ) as path:
for i in range (n):
# 创建临时文件
tmp_file = file_dir + str (i) + '.txt'
# 打开临时文件,将内容一条一条的写入
file = open (tmp_file, 'wb' )
for j in range ( int (last_list[i])):
line = path.readline()
file .write(line)
print (line)
print ( '------------' )
file .close()
|
三:对每组数据进行排序的内容由读者根据自身数据需要进行排序,下面直接介绍归并排序
四:归并排序
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
|
def merge( mylist1, mylist2, file1):
while len (mylist1) > 0 and len (mylist2) > 0 :
if mylist1[ 0 ]<mylist2[ 0 ]:
with open (file1, 'a' ) as file :
file .write( str (mylist1[ 0 ]))
del mylist1[ 0 ]
elif mylist1[ 0 ] > mylist2[ 0 ]:
with open (file1, 'a' ) as file :
file .write( str (mylist2[ 0 ]))
del mylist2[ 0 ]
else :
with open (file1, 'a' ) as file :
file .write( str (mylist1[ 0 ]))
file .write( str (mylist2[ 0 ]))
del mylist1[ 0 ]
del mylist2[ 0 ]
with open (file1, 'a' ) as file :
for i in mylist1:
file .write( str (i))
for i in mylist2:
file .write( str (i))
|
总结:对于一个大型数据文件,我们可以将其切割成若干个小型的数据文件,然后分别的这些小型的数据文件进行排序,最后使用归并排序将这些数据文件写入到一个总体文件中,从而实现了对这个大型数据文件的排序。
以上这篇对python数据切割归并算法的实例讲解就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持服务器之家。
原文链接:https://blog.csdn.net/body_builder/article/details/79437333