针对格式文件，Python读取一定大小的文件内容

由数据库导出的数据是格式化数据，如下所示，每两个<REC>之间的数据是一个记录的所有字段数据，如<TITLE>、<ABSTRACT>、<SUBJECT_CODE>。但是每条记录中可能某些字段信息为空，

在导出的文本文件中，就会缺失这个字段，如记录3，缺失<ABSTRACT>这个字段，记录4，缺失<SUBJECT_CODE>这个字段。

<REC>(记录1)

<TITLE>=Regulation of the protein disulfide proteome by mitochondria in mammalian cells.

<ABSTRACT>=The majority of protein disulfides in cells is considered an important inert structural, rather than a dynamic regulatory, determinant of protein function.

<SUBJECT_CODE>=A006_8;D050_42;A006_62

<REC>(记录2)

<TITLE>=Selective control of cortical axonal spikes by a slowly inactivating K+ current.

<ABSTRACT>=Neurons are flexible electrophysiological entities in which the distribution and properties of ionic channels control their behaviors.

<SUBJECT_CODE>=E057_6;E062_318;I135_46

<REC>(记录3)

<TITLE>=Coupling of hydrogenic tunneling to active-site motion in the hydrogen radical transfer catalyzed by a coenzyme B12-dependent mutase.

<SUBJECT_CODE>=B016_11;B014_32;B014_54

<REC>(记录4)

<TITLE>=Hyaluronic acid hydrogel for controlled self-renewal and differentiation of human embryonic stem cells.

<ABSTRACT>=Control of self-renewal and differentiation of human ES cells (hESCs) remains a challenge.

<REC>(记录5)

<TITLE>=Biologically inspired crack trapping for enhanced adhesion.

<ABSTRACT>=We present a synthetic adaptation of the fibrillar adhesion surfaces found in nature.

<SUBJECT_CODE>=A004_57;B022_73;C034_22

<REC>(记录6)

<TITLE>=Identification of a retroviral receptor used by an envelope protein derived by peptide library screening.

<ABSTRACT>=This study demonstrates the power of a genetic selection to identify a variant virus that uses a new retroviral receptor protein.

<SUBJECT_CODE>=A006_8;E059_A;E059_5

1、从数据库中导出数据时，一些表格的导出文件（txt文本文件），占用空间会在3-4G个左右，无法直接读入内存；

2、通过python的linecache模块的getlines函数读取600M以上的文本文件时，有时会因为PC当时的运行情况，内存不足等原因，读取得到的内容为空；

备注：linecache模块的getlines()函数最终是调用file.readlines()函数来一次读取数据的，如果文件过大，getlines函数会返回一个空链表作为结果。

3、逐行读取文本内容，一是不方便后续的处理流程，后续流程需要对每条记录的数据进行处理，而非对每行数据进行处理；二是逐行读取文本内容，速度较慢；

因此，有必要针对这类格式文件，设计一种可以读取一定大小，并且这段文本中的记录都是完整的，不会出现最后一个记录只有部分字段数据；

实现代码如下：

#!/usr/bin/env python

# -*- coding: utf-8 -*-

# -*- coding: GBK -*-

import os

import sys

from time import time

REC_STR = '<REC>'

def read_text_in_buffer_multi_line(fd,length,label):

    BUFFER = []

    fd.seek(label,0)#根据新的label设置文件位置

    flag = 0

    line = ''

    BUFFER = fd.readlines(length)#读取一定大小的文本，并存放在BUFFER中

    line = fd.readline()#读取下一行，用于判断文件是否结束

    if not line:

        flag = 1

    label = fd.tell()#获取当前的文件位置

    if flag == 0:#如果文件没有结束，则将BUFFER中最后一个<REC>之后的数据丢弃；否则则直接返回BUFFER

        BUFFER_POST = []

        while True:

            temp = BUFFER.pop()#丢弃数据

            if temp.startswith(REC_STR) == False:#判断是否为<REC>

                BUFFER_POST.append(temp)

            else:#是<REC>，结束循环

                BUFFER_POST.append(temp)

                break

        len_buf_post = len(''.join(BUFFER_POST))#获取到丢弃的数据的字节数目

        label = label - len_buf_post - len(line)#当前位置减去丢弃的字节数目，再减去多读取的一行的数据的字节数目

    return BUFFER,label

if __name__ == "__main__":

    filename = "Data\\SJWD_U.txt"

    fd = open(filename,'rb')

    label = 0

    readlen = 100000*210#待读取的字节数目

    fout = open("out.txt",'w')

    begin = time()

    while True:

        buffer_list,label = read_text_in_buffer_multi_line(fd,readlen,label)

        if buffer_list == []:

            break

        else:

            fout.writelines(buffer_list)

    end = time()

    print "time:",(end - begin)

    fd.close()

    fout.close()

针对格式文件，Python读取一定大小的文件内容的更多相关文章

python读取txt批量创建文件
python读取txt批量创建文件 pythonbatchfile 前几天有个小问题, 需要批量建立很多文件夹,, 所以手动写了个小的脚本, 后续可以直接使用读取目录文件, 然后直接创建相应的文件 ...
编写Java程序，在硬盘中选取一个 txt 文件，读取该文档的内容后，追加一段文字&OpenCurlyDoubleQuote;[ 来自新华社 ]”，保存到一个新的 txt 文件内
查看本章节查看作业目录需求说明: 在硬盘中选取一个 txt 文件,读取该文档的内容后,追加一段文字"[ 来自新华社 ]",保存到一个新的 txt 文件内实现思路: 创建 Sa ...
python读取和写入csv文件
读取csv文件: def readCsv(): rows=[] with file(r'E:\py\py01\Data\system.csv','rb') as f: reads=csv.reader ...
python读取并写入mat文件
用matlab生成一个示例mat文件: clear;clc matrix1 = magic(5); matrix2 = magic(6); save matData.mat 用python3读取并写入 ...
python 读取mysql存储的文件路径下载文件，内容解析，上传七牛云，内容入es
#!/usr/bin/env python # -*- coding: utf-8 -*- import ConfigParser import json import os import re fr ...
python 读取csv中的文件，从sftp下载文件
需要从sftp上下载一些图片文件,文件名存放在一个csv文件中.代码如下: # -*- coding:utf-8 -*- import paramiko import csv import os de ...
python读取、写入txt文本内容
转载:https://blog.csdn.net/qq_37828488/article/details/100024924 python常用的读取文件函数有三种read().readline().r ...
linux shell 脚本历史文件清理脚本，按天，按月，清理前N天的历史文件，删除指定大小历史文件，历史文件归档清理
不知道大家那有没有要清理的这个事情.需要清理目录历史文件.可能后续也会有很多其他地方需要清理历史文件,可能会用到. 我这两天空闲写了个脚本,清理比较方便,有要进行清理的大量历史文件的话可以用. 脚本用 ...
Linux下删除空文件，删除指定大小的文件
Linux下批量删除空文件(大小等于0的文件)的方法: find . -name "*" -type f -size 0c | xargs -n 1 rm -f 用这个还可以删除指 ...

随机推荐

Python 学习---------Ｄay1
第一章问答环节一．人们为何使用Python 软件质量开发者的效率程序的可移植性标准库的支持组件集成享受乐趣二．Python的缺点 Python唯一的缺点就是:与C/C++这类编译语言相比, ...
JS(去掉前后空格或去掉所有空格)的用法推荐使用jquery 方法
说明: 如果使用jQuery直接使用$.trim(str)方法即可,str表示要去掉前后所有空格的字符串. 推荐 1. 去掉字符串前后所有空格: 代码如下: function Tri ...
POJ 1979 Red and Black dfs 难度&colon;0
http://poj.org/problem?id=1979 #include <cstdio> #include <cstring> using namespace std; ...
CFileDialog使用总结
http://blog.csdn.net/tianhai110/article/details/2055149 CFileDialog经常用,但经常忘,现归纳整理下,方便今后查询. 例子: CFile ...
Hadoop实战课程
Hadoop生态系统配置Hadoop运行环境Hadoop系统架构HDFS分布式文件系统MapReduce分布式计算(MapReduce项目实战)使用脚本语言Pig(Pig项目实战)数据仓库工具Hive ...
使用localhost可以访问，但使用本地ip+端口号无法访问
今天想使用ip访问本机的iview-admin项目,结果怎么配置都无法访问,根据iview工程执行的命令npm run dev了解到是webpack配置的问题,打开工程里的node_modules文件 ...
vxWorks下intel82567v3网卡驱动的更新
/* 82567 devicesID */ #define INTEL_DEVICEID_82567LF 0x10BF#define INTEL_DEVICEID_82567 ...
别以为真懂Openstack&colon; 虚拟机创建的50个步骤和100个知识点(1)
还是先上图吧,无图无真相别以为真懂Openstack!先别着急骂我,我也没有说我真懂Openstack 我其实很想弄懂Openstack,然而从哪里下手呢?作为程序员,第一个想法当然是代码,Code ...
PHP获取Linux当前目录下文件并实现下载功能
使用nginx转发过去给php server{ listen 9099; server_name 18.5.6.2; location / { proxy_http_version 1.1; root ...
Kong网关介绍与安装小记
本文主要为kong安装小记,系统环境为centos 6.7 本文转载请注明出处 —— xiaoEight 介绍 Kong 是在客户端和(微 ...