在Python中循环使用大文件需要数小时

Question

在Python中循环使用大文件需要数小时

这是我在Python工作的第二天.我在C++中工作了一段时间,但决定尝试使用Python.我的程序按预期工作.但是,当我在没有glob循环的情况下一次处理一个文件时,每个文件大约需要半个小时.当我包含glob时,循环大约需要12个小时来处理8个文件.

我的问题是,我的程序中有什么东西肯定会减慢它的速度吗？有什么我应该做的让它更快？

我有一个大文件夹.例如

file1.txt(6gb)file2.txt(5.5gb)file3.txt(6gb)

如果它有帮助,每行数据都以一个字符开头,该字符告诉我其余字符是如何格式化的,这就是我拥有所有if elif语句的原因.一行数据如下所示:T35201 M352 RZNGA AC

我试图读取每个文件,使用拆分进行一些解析,然后保存文件.

计算机有32GB的ram,所以我的方法是将每个文件读入ram,然后遍历文件,然后保存,清除RAM用于下一个文件.

我已经包含了该文件,因此您可以看到我正在使用的方法.我使用if elif语句,它使用大约10个不同的elif命令.我曾经尝试过一本字典,但我无法理解为了挽救我的生命.

任何答案都会有所帮助.

import csv
import glob

for filename in glob.glob("/media/3tb/5may/*.txt"):
    f = open(filename,'r')
    c = csv.writer(open(filename + '.csv','wb'))

    second=0
    mill=0
    for line in f.readlines():
       #print line
        event=0
        ticker=0
        marketCategory=0
        variable = line[0:1]    

        if variable is 'T':
           second = line[1:6]
           mill=0
        else: 
           second = second 

        if variable is 'R':
           ticker = line[1:7]   
           marketCategory = line[7:8]
        elif variable is ...
        elif variable is ...
        elif ...
        elif ...
        elif ...
        elif ...
        elif        

        if variable (!= 'T') and (!= 'M')
            c.writerow([second,mill,event ....]) 
   f.close()

Run Code Online (Sandbox Code Playgroud)

更新每个elif语句几乎相同.唯一改变的部分是我分割线条的方式.这里有两个elif语句(总共有13个,除了它们被拆分的方式外几乎都是相同的.)

  elif variable is 'C':
     order = line[1:10]
     Shares = line[10:16]
     match = line[16:25]
     printable = line[25:26]
     price = line[26:36]
   elif variable is 'P':
     ticker = line[17:23]
     order = line[1:10]
     buy = line[10:11]
     shares = line[11:17]
     price = line[23:33]
     match = line[33:42]

Run Code Online (Sandbox Code Playgroud)

UPDATE2 我已经使用for file in f两次不同的时间运行代码.我第一次跑了一个文件没有 for filename in glob.glob("/media/3tb/file.txt"):,并花了约30分钟手动编码的文件路径为一个文件.

我又跑它与 for filename in glob.glob("/media/3tb/*file.txt")它花了一个小时只为文件夹中的一个文件.glob代码是否增加了那么多时间？

Answer 1

Joh*_*nck 9

这里:

for line in f.readlines():

Run Code Online (Sandbox Code Playgroud)

你应该这样做:

for line in f:

Run Code Online (Sandbox Code Playgroud)

前者将整个文件读入行列表,然后遍历该列表.后者以增量方式执行,这应该大大减少分配的总内存,然后由程序释放.

归档时间：	12 年，9 月前
查看次数：	2717 次
最近记录：	12 年，9 月前