有没有办法提高大文件解析日期的速度?

JOH*_*OHN 5 python performance cython

我正在读取一个大约有 1B 行的大 csv 文件。我在解析日期时遇到了问题。Python 的处理速度很慢。

文件中的一行如下所示, '20170427,20:52:01.510,ABC,USD/MXN,1,OFFER,19.04274,9000000,9@15@8653948257753368229,0.0\n'

如果我只看数据的话,需要1分钟。

t0 = datetime.datetime.now()
i = 0
with open(r"QuoteData.txt") as file:
    for line in file:
        i+=1
print(i)
t1 = datetime.datetime.now() - t0
print(t1)

129908976
0:01:09.871744
Run Code Online (Sandbox Code Playgroud)

但如果我尝试解析日期时间,则需要 8 分钟。

t0 = datetime.datetime.now()
i = 0
with open(r"D:\FxQuotes\ticks.log.20170427.txt") as file:
    for line in file:
        strings = line.split(",")

        datetime.datetime(
            int(strings[0][0:4]), # %Y
            int(strings[0][4:6]), # %m
            int(strings[0][6:8]), # %d
            int(strings[1][0:2]), # %H
            int(strings[1][3:5]), # %M
            int(strings[1][6:8]), # %s
            int(strings[1][9:]), # %f
        )    

        i+=1
print(i)
t1 = datetime.datetime.now() - t0
print(t1)

129908976
0:08:13.687000
Run Code Online (Sandbox Code Playgroud)

大约split()需要1分钟,日期解析大约需要6分钟。我可以做些什么来改善这一点吗?

sup*_*654 3

@TemporalWolf 有使用ciso8601的极好建议。我从来没有听说过,所以我想我应该尝试一下。

首先,我用你们的样品线对我的笔记本电脑进行了基准测试。我制作了一个包含 1000 万行的 CSV 文件,读取所有内容大约需要 6 秒。使用您的日期解析代码最多需要 48 秒,这是有道理的,因为您还报告说它花费了 8 倍的时间。然后我将文件缩小到 100 万行,我可以在 0.6 秒内读取它并在 4.8 秒内解析日期,所以一切看起来都正确。

然后我切换到ciso8601,几乎像变魔术一样,100 万行的时间从 4.8 秒缩短到大约 1.9 秒:

import datetime
import ciso8601

t0 = datetime.datetime.now()
i = 0
with open('input.csv') as file:
    for line in file:
        strings = line.split(",")
        d = ciso8601.parse_datetime('%sT%s' % (strings[0], strings[1]))
        i+=1
print(i)
t1 = datetime.datetime.now() - t0
print(t1)
Run Code Online (Sandbox Code Playgroud)

请注意,您的数据几乎已经是 iso8601 格式了。我只需要把日期和时间粘在一起,中间有一个“T”。