在python中,可以使用缓冲区迭代大文本文件并同时获取正确的文件位置吗？

Question

在python中,可以使用缓冲区迭代大文本文件并同时获取正确的文件位置吗？

我正试图通过一个大文本文件(~232GB)搜索一些关键字.我想利用缓冲来解决速度问题,并希望记录包含这些关键字的行的起始位置.

我在这里看到很多帖子讨论类似的问题.但是,那些具有缓冲(使用文件作为迭代器)的解决方案无法提供正确的文件位置,并且这些解决方案通常只使用正确的文件位置f.readline(),而不使用缓冲.

我看到都可以做的唯一的答案是在这里:

# Read in the file once and build a list of line offsets
line_offset = []
offset = 0
for line in file:
    line_offset.append(offset)
    offset += len(line)
file.seek(0)

# Now, to skip to line n (with the first line being line 0), just do
file.seek(line_offset[n])

Run Code Online (Sandbox Code Playgroud)

但是,我不确定该offset += len(line)操作是否会花费不必要的时间.有没有更直接的方法来做到这一点？

更新:

我已经完成了一些计时,但似乎.readline()比使用文件对象作为迭代器要慢得多python 2.7.3.我使用了以下代码

#!/usr/bin/python

from timeit import timeit

MAX_LINES = 10000000

# use file object as iterator
def read_iter(): 
    with open('tweets.txt','r') as f:
        lino = 0
        for line in f:
            lino+=1
            if lino == MAX_LINES:
                break

# use .readline()
def read_readline(): 
    with open('tweets.txt', 'r') as f:
        lino = 0
        for line in iter(f.readline,''):
            lino+=1
            if lino == MAX_LINES:
                break

# use offset+=len(line) to simulate f.tell() under binary mode
def read_iter_tell(): 
    offset = 0
    with open('tweets.txt','rb') as f:
        lino = 0
        for line in f:
            lino+=1
            offset+=len(line)
            if lino == MAX_LINES:
                break

# use f.tell() with .readline()
def read_readline_tell():
    with open('tweets.txt', 'rb') as f:
        lino = 0
        for line in iter(f.readline,''):
            lino+=1
            offset = f.tell()
            if lino == MAX_LINES:
                break

print ("iter: %f"%timeit("read_iter()",number=1,setup="from __main__ import read_iter"))
print ("readline: %f"%timeit("read_readline()",number=1,setup="from __main__ import read_readline"))
print ("iter_tell: %f"%timeit("read_iter_tell()",number=1,setup="from __main__ import read_iter_tell"))
print ("readline_tell: %f"%timeit("read_readline_tell()",number=1,setup="from __main__ import read_readline_tell"))

Run Code Online (Sandbox Code Playgroud)

结果如下:

iter: 5.079951
readline: 37.333189
iter_tell: 5.775822
readline_tell: 38.629598

Run Code Online (Sandbox Code Playgroud)

Answer 1

Tim*_*ers 8

使用有什么问题.readline()？

您找到的示例对于在文本模式下打开的文件不正确.它应该在Linux系统上运行正常,但在Windows上运行不正常.在Windows上,返回文本模式文件中以前位置的唯一方法是寻找以下之一:

0(文件开头).
文件结束.
以前归来的职位f.tell().

您无法以任何便携方式计算文本模式文件位置.

所以使用.readline()和/或.read(),和.tell().问题解决了 ;-)

关于缓冲:是否使用缓冲与访问文件的方式无关; 它与文件的打开方式完全相关.缓冲是一个实现细节.特别是,f.readline()肯定会在封面下进行缓冲(除非您在文件open()调用中明确禁用了缓冲),但这种方式对您来说是不可见的.使用文件对象作为迭代器时发现的问题与文件迭代器实现(文档称为"隐藏的预读缓冲区")添加的额外缓冲层有关file.next().

要回答您的其他问题,费用为:

offset += len(line)

Run Code Online (Sandbox Code Playgroud)

这是微不足道的 - 但是,如前所述,"解决方案"存在实际问题.

短期课程:不要过早地变得棘手.做最简单的事情(比如.readline()+ .tell()),并且只有在被证明是不合适时才开始担心.

归档时间：	12 年，6 月前
查看次数：	2073 次
最近记录：	12 年，6 月前

在python中,可以使用缓冲区迭代大文本文件并同时获取正确的文件位置吗？

更新:

更多细节