B R*_*era 9 python file python-3.x
假设我经常需要处理具有未知但大量行数的文件.每一行在闭区间[0,R]中包含一组整数(空格,逗号,分号或一些非数字字符是分隔符),其中R可以任意大.每行的整数数量可以变化.通常我会在每一行上获得相同数量的整数,但有时我会使用不相等的数字组.
假设我想转到文件中的第N行并检索该行上的第K个数字(并假设输入N和K有效 - 也就是说,我不担心输入错误).我如何在Python 3.1.2 for Windows中有效地执行此操作?
我不想逐行遍历文件.
我尝试使用mmap,但是当我在这里搜索SO时,我了解到这可能不是32位版本的最佳解决方案,因为4GB限制.事实上,我无法弄清楚如何简单地将N行移离当前位置.如果我至少可以"跳转"到第N行,那么我可以使用.split()并以这种方式获取Kth整数.
这里的细微差别是我不需要从文件中抓取一行.我需要抓住几行:它们不一定都是彼此靠近的,我得到它们的顺序很重要,而且顺序并不总是基于某些确定性函数.
有任何想法吗?我希望这是足够的信息.
谢谢!
Ale*_*lli 16
Python 是文件中seek的字节偏移,而不是行偏移,只是因为这是现代操作系统及其文件系统的工作方式 - 操作系统/ FS不会以任何方式记录或记住"线路偏移", Python(或任何其他语言)没有办法神奇地猜测它们.任何声称"走线"的操作都不可避免地需要"遍历文件"(在封面下)以使行号和字节偏移之间的关联成为可能.
如果您对此感到满意并且只是希望它隐藏在您的视线之外,那么解决方案就是标准库模块linecache - 但性能不会比您自己编写的代码更好.
如果您需要多次从同一个大文件中读取,那么大型优化将在该大文件上运行一次脚本,该脚本构建并保存到磁盘的行号到字节的偏移量对应关系(技术上是"索引"辅助文件); 然后,所有连续运行(直到大文件更改)可以非常快速地使用索引文件通过大文件以非常高的性能导航.这是你的用例......?
编辑:因为显然这可能适用 - 这是一般的想法(净仔细测试,错误检查或优化;-).要制作索引,请使用makeindex.py如下:
import array
import sys
BLOCKSIZE = 1024 * 1024
def reader(f):
blockstart = 0
while True:
block = f.read(BLOCKSIZE)
if not block: break
inblock = 0
while True:
nextnl = block.find(b'\n', inblock)
if nextnl < 0:
blockstart += len(block)
break
yield nextnl + blockstart
inblock = nextnl + 1
def doindex(fn):
with open(fn, 'rb') as f:
# result format: x[0] is tot # of lines,
# x[N] is byte offset of END of line N (1+)
result = array.array('L', [0])
result.extend(reader(f))
result[0] = len(result) - 1
return result
def main():
for fn in sys.argv[1:]:
index = doindex(fn)
with open(fn + '.indx', 'wb') as p:
print('File', fn, 'has', index[0], 'lines')
index.tofile(p)
main()
Run Code Online (Sandbox Code Playgroud)
然后使用它,例如,以下内容useindex.py:
import array
import sys
def readline(n, f, findex):
f.seek(findex[n] + 1)
bytes = f.read(findex[n+1] - findex[n])
return bytes.decode('utf8')
def main():
fn = sys.argv[1]
with open(fn + '.indx', 'rb') as f:
findex = array.array('l')
findex.fromfile(f, 1)
findex.fromfile(f, findex[0])
findex[0] = -1
with open(fn, 'rb') as f:
for n in sys.argv[2:]:
print(n, repr(readline(int(n), f, findex)))
main()
Run Code Online (Sandbox Code Playgroud)
这是一个例子(在我的慢速笔记本电脑上):
$ time py3 makeindex.py kjv10.txt
File kjv10.txt has 100117 lines
real 0m0.235s
user 0m0.184s
sys 0m0.035s
$ time py3 useindex.py kjv10.txt 12345 98765 33448
12345 '\r\n'
98765 '2:6 But this thou hast, that thou hatest the deeds of the\r\n'
33448 'the priest appointed officers over the house of the LORD.\r\n'
real 0m0.049s
user 0m0.028s
sys 0m0.020s
$
Run Code Online (Sandbox Code Playgroud)
示例文件是King James'Bible的纯文本文件:
$ wc kjv10.txt
100117 823156 4445260 kjv10.txt
Run Code Online (Sandbox Code Playgroud)
你可以看到100K线,4.4 MB; 这需要大约四分之一秒的索引和50毫秒来读取和打印三条随机y线(毫无疑问,通过更仔细的优化和更好的机器可以大大加速).内存中的索引(以及磁盘上的索引)每个被索引的文本文件行需要4个字节,并且性能应该以完全线性的方式扩展,所以如果你有大约1亿行,4.4 GB,我希望大约4-5几分钟来构建索引,一分钟提取并打印出三条任意行(并且为索引采用的400 MB RAM也不应该给小机器带来不便 - 即使我的微型慢速笔记本电脑也有2GB ;-).
您还可以看到(为了速度和方便)我将文件视为二进制(并假设utf8编码 - 当然也适用于任何子集,如ASCII,例如KJ文本文件是ASCII)并且不打算折叠\r\n成一个单个字符,如果这就是该文件有作为行终止(这是很容易做到的是后读取每一行,如果你想).
| 归档时间: |
|
| 查看次数: |
3570 次 |
| 最近记录: |