解析具有许多(数百万)行的大(> 4GB)文本文件的最佳(速度)方法是什么？

Question

解析具有许多(数百万)行的大(> 4GB)文本文件的最佳(速度)方法是什么？

我正在尝试确定什么是读取包含许多行的大型文本文件的最快方法,进行一些处理,并将它们写入新文件.在C#/ .net中,看起来StreamReader是一种看似快速的方法,但是当我尝试使用这个文件(逐行阅读)时,它大约是python I/O速度的1/3(这让我很担心)因为我一直听说Python 2.6的IO相对较慢.

如果没有更快的.Net解决方案,是否可以比StreamReader更快地编写解决方案,或者它是否已经使用了我绝不会希望击败的复杂缓冲区/算法/优化？

Answer 1

Jon*_*eet 2

StreamReader 非常好 - 您在 Python 中阅读它的效果如何？如果您指定更简单的编码（例如 ASCII），则可能会加快速度。该进程占用了多少 CPU？

您可以使用适当的 StreamReader 构造函数来增加缓冲区大小，但我不知道这可能会产生多大的差异。

归档时间：	17 年，1 月前
查看次数：	1980 次
最近记录：	13 年，8 月前