解析具有许多(数百万)行的大(> 4GB)文本文件的最佳(速度)方法是什么?

lla*_*oo7 6 .net c# parsing buffer text

我正在尝试确定什么是读取包含许多行的大型文本文件的最快方法,进行一些处理,并将它们写入新文件.在C#/ .net中,看起来StreamReader是一种看似快速的方法,但是当我尝试使用这个文件(逐行阅读)时,它大约是python I/O速度的1/3(这让我很担心)因为我一直听说Python 2.6的IO相对较慢.

如果没有更快的.Net解决方案,是否可以比StreamReader更快地编写解决方案,或者它是否已经使用了我绝不会希望击败的复杂缓冲区/算法/优化?

Jon*_*eet 2

StreamReader 非常好 - 您在 Python 中阅读它的效果如何?如果您指定更简单的编码(例如 ASCII),则可能会加快速度。该进程占用了多少 CPU?

您可以使用适当的 StreamReader 构造函数来增加缓冲区大小,但我不知道这可能会产生多大的差异。