我有标准的Apache日志文件,大小在500Mb到2GB之间.我需要对它们中的行进行排序(每行以日期yyyy-MM-dd hh:mm:ss开头,因此不需要进行排序处理.
想到的最简单,最明显的事情是
Get-Content unsorted.txt | sort | get-unique > sorted.txt
Run Code Online (Sandbox Code Playgroud)
我猜测(没有尝试过)使用这种方法Get-Content将永远占用我的1GB文件.我不太了解我的方式System.IO.StreamReader,但我很好奇是否可以使用它来组合有效的解决方案?
感谢任何可能有更高效理念的人.
[编辑]
我后来试了这个,花了很长时间; 400MB大约需要10分钟.