如何获取大文件的行数,至少5G

Question

如何获取大文件的行数,至少5G.使用shell的最快方法.

Answer 1

步骤1:head -n filename> newfile //将前n行放入newfile,例如n = 5

第2步:获取巨大的文件大小,A

第3步:获取新文件大小,B

步骤4:(A/B)*n近似等于确切的行数.

将n设置为不同的值,多做几次,然后得到平均值.

Answer 2

最快的方法可能是wc -l.

该wc命令经过优化,可以完成此类操作.除了在更强大的硬件上执行此操作之外,其他任何事情都不太可能更快.

是的,计算5千兆字节文本文件中的行很慢.这是一个大文件.

唯一的选择是首先以一些不同的格式存储数据,可能是数据库,也许是具有固定长度记录的文件.将你的5千兆字节文本文件转换为其他格式将至少与wc -l在其上运行一样错误,但如果你要计算很多行,那么它可能是值得的.如果没有更多信息,就不可能说出权衡取舍.