XML文件的长度

sam*_*kar 2 unix size file

我有一个大小为31 GB的XML文件.我需要找到该文件中的总行数.我知道命令wc -l会给我一样的.但是,执行此操作需要很长时间.有没有更快的机制来查找大文件中的行数?

BeW*_*ned 6

31演出是一个非常大的文本文件.我打赌它会压缩到大约1.5演出.我将以压缩格式创建这些文件,然后您可以通过wc流式传输文件的解压缩版本.这将大大减少用于处理此文件的i/o和内存量.gzip可以读写压缩流.

但我也会发表以下评论:

  • 对于XML,行号并不是真正的信息,因为忽略了元素之间的空白(混合内容除外).您真正想知道的数据集是什么?我打赌计数元素会更有用.
  • 确保您的xml文件没有不必要的冗余,例如您是否在整个文档中重复相同的命名空间声明?
  • 如果尝试查看类似Fast Infoset的内容,XML可能不是表示此文档的最佳方式