小编had*_*909的帖子

如何解析超大 (70+ GB) .txt 文件?

我有几个.txt文件,每个文件超过 3000 万行,任何地方都有 20 到 40 个“列”(一些以逗号分隔,一些以空格分隔,所有 ASCII 行都以换行符分隔)。我不需要所有(甚至大部分)列,其中一些列的空空格填充了NULL.

我的目标是:

  1. 删除我不需要的列
  2. 按照我认为合适的方式重新排序列(为了可读性)
  3. 管道输出到另一个 .txt 文件,列用冒号分隔

我只是将一个大文本文件拆分为大约 40 个.txt文件,每个文件包含 1,000,000 行,将它们一个一个地导入 Excel,然后使用 CONCATENATE,但这种方法对我的下一个目标没有产生任何结果。文件以逗号分隔,但仍需转.txt.csv,Excel在导入过程中卡住;即使我把它放到Excel中,主文件也会分解成200多个更小的文件以符合Excel的上限,并且做同样的事情超过200次效率不高。

我正在开发 2020 年末的 MacBook Pro,对任何编码语言都不够精通,甚至不知道从哪里开始,但我在 shell 中编写了半舒适的脚本,并且总是在学习新技巧,只是不知道从哪儿开始。

bash parsing microsoft-excel

32
推荐指数
4
解决办法
9145
查看次数

标签 统计

bash ×1

microsoft-excel ×1

parsing ×1