小编had*_*909的帖子

如何解析超大 (70+ GB) .txt 文件？

我有几个.txt文件，每个文件超过 3000 万行，任何地方都有 20 到 40 个“列”（一些以逗号分隔，一些以空格分隔，所有 ASCII 行都以换行符分隔）。我不需要所有（甚至大部分）列，其中一些列的空空格填充了NULL.

我的目标是：

删除我不需要的列
按照我认为合适的方式重新排序列（为了可读性）
管道输出到另一个 .txt 文件，列用冒号分隔

我只是将一个大文本文件拆分为大约 40 个.txt文件，每个文件包含 1,000,000 行，将它们一个一个地导入 Excel，然后使用 CONCATENATE，但这种方法对我的下一个目标没有产生任何结果。文件以逗号分隔，但仍需转.txt成.csv，Excel在导入过程中卡住；即使我把它放到Excel中，主文件也会分解成200多个更小的文件以符合Excel的上限，并且做同样的事情超过200次效率不高。

我正在开发 2020 年末的 MacBook Pro，对任何编码语言都不够精通，甚至不知道从哪里开始，但我在 shell 中编写了半舒适的脚本，并且总是在学习新技巧，只是不知道从哪儿开始。

bash parsing microsoft-excel

had*_*909

2020 12-31

32
推荐指数

4
解决办法

9145
查看次数

标签统计

bash ×1

microsoft-excel ×1

parsing ×1

如何解析超大 (70+ GB) .txt 文件？

标签 统计

小编had_909的帖子

标签统计