我有几个.txt文件,每个文件超过 3000 万行,任何地方都有 20 到 40 个“列”(一些以逗号分隔,一些以空格分隔,所有 ASCII 行都以换行符分隔)。我不需要所有(甚至大部分)列,其中一些列的空空格填充了NULL.
我的目标是:
我只是将一个大文本文件拆分为大约 40 个.txt文件,每个文件包含 1,000,000 行,将它们一个一个地导入 Excel,然后使用 CONCATENATE,但这种方法对我的下一个目标没有产生任何结果。文件以逗号分隔,但仍需转.txt成.csv,Excel在导入过程中卡住;即使我把它放到Excel中,主文件也会分解成200多个更小的文件以符合Excel的上限,并且做同样的事情超过200次效率不高。
我正在开发 2020 年末的 MacBook Pro,对任何编码语言都不够精通,甚至不知道从哪里开始,但我在 shell 中编写了半舒适的脚本,并且总是在学习新技巧,只是不知道从哪儿开始。