我将如何通过特定的数字列将一个非常大(700 万行)的 CSV 文件拆分为几个不同的工作表/文件。它应该分成大约 10 个不同的文件。
这可能就像这个单行一样简单awk:
awk -F ',' '{ print > ("split-" $1 ".csv") }' 7mil.csv
Run Code Online (Sandbox Code Playgroud)
7mil.csv$3代替$142将位于名为split-42.csv所以这只是读取每一行并将其打印到与该值对应的文件中。注意它添加到文件中,所以如果你运行它两次,所有的数据都会被复制;因此,请确保没有要启动的具有该命名模式的文件:del split-*.cvs
尝试此操作的难点在于awk在 Windows 上安装。这里有适用于 Windows的gawk以及运行它的一些技巧。