我有一台带有 2 TB RAM 的机器,我正在对大小为 150G 的文件运行排序命令,其中我已将缓冲区大小指定为 1000G,在对谷歌进行了一些研究后,我得到了这条信息“缓冲区大小越大,性能越好”。这是我运行的命令
sort -rk2 --buffer-size=1000G master_matrix_unsorted.csv > master_matrix_sorted.csv
Run Code Online (Sandbox Code Playgroud)
但这需要很多时间,我对任务的进度一无所知。
关于此操作的最佳缓冲区大小应该是什么的任何想法?我计划使用新的缓冲区大小重新运行此任务。