当排序不知道排序顺序时,GNU 排序稳定排序

Eva*_*enn 18 sort

我有一个两列文件;该文件已按照我想要的方式在第 1 列中排序。我想在每个第 1 列类别中的第 2 列上进行排序。但是,sort不了解第 1 列的排序顺序。

正常的方法(来自堆栈上的类似问题)是这样的:

sort --stable -k1,1 -k2,2n
Run Code Online (Sandbox Code Playgroud)

但是我不能在 k1 上指定排序,因为它是任意的。

示例输入:

C 2
C 1
A 2
A 1
B 2 
B 1
Run Code Online (Sandbox Code Playgroud)

和输出:

C 1
C 2
A 1
A 2
B 1 
B 2
Run Code Online (Sandbox Code Playgroud)

mur*_*uru 20

您可以使用 awk 为每个块开始一个新的排序:

% awk -v cmd="sort -k2,2" '$1 != prev {close(cmd); prev=$1} {print | cmd}' foo
C 1
C 2
A 1
A 2
B 1
B 2
Run Code Online (Sandbox Code Playgroud)
  • $1 != prev {close(cmd); prev=$1} - 当保存的值不同时,我们有一个新块,所以我们关闭任何以前启动的 sort
  • {print | "sort -k2,2"}'将输出通过管道传输到sort,如果它尚未运行则启动它(awk 可以跟踪它启动的命令)

  • awk 真是不可思议。我比我预期的更喜欢这个,这是一个 awk 装饰-排序-未装饰! (2认同)

iru*_*var 12

您可以使用Schwartzian 变换(这基本上是您在评论中提到的装饰排序取消装饰方法,但由于使用单个调用而不是多个调用,可能比muru 的 好答案性能更高sort)-使用awk添加前缀列随着第一列中值的变化而增加,按前缀列排序,然后是“第二”列3由于前缀列的存在,其序数位置暂时偏移),最后去掉前缀列

awk '{print ($1 in a? c+0: ++c)"\t" $0; a[$1]}' file | sort -k1,1n  -k3,3 | cut -f 2-
Run Code Online (Sandbox Code Playgroud)