如何从重复值列表中获取唯一值集

Question

如何从重复值列表中获取唯一值集

我需要解析一个大的日志文件(平面文件),它包含两列值(列A,列B).

两列中的值都在重复.我需要找到列A中的每个唯一值,我需要找到一组列B值.

这可以使用unix shell命令完成,还是需要编写任何perl或python脚本？有什么方法可以做到这一点？

例:

xxxA 2
xxxA 1
xxxB 2
XXXC 3
XXXA 3
xxxD 4

Run Code Online (Sandbox Code Playgroud)

输出:

xxxA - 2,1,3
xxxB - 2
xxxC - 3
xxxD - 4

Run Code Online (Sandbox Code Playgroud)

Answer 1

Zai*_*aid 5

Perl'one-liner'打算/扩展出来,以便所有东西都适合窗口:

$ perl -F -lane '

      $hash{ $F[0] }{ $F[1] }++;
  } END {

      for my $columnA ( keys %hash ) {

          print $columnA, " - ", join( ",", keys %$hash{$columnA} ), "\n";
      }
  '

Run Code Online (Sandbox Code Playgroud)

如果我看到原始海报的一致尝试,将会有解释.

归档时间：	15 年前
查看次数：	4047 次
最近记录：	14 年，5 月前