使用"uniq -c"命令时,需要从输出中删除计数

rav*_*avi 6 unix linux bash shell

我正在尝试读取文件并按特定字段的出现次数对其进行排序.假设我想从日志文件中找出最重复的日期,然后我使用uniq -c选项并按降序排序.这样的事情

uniq -c | sort -nr 
Run Code Online (Sandbox Code Playgroud)

这将产生这样的输出 -

809 23/Dec/2008:19:20
Run Code Online (Sandbox Code Playgroud)

实际上是计数的第一个字段对我来说是个问题....我想从上面的输出得到日期,但是我无法得到它.我尝试使用cut命令并执行此操作

uniq -c | sort -nr | cut -d' ' -f2 
Run Code Online (Sandbox Code Playgroud)

但这只是打印空白区域...请有人帮助我获取日期并切断计数.我只想要

23/Dec/2008:19:20
Run Code Online (Sandbox Code Playgroud)

谢谢

Jon*_*ler 8

从计数uniq由空间,除非有超过7个位数计,所以你需要做的是这样开头:

uniq -c | sort -nr | cut -c 9-
Run Code Online (Sandbox Code Playgroud)

获取列(字符位置)9向上.或者您可以使用sed:

uniq -c | sort -nr | sed 's/^.\{8\}//'
Run Code Online (Sandbox Code Playgroud)

要么:

uniq -c | sort -nr | sed 's/^ *[0-9]* //'
Run Code Online (Sandbox Code Playgroud)

面对重复计数10,000,000或更多,第二种选择是强劲的; 如果你认为这可能是一个问题,它可能比cut替代方案更好.毫无疑问,还有其他选择.


警告:计数是通过Mac OS X 10.7.3上的实验确定的,但使用的uniqcoreutils8.3的GNU .BSD uniq -c在单个数字计数之前产生了3个前导空格.POSIX规范说输出uniq -c应格式化为:

printf("%d %s", repeat_count, line);
Run Code Online (Sandbox Code Playgroud)

这不会有任何领先的空白.鉴于输出格式可能存在差异,sed具有[0-9]正则表达式的脚本是处理观察到的和理论输出的可变性的最可靠方法uniq -c:

uniq -c | sort -nr | sed 's/^ *[0-9]* //'
Run Code Online (Sandbox Code Playgroud)


use*_*own 5

代替cut -d' ' -f2尝试

awk '{$1="";print}'
Run Code Online (Sandbox Code Playgroud)

也许您一开始需要删除一个空白处:

awk '{$1="";print}' | sed 's/^.//'
Run Code Online (Sandbox Code Playgroud)

或与sed完全配合,保留原始的白色空间:

sed -r 's/^[^0-9]*[0-9]+//'
Run Code Online (Sandbox Code Playgroud)