如何使用Red Hat Linux上的标准工具随机化文件中的行?

Stu*_*ard 96 linux random redhat shuffle file

如何使用Red Hat Linux上的标准工具随机化文件中的行?

我没有shuf命令,所以我正在寻找像完成相同任务的一个perlawk一个班轮的东西.

Jim*_*m T 205

嗯,别忘了

sort --random-sort
Run Code Online (Sandbox Code Playgroud)

  • 在OS X上你可以用homebrew安装gnu coreutils:`brew install coreutils`所有的util都以ag为前缀:`gsort --random-sort`或`gshuf`将按预期工作 (40认同)
  • 所有这些我在OS X上没有的很酷的功能!该死! (36认同)
  • 只有当你的线没有重复时,这个解决方案才有用.如果他们这样做,该行的所有实例将彼此相邻.考虑使用`shuf`代替(在linux上). (8认同)
  • +1 @mike.我使用Macports,当我执行`port install coreutils时,我也安装了`gsort`和`gshuf` (3认同)

Mic*_*ich 111

shuf 是最好的方式.

sort -R很痛苦.我只是尝试排序5GB文件.我放弃了2.5小时后.然后shuf在一分钟内排序.

  • 小心,`shuf`将所有内容加载到内存中. (12认同)
  • 我怀疑`sort -R`的原因是计算每行的哈希值.从文档:"[通过散列输入键进行散列,然后对散列值进行排序."(http://www.gnu.org/software/coreutils/manual/html_node/sort-invocation.html#index-random-sort -554)" (4认同)

Chr*_*utz 62

你得到一个Perl单线程!

perl -MList::Util -e 'print List::Util::shuffle <>'
Run Code Online (Sandbox Code Playgroud)

它使用模块,但该模块是Perl代码分发的一部分.如果这还不够好,你可以考虑自己动手.

我试着用-i旗帜("编辑就地")来编辑文件.文档表明它应该有效,但事实并非如此.它仍然将混洗文件显示到stdout,但这次它会删除原始文件.我建议你不要用它.

考虑一个shell脚本:

#!/bin/sh

if [[ $# -eq 0 ]]
then
  echo "Usage: $0 [file ...]"
  exit 1
fi

for i in "$@"
do
  perl -MList::Util -e 'print List::Util::shuffle <>' $i > $i.new
  if [[ `wc -c $i` -eq `wc -c $i.new` ]]
  then
    mv $i.new $i
  else
    echo "Error for file $i!"
  fi
done
Run Code Online (Sandbox Code Playgroud)

未经测试,但希望有效.


Chr*_*heD 22

cat yourfile.txt | while IFS= read -r f; do printf "%05d %s\n" "$RANDOM" "$f"; done | sort -n | cut -c7-
Run Code Online (Sandbox Code Playgroud)

读取文件,在每行前面加一个随机数,在随机前缀上对文件进行排序,然后剪切前缀.单衬里应该适用于任何半现代的外壳.

编辑:纳入理查德汉森的言论.

  • 对于POSIX一致性+1(除了`$ RANDOM`),但是-1用于屠杀数据.用`IFS = read -rf`替换`读取f`时将阻止`read`删除前导和尾随空格(参见[this answer](http://stackoverflow.com/a/6399568/712605))并防止处理反斜杠.使用固定长度的随机字符串将阻止`cut`删除前导空格.结果:`cat yourfile.txt | 而IFS = read -rf; do printf"%05d%s \n""$ RANDOM""$ f"; 完成| sort -n | 切-c7-` (3认同)
  • @Richard Hansen:谢谢,这些建议的修改显然是合适的,我编辑了我的帖子. (3认同)

sca*_*cai 9

python的单线程:

python -c "import random, sys; lines = open(sys.argv[1]).readlines(); random.shuffle(lines); print ''.join(lines)," myFile
Run Code Online (Sandbox Code Playgroud)

并且只打印一条随机线:

python -c "import random, sys; print random.choice(open(sys.argv[1]).readlines())," myFile
Run Code Online (Sandbox Code Playgroud)

但是请看这篇文章,了解python的缺点random.shuffle().它不适用于许多(超过2080个)元素.


eph*_*ent 5

与Jim的回答有关:

~/.bashrc包含以下内容:

unsort ()
{
    LC_ALL=C sort -R "$@"
}
Run Code Online (Sandbox Code Playgroud)

使用GNU coreutils的sort,-R= --random-sort,它生成每行的随机散列并按其排序.随机哈希实际上不会在某些较旧(错误)版本的某些语言环境中使用,导致它返回正常的排序输出,这就是我设置的原因LC_ALL=C.


与Chris的回答有关:

perl -MList::Util=shuffle -e'print shuffle<>'
Run Code Online (Sandbox Code Playgroud)

是一个稍短的单线.(-Mmodule=a,b,c是简写-e 'use module qw(a b c);'.)

之所以给它一个简单的-i不能就地洗牌的工作是因为Perl预计,print发生在同一回路中的文件被读出,并且print shuffle <>不输出,直到毕竟输入文件被读取和关闭.

作为一个较短的解决方法,

perl -MList::Util=shuffle -i -ne'BEGIN{undef$/}print shuffle split/^/m'
Run Code Online (Sandbox Code Playgroud)

将就地文件洗牌.(-n意味着"将代码包装在一个while (<>) {...}循环中; BEGIN{undef$/}使Perl一次操作文件而不是一次一行,并且split/^/m是必需的,因为$_=<>已经隐式地使用整个文件而不是行来完成."


归档时间:

查看次数:

72811 次

最近记录:

7 年,4 月 前