使用awk进行无需替换的采样

JM8*_*M88 6 bash shell awk

我有很多看起来像这样的文本文件:

>ALGKAHOLAGGATACCATAGATGGCACGCCCT
>BLGKAHOLAGGATACCATAGATGGCACGCCCT
>HLGKAHOLAGGATACCATAGATGGCACGCCCT
>DLGKAHOLAGGATACCATAGATGGCACGCCCT
>ELGKAHOLAGGATACCATAGATGGCACGCCCT
>FLGKAHOLAGGATACCATAGATGGCACGCCCT
>JGGKAHOLAGGATACCATAGATGGCACGCCCT
>POGKAHOLAGGATACCATAGATGGCACGCCCT
Run Code Online (Sandbox Code Playgroud)

有没有办法在不使用awk替换的情况下进行采样?

例如,我有这8行,我只想在一个新文件中随机抽样4个,无需替换.输出应该如下所示:

>FLGKAHOLAGGATACCATAGATGGCACGCCCT
>POGKAHOLAGGATACCATAGATGGCACGCCCT    
>ALGKAHOLAGGATACCATAGATGGCACGCCCT
>BLGKAHOLAGGATACCATAGATGGCACGCCCT
Run Code Online (Sandbox Code Playgroud)

提前致谢

Mar*_*ell 14

10%的线路随机抽样怎么样?

awk 'rand()>0.9' yourfile1 yourfile2 anotherfile
Run Code Online (Sandbox Code Playgroud)

我不确定你的意思是"替换"......这里没有替代,只是随机选择.

基本上,它精确地查看每个文件的每一行,并在0到1的间隔上生成一个随机数.如果随机数大于0.9,则输出该行.所以基本上它是为每一行滚动一个10面骰子,只有当骰子出现为10时才打印它.没有机会打印两次 - 除非它在你的文件中出现两次,当然.

为了增加随机性(!),您可以srand()按照@klashxx的建议在开头添加

awk 'BEGIN{srand()} rand()>0.9' yourfile(s)
Run Code Online (Sandbox Code Playgroud)