小编use*_*294的帖子

如何计算第1列中条目的实例数,并将值打印到新列

我有一个制表符分隔文件,如下所示:

cluster.1   Adult.1
cluster.2   Comp.1
cluster.3   Adult.2
cluster.3   Pre.3
cluster.4   Pre.1
cluster.4   Juv.2
cluster.4   Comp.4
cluster.4   Adult.3
cluster.5   Adult.2
cluster.6   Pre.5
Run Code Online (Sandbox Code Playgroud)

我想计算第一列中输入的次数,然后将其打印到新的第三列,以便输出看起来像这样.

cluster.1   Adult.1 1
cluster.2   Comp.1  1
cluster.3   Adult.2 2
cluster.3   Pre.3   2
cluster.4   Pre.1   4
cluster.4   Juv.2   4
cluster.4   Comp.4  4
cluster.4   Adult.3 4
cluster.5   Adult.2 1
cluster.6   Pre.5   1
Run Code Online (Sandbox Code Playgroud)

最后,我计划从我的文件中删除那些行,其中第3列等于1但是认为它可能是一个两步过程.谢谢.

bash awk

5
推荐指数
2
解决办法
121
查看次数

用awk计算滑动窗口的中值

我需要生成一个数百万行的滑动窗口并计算第 3 列的中位数。我的数据看起来像这样,第 1 列始终相同,第 2 列等于行号,第 3 列是我需要中位数的信息为了:

HiC_scaffold_1  1   34
HiC_scaffold_1  2   34
HiC_scaffold_1  3   36
HiC_scaffold_1  4   37
HiC_scaffold_1  5   38
HiC_scaffold_1  6   39
HiC_scaffold_1  7   40
HiC_scaffold_1  8   40
HiC_scaffold_1  9   40
HiC_scaffold_1  10  41
HiC_scaffold_1  11  41
HiC_scaffold_1  12  41
HiC_scaffold_1  13  44
HiC_scaffold_1  14  44
HiC_scaffold_1  15  55
Run Code Online (Sandbox Code Playgroud)

我需要这样的结果,假设滑动窗口为 4 并四舍五入到最接近的整数。在真实数据集中,我可能会使用 1000 的滑动窗口:

HiC_scaffold_1  4   35
HiC_scaffold_1  5   37
HiC_scaffold_1  6   38
HiC_scaffold_1  7   39
HiC_scaffold_1  8   40
HiC_scaffold_1  9   40
HiC_scaffold_1  10  40 …
Run Code Online (Sandbox Code Playgroud)

bash awk median sliding-window

5
推荐指数
2
解决办法
220
查看次数

标签 统计

awk ×2

bash ×2

median ×1

sliding-window ×1