我有一个制表符分隔文件,如下所示:
cluster.1 Adult.1
cluster.2 Comp.1
cluster.3 Adult.2
cluster.3 Pre.3
cluster.4 Pre.1
cluster.4 Juv.2
cluster.4 Comp.4
cluster.4 Adult.3
cluster.5 Adult.2
cluster.6 Pre.5
Run Code Online (Sandbox Code Playgroud)
我想计算第一列中输入的次数,然后将其打印到新的第三列,以便输出看起来像这样.
cluster.1 Adult.1 1
cluster.2 Comp.1 1
cluster.3 Adult.2 2
cluster.3 Pre.3 2
cluster.4 Pre.1 4
cluster.4 Juv.2 4
cluster.4 Comp.4 4
cluster.4 Adult.3 4
cluster.5 Adult.2 1
cluster.6 Pre.5 1
Run Code Online (Sandbox Code Playgroud)
最后,我计划从我的文件中删除那些行,其中第3列等于1但是认为它可能是一个两步过程.谢谢.
我需要生成一个数百万行的滑动窗口并计算第 3 列的中位数。我的数据看起来像这样,第 1 列始终相同,第 2 列等于行号,第 3 列是我需要中位数的信息为了:
HiC_scaffold_1 1 34
HiC_scaffold_1 2 34
HiC_scaffold_1 3 36
HiC_scaffold_1 4 37
HiC_scaffold_1 5 38
HiC_scaffold_1 6 39
HiC_scaffold_1 7 40
HiC_scaffold_1 8 40
HiC_scaffold_1 9 40
HiC_scaffold_1 10 41
HiC_scaffold_1 11 41
HiC_scaffold_1 12 41
HiC_scaffold_1 13 44
HiC_scaffold_1 14 44
HiC_scaffold_1 15 55
Run Code Online (Sandbox Code Playgroud)
我需要这样的结果,假设滑动窗口为 4 并四舍五入到最接近的整数。在真实数据集中,我可能会使用 1000 的滑动窗口:
HiC_scaffold_1 4 35
HiC_scaffold_1 5 37
HiC_scaffold_1 6 38
HiC_scaffold_1 7 39
HiC_scaffold_1 8 40
HiC_scaffold_1 9 40
HiC_scaffold_1 10 40 …Run Code Online (Sandbox Code Playgroud)