小编use*_*940的帖子

使用“rm”命令进行反向匹配

我想删除我的文件列表中匹配的所有R1.fastq.gz文件。如何使用rm反向匹配?

bash

7
推荐指数
2
解决办法
2766
查看次数

将两列合并为新列并打印所有列

我想合并第 1 列和第 2 列,并将它们添加为数据框中的新列。然后我想打印所有旧列和新创建的列。我可以使用下面的脚本组合列,但不确定如何打印所有列,而不仅仅是组合的列:

awk ' { print $1 $2 "_" $NF } ' input_file
Run Code Online (Sandbox Code Playgroud)

c1 c2 c3
12 1  12
4 4 57
Run Code Online (Sandbox Code Playgroud)

出去

c1 c2 c3 c4
12 1  12 12_1
4 4 57 4_4
Run Code Online (Sandbox Code Playgroud)

awk

7
推荐指数
1
解决办法
1804
查看次数

根据字符串长度过滤行名称

我想过滤包含长度超过35且小于10的rownames的行.我正在查看该nchar函数.

                                    79_CGTACG.collapsed.gz 80_ACAGTG.collapsed.gz
CACCCGCACGTATAGACGGACA                                   0                      0
GTGCTGATGTCCTTGGCAGGCTTCGGCCGTCCGGC                      0                      0
CGTGGAACCTG                                              0                      0
TAATGGTCATTAG                                            2                      1
GGCGATGCGGGATGAACCGAAC                                   0                      0
AAGGATGT                                                 0                      0
Run Code Online (Sandbox Code Playgroud)

r

4
推荐指数
1
解决办法
3226
查看次数

拆分字符串的标题

我想重新格式化下面的行.请参阅输入示例和所需输出.我一直在使用awk而没有找到正确的解决方案

输入:

>1-672762
TGAGGTAGTAGGTTGTATGGTT
>2-240457
TGAGGTAGTAGGTTGTGTGGTT
>3-130231
TAGCAGCACGTAAATATTGGCG
>4-116485
TGAGGTAGTAGGTTGTATAGTT
Run Code Online (Sandbox Code Playgroud)

输出(需要以制表符分隔):

TGAGGTAGTAGGTTGTATGGTT  672762
TGAGGTAGTAGGTTGTGTGGTT  240457
TAGCAGCACGTAAATATTGGCG  130231
TGAGGTAGTAGGTTGTATAGTT  116485
Run Code Online (Sandbox Code Playgroud)

perl awk sed

3
推荐指数
2
解决办法
78
查看次数

stringsplit输出为新的colnames

我想为我的数据框创建新的colnames,MirAligner包括_原始colnames中第一个之前的部分.这是我试过的:

unlist(strsplit(as.character(colnames(MirAligner)),'_',fixed=TRUE))
Run Code Online (Sandbox Code Playgroud)

列名

head(colnames(MirAligner))
[1] "na-008_S52_L003_R1_001.mir.fa.gz"  "na-014_S99_L005_R1_001.mir.fa.gz" "na015_S114_L005_R1_001.mir.fa.gz" [4] "na-015_S50_L003_R1_001.mir.fa.gz"  "na-018_S147_L007_R1_001.mir.fa.gz" "na020_S162_L007_R1_001.mir.fa.gz"
Run Code Online (Sandbox Code Playgroud)

预期产量:

na-008 na-014 na015
Run Code Online (Sandbox Code Playgroud)

r

3
推荐指数
1
解决办法
149
查看次数

strsplit 并在第一个下划线之前保留部分

我想保留 FIRST 后的部分。请参阅示例代码。

colnames(df)
"EGAR00001341740_P32_1"    "EGAR00001341741_PN32"
Run Code Online (Sandbox Code Playgroud)

我的尝试,但没有给出,P32_1而只是P32哪个是错误的。

sapply(strsplit(colnames(df), split='_', fixed=TRUE), function(x) (x[2]))
Run Code Online (Sandbox Code Playgroud)

所需的输出: P32_1, PN32

string split r

3
推荐指数
1
解决办法
4739
查看次数

匹配特定列的 grep 文件

我想仅保留线results.txt匹配的ID的uniq.txt基础上在第3栏的比赛results.txt。通常我会使用grep -f uniq.txt results.txt,但这并没有指定第 3 列。

uniq.txt

9606
234831
131
31313
Run Code Online (Sandbox Code Playgroud)

结果.txt

readID  seqID   taxID   score   2ndBestScore    hitLength       queryLength     numMatches
A00260:70:HJM2YDSXX:4:1111:15519:16720  NC_000011.10    9606    169     0       28      151     1
A00260:70:HJM2YDSXX:3:1536:9805:14841   NW_021160017.1  9606    81      0       24      151     1
A00260:70:HJM2YDSXX:3:1366:27181:24330  NC_014803.1     234831  121     121     26      151     3
A00260:70:HJM2YDSXX:3:1366:27181:24330  NC_014973.1     443143  121     121     26      151     3
Run Code Online (Sandbox Code Playgroud)

awk grep

3
推荐指数
1
解决办法
75
查看次数

为ggplot中的geom_text添加颜色

运行下面的代码时,我无法为 中的文本提供颜色geom_text。有人看到错误在哪里吗?它适用于我的其他数据。

ggplot(TumorNormalmiR148a_3p.m3, aes(X2,value)) + 
  geom_dotplot(aes(fill=Sample),binaxis = "y") + coord_flip() +
  theme_bw(base_size=8) +
  theme(axis.text.y=element_text(hjust = 0)) +
  geom_text(aes(x, y, label=FDR, colour=coloursmir148a),data=pvaluesmir148acombined,size=2, show_guide=F)  +
  scale_color_manual(values=coloursmir148a) +
  labs(y="log2 RPM", x="IsomiRs (hsa-miR-148a-5p)")
Run Code Online (Sandbox Code Playgroud)

颜色:

> coloursmir148a
 [1] "black" "black" "red"   "red"   "red"   "red"   "red"   "black" "red"   "red"   "red"   "black" "red"   "red"  
[15] "black" "black" "black" "black" "red"   "red"   "red"   "red"   "red"   "red"   "black" "red"   "red"   "black"
[29] "red"   "black" "red"   "red"   "red"   "black"
Run Code Online (Sandbox Code Playgroud)

p值:

> pvaluesmir148acombined
           FDR  x  y
1  p = …
Run Code Online (Sandbox Code Playgroud)

r ggplot2

1
推荐指数
1
解决办法
2705
查看次数

过滤列中正则表达式的行

我想过滤列中包含大写字母的行t3.字母可以是不同组合的ATCG.请看我的例子和我的尝试.

> head(dat)
                                      IsomiR freq start end mism   add t5 t3
1 hsa-miR-146b-5p_TGAGAACTGAATTCCGTAGGCTGTTT    1     9  32 16GA  I-TT  0 GT
2    hsa-miR-24-3p_TGGCTCAGTTCAGCAGGAACATTTT    1    50  71 22TG I-TTT  0  0
3       hsa-miR-140-3p_TACCACAGGGTAGGACCACGG    1    62  82 14GA     0  0  0

dat[dat$t3 =="ATCG",]
Run Code Online (Sandbox Code Playgroud)

r

1
推荐指数
1
解决办法
333
查看次数

grep只与模式完全匹配

我想把与我的模式完全匹配的rownames grep toMatch.

toMatch <- c("I-A", "I-AA", "I-AAA")
dat[grep(toMatch, rownames(dat)), ]
Run Code Online (Sandbox Code Playgroud)

DAT

hsa-miR-10b-5p_TACCCTGTAGAACCGAATTTGTAA_0;I-AA;0;g           3.939829e-01
hsa-miR-122-5p_TGGAGTGTGACAATGGTGTTTGATA_0;I-ATA;0;0         3.942306e-01
hsa-miR-122-5p_TGGAGTGTGGCAATGGTGTTTGAAA_10GA;I-AAA;0;0      3.948047e-01
Run Code Online (Sandbox Code Playgroud)

 hsa-miR-10b-5p_TACCCTGTAGAACCGAATTTGTAA_0;I-AA;0;g           3.939829e-01
 hsa-miR-122-5p_TGGAGTGTGGCAATGGTGTTTGAAA_10GA;I-AAA;0;0      3.948047e-01
Run Code Online (Sandbox Code Playgroud)

regex r

1
推荐指数
1
解决办法
120
查看次数

过滤具有X个列且值大于Y的行

我想过滤我的数据框,以便只保留至少2列中值> 5.5的行.

我知道这个dplyr功能filter(df,columnX>5.5),但它只允许一次占用一列或几列.

DF:

    structure(list(tumor = c(5.69857588735462, 5.14269655336569, 
15.5965461799242, 5.28949625542, 6.43237599127586, 5.21673785968077
), tumor = c(5.79729396999926, 5.10961482429376, 15.8339301491681, 
5.47321124082556, 6.0624492087845, 5.21740033243091), tumor = c(5.67184459054712, 
5.024088977993, 16.1659194908984, 5.20119456848026, 6.67441109230211, 
5.15023836750153), tumor = c(5.9616857066853, 5.23907758025991, 
15.2742729676712, 5.31827944648937, 6.47526325782951, 5.15926657492595
), tumor = c(5.75116456249489, 5.03195808382708, 16.0180448251626, 
5.36575242301428, 6.85603803194346, 5.18022831262029)), class = "data.frame", row.names = c("A_33_P3390097", 
"NM_178466", "GE_BrightCorner", "ENST00000396843", "NM_001166137", 
"DarkCorner"))
Run Code Online (Sandbox Code Playgroud)

r subset dataframe

1
推荐指数
1
解决办法
751
查看次数

重命名多个子文件夹中的文件

我有多个唯一的目录,每个目录都包含一个名为filtered_feature_bc_matrix.h5. 我想将目录名称粘贴到文件名上,以使文件名在每个文件夹中唯一。这可能吗?

./sample_scRNA_unsorted_98433_Primary_bam/outs/filtered_feature_bc_matrix.h5
./sample_scRNA_unsorted_77570_Primary_bam/outs/filtered_feature_bc_matrix.h5
Run Code Online (Sandbox Code Playgroud)

出去:

./sample_scRNA_unsorted_98433_Primary_bam/outs/sample_scRNA_unsorted_98433_Primary_bam_filtered_feature_bc_matrix.h5
./sample_scRNA_unsorted_77570_Primary_bam/outs/sample_scRNA_unsorted_77570_Primary_bam_filtered_feature_bc_matrix.h5
Run Code Online (Sandbox Code Playgroud)

bash

1
推荐指数
1
解决办法
111
查看次数

根据第1列合并六个文件

我有6个csv文件,我想根据第1列中的字符串标识进行合并.我想在第2列中保留每个文件的Count-number.以下示例:

文件1:

TAGCTTATCAGACTGATGTTGAC 88902
TAGCACCATTTGAAATCAGTGTT 62017
TAGCTTATCAGACTGATGTTGA  25339
GCATGGGTGGTTCAGTGGTAGAATTCTC    18477
TAGCACCATCTGAAATCGGTTA  12522
CACGGTCCCCCGCGAGGGGGGCCCGGG 11814
TAAAGTGCTGACAGTGCAGAT   10870
GCGCCCTTAGCTCAGTTGGATAGAGCAA    10353
TGTGCAAATCTATGCAAAACTGA 8689
Run Code Online (Sandbox Code Playgroud)

文件2:

TAGCTTATCAGACTGATGTTGAC 290460
TAGCTTATCAGACTGATGTTGA  85960
GCATGGGTGGTTCAGTGGTAGAATTCTC    33273
TAGCACCATTTGAAATCAGTGTT 25284
TAGCACCATCTGAAATCGGTTA  21199
AGTTGGTTAGAGCAACCGG 18608
AGCAGCATTGTACAGGGCTATGA 18449
TGTGCAAATCCATGCAAAACTGA 17968
TAGCTTATCAGACTGATGTTGACA    15530
CACGGTCCCCCGCGAGGGGGGCCCGGG 13258
TGTGCAAATCTATGCAAAACTGA 12847
CCTAAGGCAGGACTGATGACTGGGGTG 12725
GCCGCCGGTGAAATACCACTACTC    11971
TGAGGTAGTAGGTTGTATAGTT  10398
Run Code Online (Sandbox Code Playgroud)

文件3:

TAGCTTATCAGACTGATGTTGAC 181279
TAGCTTATCAGACTGATGTTGA  78661
AGTTGGTTAGAGCAACCGG 24225
CACGGTCCCCCGCGAGGGGGGCCCGGG 22252
AAAAGCTGGGTTGAGAGGGCGA  21334
TGTGCAAATCCATGCAAAACTGA 18541
CGGCGGGTGTTGACGCGATG    17818
TAGCACCATCTGAAATCGGTTA  15642
CCTAAGGCAGGACTGATGACTGGGGTG 14003
TAGCTTATCAGACTGATGTTGACA    12549
TAGCACCATTTGAAATCAGTGTT 12515
AGCAGCATTGTACAGGGCTATGA 12205
Run Code Online (Sandbox Code Playgroud)

输出:

ID                        file1         file2             file3
TAGCTTATCAGACTGATGTTGAC …
Run Code Online (Sandbox Code Playgroud)

perl r

-1
推荐指数
1
解决办法
122
查看次数

标签 统计

r ×8

awk ×3

bash ×2

perl ×2

dataframe ×1

ggplot2 ×1

grep ×1

regex ×1

sed ×1

split ×1

string ×1

subset ×1