我想合并第 1 列和第 2 列,并将它们添加为数据框中的新列。然后我想打印所有旧列和新创建的列。我可以使用下面的脚本组合列,但不确定如何打印所有列,而不仅仅是组合的列:
awk ' { print $1 $2 "_" $NF } ' input_file
Run Code Online (Sandbox Code Playgroud)
在
c1 c2 c3
12 1 12
4 4 57
Run Code Online (Sandbox Code Playgroud)
出去
c1 c2 c3 c4
12 1 12 12_1
4 4 57 4_4
Run Code Online (Sandbox Code Playgroud) 我想过滤包含长度超过35且小于10的rownames的行.我正在查看该nchar函数.
79_CGTACG.collapsed.gz 80_ACAGTG.collapsed.gz
CACCCGCACGTATAGACGGACA 0 0
GTGCTGATGTCCTTGGCAGGCTTCGGCCGTCCGGC 0 0
CGTGGAACCTG 0 0
TAATGGTCATTAG 2 1
GGCGATGCGGGATGAACCGAAC 0 0
AAGGATGT 0 0
Run Code Online (Sandbox Code Playgroud) 我想重新格式化下面的行.请参阅输入示例和所需输出.我一直在使用awk而没有找到正确的解决方案
输入:
>1-672762
TGAGGTAGTAGGTTGTATGGTT
>2-240457
TGAGGTAGTAGGTTGTGTGGTT
>3-130231
TAGCAGCACGTAAATATTGGCG
>4-116485
TGAGGTAGTAGGTTGTATAGTT
Run Code Online (Sandbox Code Playgroud)
输出(需要以制表符分隔):
TGAGGTAGTAGGTTGTATGGTT 672762
TGAGGTAGTAGGTTGTGTGGTT 240457
TAGCAGCACGTAAATATTGGCG 130231
TGAGGTAGTAGGTTGTATAGTT 116485
Run Code Online (Sandbox Code Playgroud) 我想为我的数据框创建新的colnames,MirAligner包括_原始colnames中第一个之前的部分.这是我试过的:
unlist(strsplit(as.character(colnames(MirAligner)),'_',fixed=TRUE))
Run Code Online (Sandbox Code Playgroud)
列名
head(colnames(MirAligner))
[1] "na-008_S52_L003_R1_001.mir.fa.gz" "na-014_S99_L005_R1_001.mir.fa.gz" "na015_S114_L005_R1_001.mir.fa.gz" [4] "na-015_S50_L003_R1_001.mir.fa.gz" "na-018_S147_L007_R1_001.mir.fa.gz" "na020_S162_L007_R1_001.mir.fa.gz"
Run Code Online (Sandbox Code Playgroud)
预期产量:
na-008 na-014 na015
Run Code Online (Sandbox Code Playgroud) 我想保留 FIRST 后的部分。请参阅示例代码。
colnames(df)
"EGAR00001341740_P32_1" "EGAR00001341741_PN32"
Run Code Online (Sandbox Code Playgroud)
我的尝试,但没有给出,P32_1而只是P32哪个是错误的。
sapply(strsplit(colnames(df), split='_', fixed=TRUE), function(x) (x[2]))
Run Code Online (Sandbox Code Playgroud)
所需的输出: P32_1, PN32
我想仅保留线results.txt匹配的ID的uniq.txt基础上在第3栏的比赛results.txt。通常我会使用grep -f uniq.txt results.txt,但这并没有指定第 3 列。
uniq.txt
9606
234831
131
31313
Run Code Online (Sandbox Code Playgroud)
结果.txt
readID seqID taxID score 2ndBestScore hitLength queryLength numMatches
A00260:70:HJM2YDSXX:4:1111:15519:16720 NC_000011.10 9606 169 0 28 151 1
A00260:70:HJM2YDSXX:3:1536:9805:14841 NW_021160017.1 9606 81 0 24 151 1
A00260:70:HJM2YDSXX:3:1366:27181:24330 NC_014803.1 234831 121 121 26 151 3
A00260:70:HJM2YDSXX:3:1366:27181:24330 NC_014973.1 443143 121 121 26 151 3
Run Code Online (Sandbox Code Playgroud) 运行下面的代码时,我无法为 中的文本提供颜色geom_text。有人看到错误在哪里吗?它适用于我的其他数据。
ggplot(TumorNormalmiR148a_3p.m3, aes(X2,value)) +
geom_dotplot(aes(fill=Sample),binaxis = "y") + coord_flip() +
theme_bw(base_size=8) +
theme(axis.text.y=element_text(hjust = 0)) +
geom_text(aes(x, y, label=FDR, colour=coloursmir148a),data=pvaluesmir148acombined,size=2, show_guide=F) +
scale_color_manual(values=coloursmir148a) +
labs(y="log2 RPM", x="IsomiRs (hsa-miR-148a-5p)")
Run Code Online (Sandbox Code Playgroud)
颜色:
> coloursmir148a
[1] "black" "black" "red" "red" "red" "red" "red" "black" "red" "red" "red" "black" "red" "red"
[15] "black" "black" "black" "black" "red" "red" "red" "red" "red" "red" "black" "red" "red" "black"
[29] "red" "black" "red" "red" "red" "black"
Run Code Online (Sandbox Code Playgroud)
p值:
> pvaluesmir148acombined
FDR x y
1 p = …Run Code Online (Sandbox Code Playgroud) 我想过滤列中包含大写字母的行t3.字母可以是不同组合的ATCG.请看我的例子和我的尝试.
> head(dat)
IsomiR freq start end mism add t5 t3
1 hsa-miR-146b-5p_TGAGAACTGAATTCCGTAGGCTGTTT 1 9 32 16GA I-TT 0 GT
2 hsa-miR-24-3p_TGGCTCAGTTCAGCAGGAACATTTT 1 50 71 22TG I-TTT 0 0
3 hsa-miR-140-3p_TACCACAGGGTAGGACCACGG 1 62 82 14GA 0 0 0
dat[dat$t3 =="ATCG",]
Run Code Online (Sandbox Code Playgroud) 我想把与我的模式完全匹配的rownames grep toMatch.
toMatch <- c("I-A", "I-AA", "I-AAA")
dat[grep(toMatch, rownames(dat)), ]
Run Code Online (Sandbox Code Playgroud)
DAT
hsa-miR-10b-5p_TACCCTGTAGAACCGAATTTGTAA_0;I-AA;0;g 3.939829e-01
hsa-miR-122-5p_TGGAGTGTGACAATGGTGTTTGATA_0;I-ATA;0;0 3.942306e-01
hsa-miR-122-5p_TGGAGTGTGGCAATGGTGTTTGAAA_10GA;I-AAA;0;0 3.948047e-01
Run Code Online (Sandbox Code Playgroud)
出
hsa-miR-10b-5p_TACCCTGTAGAACCGAATTTGTAA_0;I-AA;0;g 3.939829e-01
hsa-miR-122-5p_TGGAGTGTGGCAATGGTGTTTGAAA_10GA;I-AAA;0;0 3.948047e-01
Run Code Online (Sandbox Code Playgroud) 我想过滤我的数据框,以便只保留至少2列中值> 5.5的行.
我知道这个dplyr功能filter(df,columnX>5.5),但它只允许一次占用一列或几列.
DF:
structure(list(tumor = c(5.69857588735462, 5.14269655336569,
15.5965461799242, 5.28949625542, 6.43237599127586, 5.21673785968077
), tumor = c(5.79729396999926, 5.10961482429376, 15.8339301491681,
5.47321124082556, 6.0624492087845, 5.21740033243091), tumor = c(5.67184459054712,
5.024088977993, 16.1659194908984, 5.20119456848026, 6.67441109230211,
5.15023836750153), tumor = c(5.9616857066853, 5.23907758025991,
15.2742729676712, 5.31827944648937, 6.47526325782951, 5.15926657492595
), tumor = c(5.75116456249489, 5.03195808382708, 16.0180448251626,
5.36575242301428, 6.85603803194346, 5.18022831262029)), class = "data.frame", row.names = c("A_33_P3390097",
"NM_178466", "GE_BrightCorner", "ENST00000396843", "NM_001166137",
"DarkCorner"))
Run Code Online (Sandbox Code Playgroud) 我有多个唯一的目录,每个目录都包含一个名为filtered_feature_bc_matrix.h5. 我想将目录名称粘贴到文件名上,以使文件名在每个文件夹中唯一。这可能吗?
./sample_scRNA_unsorted_98433_Primary_bam/outs/filtered_feature_bc_matrix.h5
./sample_scRNA_unsorted_77570_Primary_bam/outs/filtered_feature_bc_matrix.h5
Run Code Online (Sandbox Code Playgroud)
出去:
./sample_scRNA_unsorted_98433_Primary_bam/outs/sample_scRNA_unsorted_98433_Primary_bam_filtered_feature_bc_matrix.h5
./sample_scRNA_unsorted_77570_Primary_bam/outs/sample_scRNA_unsorted_77570_Primary_bam_filtered_feature_bc_matrix.h5
Run Code Online (Sandbox Code Playgroud) 我有6个csv文件,我想根据第1列中的字符串标识进行合并.我想在第2列中保留每个文件的Count-number.以下示例:
文件1:
TAGCTTATCAGACTGATGTTGAC 88902
TAGCACCATTTGAAATCAGTGTT 62017
TAGCTTATCAGACTGATGTTGA 25339
GCATGGGTGGTTCAGTGGTAGAATTCTC 18477
TAGCACCATCTGAAATCGGTTA 12522
CACGGTCCCCCGCGAGGGGGGCCCGGG 11814
TAAAGTGCTGACAGTGCAGAT 10870
GCGCCCTTAGCTCAGTTGGATAGAGCAA 10353
TGTGCAAATCTATGCAAAACTGA 8689
Run Code Online (Sandbox Code Playgroud)
文件2:
TAGCTTATCAGACTGATGTTGAC 290460
TAGCTTATCAGACTGATGTTGA 85960
GCATGGGTGGTTCAGTGGTAGAATTCTC 33273
TAGCACCATTTGAAATCAGTGTT 25284
TAGCACCATCTGAAATCGGTTA 21199
AGTTGGTTAGAGCAACCGG 18608
AGCAGCATTGTACAGGGCTATGA 18449
TGTGCAAATCCATGCAAAACTGA 17968
TAGCTTATCAGACTGATGTTGACA 15530
CACGGTCCCCCGCGAGGGGGGCCCGGG 13258
TGTGCAAATCTATGCAAAACTGA 12847
CCTAAGGCAGGACTGATGACTGGGGTG 12725
GCCGCCGGTGAAATACCACTACTC 11971
TGAGGTAGTAGGTTGTATAGTT 10398
Run Code Online (Sandbox Code Playgroud)
文件3:
TAGCTTATCAGACTGATGTTGAC 181279
TAGCTTATCAGACTGATGTTGA 78661
AGTTGGTTAGAGCAACCGG 24225
CACGGTCCCCCGCGAGGGGGGCCCGGG 22252
AAAAGCTGGGTTGAGAGGGCGA 21334
TGTGCAAATCCATGCAAAACTGA 18541
CGGCGGGTGTTGACGCGATG 17818
TAGCACCATCTGAAATCGGTTA 15642
CCTAAGGCAGGACTGATGACTGGGGTG 14003
TAGCTTATCAGACTGATGTTGACA 12549
TAGCACCATTTGAAATCAGTGTT 12515
AGCAGCATTGTACAGGGCTATGA 12205
Run Code Online (Sandbox Code Playgroud)
输出:
ID file1 file2 file3
TAGCTTATCAGACTGATGTTGAC …Run Code Online (Sandbox Code Playgroud)