我有一个包含一定数量行的文件.每一行看起来像这样:
TF_list_to_test10004/Nus_k0.345_t0.1_e0.1.adj:PKMYT1
Run Code Online (Sandbox Code Playgroud)
我想删除所有":"之前的字符,以便仅保留作为基因名称的PKMYT1.由于我不是正则表达式脚本编写的专家,任何人都可以帮助我使用Unix(sed或awk)或R?
我有一个由数字和非数字列组成的数据框.
我想提取(子集)非数字列,所以字符为1.虽然我能够使用字符串对数字列进行子集化sub_num = x[sapply(x, is.numeric)],但我无法使用is.character表单执行相反的操作.谁能帮我?
我有三个独立的data.frames.这三个data.frames具有相同的列数和相同的行数.另外,它们具有相同的列名.我正在尝试根据列名合并三个data.frames.我正在使用以下代码编写合并两个data.frames并返回匹配数.
Run Code Online (Sandbox Code Playgroud)Merged_DF = sapply(names(DF1),function(n) nrow(merge(DF1, DF2, by=n)))
问题是虽然在这个例子中有两个data.frames,但在我的例子中我有3个data.frames.如何修改代码以合并三个data.frames而不是两个?我试图以这种方式修改字符串只是添加第三个data.frame但它不起作用:
Merged_DF = sapply(names(DF1),function(n) nrow(merge(DF1, DF2, DF3, by=n)))
Run Code Online (Sandbox Code Playgroud)
它返回以下错误:
Error in fix.by(by.x, x) : 'by' must specify column(s) as numbers, names or logical
Run Code Online (Sandbox Code Playgroud)
例如:
DF1
Run Code Online (Sandbox Code Playgroud)G1 G2 G3 a b f b c a c d bDF2
Run Code Online (Sandbox Code Playgroud)G1 G2 G3 A b f b c a h M bDF3
Run Code Online (Sandbox Code Playgroud)G1 G2 G3 a b f b l a j M v
data.frames有大约250行和50个cols.
我的row.names看起来像这样:
输入:
S1_S2_S3_S9_AAACTGATFSRYB
S3_S4_S12_S1_TTTTTTGATFSRYB
S9_S4_S12_S1_S2_S19_S22_GTGTTTGATFSRYB
Run Code Online (Sandbox Code Playgroud)
我想要以下内容:
S9_AAACTGATFSRYB
S1_TTTTTTGATFSRYB
S22_GTGTTTGATFSRYB
Run Code Online (Sandbox Code Playgroud)
换句话说,我想在字母开始之前只保留最后一个S*.我有6000行
任何人都可以帮我写一个gsub或类似的东西来提取我需要的字符串吗?
我想运行一些Matlab脚本.然而,我们没有Matlab许可证,因此有必要从Matlab转换为R语言.不幸的是我在Matlab中是全新的,但在R中却没有.是否可以使用R读取Matlab脚本或者是否有一种简单的方法来翻译R中的Matlab脚本?
大家好,这个问题很简单。我怎样才能更换values < 1.5和values > -1.5 使用0的data.frame?应该是“烟斗”的最佳解决方案吗?
非常感谢!
E.
我试图将大约 1000 个文件水平连接到一个文件,每个文件由一列组成。由于所有必须连接的文件都命名为:myfile1.txt, myfile2.txt, myfile3.txt, ...,我使用了以下字符串:
cat $myfile*.txt > myoutput.txt
Run Code Online (Sandbox Code Playgroud)
不幸的是,这些文件是垂直连接的。
有人可以帮我吗?
Hy伙计们,我有一个看起来像这样的data.frame:
Run Code Online (Sandbox Code Playgroud)Gene_name Chr_ID Value a 1 34 b HG1497_PATCH 12 c 22 123 d LRG_70 34 e X 56 f Y 0.1 g 6 0.12 ..... ..... .......
直到10.000行.我想要以下输出:
Run Code Online (Sandbox Code Playgroud)Gene_name Chr_ID Value a 1 34 c 22 123 e X 56 f Y 0.1 g 6 0.12 ..... ..... .......
保留行的标准是第2列(Chr_ID)加上X和的数值Y.
有人可以帮我吗?
我有一个由 N 列组成的 data.frame 。这些列的长度不同(即complete.cases),例如Column1:314行,Column2:543行,Column3:124行,...我想检索整个data.frame中每列的长度。有人可以帮我吗?