小编Pau*_*l.j的帖子

如何将FASTA读入数据帧并提取R中FASTA文件的子序列

我有一个小的DNA序列快速文件,看起来像这样:

>NM_000016 700 200 234
ACATATTGGAGGCCGAAACAATGAGGCGTGATCAACTCAGTATATCAC

>NM_000775 700 124 236
CTAACCTCTCCCAGTGTGGAACCTCTATCTCATGAGAAAGCTGGGATGAG

>NM_003820 700 111 222
ATTTCCTCCTGCTGCCCGGGAGGTAACACCCTGGACCCCTGGAGTCTGCA
Run Code Online (Sandbox Code Playgroud)

问题:

1)如何将此fasta文件读入R作为数据帧,其中每一行是序列记录,第一列是refseqID,第二列是序列.

2)如何在(开始,结束)位置提取子序列?

NM_000016 1  3 #"ACA"
NM_000775 2  6 #"TAACC"
NM_003820 3  5 #"TTC"
Run Code Online (Sandbox Code Playgroud)

r bioinformatics subset fasta

14
推荐指数
3
解决办法
3万
查看次数

如何解决predict.lm()错误:变量“亲和力”适合类型“ nmatrix.1”,但提供了“数值”类型

我有一个简单的线性模型:

mylm = lm(formula = prodRate~affinity, mydf)
Run Code Online (Sandbox Code Playgroud)

其中mydf是一个数据框,看起来像:

 prodRate    affinity

1  2643.5744 0.005164040

2  2347.6923 0.004439970

3  1783.6819 0.003322830
Run Code Online (Sandbox Code Playgroud)

当我使用predict.lm()时出现错误:

my_pred= predict(mylm,newdata=data.frame(affinity=seq(0,1,0.1)) )
Run Code Online (Sandbox Code Playgroud)

错误:变量“亲和力”适合类型“ nmatrix.1”,但提供了类型“数字”。

这是为什么?如何解决?谢谢!

r predict

3
推荐指数
1
解决办法
4260
查看次数

如何在符号"_"和"."之间提取子字符串.

我有很多文件名,如下所示:

txt= "MA0051_IRF2.xml"
Run Code Online (Sandbox Code Playgroud)

我想提取IRF2"_"和"."之间的内容.我如何在R中执行此操作?

r gsub

3
推荐指数
2
解决办法
6633
查看次数

R:如何将每行的矩阵转换为等长字符串到多列矩阵中?

我有一个矩阵,有一列和多行,每行是相等长度的字符串,看起来像使用以下代码:

a = list("GTCA", "GACA")
library(plyr)
df <- ldply(a)
Run Code Online (Sandbox Code Playgroud)

我想将其转换为具有多列的矩阵,列数等于字符串长度.想要的结果应该看起来像执行以下代码:

a = list(c("G","T","C","A"), c("G","A","C","A"))
library(plyr)
df <- ldply(a)
Run Code Online (Sandbox Code Playgroud)

我怎么能在R?谢谢!

string split r character

1
推荐指数
1
解决办法
226
查看次数

标签 统计

r ×4

bioinformatics ×1

character ×1

fasta ×1

gsub ×1

predict ×1

split ×1

string ×1

subset ×1