我有一个小的DNA序列快速文件,看起来像这样:
>NM_000016 700 200 234
ACATATTGGAGGCCGAAACAATGAGGCGTGATCAACTCAGTATATCAC
>NM_000775 700 124 236
CTAACCTCTCCCAGTGTGGAACCTCTATCTCATGAGAAAGCTGGGATGAG
>NM_003820 700 111 222
ATTTCCTCCTGCTGCCCGGGAGGTAACACCCTGGACCCCTGGAGTCTGCA
Run Code Online (Sandbox Code Playgroud)
问题:
1)如何将此fasta文件读入R作为数据帧,其中每一行是序列记录,第一列是refseqID,第二列是序列.
2)如何在(开始,结束)位置提取子序列?
NM_000016 1 3 #"ACA"
NM_000775 2 6 #"TAACC"
NM_003820 3 5 #"TTC"
Run Code Online (Sandbox Code Playgroud) 我有一个简单的线性模型:
mylm = lm(formula = prodRate~affinity, mydf)
Run Code Online (Sandbox Code Playgroud)
其中mydf是一个数据框,看起来像:
prodRate affinity
1 2643.5744 0.005164040
2 2347.6923 0.004439970
3 1783.6819 0.003322830
Run Code Online (Sandbox Code Playgroud)
当我使用predict.lm()时出现错误:
my_pred= predict(mylm,newdata=data.frame(affinity=seq(0,1,0.1)) )
Run Code Online (Sandbox Code Playgroud)
错误:变量“亲和力”适合类型“ nmatrix.1”,但提供了类型“数字”。
这是为什么?如何解决?谢谢!
我有很多文件名,如下所示:
txt= "MA0051_IRF2.xml"
Run Code Online (Sandbox Code Playgroud)
我想提取IRF2"_"和"."之间的内容.我如何在R中执行此操作?
我有一个矩阵,有一列和多行,每行是相等长度的字符串,看起来像使用以下代码:
a = list("GTCA", "GACA")
library(plyr)
df <- ldply(a)
Run Code Online (Sandbox Code Playgroud)
我想将其转换为具有多列的矩阵,列数等于字符串长度.想要的结果应该看起来像执行以下代码:
a = list(c("G","T","C","A"), c("G","A","C","A"))
library(plyr)
df <- ldply(a)
Run Code Online (Sandbox Code Playgroud)
我怎么能在R?谢谢!