我有大约50 GB的文本文件,我正在检查每行的前几个字符,并将其写入为该起始文本指定的其他文件.
例如.我的输入包含:
cow_ilovecow
dog_whreismydog
cat_thatcatshouldgotoreddit
dog_gotitfromshelter
...............
Run Code Online (Sandbox Code Playgroud)
所以,我想在牛,狗和猫(约200个)类别中处理它们,所以,
if writeflag==1:
writefile1=open(writefile,"a") #writefile is somedir/dog.txt....
writefile1.write(remline+"\n")
#writefile1.close()
Run Code Online (Sandbox Code Playgroud)
那么,什么是最好的方式,我应该关闭吗?否则,如果我保持开放,writefile1=open(writefile,"a")做正确的事情?
我有一个包含任何这些值的数据框.
from=c("A","C","G","T","R","Y","M","K","W", "S","N")
Run Code Online (Sandbox Code Playgroud)
我想用相应的替换
to=c("AA","CC","GG","TT","AG","CT","AC","GT","AT", "CG","NN")
Run Code Online (Sandbox Code Playgroud)
最好的方法是什么,循环遍历所有要替换的值?或循环遍历矩阵位置.或任何其他解决方案?
dd<-matrix(sample(from, 100, replace=TRUE), 10)
dd
[,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] [,10]
[1,] "K" "S" "G" "T" "R" "N" "A" "C" "W" "M"
[2,] "Y" "K" "S" "G" "T" "R" "N" "A" "C" "W"
[3,] "M" "Y" "K" "S" "G" "T" "R" "N" "A" "C"
[4,] "W" "M" "Y" "K" "S" "G" "T" "R" "N" "A"
[5,] "C" "W" "M" "Y" "K" "S" "G" "T" "R" "N"
[6,] "A" "C" …Run Code Online (Sandbox Code Playgroud) 在R中使用"circlize"包,我试图为每个轨道添加标签.在下面的例子中,我希望它在扇区Y之前,扇区之前的扇区之间显示"A.表意文字","B.表达","C:计数" 1.
library(circlize)
circos.initializeWithIdeogram()
bed = generateRandomBed(nr = 500, fun = function(k) runif(k)*sample(c(-1, 1), k, replace = TRUE))
circos.genomicTrackPlotRegion(bed, ylim = c(-1, 1), panel.fun = function(region, value, ...) {
col = ifelse(value[[1]] > 0, "red", "green")
circos.genomicPoints(region, value, col = col, cex = 0.5, pch = 16)
cell.xlim = get.cell.meta.data("cell.xlim")
for(h in c(-1, -0.5, 0, 0.5, 1)) {
circos.lines(cell.xlim, c(h, h), col = "#00000040")
}
}, track.height = 0.1)
bed = generateRandomBed(nr = 500, fun = function(k) …Run Code Online (Sandbox Code Playgroud) 我有一个创建列表的列表
biglist=[['A'], ['C', 'T'], ['A', 'T']]
Run Code Online (Sandbox Code Playgroud)
我会有另一个列表,如
smalllist=[['C'], ['T'], ['A', 'T']]
Run Code Online (Sandbox Code Playgroud)
所以,我想检查小列表中的项目是否包含在该列表的特定索引中,如果没有附加到该列表中.
所以,制作
biglist=[['A','C'], ['C', 'T'], ['A', 'T']]
Run Code Online (Sandbox Code Playgroud)
所以,小名单的第一个子列表中的'C'被添加到biglist的第一个子列表中.但不是第二和第三.
我尝试过
dd=zip(biglist, smalllist)
for each in dd:
ll=each[0].extend(each[1])
templist.append(list(set(ll)))
Run Code Online (Sandbox Code Playgroud)
但得到错误
templist.append(list(set(ll)))
TypeError: 'NoneType' object is not iterable
Run Code Online (Sandbox Code Playgroud)
怎么做?
谢谢
我使用dump()命令在R中转储一些数据帧.特定的转储文件大约是200 MB,一个大约是1.5 GB.后来我尝试使用source()它来检索它们并且花了很多时间并且说窗户在3-4小时后停止工作.我在Windows 7中使用64位R 3.0.0(我也在R 2.15.3中尝试过),内存为48 GB.对于其中一个文件,它抛出了一些内存错误,(我现在没有日志)但是从大约15个数据集中加载了4-5个数据集.
如果我知道名字,有什么办法可以加载特定的数据集吗?或者还有其他方法吗?
我已经吸取了教训,可能会保存命令来创建数据和原始数据.或一个转储文件中的一个数据(或R图像文件)
谢谢
我一直在使用R windows/mac,其中向上/向下箭头拉出历史记录.类似地,python中的Alt + P拉动了历史.当通过SSH(putty)在unix中使用shell时,向上箭头会提取shell命令的历史记录.但是当我从shell调用R时,R里面的箭头将是^ [[A,^ [[B等等.有没有办法使用箭头或任何快捷方式来调用历史记录.
如何找到图案位于线条中间的线条。即在下面的例子中。我只想获取第 8 行,但排除第 1 行和第 5 行 grep“@”
我知道我grep "^@"只会在第一个字符中查找,但如何排除它?
@DD65WKN1:203:H7T67ADXX:2:2216:19936:100494 1:N:0:
GTCGTTCTTCAGGTTCTC
+
FFFFFIIIIFFFIFFFFF
@DD65WKN1:203:H7T67ADXX:2:2216:6629:100501 1:N:0:
TAAAGTAGCAAAAATG
+
FFFFFFFFIFBFIFFF@DD65WKN1:203:H7T67ADXX:2:2216:6629:100501 1:N:0:
TAAAGTAGCAAAAATG
+
FFFFFFFFIFBFIFFF
Run Code Online (Sandbox Code Playgroud)
谢谢