您正在使用基因表达矩阵,片段计数来计算差异表达的基因.我想知道如何删除值为0的行.然后我的数据集将是紧凑的,并且我将使用此矩阵为下游分析提供更少的虚假结果.
输入
gene ZPT.1 ZPT.0 ZPT.2 ZPT.3 PDGT.1 PDGT.0
XLOC_000001 3516 626 1277 770 4309 9030
XLOC_000002 342 82 185 72 835 1095
XLOC_000003 2000 361 867 438 454 687
XLOC_000004 143 30 67 37 90 236
XLOC_000005 0 0 0 0 0 0
XLOC_000006 0 0 0 0 0 0
XLOC_000007 0 0 0 0 1 3
XLOC_000008 0 0 0 0 0 0
XLOC_000009 0 0 0 0 0 0
XLOC_000010 7 1 5 3 0 1
XLOC_000011 …Run Code Online (Sandbox Code Playgroud) 我正在尝试用R中的包pheatmap创建一个带有基因表达值的热图.我已经多次使用该代码,直到今天仍然没有问题.看来当我做scale ="row"时,我最终得到了这个错误.我无法创建z分数.因此,可能某些行没有可变性,因此发生这种情况.我怎么能摆脱这个.矩阵具有1100行和9列.我的代码:
data <- read.table("~path/DEGs_DESeq.txt",sep="\t")
data2 <- as.matrix(data[,2:9])
data3 <- data2[-1,]
samples <- data2[1,]
genes <- data[2:length(data2[,1]),1]
vett <- as.numeric(data3)
data4 <- matrix(vett, length(genes), length(samples), dimnames=list(paste(genes),paste(samples)))
head(data4)
pheatmap(as.matrix(data4), col=bluered(200), scale="row", key=T, keysize=1.5,
density.info="none", trace="none",cexCol=0.6, fontsize_row=8, fontsize_col=10)
Run Code Online (Sandbox Code Playgroud)
hclust中的错误(d,方法=方法):外部函数调用中的NA/NaN/Inf(arg 11)
我怎样才能摆脱这个错误?
我有一些行,第1列,第8列和第9列大致相同.行总数超过60K.现在我想简化只保留第1列,第8列和第9列相同的第一行.
输入文件:
chr exon_start exon_end cnv tumor_DOC control_DOC rationormalized_after_smoothing CNV_start CNV_end seg_mean
chr1 762097 762270 3 821 717 1.456610215 762097 6706109 1.297328502
chr1 861281 861490 3 101 117 1.29744744 762097 6706109 1.297328502
chr1 7868860 7869039 2 78 119 1.123385189 7796356 8921423 1.088752407
chr1 7869841 7870041 2 140 169 1.123385189 7796356 8921423 1.088752407
chr1 7870411 7870596 2 83 163 1.123385189 7796356 8921423 1.088752407
chr1 7879297 7879467 2 290 360 1.024742732 7796356 8921423 1.088752407
chr1 21012415 21012609 3 89 135 1.230421209 19536504 …Run Code Online (Sandbox Code Playgroud) 我有一个带有意大利街道名称和地址的文件,我必须将地址栏分成街道名称和街道号码.捕获的是地址有两个或三个字符串,然后数字或数字有时也有字符,例如15/a其中一些有12-Maggio 23的地址,我的拆分应该是第一列12-maggio和第二列23.
以下是文件的格式
Street.adress
Falcone N. 1
Fortunato Giustino 2
Pisacane 3
Fabrizio De Andre' 8
S. Satta 7
Agnesi 16
Volturno Cigni 80
Montepenice 6
Cucchiari 15
Molinetto Di Lorenteggio 15/T 7
Don Minzoni 15
Senigallia 4
Milano 38/A
L. Da Vinci 13/A
27-Novembre 9
Run Code Online (Sandbox Code Playgroud)
输出应该在2个单独的列中
Falcone N. 1
Fortunato Giustino 2
Pisacane 3
Fabrizio De Andre' 8
S. Satta 7
Agnesi 16
Volturno Cigni 80
Montepenice 6 6
Cucchiari 15
Molinetto Di Lorenteggio 15/T 7
Don Minzoni 15 …Run Code Online (Sandbox Code Playgroud) 我在正常的t检验中出错:
data <- read.table("/Users/vdas/Documents/RNA-Seq_Smaples_Udine_08032013/GBM_29052013/UD_RP_25072013/filteredFPKM_matrix.txt",sep="",header=TRUE,stringsAsFactors=FALSE)
PGT <- cbind(data[,2],data[,7],data[,24])
PDGT <- cbind(data[,6],data[,8])
pval2 <- NULL
for(i in 1:length(PGT[,1])){
pval2 <- c(pval2,t.test(as.numeric(PDGT[i,]),as.numeric(PGT[i,]))$p.value)
print(i)
}
Run Code Online (Sandbox Code Playgroud)
错误:
Error in t.test.default(as.numeric(PDGT[i, ]), as.numeric(PGT[i, ])) :
not enough 'x' observations
Run Code Online (Sandbox Code Playgroud)
我无法理解向量出了什么问题。你能告诉我吗?我还没弄清楚。