小编vch*_*ngs的帖子

如何使用R删除具有0值的行

您正在使用基因表达矩阵,片段计数来计算差异表达的基因.我想知道如何删除值为0的行.然后我的数据集将是紧凑的,并且我将使用此矩阵为下游分析提供更少的虚假结果.

输入

gene    ZPT.1   ZPT.0   ZPT.2   ZPT.3   PDGT.1  PDGT.0
XLOC_000001 3516    626 1277    770 4309    9030
XLOC_000002 342 82  185 72  835 1095
XLOC_000003 2000    361 867 438 454 687
XLOC_000004 143 30  67  37  90  236
XLOC_000005 0   0   0   0   0   0
XLOC_000006 0   0   0   0   0   0
XLOC_000007 0   0   0   0   1   3
XLOC_000008 0   0   0   0   0   0
XLOC_000009 0   0   0   0   0   0
XLOC_000010 7   1   5   3   0   1
XLOC_000011 …
Run Code Online (Sandbox Code Playgroud)

r bioinformatics

9
推荐指数
1
解决办法
3万
查看次数

pheatmap scale ="row"在hclust中给出错误(d,method = method):外部函数调用中的NA/NaN/Inf

我正在尝试用R中的包pheatmap创建一个带有基因表达值的热图.我已经多次使用该代码,直到今天仍然没有问题.看来当我做scale ="row"时,我最终得到了这个错误.我无法创建z分数.因此,可能某些行没有可变性,因此发生这种情况.我怎么能摆脱这个.矩阵具有1100行和9列.我的代码:

data  <- read.table("~path/DEGs_DESeq.txt",sep="\t")
data2 <- as.matrix(data[,2:9])
data3 <- data2[-1,]
samples <- data2[1,]
genes <- data[2:length(data2[,1]),1]
vett <- as.numeric(data3)
data4 <- matrix(vett, length(genes), length(samples), dimnames=list(paste(genes),paste(samples))) 
head(data4)

pheatmap(as.matrix(data4), col=bluered(200), scale="row", key=T, keysize=1.5,
    density.info="none", trace="none",cexCol=0.6, fontsize_row=8, fontsize_col=10)
Run Code Online (Sandbox Code Playgroud)

hclust中的错误(d,方法=方法):外部函数调用中的NA/NaN/Inf(arg 11)

我怎样才能摆脱这个错误?

scaling r heatmap na pheatmap

5
推荐指数
1
解决办法
9018
查看次数

使用awk或sed根据第1,第8和第9列值选择矩阵第一行

我有一些行,第1列,第8列和第9列大致相同.行总数超过60K.现在我想简化只保留第1列,第8列和第9列相同的第一行.

输入文件:

chr exon_start  exon_end    cnv tumor_DOC   control_DOC rationormalized_after_smoothing CNV_start   CNV_end seg_mean
chr1    762097  762270  3   821 717 1.456610215 762097  6706109 1.297328502
chr1    861281  861490  3   101 117 1.29744744  762097  6706109 1.297328502
chr1    7868860 7869039 2   78  119 1.123385189 7796356 8921423 1.088752407
chr1    7869841 7870041 2   140 169 1.123385189 7796356 8921423 1.088752407
chr1    7870411 7870596 2   83  163 1.123385189 7796356 8921423 1.088752407
chr1    7879297 7879467 2   290 360 1.024742732 7796356 8921423 1.088752407
chr1    21012415    21012609    3   89  135 1.230421209 19536504 …
Run Code Online (Sandbox Code Playgroud)

awk grep r sed

4
推荐指数
2
解决办法
80
查看次数

如何在unix或R或grep或awk中拆分以下格式的街道地址?

我有一个带有意大利街道名称和地址的文件,我必须将地址栏分成街道名称和街道号码.捕获的是地址有两个或三个字符串,然后数字或数字有时也有字符,例如15/a其中一些有12-Maggio 23的地址,我的拆分应该是第一列12-maggio和第二列23.

以下是文件的格式

Street.adress
Falcone N. 1
Fortunato Giustino 2
Pisacane 3
Fabrizio De Andre' 8
S. Satta 7
Agnesi 16
Volturno Cigni 80
Montepenice 6
Cucchiari 15
Molinetto Di Lorenteggio 15/T 7
Don Minzoni 15
Senigallia 4
Milano 38/A
L. Da Vinci 13/A
27-Novembre 9
Run Code Online (Sandbox Code Playgroud)

输出应该在2个单独的列中

Falcone N.  1
 Fortunato Giustino 2
 Pisacane   3
 Fabrizio De Andre' 8
 S. Satta   7
 Agnesi 16
 Volturno Cigni 80
 Montepenice 6  6
 Cucchiari  15
 Molinetto Di Lorenteggio    15/T 7
 Don Minzoni    15 …
Run Code Online (Sandbox Code Playgroud)

regex awk split substring r

2
推荐指数
1
解决办法
593
查看次数

t检验错误

我在正常的t检验中出错:

  data <- read.table("/Users/vdas/Documents/RNA-Seq_Smaples_Udine_08032013/GBM_29052013/UD_RP_25072013/filteredFPKM_matrix.txt",sep="",header=TRUE,stringsAsFactors=FALSE)

  PGT <- cbind(data[,2],data[,7],data[,24])
  PDGT <- cbind(data[,6],data[,8])
  pval2 <- NULL
  for(i in 1:length(PGT[,1])){
     pval2 <- c(pval2,t.test(as.numeric(PDGT[i,]),as.numeric(PGT[i,]))$p.value)
     print(i)
  }
Run Code Online (Sandbox Code Playgroud)

错误:

Error in t.test.default(as.numeric(PDGT[i, ]), as.numeric(PGT[i, ])) : 
  not enough 'x' observations
Run Code Online (Sandbox Code Playgroud)

我无法理解向量出了什么问题。你能告诉我吗?我还没弄清楚。

r bioinformatics hypothesis-test

0
推荐指数
1
解决办法
2万
查看次数

标签 统计

r ×5

awk ×2

bioinformatics ×2

grep ×1

heatmap ×1

hypothesis-test ×1

na ×1

pheatmap ×1

regex ×1

scaling ×1

sed ×1

split ×1

substring ×1