首先,这可能是这个问题的错误论坛,因为R + Bioconductor具体相当.这就是我所拥有的:
library('GEOquery')
GDS = getGEO('GDS785')
cd4T = GDS2eSet(GDS)
cd4T <- cd4T[!fData(cd4T)$symbol == "",]
Run Code Online (Sandbox Code Playgroud)
现在cd4T是一个ExpressionSet对象,它包含一个包含19794行(probesets)和15列(样本)的大矩阵.最后一行消除了所有没有相应基因符号的探针组.现在麻烦的是,该组中的大多数基因被分配到多个探针组.你可以这样看
gene_symbols = factor(fData(cd4T)$Gene.symbol)
length(gene_symbols)-length(levels(gene_symbols))
[1] 6897
Run Code Online (Sandbox Code Playgroud)
因此,我的19794探针组中只有6897个具有独特的探针组 - >基因映射.我想以某种方式结合与每个基因相关的每个探针组的表达水平.我不太关心每个探针的实际探测ID.我非常希望最终得到一个包含合并信息的ExpressionSet,因为我的所有下游分析都是为了使用这个类而设计的.
我想我可以编写一些手工编写的代码,并从头开始创建一个新的表达式.但是,我假设这不是一个新问题,并且存在使用统计学上合理的方法来组合基因表达水平的代码.我猜这里也有一个合适的名字,但我的谷歌没有显示出太大的用处.有人可以帮忙吗?
我不是专家,但从我多年来所见,每个人都有自己最喜欢的组合探针组的方式。我见过的大规模使用最多的两种方法是仅使用在表达矩阵中具有最大方差的探针集,另一种是取探针集的平均值并从中创建元探针集。对于较小的探针集块,我看到人们使用更密集的方法,包括查看每个探针集的图来了解正在发生的事情......通常会发生的情况是,一个探针集被证明是“好的”探针集,而另一个探针集被证明是“好的”探针集休息不是很好。
我还没有看到通用的代码来做到这一点 - 作为一个例子,我们最近在我的实验室中意识到,我们中的一些人拥有自己的私有函数来完成同样的事情。
| 归档时间: |
|
| 查看次数: |
1527 次 |
| 最近记录: |