我有一个由二分值组成的数据集.这是一个非常大的数据集,但这是一个例子:
var1 <- c(1, 0, 1, 1, 0)
var2 <- c(1, 1, 1, 1, 1)
var3 <- c(0, 0, 1, 1, 0)
var4 <- c(0, 0, 1, 1, 0)
var5 <- c(1, 1, 0, 0, 0)
dat <- data.frame(var1,var2,var3,var4,var5)
dat <- as.matrix(dat)
Run Code Online (Sandbox Code Playgroud)
我正在尝试将两个命令合并为一个.首先,我想对列进行聚类,以便将相同的列集中在一起.其次,我希望按列总和对列进行排序.我可以做其中一个,但不能两个都做.
因此,输出应如下所示:
var2 var1 var5 var3 var4
1 1 1 0 0
1 0 1 0 0
1 1 0 1 1
1 1 0 1 1
1 0 0 0 0
Run Code Online (Sandbox Code Playgroud)
最高列总和不需要位于左侧.
我尝试使用这个命令:
csums <- dat[,order(colSums(dat,na.rm=TRUE))]
Run Code Online (Sandbox Code Playgroud)
但是这些列不是按相似性聚类的.也许有一种基于相似性的聚类方式,以列总和为条件.
这是一个奇怪的解决方案.您可以通过列的折叠字符串表示进行二次排序,这将作为具有相等列集的仲裁器colSums().这将确保将相同的列聚集在一起,因为它们将按字典顺序排列在一起.
dat[,order(decreasing=T,colSums(dat,na.rm=T),apply(dat,2L,paste,collapse=''))];
## var2 var1 var5 var3 var4
## [1,] 1 1 1 0 0
## [2,] 1 0 1 0 0
## [3,] 1 1 0 1 1
## [4,] 1 1 0 1 1
## [5,] 1 0 0 0 0
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
108 次 |
| 最近记录: |