在 R 中的热图中在连接的单元周围绘制等高线

Chr*_*mer 5 r significance contour heatmap ggplot2

我有两个时间轴的数据和每个单元格的测量值。由此我创建了一个热图。我还知道每个单元格的测量值是否重要。

我的问题是在所有重要的单元格周围画一条等高线。如果单元格形成具有相同显着性值的集群,我需要围绕集群而不是围绕每个单独的单元格绘制轮廓。

数据格式如下:

   x_time y_time    metric signif
1       1      1 0.3422285  FALSE
2       2      1 0.6114085  FALSE
3       3      1 0.5381621  FALSE
4       4      1 0.5175120  FALSE
5       1      2 0.6997991  FALSE
6       2      2 0.3054885  FALSE
7       3      2 0.8353888   TRUE
8       4      2 0.3991566   TRUE
9       1      3 0.7522728   TRUE
10      2      3 0.5311418   TRUE
11      3      3 0.4972816   TRUE
12      4      3 0.4330033   TRUE
13      1      4 0.5157972   TRUE
14      2      4 0.6324151   TRUE
15      3      4 0.4734126   TRUE
16      4      4 0.4315119   TRUE
Run Code Online (Sandbox Code Playgroud)

下面的代码生成此数据,其中测量值是随机的 (dt$metrics),重要性是逻辑的 (dt$signif)。

# data example
dt <- data.frame(x_time=rep(seq(1, 4), 4), 
                 y_time=rep(seq(1, 4), each=4),
                 metric=(rnorm(16, 0.5, 0.2)),
                 signif=c(rep(FALSE, 6), rep(TRUE, 10)))
Run Code Online (Sandbox Code Playgroud)

可以使用 ggplot2 生成单独的热图 geom_tile

# Generate heatmap using ggplot2's geom_tile
library(ggplot2)
p <- ggplot(data = dt, aes(x = x_time, y = y_time))
p <- p + geom_tile(aes(fill = metric))
Run Code Online (Sandbox Code Playgroud)

基于这个问题,我设法根据重要性值在每个单元格周围绘制了不同颜色的轮廓。

# Heatmap with lines around each significant cell
p <- ggplot(data = dt, aes(x = x_time, y = y_time))
p <- p + geom_tile(aes(fill = metric, color = signif), size = 2)
p <- p + scale_color_manual(values = c("black", "white"))
Run Code Online (Sandbox Code Playgroud)

此图显示了这种方法的结果。

但是,这种方法不会通过围绕整个组绘制轮廓来将相邻的重要单元组合在一起(正如我在链接到的问题中所讨论的那样)。

正如这个问题所示,可以在指定区域周围绘制框,但我认为这不能扩展到所有可能的细胞簇。

Hen*_*rik 4

这个答案基于如何在 R 栅格中获取网格周围的轮廓线?

library(data.table)
library(raster)
Run Code Online (Sandbox Code Playgroud)

另请注意,需要安装clump该软件包,并且需要.igraphdissolve = TRUErasterToPolygonsrgeos

# convert data.frame to data.table
# not strictly necessary, but enables use of convenient functions: dcast and rbindlist.
setDT(d)

# reshape to wide 
d2 <- dcast(d, y ~ x, value.var = "sig")

# reverse order of rows to match raster order
# remove first column
# convert to matrix and then to raster
r <- raster(as.matrix(d2[ , .SD[.N:1, -1]]),
            xmn = 0, xmx = ncol(d2) - 1, ymn = 0, ymx = ncol(d2) - 1)

# detect clumps of connected cells of the value TRUE
# convert raster to polygons
# dissolve polygons into multi-polygons
polys <- rasterToPolygons(clump(r), dissolve = TRUE)

# grab coordinates of individual polygons and convert to a data.table
# use idcol = TRUE to enable grouping of paths when plotting
d_poly <- rbindlist(lapply(polys@polygons,
                           function(x) as.data.table(x@Polygons[[1]]@coords)),
                    idcol = TRUE)

# plot an outline around each 'patch of significant values' using geom_path 
ggplot(d, aes(x = x, y = y)) +
  geom_tile(aes(fill = z)) +
  geom_path(data = d_poly, aes(x = x + 0.5, y = y + 0.5, group = .id),
            size = 2, color = "red")
Run Code Online (Sandbox Code Playgroud)

在此输入图像描述


数据:

d <- structure(list(x = c(1L, 1L, 1L, 1L, 2L, 2L, 2L, 2L,
                          3L, 3L, 3L, 3L, 4L, 4L, 4L, 4L),
                    y = c(1L, 2L, 3L, 4L, 1L, 2L, 3L, 4L,
                          1L, 2L, 3L, 4L, 1L, 2L, 3L, 4L),
                    sig = c(FALSE, FALSE, FALSE, TRUE, FALSE, FALSE, TRUE, TRUE,
                            TRUE, FALSE, FALSE, FALSE, TRUE, FALSE, FALSE, TRUE),
                    z = c(0.96, 0.76, 0.14, 0.93, 0.39, 0.06, 0.99, 0.77,
                          0.7, 0.72, 0.08, 0.94, 0.98,  0.83, 0.12, 0.42)),
               row.names = c(NA, -16L), class = "data.frame")
Run Code Online (Sandbox Code Playgroud)