相关疑难解决方法(0)

data.table 样本，概率存储在列中

我有一个数据表，其中存储在列中的离散分布的概率。

例如，dt <- data.table(p1 = c(0.5, 0.25, 0.1), p2 = c(0.25, 0.5, 0.1), p3 = c(0.25, 0.25, 0.8))

我想创建一个新的随机变量列，使用同一行中的概率进行采样。在 data.table 语法中，我想象它的工作方式如下：

dt[, sample := sample(1:3, 1, prob = c(p1, p2, p3))]

Run Code Online (Sandbox Code Playgroud)

如果有一个类似于“pmin”和“pmax”的“psample”函数，那么这将起作用。我能够使用 apply 来完成这项工作，缺点是对于我的真实数据集，这需要比我想要的更长的时间。有没有办法使用 data.table 来完成这项工作？下面给出应用解决方案。

dt[, sample := apply(dt, 1, function(x) sample(1:3, 1, prob = x[c('p1', 'p2', 'p3')]))]

Run Code Online (Sandbox Code Playgroud)

random r function data.table rowwise

Gre*_*ent

2022 07-18

5
推荐指数

1
解决办法

528
查看次数

在R中有效地应用sample()

我需要在给定具有行方式结果概率的矩阵的情况下对结果变量进行采样.

set.seed(1010) #reproducibility

#create a matrix of probabilities
#three possible outcomes, 10.000 cases
probabilities <- matrix(runif(10000*3),nrow=10000,ncol=3)
probabilities <- probabilities / Matrix::rowSums(probabilities)

Run Code Online (Sandbox Code Playgroud)

我能想出的最快方法是apply()和sample()的组合.

#row-wise sampling using these probabilities
classification <- apply(probabilities, 1, function(x) sample(1:3, 1, prob = x))

Run Code Online (Sandbox Code Playgroud)

但是,在我正在做的事情中,这是计算瓶颈.您是否知道如何加快此代码速度/如何更有效地进行采样？

谢谢!

r sample probability apply

Mr.*_*Zen

lucky-day

2
推荐指数

1
解决办法

120
查看次数

标签统计

r ×2

apply ×1

data.table ×1

function ×1

probability ×1

random ×1

rowwise ×1

sample ×1

data.table 样本，概率存储在列中

在R中有效地应用sample()

标签 统计

标签统计