Dan*_*nte 0 r categorical-data
我正在尝试模拟下面显示的一些数据,以便在 r 中进行分析,我需要添加一个具有“借方和贷方”类别的列,这样在最终数据集中我将有“76%”借方和“24%”贷方。
cust_id trxn_date trxn_id trxn_amt
1001 25-Jun-14 303703 373
1001 13-Jun-14 283268 143
1001 14-May-14 233493 580
1001 3-Apr-14 164596 155
1001 24-Mar-14 147658 651
1001 22-Mar-14 144280 229
1001 14-Mar-14 130655 100
1001 11-Mar-14 125599 170
1001 9-Mar-14 122245 674
1001 1-Mar-14 108788 223
1001 21-Feb-14 95177 68
1001 16-Feb-14 86754 689
1001 26-Jan-14 51920 141
cust_id trxn_date trxn_id trxn_amt Trxn_type
1001 25-Jun-14 303703 373 Debit
1001 13-Jun-14 283268 143 Debit
1001 14-May-14 233493 580 Debit
1001 3-Apr-14 164596 155 Debit
1001 24-Mar-14 147658 651 Debit
1001 22-Mar-14 144280 229 Debit
1001 14-Mar-14 130655 100 Debit
1001 11-Mar-14 125599 170 Debit
1001 9-Mar-14 122245 674 Debit
1001 1-Mar-14 108788 223 Debit
1001 21-Feb-14 95177 68 Credit
1001 16-Feb-14 86754 689 Credit
1001 26-Jan-14 51920 141 Credit
Run Code Online (Sandbox Code Playgroud)
提前致谢
我们可以使用给定的概率sample()将每个观察值随机分配给 或Debit。Credit
df$Trxn_type <- sample(c("Debit", "Credit"),
size = nrow(df),
prob = c(0.76, 0.24), replace = TRUE)
> df
# cust_id trxn_date trxn_id trxn_amt Trxn_type
#1 1001 25-Jun-14 303703 373 Debit
#2 1001 13-Jun-14 283268 143 Credit
#3 1001 14-May-14 233493 580 Debit
#4 1001 3-Apr-14 164596 155 Debit
#5 1001 24-Mar-14 147658 651 Debit
#6 1001 22-Mar-14 144280 229 Credit
#7 1001 14-Mar-14 130655 100 Credit
#8 1001 11-Mar-14 125599 170 Debit
#9 1001 9-Mar-14 122245 674 Debit
#10 1001 1-Mar-14 108788 223 Debit
#11 1001 21-Feb-14 95177 68 Debit
#12 1001 16-Feb-14 86754 689 Debit
#13 1001 26-Jan-14 51920 141 Debit
Run Code Online (Sandbox Code Playgroud)