如何在数据表框架中按组查找唯一值

Question

如何在数据表框架中按组查找唯一值

我创建了一个数据表框架如下，

DT_EX = dt.Frame({'cid':[1,2,1,2,3,2,4,2,4,5],
                  'cust_life_cycle':['Lead','Active','Lead','Active','Inactive','Lead','Active','Lead','Inactive','Lead']})

Run Code Online (Sandbox Code Playgroud)

在这里，我有三个独特的客户生命周期，这些计数中的每一个都被发现为

DT_EX[:, count(), by(f.cust_life_cycle)]

Run Code Online (Sandbox Code Playgroud)

连同它，我有五个客户 ID，这些计数如下

DT_EX[:, count(), by(f.cid)]

Run Code Online (Sandbox Code Playgroud)

现在我想看看每个客户生命周期中存在多少个唯一客户 ID，

DT_EX[:, {'unique_cids':dt.unique(f.cid)}, by(f.cust_life_cycle)]

Run Code Online (Sandbox Code Playgroud)

它应该显示为潜在客户有 3 个唯一客户 ID，例如 (1,2,5)，活动用户有 2 个唯一客户 ID (2,4)，依此类推。

我无法按预期得到它，你能告诉我如何修复它吗？

仅供参考：我试图在 R data.table 框架上重现相同的内容，它的工作原理。

DT_EX[, uniqueN(cid), by=cust_life_cycle]

Run Code Online (Sandbox Code Playgroud)

Answer 1

Pas*_*sha 5

该dt.unique功能不适用于组（尚未）。因此，实现您需要的一种方法是首先按生命周期 + customerID 分组，然后在第二步中仅按生命周期重新分组：

>>> DT_EX[:, count(), by(f.cust_life_cycle, f.cid)]\
...      [:, {"unique_cids": count()}, by(f.cust_life_cycle)]

   | cust_life_cycle  unique_cids
-- + ---------------  -----------
 0 | Active                     2
 1 | Inactive                   2
 2 | Lead                       3

[3 rows x 2 columns]

Run Code Online (Sandbox Code Playgroud)

归档时间：	5 年，7 月前
查看次数：	163 次
最近记录：	5 年，6 月前