我有一个像这样的pandas数据框:
+-----------+------------------+---------------+------------+
| AccountID | RegistrationWeek | Weekly_Visits | Visit_Week |
+-----------+------------------+---------------+------------+
| ACC1 | 2015-01-25 | 0 | NaT |
| ACC2 | 2015-01-11 | 0 | NaT |
| ACC3 | 2015-01-18 | 0 | NaT |
| ACC4 | 2014-12-21 | 14 | 2015-02-12 |
| ACC5 | 2014-12-21 | 5 | 2015-02-15 |
| ACC6 | 2014-12-21 | 0 | 2015-02-22 |
+-----------+------------------+---------------+------------+
Run Code Online (Sandbox Code Playgroud)
它本质上是一种各种访问日志,因为它包含创建队列分析所需的所有数据.
每个注册周都是一个队列.要知道我可以使用的人群中有多少人:
visit_log.groupby('RegistrationWeek').AccountID.nunique()
Run Code Online (Sandbox Code Playgroud)
我想要做的是创建一个数据透视表,其中注册周作为键.列应为visit_weeks,值应为每周访问次数超过0次的唯一帐户ID的计数.
连同每个队列中的总帐户,我将能够显示百分比而不是绝对值.
最终产品看起来像这样:
+-------------------+-------------+-------------+-------------+
| Registration Week | Visit_week1 | …Run Code Online (Sandbox Code Playgroud)