假设我有一个像这样的 pandas 数据框:
| 医生 | 病人 | 天 |
|---|---|---|
| 亚伦 | 杰夫 | 23 |
| 亚伦 | 乔什 | 46 |
| 亚伦 | 乔什 | 71 |
| 杰西 | 曼尼 | 55 |
| 杰西 | 曼尼 | 85 |
| 杰西 | 曼尼 | 46 |
我想提取医生和患者的组合多次出现的数据帧。我将对采购的数据框进行进一步的工作。
例如,在这个例子中,数据框
| 医生 | 病人 | 天 |
|---|---|---|
| 亚伦 | 乔什 | 46 |
| 亚伦 | 乔什 | 71 |
将被提取和数据帧
| 医生 | 病人 | 天 |
|---|---|---|
| 杰西 | 曼尼 | 55 |
| 杰西 | 曼尼 | 85 |
| 杰西 | 曼尼 | 46 |
将被提取。
根据我的情况,dataframe
| 医生 | 病人 | 天 |
|---|---|---|
| 亚伦 | 杰夫 | 23 |
不会被提取因为 Aaron 和 Jeff 的组合只出现一次。
现在,我有一个包含 400000 行的数据帧,我认为到目前为止我编写的代码在获取我想要的数据帧方面效率很低。这是代码:
doctors = list(df_1.Doctor.unique()) # df_1 being the dataframe with 400K rows
for doctor …Run Code Online (Sandbox Code Playgroud)