我在数据库中有一个表,其中有许多功能,每个功能都有自己的实际值和预测值,我们还有两列,即 Id_partner 和 Id_accounts。我的主要目标是获取每个帐户的每个功能的 RMSE 分数在每个合作伙伴中,我都使用 for 循环完成了这一任务,但是在 PySpark 中需要花费大量时间才能完成,是否有一种有效的方法可以在仅读取数据的同时借助查询直接完成此操作,这样我就可以获得 RMSE 分数每个合作伙伴的每个帐户。我的桌子是这样的
Actual_Feature_1 = Act_F_1
Predicted_Feature_1 = Pred_F_1
Actual_Feature_1 = Act_F_2
Predicted_Feature_1 = Pred_F_2
Run Code Online (Sandbox Code Playgroud)
表格1:
ID_PARTNER | ID_ACCOUNT | Act_F_1 | Pred_F_1 | Act_F_2 | Pred_F_2 |
4 | 24 | 10 | 12 | 22 | 20 |
4 | 24 | 11 | 13 | 23 | 21 |
4 | 24 | 11 | 12 | 24 | 23 |
4 | 25 | 13 | 15 …
Run Code Online (Sandbox Code Playgroud) sql ×1