我正在使用带有 Pandas 的 jupyter notebook,但是当我使用 Spark 时,我想使用 Spark DataFrame 来转换或计算而不是 Pandas。请帮我将一些计算转换为 Spark DataFrame 或 RDD。
数据框:
df =
+--------+-------+---------+--------+
| userId | item | price | value |
+--------+-------+---------+--------+
| 169 | I0111 | 5300 | 1 |
| 169 | I0973 | 70 | 1 |
| 336 | C0174 | 455 | 1 |
| 336 | I0025 | 126 | 1 |
| 336 | I0973 | 4 | 1 |
| 770963 | B0166 | 2 …Run Code Online (Sandbox Code Playgroud) 我在 Spark(推荐系统算法)中使用 ALS 算法(implicitPrefs = True)。通常,运行此算法后,预测值必须从 0 到 1。但我收到的值大于 1
"usn" : 72164,
"recommendations" : [
{
"item_code" : "C1346",
"rating" : 0.756096363067627
},
{
"item_code" : "C0117",
"rating" : 0.966064214706421
},
{
"item_code" : "I0009",
"rating" : 1.00000607967377
},
{
"item_code" : "C0102",
"rating" : 0.974934458732605
},
{
"item_code" : "I0853",
"rating" : 1.03272235393524
},
{
"item_code" : "C0103",
"rating" : 0.928574025630951
}
]
Run Code Online (Sandbox Code Playgroud)
我不明白为什么或它的评级值大于 1(“评级”:1.00000607967377和“评级”:1.03272235393524)
一些类似但我仍然不明白的问题:MLLib spark -ALStrainImplicit value …