小编Pho*_*yen的帖子

Spark DataFrame 运算符（唯一、乘法）

我正在使用带有 Pandas 的 jupyter notebook，但是当我使用 Spark 时，我想使用 Spark DataFrame 来转换或计算而不是 Pandas。请帮我将一些计算转换为 Spark DataFrame 或 RDD。

数据框：

df =
+--------+-------+---------+--------+
| userId | item  |  price  |  value |
+--------+-------+---------+--------+
|  169   | I0111 |  5300   |   1    |
|  169   | I0973 |  70     |   1    |
|  336   | C0174 |  455    |   1    |
|  336   | I0025 |  126    |   1    |
|  336   | I0973 |   4     |   1    |
| 770963 | B0166 |   2 …

Run Code Online (Sandbox Code Playgroud)

python apache-spark pyspark spark-dataframe

Pho*_*yen

lucky-day

4
推荐指数

1
解决办法

5115
查看次数

Spark ALS推荐系统预测值大于1

我在 Spark（推荐系统算法）中使用 ALS 算法（implicitPrefs = True）。通常，运行此算法后，预测值必须从 0 到 1。但我收到的值大于 1

"usn" : 72164, "recommendations" : [ { "item_code" : "C1346", "rating" : 0.756096363067627 }, { "item_code" : "C0117", "rating" : 0.966064214706421 }, { "item_code" : "I0009", "rating" : 1.00000607967377 }, { "item_code" : "C0102", "rating" : 0.974934458732605 }, { "item_code" : "I0853", "rating" : 1.03272235393524 }, { "item_code" : "C0103", "rating" : 0.928574025630951 } ]
Run Code Online (Sandbox Code Playgroud)
我不明白为什么或它的评级值大于 1（“评级”：1.00000607967377和“评级”：1.03272235393524）

一些类似但我仍然不明白的问题：MLLib spark -ALStrainImplicit value …

recommendation-engine apache-spark pyspark

Pho*_*yen

2017 10-24

2
推荐指数

1
解决办法

1624
查看次数

标签统计

apache-spark ×2

pyspark ×2

python ×1

recommendation-engine ×1

spark-dataframe ×1

Spark DataFrame 运算符（唯一、乘法）

Spark ALS推荐系统预测值大于1

标签 统计

小编Pho_yen的帖子

标签统计