小编Yon*_*won的帖子

条目与列之间的Pyspark欧式距离

我正在与pyspark合作,想知道在数组的一行条目和整个列之间是否有任何聪明的方法来获取欧氏距离。例如,有一个像这样的数据集。

+--------------------+---+
|            features| id|
+--------------------+---+
|[0,1,2,3,4,5     ...|  0|
|[0,1,2,3,4,5     ...|  1|
|[1,2,3,6,7,8     ...|  2|
Run Code Online (Sandbox Code Playgroud)

选择一列,即id == 1,然后计算欧几里德距离。在这种情况下,结果应为[0,0,sqrt(1 + 1 + 1 + 9 + 9 + 9)]。有人能找出如何有效地做到这一点吗?谢谢!

euclidean-distance pyspark

5
推荐指数
1
解决办法
3707
查看次数

我应该如何在 Spark 集群模式下设置驱动程序核心?

我看了很多关于executor memory/cores/instances的文章,但是我还是不明白应该为driver core设置什么。增加它有什么好处?它的合适值是多少?(我的纱线总共 12 个 vcores + 36GB 内存)

apache-spark

5
推荐指数
0
解决办法
1210
查看次数

标签 统计

apache-spark ×1

euclidean-distance ×1

pyspark ×1