我正在与pyspark合作,想知道在数组的一行条目和整个列之间是否有任何聪明的方法来获取欧氏距离。例如,有一个像这样的数据集。
+--------------------+---+
| features| id|
+--------------------+---+
|[0,1,2,3,4,5 ...| 0|
|[0,1,2,3,4,5 ...| 1|
|[1,2,3,6,7,8 ...| 2|
Run Code Online (Sandbox Code Playgroud)
选择一列,即id == 1,然后计算欧几里德距离。在这种情况下,结果应为[0,0,sqrt(1 + 1 + 1 + 9 + 9 + 9)]。有人能找出如何有效地做到这一点吗?谢谢!
我看了很多关于executor memory/cores/instances的文章,但是我还是不明白应该为driver core设置什么。增加它有什么好处?它的合适值是多少?(我的纱线总共 12 个 vcores + 36GB 内存)