小编Vis*_*667的帖子

如何比较RDD中的每个元素与RDD中的每个其他元素?

我正在尝试使用spark执行K最近邻搜索.

我有一个RDD [Seq [Double]],我正在计划用实际的行和邻居列表返回RDD [(Seq [Double],Seq [Seq [Double]])]

val out = data.map(row => {
    val neighbours = data.top(num = 3)(new Ordering[Seq[Double]] {
      override def compare(a:Seq[Double],b:Seq[Double]) = {
        euclideanDistance(a,row).compare(euclideanDistance(b,row))*(-1)
      }
    })
  (row,neighbours.toSeq)
})
Run Code Online (Sandbox Code Playgroud)

并且它在spark提交时给出以下错误

15/04/29 21:15:39 WARN TaskSetManager: Lost task 0.0 in stage 1.0 (TID 2, 192.168.1.7): org.apache.spark.SparkException: RDD transformations and actions can only be invoked by the driver, not inside of other transformations; for example, rdd1.map(x => rdd2.values.count() * x) is invalid because the values transformation and count action cannot …
Run Code Online (Sandbox Code Playgroud)

scala nearest-neighbor apache-spark

4
推荐指数
1
解决办法
4998
查看次数

使用 Undertow 的多部分表单数据示例

我正在尝试从 html 表单上传文本文件。

有没有关于如何从HttpHandler

java undertow

4
推荐指数
1
解决办法
4948
查看次数

标签 统计

apache-spark ×1

java ×1

nearest-neighbor ×1

scala ×1

undertow ×1