如何在 Spark 的 Bucketed Random Projection 中选择桶的长度？

Gio*_*gio 8 hash scala apache-spark

我应该如何在 Spark 的 LSH 算法Bucketed Random Projection 中最佳选择桶长度？

这是使用 .setBucketLength() 设置的参数，例如来自 Spark 文档：

  val brp = new BucketedRandomProjectionLSH()
  .setBucketLength(2.0)
  .setNumHashTables(3)
  .setInputCol("keys")
  .setOutputCol("values")

Run Code Online (Sandbox Code Playgroud)

任何支持铲斗长度选择的理论参考将不胜感激。

我在网上能找到的唯一建议是这个，它没有解释所选择的启发式方法的选择。

指定bucketLength的值，如果输入向量被归一化，pow(numRecords, -1/inputDim)的1-10倍将是一个合理的值。

因此，我不确定为什么这种启发式方法应该普遍有效。

归档时间：	7 年，10 月前
查看次数：	1413 次
最近记录：	7 年，10 月前

在字符串插值中逃脱美元符号 114

为什么要避免使用子类型？ 34

将Scala List转换为另一种类型的List 28

为什么不通过Nil到foldLeft工作？ 14

按行迭代Java RDD 9

在YARN中部署时,Apache Spark如何处理系统故障？ 8

如何从代码中运行gatling 8

不可改变的阶级和特征？ 7

Spark - 如何将rdd的前N个作为新的rdd(不收集驱动程序) 6

如何迭代哈希数组中的哈希数组 2

在Python中手动引发(抛出)异常 2079

显示两个修订版之间已更改的文件 2041

如何在Windows上找出正在侦听端口的进程？ 2040

ListView中的图像延迟加载 1881

Git拒绝合并关于rebase的无关历史 1862

在JavaScript中生成两个数字之间的随机数 1635

如何在SQL SELECT中执行IF ... THEN？ 1438

安全地将JSON字符串转换为对象 1298

servlet如何工作？实例化,会话,共享变量和多线程 1105

如何在JavaScript中将浮点数转换为整数？ 1043