小编ili*_*uve的帖子

"query": {
    "constant_score": {
        "filter": {
            "term": {
                "source": "BBC"
            }
        },
        "boost": 3
    }
},
"fields": ["title", "source"]

Run Code Online (Sandbox Code Playgroud)

所有匹配的文件得分为1？!我无法弄清楚我做错了什么,并且还尝试使用查询而不是在constant_score中过滤.

information-retrieval elasticsearch

ili*_*uve

2015 12-15

7
推荐指数

1
解决办法

5792
查看次数

用于新文档的 Spark IDF

将 tf.idf 转换应用于 spark 中的新文档的最佳方法是什么？我有一个设置，可以在其中离线训练模型，然后加载它并将其应用于新文件。基本上，如果无法访问模型 IDF 分布，则计算 IDF 没有多大意义。

到目前为止，我想到的唯一解决方案是保存训练集的 TF RDD 并将新文档附加到其中，然后计算 IDF RDD 并从 IDF RDD 中提取新文件。这样做的问题是我必须将整个 TF 向量保存在内存中（我想它也可能与 IDF RDD 相关）。

这看起来像是某人已经遇到的问题，因此请寻求建议并了解最佳方法。

干杯，

伊利亚

machine-learning apache-spark apache-spark-mllib

ili*_*uve

2016 04-25

5
推荐指数

1
解决办法

573
查看次数

熊猫UDF和pyarrow 0.15.0

我最近开始pyspark在EMR群集上运行的许多作业中遇到一堆错误。错误是

java.lang.IllegalArgumentException
    at java.nio.ByteBuffer.allocate(ByteBuffer.java:334)
    at org.apache.arrow.vector.ipc.message.MessageSerializer.readMessage(MessageSerializer.java:543)
    at org.apache.arrow.vector.ipc.message.MessageChannelReader.readNext(MessageChannelReader.java:58)
    at org.apache.arrow.vector.ipc.ArrowStreamReader.readSchema(ArrowStreamReader.java:132)
    at org.apache.arrow.vector.ipc.ArrowReader.initialize(ArrowReader.java:181)
    at org.apache.arrow.vector.ipc.ArrowReader.ensureInitialized(ArrowReader.java:172)
    at org.apache.arrow.vector.ipc.ArrowReader.getVectorSchemaRoot(ArrowReader.java:65)
    at org.apache.spark.sql.execution.python.ArrowPythonRunner$$anon$1.read(ArrowPythonRunner.scala:162)
    at org.apache.spark.sql.execution.python.ArrowPythonRunner$$anon$1.read(ArrowPythonRunner.scala:122)
    at org.apache.spark.api.python.BasePythonRunner$ReaderIterator.hasNext(PythonRunner.scala:406)
    at org.apache.spark.InterruptibleIterator.hasNext(InterruptibleIterator.scala:37)
    at org.apache.spark.sql.execution.python.ArrowEvalPythonExec$$anon$2.<init>(ArrowEvalPythonExec.scala:98)
    at org.apache.spark.sql.execution.python.ArrowEvalPythonExec.evaluate(ArrowEvalPythonExec.scala:96)
    at org.apache.spark.sql.execution.python.EvalPythonExec$$anonfun$doExecute$1.apply(EvalPythonExec.scala:127)...

Run Code Online (Sandbox Code Playgroud)

它们似乎都发生在apply熊猫系列的功能中。我发现的唯一更改是pyarrow在星期六（05/10/2019）更新的。测试似乎适用于0.14.1

所以我的问题是，是否有人知道这是新更新的pyarrow中的错误，还是有一些重大更改会导致pandasUDF将来难以使用？

pandas apache-spark pyspark pyarrow

ili*_*uve

lucky-day

5
推荐指数

1
解决办法

402
查看次数