如何保留 Spark HashingTF() 函数的输入键或索引？

Question

如何保留 Spark HashingTF() 函数的输入键或索引？

gal*_*ine 5 tf-idf apache-spark apache-spark-mllib

基于 1.4 ( https://spark.apache.org/docs/1.4.0/mllib-feature-extraction.html )的 Spark 文档，我正在编写一个 TF-IDF 示例，用于将文本文档转换为值向量。给出的示例显示了如何做到这一点，但输入是没有 key的令牌 RDD 。这意味着我的输出 RDD 不再包含索引或键来引用原始文档。这个例子是这样的：

documents = sc.textFile("...").map(lambda line: line.split(" "))

hashingTF = HashingTF()
tf = hashingTF.transform(documents)

Run Code Online (Sandbox Code Playgroud)

我想做这样的事情：

documents = sc.textFile("...").map(lambda line: (UNIQUE_LINE_KEY, line.split(" ")))

hashingTF = HashingTF()
tf = hashingTF.transform(documents)

Run Code Online (Sandbox Code Playgroud)

并让结果tf变量在UNIQUE_LINE_KEY某处包含该值。我只是错过了一些明显的东西吗？从示例来看，似乎没有什么好的方法可以将documentRDD 与tfRDD 联系起来。

Answer 1

Hol*_*den 2

如果您在提交后使用 Spark 版本85b96372cf0fd055f89fc639f45c1f2cb02a378f（包括 1.4），并使用 ml API HashingTF（需要 DataFrame 输入而不是普通 RDD），则其输出中的原始列。希望有帮助！

归档时间：	10 年，6 月前
查看次数：	1270 次
最近记录：	9 年，6 月前