gal*_*ine 5 tf-idf apache-spark apache-spark-mllib
基于 1.4 ( https://spark.apache.org/docs/1.4.0/mllib-feature-extraction.html )的 Spark 文档,我正在编写一个 TF-IDF 示例,用于将文本文档转换为值向量。给出的示例显示了如何做到这一点,但输入是没有 key的令牌 RDD 。这意味着我的输出 RDD 不再包含索引或键来引用原始文档。这个例子是这样的:
documents = sc.textFile("...").map(lambda line: line.split(" "))
hashingTF = HashingTF()
tf = hashingTF.transform(documents)
Run Code Online (Sandbox Code Playgroud)
我想做这样的事情:
documents = sc.textFile("...").map(lambda line: (UNIQUE_LINE_KEY, line.split(" ")))
hashingTF = HashingTF()
tf = hashingTF.transform(documents)
Run Code Online (Sandbox Code Playgroud)
并让结果tf变量在UNIQUE_LINE_KEY某处包含该值。我只是错过了一些明显的东西吗?从示例来看,似乎没有什么好的方法可以将documentRDD 与tfRDD 联系起来。
如果您在提交后使用 Spark 版本85b96372cf0fd055f89fc639f45c1f2cb02a378f(包括 1.4),并使用 ml API HashingTF(需要 DataFrame 输入而不是普通 RDD),则其输出中的原始列。希望有帮助!
| 归档时间: |
|
| 查看次数: |
1270 次 |
| 最近记录: |