Rah*_*sta 4 text-mining apache-spark
我正在尝试使用 Apache Spark 进行文档分类。
例如我有两种类型的类(C 和 J)
火车数据是:
C, Chinese Beijing Chinese
C, Chinese Chinese Shanghai
C, Chinese Macao
J, Tokyo Japan Chinese
Run Code Online (Sandbox Code Playgroud)
测试数据是: Chinese Chinese Chinese Tokyo Japan // 什么是 J 或 C ?
我如何训练和预测上述数据。我使用 Apache Mahout 进行了朴素贝叶斯文本分类,但没有使用 Apache Spark。
我怎样才能用 Apache Spark 做到这一点?
小智 5
是的,在 Spark 中似乎还没有任何简单的工具可以做到这一点。但是您可以通过首先创建一个术语词典来手动完成。然后计算每个术语的 IDF,然后使用 TF-IDF 分数将每个文档转换为向量。
http://chimpler.wordpress.com/2014/06/11/classifiying-documents-using-naive-bayes-on-apache-spark-mllib/上有一篇文章解释了如何做到这一点(一些代码为好)。
| 归档时间: |
|
| 查看次数: |
11506 次 |
| 最近记录: |