基于 Apache Spark 朴素贝叶斯的文本分类

Rah*_*sta 4 text-mining apache-spark

我正在尝试使用 Apache Spark 进行文档分类。

例如我有两种类型的类(C 和 J)

火车数据是:

C, Chinese Beijing Chinese
C, Chinese Chinese Shanghai
C, Chinese Macao
J, Tokyo Japan Chinese
Run Code Online (Sandbox Code Playgroud)

测试数据是: Chinese Chinese Chinese Tokyo Japan // 什么是 J 或 C ?

我如何训练和预测上述数据。我使用 Apache Mahout 进行了朴素贝叶斯文本分类,但没有使用 Apache Spark。

我怎样才能用 Apache Spark 做到这一点?

小智 5

是的,在 Spark 中似乎还没有任何简单的工具可以做到这一点。但是您可以通过首先创建一个术语词典来手动完成。然后计算每个术语的 IDF,然后使用 TF-IDF 分数将每个文档转换为向量。

http://chimpler.wordpress.com/2014/06/11/classifiying-documents-using-naive-bayes-on-apache-spark-mllib/上有一篇文章解释了如何做到这一点(一些代码为好)。