基于 Apache Spark 朴素贝叶斯的文本分类

Question

我正在尝试使用 Apache Spark 进行文档分类。

例如我有两种类型的类（C 和 J）

火车数据是：

C, Chinese Beijing Chinese
C, Chinese Chinese Shanghai
C, Chinese Macao
J, Tokyo Japan Chinese

测试数据是： Chinese Chinese Chinese Tokyo Japan // 什么是 J 或 C ？

我如何训练和预测上述数据。我使用 Apache Mahout 进行了朴素贝叶斯文本分类，但没有使用 Apache Spark。

我怎样才能用 Apache Spark 做到这一点？

Answer 1

是的，在 Spark 中似乎还没有任何简单的工具可以做到这一点。但是您可以通过首先创建一个术语词典来手动完成。然后计算每个术语的 IDF，然后使用 TF-IDF 分数将每个文档转换为向量。