朴素贝叶斯文本分类算法

Jav*_*erd 5 java mysql algorithm text dataset

惠呢!我只需要帮助在Java中实现朴素贝叶斯文本分类算法来测试我的数据集用于研究目的.在Java中实现算法是必须的; 而是使用Weka或Rapid Miner工具来获得结果!


我的数据集具有以下类型的数据:

    Doc  Words   Category
Run Code Online (Sandbox Code Playgroud)

意味着我预先知道每个训练(String)的训练单词和类别.下面给出了一些数据集:

             Doc      Words                                                              Category        
    Training
               1      Integration Communities Process Oriented Structures...(more string)       A
               2      Integration Communities Process Oriented Structures...(more string)       A
               3      Theory Upper Bound Routing Estimate global routing...(more string)        B
               4      Hardware Design Functional Programming Perfect Match...(more string)      C
               .
               .
               .
    Test
               5      Methodology Toolkit Integrate Technological  Organisational
               6      This test contain string naive bayes test text text test
Run Code Online (Sandbox Code Playgroud)

因此数据集来自MySQL数据库,它可能包含多个训练字符串和测试字符串!问题是我只需要在Java中实现朴素贝叶斯文本分类算法.

该算法应遵循提到下面的例子在这里 表13.1

来源:请在这里阅读


问题是我可以自己在Java代码中实现该算法,但我只需要知道是否有可能存在某种带有源代码文档的Java库,以便我只测试结果.

问题是我只需要一次结果只意味着它只是对结果的测试.

所以,有人可以告诉我有关任何优秀的java库,它可以帮助我在Java中编写这个算法,并且可以使我的数据集可以处理结果,或者有人可以给我任何好的想法如何轻松地做到这一点.一些可以帮助我的好东西.

我将感谢你的帮助.提前致谢

raj*_*ah9 1

请看一下Bow 工具包

它有 Gnu 许可证和源代码。它的一些代码包括

根据朴素贝叶斯、TFIDF 等几种方法设置词向量权重。

执行测试/训练分割和自动分类测试。

它不是 Java 库,但您可以编译 C 代码以确保 Java 对于给定语料库具有相似的结果。

我还发现了Dobbs 博士的一篇不错的文章,它是用 Perl 实现的。再说一次,这不是所需的 Java,但会为您提供您所要求的一次性结果。