Jav*_*erd 5 java mysql algorithm text dataset
惠呢!我只需要帮助在Java中实现朴素贝叶斯文本分类算法来测试我的数据集用于研究目的.在Java中实现算法是必须的; 而是使用Weka或Rapid Miner工具来获得结果!
我的数据集具有以下类型的数据:
Doc Words Category
Run Code Online (Sandbox Code Playgroud)
意味着我预先知道每个训练(String)的训练单词和类别.下面给出了一些数据集:
Doc Words Category
Training
1 Integration Communities Process Oriented Structures...(more string) A
2 Integration Communities Process Oriented Structures...(more string) A
3 Theory Upper Bound Routing Estimate global routing...(more string) B
4 Hardware Design Functional Programming Perfect Match...(more string) C
.
.
.
Test
5 Methodology Toolkit Integrate Technological Organisational
6 This test contain string naive bayes test text text test
Run Code Online (Sandbox Code Playgroud)
因此数据集来自MySQL数据库,它可能包含多个训练字符串和测试字符串!问题是我只需要在Java中实现朴素贝叶斯文本分类算法.
该算法应遵循提到下面的例子在这里 表13.1
来源:请在这里阅读
问题是我可以自己在Java代码中实现该算法,但我只需要知道是否有可能存在某种带有源代码文档的Java库,以便我只测试结果.
问题是我只需要一次结果只意味着它只是对结果的测试.
所以,有人可以告诉我有关任何优秀的java库,它可以帮助我在Java中编写这个算法,并且可以使我的数据集可以处理结果,或者有人可以给我任何好的想法如何轻松地做到这一点.一些可以帮助我的好东西.
我将感谢你的帮助.提前致谢
请看一下Bow 工具包。
它有 Gnu 许可证和源代码。它的一些代码包括
根据朴素贝叶斯、TFIDF 等几种方法设置词向量权重。
执行测试/训练分割和自动分类测试。
它不是 Java 库,但您可以编译 C 代码以确保 Java 对于给定语料库具有相似的结果。
我还发现了Dobbs 博士的一篇不错的文章,它是用 Perl 实现的。再说一次,这不是所需的 Java,但会为您提供您所要求的一次性结果。