我正在尝试实现一种天真的bayseian方法来查找给定文档或单词流的主题.是否有朴素贝叶斯方法,我可以找到这个?
此外,我正在尝试改进我的字典,因为我继续.最初,我有一堆映射到主题的单词(硬编码).取决于已映射的单词以外的单词的出现次数.根据这些单词的出现,我想将它们添加到映射中,从而改进和学习映射到主题的新单词.并且还改变了单词的概率.
我该怎么做呢?我的方法是正确的吗?
哪种编程语言最适合实现?
我有一本书的清单,每本书属于一个类别.
我有足够多的数据样本集.我需要使用一些算法对我的新书进行分类.我知道它永远不会100%准确,但一个好的猜测对我有好处.
我应该用什么来实现这样的事情呢?我应该使用Classifier4J和它的矢量分类器吗?
还有其他工具我应该像Weka一样吗?如果有人可以指点我一些文章/例子让我开始,那将是很棒的.
谢谢
是否有可以检测自然文本主题的库或数据库?
我不是在谈论从提取的关键字生成主题,而是在分析使用的词汇并将其与预定义的主题进行匹配。例如搜索烹饪或某些运动中使用的单词(例如足球俱乐部的名称或技术术语)。
更新并澄清:
示例文本片段:一个关于足球的句子,然后是另一个谈论活动餐饮的句子。
图书馆可以分配类别“体育”、“足球”、“烹饪”。
我正在寻找可以分配这些类别(或可能是“感兴趣的主题”)的东西,而无需我使用数 TB 的手动分类文档来训练数千个模型。例如,这可以通过匹配关键字而不是统计分析来工作(这就是我之前提到数据库的原因)。
我正在搜索这个,因为我自己没有人力建立这么大的数据库。