相关疑难解决方法(0)

Naive Bayesian使用"Bag of Words"方法进行主题检测

我正在尝试实现一种天真的bayseian方法来查找给定文档或单词流的主题.是否有朴素贝叶斯方法,我可以找到这个?

此外,我正在尝试改进我的字典,因为我继续.最初,我有一堆映射到主题的单词(硬编码).取决于已映射的单词以外的单词的出现次数.根据这些单词的出现,我想将它们添加到映射中,从而改进和学习映射到主题的新单词.并且还改变了单词的概率.

我该怎么做呢?我的方法是正确的吗?

哪种编程语言最适合实现?

nlp machine-learning data-mining naivebayes

12
推荐指数
1
解决办法
5961
查看次数

用Java分类记录

我有一本书的清单,每本书属于一个类别.

  • 飞机 - 航空
  • 画一幅画 - 艺术
  • 1001食谱 - 烹饪

我有足够多的数据样本集.我需要使用一些算法对我的新书进行分类.我知道它永远不会100%准确,但一个好的猜测对我有好处.

我应该用什么来实现这样的事情呢?我应该使用Classifier4J和它的矢量分类器吗?

还有其他工具我应该像Weka一样吗?如果有人可以指点我一些文章/例子让我开始,那将是很棒的.

谢谢

java

5
推荐指数
1
解决办法
694
查看次数

检测自然文本中的(预定义)主题

是否有可以检测自然文本主题的库或数据库?

我不是在谈论从提取的关键字生成主题,而是在分析使用的词汇并将其与预定义的主题进行匹配。例如搜索烹饪或某些运动中使用的单词(例如足球俱乐部的名称或技术术语)。

更新并澄清:

示例文本片段:一个关于足球的句子,然后是另一个谈论活动餐饮的句子。

图书馆可以分配类别“体育”、“足球”、“烹饪”。

我正在寻找可以分配这些类别(或可能是“感兴趣的主题”)的东西,而无需我使用数 TB 的手动分类文档来训练数千个模型。例如,这可以通过匹配关键字而不是统计分析来工作(这就是我之前提到数据库的原因)。

我正在搜索这个,因为我自己没有人力建立这么大的数据库。

nlp information-extraction text-classification

5
推荐指数
1
解决办法
1566
查看次数