Aja*_*eja 6 classification machine-learning bayesian
我正在研究文本分类问题,我正在尝试将一组单词分类为类别,是的,有很多库可用于分类,所以如果您建议使用它们,请不要回答.
让我解释一下我想要实施的内容.(以身份为例)
单词列表:
类别清单.
在这里我们将训练该组,如:
现在我们有一个短语" 最好的java编程书 "来自给定的短语,下面的单词与我们的"单词列表"匹配.:
"编程"有两个映射类别"java"和"c-sharp",因此它是一个常用词.
"java"仅映射到"java"类别.
所以这个短语的匹配类别是"java"
这就是我想到的,这个解决方案很好,可以实现,你的建议是什么,我错过的任何东西,缺陷等等.
当然这是可以实现的。如果您在正确的数据集(我猜是 Java 和 C# 编程书籍的标题)上训练朴素贝叶斯分类器或线性 SVM,它应该学会将术语“Java”与 Java、“C#”和“.NET”与 C# 相关联。 ,以及两者的“编程”。也就是说,如果数据集被均匀划分,朴素贝叶斯分类器可能会学习 Java 或 C# 等常用术语(如“编程”)的大致均匀概率。
|   归档时间:  |  
           
  |  
        
|   查看次数:  |  
           5300 次  |  
        
|   最近记录:  |