文本分类到类别

Aja*_*eja 6 classification machine-learning bayesian

我正在研究文本分类问题,我正在尝试将一组单词分类为类别,是的,有很多库可用于分类,所以如果您建议使用它们,请不要回答.

让我解释一下我想要实施的内容.(以身份为例)

单词列表:

  1. java的
  2. 程序设计
  3. 语言
  4. C-尖锐

类别清单.

  1. java的
  2. C-尖锐

在这里我们将训练该组,如:

  1. java映射到类别1. java
  2. 编程映射到类1.java
  3. 编程映射到类别2.c-sharp
  4. 语言映射到类1.java
  5. 语言映射到类别2.c-sharp
  6. c-sharp映射到类别2.c-sharp

现在我们有一个短语" 最好的java编程书 "来自给定的短语,下面的单词与我们的"单词列表"匹配.:

  1. java的
  2. 程序设计

"编程"有两个映射类别"java"和"c-sharp",因此它是一个常用词.

"java"仅映射到"java"类别.

所以这个短语的匹配类别是"java"

这就是我想到的,这个解决方案很好,可以实现,你的建议是什么,我错过的任何东西,缺陷等等.

Fre*_*Foo 4

当然这是可以实现的。如果您在正确的数据集(我猜是 Java 和 C# 编程书籍的标题)上训练朴素贝叶斯分类器或线性 SVM,它应该学会将术语“Java”与 Java、“C#”和“.NET”与 C# 相关联。 ,以及两者的“编程”。也就是说,如果数据集被均匀划分,朴素贝叶斯分类器可能会学习 Java 或 C# 等常用术语(如“编程”)的大致均匀概率。