文本分类到类别

Question

文本分类到类别

Aja*_*eja 6 classification machine-learning bayesian

我正在研究文本分类问题,我正在尝试将一组单词分类为类别,是的,有很多库可用于分类,所以如果您建议使用它们,请不要回答.

让我解释一下我想要实施的内容.(以身份为例)

单词列表:

java的
程序设计
语言
C-尖锐

类别清单.

java的
C-尖锐

在这里我们将训练该组,如:

java映射到类别1. java
编程映射到类1.java
编程映射到类别2.c-sharp
语言映射到类1.java
语言映射到类别2.c-sharp
c-sharp映射到类别2.c-sharp

现在我们有一个短语" 最好的java编程书 "来自给定的短语,下面的单词与我们的"单词列表"匹配.:

java的
程序设计

"编程"有两个映射类别"java"和"c-sharp",因此它是一个常用词.

"java"仅映射到"java"类别.

所以这个短语的匹配类别是"java"

这就是我想到的,这个解决方案很好,可以实现,你的建议是什么,我错过的任何东西,缺陷等等.

Answer 1

Fre*_*Foo 4

当然这是可以实现的。如果您在正确的数据集（我猜是 Java 和 C# 编程书籍的标题）上训练朴素贝叶斯分类器或线性 SVM，它应该学会将术语“Java”与 Java、“C#”和“.NET”与 C# 相关联。，以及两者的“编程”。也就是说，如果数据集被均匀划分，朴素贝叶斯分类器可能会学习 Java 或 C# 等常用术语（如“编程”）的大致均匀概率。

归档时间：	13 年，11 月前
查看次数：	5300 次
最近记录：	13 年，11 月前