文本分类/分类算法

Question

我的目标是[半]自动将文本分配到不同的类别.每个类别都有一组用户定义的类别和一组文本.理想的算法应该能够从人类定义的分类中学习,然后自动对新文本进行分类.任何人都可以建议这样的算法,也许是实现ше的.NET库吗？

Answer 1

这样做并非易事.显然,您可以构建一个将某些关键字映射到类别的字典.只需查找关键字即可建议某个类别.

然而,在自然语言文本中,关键字通常不是它们的词干形式.您需要一些形态学工具来查找词干形式并在词典中使用它.

但是后来有人可以写下这样的话:"这篇文章不是关于......".这将引入语法和语义分析的需要.

然后你会发现某些关键词可以用于几个类别:"乐队"可以用于音乐,技术,甚至手工艺作品.因此,如果不确定,您需要使用本体和统计或其他方法来权衡类别选择的概率.

有些关键词甚至可能不容易融入本体:数学家是否更接近程序员或园丁？但是你在问题中说这些类别是由人建立的,所以他们也可以帮助构建本体.

在这里和维基百科中查看计算语言学,以便进一步研究.

现在,你的文本所用的字段越窄,它们的结构越多,词汇量越小,问题就越容易.

再一些关键词用于进一步研究:形态学,语法分析,语义学,本体论,计算语言学,索引,关键词

Answer 2

自动文本分类有多种方法.朴素的贝叶斯分类器可能是最简单的.另一个是你可以使用的K最近邻居.谷歌对文本分类的答案可能对您有所帮助.

Answer 3

关于这个主题,观看我的视频系列.

分类在视频5中,但其他视频可以帮助您加快速度.

这一切都基于FOSS程序RapidMiner.