文本分类算法

Stu*_*ens 4 c# text-processing artificial-intelligence machine-learning


我有数百万个短(最多30个字)的文件,我需要将它们分成几个已知的类别.文档可以匹配几个类别(很少,但可能).文档也可能与任何类别(也很少)不匹配.我还有数百万份已经分类过的文件.我应该使用什么算法来完成这项工作.我不需要快速完成.我需要确保算法正确分类(尽可能).
我应该使用什么算法?C#中是否有in实现?
谢谢您的帮助!

Jim*_*mmy 7

查看术语频率和反向文档频率以及余弦相似性,以查找重要单词以创建类别并根据相似性将文档分配到类别

编辑:

在这里找到一个例子