Max*_*Max 15 algorithm text-mining document-classification
我的目标是[半]自动将文本分配到不同的类别.每个类别都有一组用户定义的类别和一组文本.理想的算法应该能够从人类定义的分类中学习,然后自动对新文本进行分类.任何人都可以建议这样的算法,也许是实现ше的.NET库吗?
Ral*_*ach 19
这样做并非易事.显然,您可以构建一个将某些关键字映射到类别的字典.只需查找关键字即可建议某个类别.
然而,在自然语言文本中,关键字通常不是它们的词干形式.您需要一些形态学工具来查找词干形式并在词典中使用它.
但是后来有人可以写下这样的话:"这篇文章不是关于......".这将引入语法和语义分析的需要.
然后你会发现某些关键词可以用于几个类别:"乐队"可以用于音乐,技术,甚至手工艺作品.因此,如果不确定,您需要使用本体和统计或其他方法来权衡类别选择的概率.
有些关键词甚至可能不容易融入本体:数学家是否更接近程序员或园丁?但是你在问题中说这些类别是由人建立的,所以他们也可以帮助构建本体.
现在,你的文本所用的字段越窄,它们的结构越多,词汇量越小,问题就越容易.
再一些关键词用于进一步研究:形态学,语法分析,语义学,本体论,计算语言学,索引,关键词
关于这个主题,观看我的视频系列.
http://vancouverdata.blogspot.com/2010/11/text-analytics-with-rapidminer-loading.html
分类在视频5中,但其他视频可以帮助您加快速度.
这一切都基于FOSS程序RapidMiner.