ore*_*ani 5 java lucene classification machine-learning
我已经将一组文档与Lucene分类(字段:内容,类别).每个文档都有自己的类别,但其中一些标记为未分类.有没有办法在java中轻松地对这些文档进行分类?
分类是机器学习/统计领域的一个广泛问题。读完你的问题后,我觉得你使用了某种 SQL group by 子句(尽管在 Lucene 中)。如果您希望机器对文档进行分类,那么您需要了解机器学习算法,如神经网络、贝叶斯、SVM 等。Java 中有一些优秀的库可用于完成这些任务。为此,您将需要特征(从数据中提取的一组属性),您可以在这些特征上训练算法,以便它可以预测您的分类标签。
Java 中有一些很好的 API(它们可以让您专注于代码,而不必过多地了解这些算法背后的数学理论,尽管如果您知道这将非常有利)。维卡不错啊 我还发现了曼宁的几本书,它们很好地处理了这些任务。干得好:
行动中的集体智慧第10章(分类):http://www.manning.com/alag/
智能网络算法第五章(分类):http://www.manning.com/marmanis/
这些绝对是关于分类的精彩材料(对于 Java 人员来说),特别适合那些不想深入研究理论(尽管非常重要:))而只是快速想要一个工作代码的人。
Collective Intelligence in Action使用JDM和Weka解决了分类问题。因此,请看看这两个任务。
| 归档时间: |
|
| 查看次数: |
6128 次 |
| 最近记录: |