假设我正在研究一些分类问题.(欺诈检测和评论垃圾邮件是我现在正在处理的两个问题,但我对一般的任何分类任务都很好奇.)
我怎么知道我应该使用哪个分类器?
在哪些情况下,其中一种是"自然的"首选,选择那一种的原则是什么?
我正在寻找的答案类型的例子(来自Manning等人的信息检索简介书):
一个.如果您的数据已标记,但数量有限,则应使用具有高偏差的分类器(例如,Naive Bayes).
我猜这是因为较高偏差的分类器会有较低的方差,这很好,因为数据量很小.
湾 如果你有大量的数据,那么分类器并不是那么重要,所以你应该选择一个具有良好可扩展性的分类器.
其他指南是什么?甚至像"如果你必须向一些高级管理人员解释你的模型,那么也许你应该使用决策树,因为决策规则相当透明"的答案是好的.不过,我不太关心实现/库问题.
此外,对于一个有点单独的问题,除了标准的贝叶斯分类器,是否有"标准的最先进"方法用于评论垃圾邮件检测(而不是电子邮件垃圾邮件)?